时间:2023-03-26 10:36:01 | 来源:电子商务
时间:2023-03-26 10:36:01 来源:电子商务
官网更多只是一个数据的提供和展示,分析和研判必须自己有观点和视角,并且通过回归分析等得出预见性的结论,数据爬取困难,同时免费。我的看法:
企业官网大多是强调专业性,需要收费,分析文章有既定的框架,视角。
加强对于基础分析框架的学习,逐步通过一般性数据进行分析,得出自己的结论,通过其他人的观点,丰富自己的视野,提高判断,认知。
这三个操作,在实际工作应用中经常遇到,都是很重要的Python知识点,我们将它们应用到一个实战案例中讲解,学习起来会事半功倍。1.doc文章格式转换为docx格式:
PS:不要单纯只学习某个知识点,带着应用学习;
1.涉及os,time,win32com等库2.func处理3.参数为path
2. python-docx读取word文档内容:这里其实和我好物控项目的是一样的,都是将多个句子或者段落拼接成一个长句:字符串text,然后进行分析。只是这里多了一步要读取word文档。3. jieba中文分词库的应用:
这个案例可以多少让我知道jieba库的一些统计功能,之前都是直接生成图片,不利于我进行筛选,反复迭代,找到定价的位置。所需要的库:
import jiebafrom wordcloud import WordCloudimport pandas as pdimport matplotlib.pyplot as pltfrom imageio import imreadimport warningswarnings.filterwarnings("ignore")
② 使用jieba库中的lcut()方法进行分词
短短的一行代码,很简单。
text_list = list(jieba.cut(text))
在进行分词之前,我们可以动态修改词典
,让某些特定词语不被强制性分开。我这里介绍一下,大家下去自己学习。
jieba.add_word()方法,只能一个个动态添加词语;
假如我们需要动态添加多个词语的时候,就需要使用jieba.load_userdict()方法。也就是说:将所有的自定义词语,放到一个文本中,然后使用该方法,一次性动态修改词典集;
③ 读取停用词,添加额外停用词,并去除停用词
读取停用词,采用split()函数切分后,会得到一个停用词列表
。接着,采用+号
将额外停用词,添加到列表中即可。
with open(r"stoplist.txt",encoding="utf-8") as f:
stop = f.read()
stop = stop.split()
stop = [" "] + stop
final_text = [i for i in text_list if i not in stop]
④ 词频统计
这里使用Pandas
库中series序列的value_counts()函数,进行词频统计。
word_count = pd.Series(final_text).value_counts()[:30]
做一个收藏记录,主要是记录如何统计词频。
另外,绘制词云图的图形的设计和输出上,文章也给出了不同的图案,比好物控的要更加有心思一些。
⑤ 词云图的绘制
# 1、读取背景图片back_picture = imread(r"aixin.jpg")# 2、设置词云参数:这些参数,大家看英文单词的含义,应该可以猜出来!wc = WordCloud(font_path="simhei.ttf", background_color="white", max_words=2000, mask=back_picture, max_font_size=200, random_state=42 )wc2 = wc.fit_words(word_count)# 3、绘制词云图plt.figure(figsize=(16,8))plt.imshow(wc2)plt.axis("off")plt.show()wc.to_file("ciyun.png")
本文总的来讲,学习到了一下几个知识点:
1.正确读取docx文档,防止报错
2.重新熟悉了jieba,进而了解到jieba统计,绘图设置的功能。
对于好物控项目来讲,多迭代,生成多次词云图,为产品的推出增添了说服力,很好的把握商家命名产品以及消费者的真实诉求,同时又优化了词库。
choice()
、choices()
鉴于笔者一开始就做过Python的彩票中奖小项目,就只做个记录就好了。
关键词:经济,统计,观点,函数,资料,数据,整理