18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 电子商务 > 2021年7月10日资料整理【数据源,词频统计、绘图,经济观点,Python随机函数】

2021年7月10日资料整理【数据源,词频统计、绘图,经济观点,Python随机函数】

时间:2023-03-26 10:36:01 | 来源:电子商务

时间:2023-03-26 10:36:01 来源:电子商务

一、常用的14个获取数据的网站:

1.中华人民共和国统计局

国家统计局

2. 中国互联网络信息中心

中国互联网络信息中心

3. 中国信通院

中国信息通信研究院

4. 艾瑞网

报告_艾瑞网

5.前瞻网

经济学人 - 让您成为更懂趋势的人_细分产业市场分析_前瞻经济学人App - 前瞻网

6. 极光大数据

数据报告列表 - 极光

7.中国互联网数据资讯中心

互联网数据资讯网-199IT | 发现数据的价值-199IT | 中文互联网数据研究资讯中心-199IT

8. 易观智库

分析报告-易观分析

9. talking data

数据报告-移动观象台-TalkingData

10.艾媒网

艾媒网-全球领先的新经济行业数据分析报告发布平台

11.七麦数据

七麦数据(原ASO100)-专业移动产品商业分析平台-ASO-ASM优化

12.企鹅智库

企鹅智酷_腾讯网

13.腾讯大数据

腾讯大数据

14.IT桔子

IT桔子 | 泛互联网创业投资项目信息数据库及商业信息服务商

总结:

官网更多只是一个数据的提供和展示,分析和研判必须自己有观点和视角,并且通过回归分析等得出预见性的结论,数据爬取困难,同时免费。
企业官网大多是强调专业性,需要收费,分析文章有既定的框架,视角。
我的看法:

加强对于基础分析框架的学习,逐步通过一般性数据进行分析,得出自己的结论,通过其他人的观点,丰富自己的视野,提高判断,认知。


二、用Python分析领导讲话,原来隐藏了 "这些" 重要信息......:

材料:老大的讲话

文件格式:word

解决思路

来自文章作者的学习建议:

这三个操作,在实际工作应用中经常遇到,都是很重要的Python知识点,我们将它们应用到一个实战案例中讲解,学习起来会事半功倍。
PS:不要单纯只学习某个知识点,带着应用学习;
1.doc文章格式转换为docx格式:

1.涉及os,time,win32com等库2.func处理3.参数为path2. python-docx读取word文档内容:

2.1相关概念说明:

2.2读取思路:

读取word文档内容的大致思路是这样的:

消除格式,将段落连成一个长句

这里其实和我好物控项目的是一样的,都是将多个句子或者段落拼接成一个长句:字符串text,然后进行分析。只是这里多了一步要读取word文档。
3. jieba中文分词库的应用:

这个案例可以多少让我知道jieba库的一些统计功能,之前都是直接生成图片,不利于我进行筛选,反复迭代,找到定价的位置。
所需要的库:

import jiebafrom wordcloud import WordCloudimport pandas as pdimport matplotlib.pyplot as pltfrom imageio import imreadimport warningswarnings.filterwarnings("ignore")
② 使用jieba库中的lcut()方法进行分词
短短的一行代码,很简单。
text_list = list(jieba.cut(text))
在进行分词之前,我们可以动态修改词典,让某些特定词语不被强制性分开。我这里介绍一下,大家下去自己学习。
jieba.add_word()方法,只能一个个动态添加词语;
假如我们需要动态添加多个词语的时候,就需要使用jieba.load_userdict()方法。也就是说:将所有的自定义词语,放到一个文本中,然后使用该方法,一次性动态修改词典集;
③ 读取停用词,添加额外停用词,并去除停用词
读取停用词,采用split()函数切分后,会得到一个停用词列表。接着,采用+号将额外停用词,添加到列表中即可。
with open(r"stoplist.txt",encoding="utf-8") as f:
stop = f.read()

stop = stop.split()
stop = [" "] + stop
final_text = [i for i in text_list if i not in stop]
④ 词频统计
这里使用Pandas库中series序列的value_counts()函数,进行词频统计。
word_count = pd.Series(final_text).value_counts()[:30]


做一个收藏记录,主要是记录如何统计词频。
另外,绘制词云图的图形的设计和输出上,文章也给出了不同的图案,比好物控的要更加有心思一些。
⑤ 词云图的绘制
# 1、读取背景图片back_picture = imread(r"aixin.jpg")# 2、设置词云参数:这些参数,大家看英文单词的含义,应该可以猜出来!wc = WordCloud(font_path="simhei.ttf", background_color="white", max_words=2000, mask=back_picture, max_font_size=200, random_state=42 )wc2 = wc.fit_words(word_count)# 3、绘制词云图plt.figure(figsize=(16,8))plt.imshow(wc2)plt.axis("off")plt.show()wc.to_file("ciyun.png")

本文总的来讲,学习到了一下几个知识点:
1.正确读取docx文档,防止报错
2.重新熟悉了jieba,进而了解到jieba统计,绘图设置的功能。
对于好物控项目来讲,多迭代,生成多次词云图,为产品的推出增添了说服力,很好的把握商家命名产品以及消费者的真实诉求,同时又优化了词库。


三、热点|国际市场油价与美国通货膨胀的预期值高度正相关

四、用Python来抽奖?真挺简单的!

主要是介绍了随机函数以及功能实现:

random()

randint()

choice()

choices()

sample()

shuffle()

鉴于笔者一开始就做过Python的彩票中奖小项目,就只做个记录就好了。

关键词:经济,统计,观点,函数,资料,数据,整理

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭