18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 电子商务 > 数据分析 - 用 Excel 分析电商数据

数据分析 - 用 Excel 分析电商数据

时间:2023-03-15 20:20:01 | 来源:电子商务

时间:2023-03-15 20:20:01 来源:电子商务

Excel是日常工作中最常用的工具, 同样可以用来进行数据分析,找出数据背后隐藏的规律。

一、数据分析的步骤

数据分析一般分为5个步骤:提出问题 -> 理解数据 -> 数据清洗 -> 构建模型 -> 数据可视化。

二、用Excel分析数据电商数据

使用数据的是社群资料里的电商行业数据集,即淘宝和天猫婴儿用品的数据集。这个数据集包括2个CSV格式的数据;因为用Excel做数据分析,所以把CSV格式更改为XLSL格式来打开。

1. 数据分析第1步:提出问题 - 我们要分析哪些业务指标?

通过对“淘宝和天猫婴儿用品的数据集”的分析,主要解决以下业务问题:

1)以年为单位,分析销售数量的每年的变化趋势。

2)以年为单位,分析婴儿用品的商品种类的销售数量的变化趋势

2. 数据分析第2步:理解数据

理解数据主要是了解表格里l各个字段表示什么含义?每个字段都是哪种数据类型?

表1是“购买商品”数据,共有7个变量,29971条数据信息。存储的数据类型,除了“property:商品属性”是字符类型外,其他6个都是数字类型。

其中这7个变量为:

user_id:用户id

auction_id:购买行为编号

cat_id:商品种类ID

cat1:商品属于哪个类别

property:商品属性

buy_mount:购买数量

day:购买时间(是个时间戳格式,可以通过excel将时间戳显示未日期格式)

表2是“婴儿信息表”,共有3个变量,953条数据信息。存储的数据类型都是数字类型。

其中这3个变量为:

user_id:用户id

birthday:出生日期

gender:性别(0 男性;1 女性)

3. 数据分析第3步:数据清洗

作为数据分析最重要的一个步骤,数据清洗往往需要花费60%甚至更多的时间。需要将多余重复的数据筛选清除,将缺失数据补充完整,将错误数据纠正或删除。

数据清洗的步骤如下:

1) 选择子集:选择需要做数据分析的列。当数据的列比较多时,可以使用隐藏功能 - 把不需要分析的列单击右键隐藏起来。

2) 列名重命名:如果原字段名不合适,可以更改字段名称。

本次分析直接使用原始数据的列名,因为原始数据的命名已经很清晰了。

3)删除重复值:选中要分析的数据范围, Data - Remove Duplicates来删除重复值。

按照以上操作,分别查看表1“购买商品”数据和表2“婴儿信息表”的是否有重复值;这2个数据集都显示无重复值。

4)缺失值处理:Excel中通过选中某一列,查看右下角显示的统计数目来,通过和其他列对比来得知该列是否有缺失。

有4种方法对找到的缺失值进行处理:

1 - 通过人工手动进行补全,这种方法适合缺失数值标数比较少的情况;

2-删除缺失值;

3-用平均值来代替缺失值;

4-用统计模型计算出来的数据来代替缺失值。

如何定位缺失值:通过Home -Filter对数据设置筛选,在下拉菜单里的筛选条件里选择“blank”,从而筛选出空白内容的缺失值。

表1“购买商品”数据 - 除了property这1列的统计数目为29828,其他6列的统计数目均为29972;所以property这1列存在缺失值。因为本次分析要解决的业务问题不涉及到property这1列,所以没有对property这1列的缺失值进行处理。

表2“婴儿信息表” - 3列的统计数目均为954,所以这个数据集不存在缺失值问题。

5)一致化处理:一致化是指数据有统一的命名。

可以对数据进行拆分从而实现命名的统一。

首先对需要拆分的那列数据进行复制;其次选中要拆分的数据,在Excel中Data - Text to Columns - 在跳出的对话框里选择Delimited - 选择要拆分的delimiter - finish完成拆分。

本次分析的这2个数据集都有着统一的命名,可以直接使用数据的原命名。

表1“购买商品”数据中的day和表2“婴儿信息表”中的birthday都是假日期,需要变成真日期格式,以便可以进行计算。

操作如下:data - text to columns - fixed width - date - finish;通过该操作可以把日期变换为Y/M/D的格式。

6)数据排序:利用Excel中的函数功能来做得出数据的平均值或者是求和,从而对数据进行排序。

7)异常值处理:通过Excel的筛选功能来查看数据是否有错误。在下拉菜单中所列出的数据类型中,可以查看到是否有不正常的数值。

4. 数据分析第4步:构建模型

通过构建模型,从而获取业务指标。

1)运用描述性统计命令来观察数据的描述统计分析。

通过Excel里的数据分析功能,直接可以得到一系列的述统计分析数据;操作为:data - data analysis - 选择descriptive statistics。

例如,对表1“购买商品”数据中的”buy-amount“购买量这列的数据进行描述统计分析,可以得到不同商品在不同时间沟通数量的平均值、标准误差、中位数、众数、标准差、方差、峰度、偏度、值域、最小值、最大值、总和及统计数目等描述性统计数据。

2)建数据透视表

运用数据透视表分组求平均数、标准差、计数等多个指标。

利用透视表,提取每年的购买总量的图表。

利用透视表,提取每个商品类别的每年的购买总量。

3) 使用vlookup进行数据分析

使用vlookup函数,通过userid为桥梁,来查找表1“购买商品”数据中的day来匹配表2“婴儿信息表”中的birthday。

5. 数据分析第5步:数据可视化

1)从2012-2015年,每年的购买总量的图表。

从图表可以看出,从2012 到2014年淘宝婴幼儿用品的购买数量呈直线上升趋势,2014达到顶峰;但是从2015的销量却急剧下滑,销售数量甚至低于2012年的销量。

2)从2012-2015年,婴儿用品商品分类的销售数量趋势。

婴儿用品共分6大商品种类。从图表可以看出其中3大商品种类的销售数量较大,另外3大商品种类的销量较小;6大商品种类的销量趋势和淘宝婴幼儿用品的整体销量趋势一致,即从2012 到2014年淘宝婴幼儿用品的购买数量呈直线上升趋势,2014达到顶峰;但是从2015的销量却急剧下滑,销售数量甚至低于2012年的销量。

关键词:数据,分析

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭