18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 电子商务 > 规范的数据分析步骤及电商数据分析案例

规范的数据分析步骤及电商数据分析案例

时间:2023-03-15 23:12:01 | 来源:电子商务

时间:2023-03-15 23:12:01 来源:电子商务

一、明确问题
本次需分析问题请参考https://zhuanlan.zhihu.com/p/163032503

二、理解数据(采集相关数据、查看数据集的信息从整体上了解数据集)
(一)Excel主要数据类型:字符串类型(汉字、字符)即为文本类型,无法用于计算、数值类型(整数、小数等),逻辑类型(true、false)
(二)简易判断方法:单元格内靠左对齐的一般是文本型(不能用于计算),单元格内靠右对齐是数值类型
(三)本次对数据集的理解请参考https://zhuanlan.zhihu.com/p/163032503

三、清洗数据
(一)选择子集(尽量不要删除原始数据、使用隐藏/取消隐藏数据)
隐藏表1购买商品信息表的“property”列

(二)列名重命名
1. 重命名表1购买商品信息表“user_id”、“auction_id”、”cat_id”、”cat1”、“buy_mount”、“day”列名

2. 重命名表2婴儿信息表“user_id”、“birthday”、“gender”列名

(三)删除重复值
1. 对于表1购买商品信息表是用户的购买商品的记录和订单数据,是客观事实存在可能会存在某个用户id的用户复购甚至是复购同品类同属性商品的情况的,但是当所有字段完全相同时即为重复数据需要删除,经过删除重复值检验发现表1中无重复信息

2. 对于表2婴儿信息表主要用user_id为主键记录婴儿的生日和性别信息,所以需要对user_id列进行删除重复值(重复值意味着同一个用户),经过删除重复值发现表2婴儿信息表中无重复信息


(四)缺失值处理(人工补全、删除缺失、用平均值代替缺失值、用统计模型计算出来的值代替缺失值)
1. 经过对表1购买商品信息进行定位空格,发现存在145个空值,取消隐藏后查看,发现是商品属性列存在145个空值,但是商品属性不作为本次分析的对象且隐藏了该列数据,所以不做补全

2. 经过对表2婴儿信息表进行定位空格,发现不存在空值


(五)一致化处理(数据统一化)
1. 将表1中的购买时间列的时间戳进行分列处理为YMD格式

2. 将表2中的性别列的利用查找替换为文字含义:0女性;1男性;2未知的性别;

3. 将表2的出生日期列的时间戳进行分列处理为YMD格式

(六)数据排序
将表1按照用户购买数量进行降序排序


(七)异常值处理
1. 针对表1,数据源是来源于淘宝天猫的母婴类订单数据,所以是零售行业,购买数量为10000的为异常值,从而删除该购买记录

2. 表2中的在此阶段暂无异常值不做处理

四、数据分析or构建模型(得出业务指标or机器学习模型训练)
(一)分析模型构建
使用vlookup函数讲表1和表2进行连表查询,以用户id作为主键,将出生日期,性别根据用户id填充到表1,从而表1包含且精准匹配了表2的信息,所以后续分析都在已完善的表1上进行展开

将出生日期、性别列复制后粘贴为值

1. 计算商品购买数量的平均值、四分位数、标准差
① 选中购买数量列,选中数据分析——描述统计,依次选中输入区域,汇总统计、平均数置信度、第K大/小值,得出平均值、标准差

② 选利用函数QUARTILE来求四分位数


2. 计算婴儿年龄的平均值、四分位数、标准差
① 用datedif函数求用户出生年龄,求得婴儿年龄

② 部分用户id对应的年龄值缺失,运用筛选将有年龄值的数据筛选出来,复制粘贴到一个新的sheet,进行描述统计数据分析计算

③ 选利用函数QUARTILE来求四分位数

3. 不同性别婴儿的购物品类偏好
① 部分用户性别对应值缺失,运用筛选将性别列有值的数据筛选出来,复制粘贴到一个新的sheet,进行数据透视,从而得出不同年龄对商品一级类目的购买偏好,结论为男性对一级商品类目为50008168的分类更喜欢购买,女性对一级商品类目为50022520的分类更喜欢购买

② 不同年龄对商品二级类目的购买偏好,结论为男性对二级商品类目为50013636的分类更喜欢购买,女性对而级商品类目为50018831的分类更喜欢购买

4. 不同年龄婴儿的购物品类偏好
进行数据透视,从而得出不同年龄对商品一级类目的购买偏好,结论为0岁最喜欢购买一级商品品类id为50014815、1岁最喜欢购买一级商品品类id为50008168、2岁最喜欢购买一级商品品类id为50008168、3岁最喜欢购买一级商品品类id为50008168、4岁最喜欢购买一级商品品类id为50008168、5岁最喜欢购买的一级商品id为50008168、6岁最喜欢购买的一级商品id为50008168、7岁最喜欢购买的一级商品id为50008168、8岁最喜欢购买的一级商品id为50008168、9岁最喜欢购买的一级商品id为28、10岁无明显喜欢购买的一级商品id、11岁、28岁均无明显最喜欢购买的一级商品id;

5. 不同年龄段用户的购物一级品类偏好
① 定义年龄段

② 使用vlookup函数对年龄进行年龄段分组

③ 使用数据透视表,得出结论为学龄前年龄段最喜欢购买的一级商品类目id为50014815、小学年龄段最喜欢购买的一级商品类目id为50008168、初中年龄段无明显最喜欢购买的一级商品类目;

6. 受欢迎类目的top排行榜(一级类目、二级类目)
① 对清洗合并后的表1进行数据透视,再根据求和项购买数量进行降序排列,可得出结论一级商品类目为28的品类购买次数最多,最受欢迎

② 对清洗合并后的表1进行数据透视,再根据求和项购买数量进行降序排列,可得出结论二级商品类目为50011993的品类购买次数最多,最受欢迎

③ 对清洗合并后的表1进行数据透视,将商品一级类目id和二级类目id都作为透视表的行,再根据求和项购买数量进行降序排列,可得出每个一级类目下哪些二级类目受欢迎,例如一级类目id为28的品类下二级类目id为50011993的更受欢迎

7. 用户的下单时间偏好
进行数据透视,选择购买时间为行、购买数量为值,得出各年份各季度各月份的下单占比情况,从而得出用户的下单时间性偏好,得出结论用户在2014年整年下单最多、其中第三季度下单比其余几三个季度多,且第三季度的9月下单数量比其余月份下单数量多;


8. 哪些类目的商品分别在什么时间下单最多(一级类目)
进行数据透视,选择购买时间为行、商品一级分类id为列、购买数量为值,得出各年份各季度各月份的下单占比情况,从而得出用户的类目时间性,探查是否存在部分季节性商品随着时间变化销量变化较明显,结论:在2014年一级商品类目id为28、50008168的商品销量占比较大,且从第一到第四季度销售占比差异不大

9. 购买商品最多的用户排行榜(Top10)
进行数据透视,选择用户id为行、购买数量为值,得出下图,可得出购买数量较多的top10的用户

10. 根据购买数量给用户分组
① 确定分组规则

② 使用vlookup根据上述条件进行用户分组

③ 使用数据透视表,选择会员等级为行、购买数量为列,根据求和项降序,得出结论:新用户(购买数量50以下的)用户群平均单用户购买数量较少,但新用户群体数量较大



五、数据可视化
详情见下一篇文章

六、措施及建议
1. 针对强时间性购买的商品可以进行季节性的促销和活动
2. 可以有针对性的根据年龄段和具体年龄的购物偏好给用户进行push、站内信、发券等形式促进用户下单转化
3. 根据用户的性别购物偏好进行push站内信、发券等
4. 对于性别未知的用户可以新增购物性别字段来记录其购物的性别,便于后续的精准运营
5. 对于未知性别的用户,可根据其消费的记录和已知性别的用户进行拟合,根据算法得出部分未知性别用户的性别,便于后续的精准营销

关键词:分析,数据,步骤,规范

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭