18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 电子商务 > 电商数据初分析

电商数据初分析

时间:2023-03-15 21:02:01 | 来源:电子商务

时间:2023-03-15 21:02:01 来源:电子商务

1、选择数据集

选择数据集:淘宝和天猫购买婴儿用品的信息,表1购买商品字段,表2婴儿信息。

数据集来源:阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

表1数据集有29972条信息记录,共有7个字段,分别为:

表2数据集有954条信息记录,共有3个字段,分别为:

2、分析思路梳理

通过这两张表格,我们想了解以下信息:

(1)整体的销售情况

(2)购买数量最多的用户和购买次数最多的用户,找出高价值用户和忠诚度高的用户

(3)用户偏好

3、数据清洗

(1)选择子集

表1中property商品属性这一列为商品信息,里面信息多但与本次分析内容不相关,我们选择隐藏该列:

(2)列名重命名

分别对标1表2的列名进行重命名

(3)删除重复值

在购物场景i中用户可以多次重复购买,因此不对表1数据集进行去重;

表2中对用户id进行去重,没有发现重复值。

(4)缺失值处理

用ctrl+G定位表1、表2均没有发现空值。

(5)一致化处理

将表1、表2中的购买时间和出生日期按照yyyy-m-d类型设置时出现如下结果:

通过百度查找,需要进行分列处理,选择日期格式即可:

表2的列比较少,因此可以考虑用vlookup函数,通过统一的用户id将表1中的购买信息与表2相结合,丰富表2数据:

剩余列依次类推,在购买时间列时,却出现数字:

百度查询后,才发现是该列没有设置成日期格式导致,设置成yyyy-m-d日期格式后即恢复正常。

运用DATEDIF函数根据“出生日期”和“购买日期”计算出用户购买时的年龄:

计算后发现有错误值:

检查发现,原因是出生日期晚于购买时间导致,总共有143条错误数据。因为购买物品为母婴用品,可以推断是用户在孕期购买所致,可将这一部分数据剔除,单独生成一张表3,后续对用户孕期购买情况进行分析。

(6)数据排序

对表1中购买数量列进行降序处理,可以看到用户2288344467在2014年11月13日购买了10000个编号为39769942518的物品,大手笔:

(7)异常值处理

对表2的年龄进行筛选,发现有一个用户购买年龄为28,因母婴用品使用年龄一般在1-12岁内,因此判断为异常值,对这一条数据进行删除。

数据清洗后,表1数据集有29972条信息记录,表2数据集有811条信息记录。

4、数据分析

(1)整体的销售情况

表1收录了2012年第三、四季度、2013、2014全年和2015年第一季度数据,购买总数为76250。

销量最多的商品

在表1数据透视表中选择商品种类(二类)作为列,物品编号作为行,将购买数量之和降序排列,得出类别为50018831的物品编号为39768842518销量为10000,销量最多;

哪一类商品最受欢迎(销量最多)?

在表1数据透视表中选择商品种类(二类)和购买数量,得出50018831销量为12657,销量最多;

同类商品,哪个子类更受欢迎(销量最多)?

在表1数据透视表中选择商品种类(一类)作为列,商品种类(二类)作为行,将购买数量之和降序排列,得出在6个一类中:

一类50014815中的子类50018831销量为12657,销量最多;

一类28中的子类50011993销量为3609,销量最多;

一类50008168中的子类50007016销量为2759,销量最多;

一类38中的子类211122销量为2058,销量最多;

一类122650008中的子类50012359销量为593,销量最多;

一类50022520中的子类50023591销量为487,销量最多;

此外,一类28中的多个二类商品购买数量远高于其他类别,说明这些商品为用户频繁购买系列,可重点关注。

用户更喜欢在哪个时间段下单?

在表1数据透视表中选择商品购买时间作为行,将购买时间计数项降序排列,得出用户在11月份购买次数最多,达到3753次,其次是12月份,推断11月和12月为“双十一”、“双十二”活动所致。最低购买月份在2月份,可推断2月份为春节期间,快递停发所致。

哪类商品分别在什么时间下单最多?

在表1数据透视表中选择购买时间作为列,商品种类(二类)作为行,将购买数量之和降序排列,得出:

用户在11月份购买50018831最多,达10906个;

用户在1月份购买50011993最多,1721个;

用户在12月份购买50012788最多,2827个;

用户在9月份购买5000716最多,2750个;

通过表格可发现用户更喜欢在下半年购买这几类商品,不知是否与商品的使用属性有关系。

(2)找出购买数量/次数最多的用户,定位高价值/忠诚度高的用户

哪些用户回购次数多?

在表1数据透视表中选择用户id作为行,用户id计数进行降序排列,得出:

id为814316568的用户下单次数最多,为4次。通过表格发现用户的下单次数多为1次,复购率不高。

哪些用户购买数量多?

在表1数据透视表中选择用户id作为行,商品种类(二类)作为列,购买数量求和进行降序排列,得出:

id为2288344467的用户下单购买数量最多,为10000,用户117730165、173701616、1945590674、32141414购买数量也都在1000以上,属于高价值用户,后续需要重点关注。

(3)用户偏好

不同性别的用户购买偏好?

在表2数据透视表中选择性别作为列(0女性;1男性;2未知性别),商品种类(二类)作为行,购买数量求和进行降序排列,得出:

在购买总数上,女性是男性的1.82倍,尤其在种类50018831商品上,女性购买数量远高于男性,是其12倍。

不同年龄的用户购买偏好?

在表2数据透视表中选择年龄作为列,商品种类(二类)作为行,购买数量求和进行降序排列,得出:

在购买总数上,0-3岁用户(并非购买人实际年龄)占购买总数的80%,其中

0-3岁的用户购买较多的种类为50018831、50013636、211122、50006602、50018825这5类。

(4)孕期购买情况

在表3的143条数据进行数据透视,选择商品种类(二类)作为行,购买数量求和进行降序排列,得出用户购买总量为235,喜欢购买的种类分别为250822、50011993、50006602、50012456、50006032,推测这几类商品为初生婴儿用品或者孕期营养品。

5、总结

关键词:分析,数据

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭