18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 行业动态 > 海量商品数据的存储和计算

海量商品数据的存储和计算

时间:2022-03-26 04:39:01 | 来源:行业动态

时间:2022-03-26 04:39:01 来源:行业动态

事实上,京东不是零售公司也不是物流公司,它应该是一家大数据企业。在高速发展的几年里,京东积累了海量的数据,因为商品数据是它的基石,是所有产品技术的核心。而商品数据由于它自身的独特性,在对其进行管理的过程中也面临着一些挑战。首先,商品数据是多模态的,包含非结构化的图片以及结构化的文本等等。其次,商品数据还是一个平台数据加上用户生成数据合成的模型,这就构成了对商品数据分析独特技术的挑战。

随着公司业务的发展,在过去五年间,京东的商品规模增加了几十倍,今天已经有百亿级的商品规模。从中,我们看到,成单量和GMV有着基本的线型关系。同时,我们在未来还会继续扩充品类,持续增加平台上的数据量。

那么,海量的商品数据如何存储?对于一家管理粗矿的企业来说,可能一台数据处理器就可以解决。但对于百亿的商品数据,我们需要一个统一的平台来管理。具体来说,京东采用的是分而治之的方式,通过四个系统来满足商品数据的存储,从而构成海量商品的管理架构。与此同时,我们用的是分布式的数据库对商品化的数据进行存储。商品数据本身存在着冷热不均的情况,并且它还不是静止的,是流动的,对此,通过平台我们还实现了对数据走线的观测。

其中,对于京东来说,最核心的一个载体就是图片。对此,我们使用的是JFS系统进行处理。它是京东在2013年自主研发的系统,主要是为了满足自身图片存储的需求。经过五年的迭代,我们计划在今年下半年基于它做一个开源社区,所有商品图片的存储都经过上传服务,从各个地方传输到多个数据中心,至少存在两个中心、三台不同的磁盘上。同时外围还有不同的图象处理服务,在内容分发网络上做边缘的加速,最后解决体验的问题。

商品的结构化经过多级类目进行分类,再在类目中创建一个表,完成梳理。对此,我们还建立了弹性数据库,不仅可以兼容数个表,还可以对大表进行透明的扩展分片,然后同时做无缝迁移,使得应用开发者不再需要关心商品数据的扩展。在这个过程中,我们把热数据缓存在大的服务当中,比如大家看到在京东所有的内容都是用内存的方式去存储的,包括广告的文本内容、推送服务等等。

如上面所说,数据在整个数据中心是动态流动的,因此,我们需要把握数据的走向来完成可靠的数据传输。举个例子,通过对数据做实时的索引,我们发现,商品价格的变化可能会引发广告策略的调整。在这方面,京东采用的是自主研发的GMP技术。因为把商品数据存储的问题解决了之后,就要对商品数据进行处理,这就需要多种框架和大量处理方法,需要有一个方法来计算多种管理。

除此之外,针对资源智能化调度,我们还构建了一个大规模生态集群,并在今年年初加入了CRF平台。在架构层面,京东采用的是异地多活。我们在北京有三个IDC,此外在广东和江苏还各有一个,形成了三地五中心的布局。目前,我们已经能够进行透明的数据同步,让上层的应用产品开发部了解更多底层存储的细节。

关键词:商品,数据,海量

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭