本次分享主要从三个方面介绍京东流量场下的数据处理方案,同时也会结合京东实际场景案例,介绍京东在流量场下的一些数据应用和实践。
全文会围绕以下三方面内容展开:
京东零售流量数仓架构
京东零售场景的数据处理
数据处理架构未来探索
1. 京东零售——流量简介
① 什么是流量?
简单来说,流量就是用户作用在京东页面上,产生一系列行为数据的集合。
② 流量数据的来源
数据来源主要是移动端和PC端,以及线下店、外部采买、合作商的数据等。
这些数据是如何流转到数仓的呢?
2. 京东零售——流量数据处理架构
由架构图可以看出,对不同的终端采取不同的采集模式;例如,对APP原生页面采取SDK的采集模式,对于PC、H5页面是JS采集,数据采集后按照实时和离线双写,离线直接写到CFS分布式文件系统中,每小时从CFS拉取数据文件,同时对数据文件大小、采集ip进行监控,防止数据丢失;实时是以白名单的方式动态配置,写到kafka中,最后将数据入仓。
1