第一章 用户画像基础

1. 用户画像简介

用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性刻画,并加以分析、
统计,挖掘潜在潜在价值信息,从而抽象出用户的信息全貌。建立用户画像体系,是精准营销的基础。

1.1 标签种类

种类 描述
统计类标签 标签的基础,例如性别、年龄、城市、近七日活跃时长等。
规则类标签 基于用户行为及确定的规则产生。例如“消费活跃”用户基于规则“30天内下单次数>=2”产生。运营人员熟悉业务,数据人对对数据分布、构、特征更为熟悉,因此规则类标签一般由运营和数据人员共同协商确定。
机器学习挖掘类标签 通过机器学习挖掘产生,例如通过对用户的消费习惯判断其对某商品偏好程度

1.2 主要覆盖模块

  • 用户画像基础

  • 数据指标体系

  • 标签数据存储

  • 标签数据开发

  • 开发性能调优

  • 作业流程调度

  • 用户画像产品化

  • 用户画像应用

1.3 各阶段产出

画像体系的开发分为几个主要的阶段
用户画像开发阶段

1.4 画像表结构设计

  1. 每日全量数据的表结构设计
    每天都保存从开始到当日的全量数据,命名规范表名以”_all”结尾

  2. 每日增量数据的表结构设计
    每天只保存当日数据,命令规范表名以”_append”结尾

第二章 数据指标体系

数据标签体系是建立用户画像的关键环节,是标签开发前需要做的工作,具体来说就是需要结合业务情况设定相关指标。

建立用户标签按标签类型可以分为统计类、规则类和机器学习挖掘类,从建立标签的维度来看,可以分为用户属性类、用户行为类、用户消费类和风险控制类等常见类型。

2.1用户属性维度

用户属性维度

RFM价值度:Recency最近一次消费、Frequency消费频率、Monetary消费金额。一般由交易产生,用于评估用户活跃度。

用户性别:自然性别和购物性别。自然性别指实际性别,购物性别指用户购买物品时的性别取向。比如一位男性用户,经常给妻子购买女性商品,购物性别则是女性。

2.2 用户行为维度

用户行为维度

2.3 用户消费维度

可以从用户浏览、购买、收藏、搜索商品对应的品类入手,品类越精细,给用户推荐或营销的准确性越高。通过品类+用户行为的方式找到目标潜在用户人群。

用户消费维度

2.4 风险控制维度

风险控制维度

2.5 社交属性维度

社交属性维度

2.6 其他常见标签划分方式

用户标签体系归类不局限于以上维度,也可以通过不同的应用场景将标签划分为不同维度。

其他常见标签划分方式

2.7 标签的命令方式

标签的命令方式

角度 说明
标签主题 用于刻画属于哪种类型的标签
用户维度 用于刻画标签打在用户唯一标识上,还是设备上。未登录用户只有设备号
标签类型 统计类、规则类、算法类
一级维度 细分维度刻画用户标签

例如:ATTRITUBE_U_01_001、ATTRITUBE_U_01_002 两个标签。ATTRITUBE表示人口属性, U表示标签打在用户id上,01标识统计类标签,001和002分别表示男性和女性

第三章 标签数据存储

3.1 数据仓库建模

数据仓库建模

  • 事务事实表:描述业务过程,下单事实表、登录事实表

  • 周期快照事实表: 具有一定的时间规律性,比如每天统计商家当天收入快照。稠密性,无聊是否发送都做统计,比如某个店铺当天没有订单产生,快照表也会新增一条记录

  • 累计快照事实表:跟踪业务过程的进展情况,直到生命周期结束。例如下单->取消订单,下单->支付->发货->确认收货等。有多个日期维度,跟踪整个订单的生命周期。

事实表区别

3.2 分区存储

hive支持分区存储,可以按时间日期分区,按标签指标体系分表。建立不同标签指标体系的宽表。

例如: 用户id,人口属性的各种标签(性别、年龄、城市)、日期为表字段,一条记录就包含了用户人口属性的所有标签。

3.3 标签汇聚

把用户的所有标签整合成json字符串,存在一个字段中。可以直接通过sql语句方式生成

3.4 ID-MAP

为了捕获用户登录、未登录时的行为轨迹,通过id-mapping的方式,通过id-mapping打通userid和cookieid的对应关系