1. 贝壳DMP平台建设背景与核心价值
在房产交易这个低频高价的垂直领域,用户决策周期长、需求差异大是显著特点。传统粗放式的运营方式面临三大痛点:一是难以捕捉用户真实需求,二是服务同质化严重,三是转化效率低下。贝壳DMP平台的诞生正是为了解决这些行业痛点。
核心业务价值体现在三个维度:
- 用户洞察:通过整合线上浏览、线下带看、电话咨询等全渠道行为数据,构建360°用户视图。例如,系统能识别出"周末频繁查看学区房但工作日无动作"的用户很可能是教师职业
- 精准触达:基于用户生命周期阶段(如首购、置换)和实时意图(如急售、装修)进行差异化服务匹配。实测数据显示,精准Push的打开率比普通消息高3-5倍
- 流程优化:在带看环节,经纪人端APP会根据用户偏好自动生成带看路线建议,将平均带看效率提升40%
2. 技术架构设计与核心挑战
2.1 整体架构分层
贝壳DMP采用典型Lambda架构,兼顾批处理和实时处理需求:
code复制[数据采集层] -> [流批一体处理层] -> [存储计算层] -> [应用服务层]
各层技术选型充分考虑房产行业特性:
- 采集层自研"罗盘"埋点系统,解决跨APP(链家/贝壳)、跨场景(线上/线下)数据统一采集难题
- 处理层选择Spark+HBase组合,平衡计算吞吐力与实时性要求
- 存储层采用ClickHouse+MongoDB混合方案,应对不同查询模式
2.2 关键问题攻关实录
2.2.1 用户身份归一方案
行业共性难题:房产用户普遍存在"三多"现象——多设备登录、多账号切换、线上线下行为分离。我们设计的多级识别策略如下:
- 强标识优先:登录态UCID(唯一客户ID)作为黄金标准
- 设备指纹补充:
- iOS端:IDFA(广告标识符)+IDFV(供应商标识符)组合
- Android端:IMEI(需授权)+OAID(替代标识符)
- 行为特征辅助:当标识符缺失时,通过LBS轨迹相似度、浏览时间模式等聚类分析
实战经验:Android Q以上版本获取IMEI需特殊处理,我们通过动态权限引导+备用标识方案使识别率保持在92%以上
2.2.2 百亿级数据处理优化
面对每日新增百亿行为事件,我们实施五级优化:
| 优化策略 | 实施方法 | 效果提升 |
|---|---|---|
| 列裁剪 | 仅保留63个核心字段 | 存储减少70% |
| 预聚合 | 按(user,item,date)维度预计算 | 数据量压缩至1/8 |
| 增量计算 | 滑动窗口更新180天画像 | 计算耗时降低65% |
| 算法加速 | XGBoost特征重要性筛选 | 模型训练提速4倍 |
| 存储优化 | Parquet列式存储+ZSTD压缩 | IO效率提升3倍 |
踩坑记录:初期直接使用Hive count distinct导致作业超时,改为"预聚合+最终合并"两步法后,关键标签产出时间从14小时压缩至6小时。
3. 实时画像系统技术实现
3.1 流式处理流水线
实时架构采用"分流+合流"设计:
code复制Kafka → Spark Streaming → HBase增量更新 → Redis热缓存
核心创新点:
- 动态衰减因子:根据行为类型设置不同衰减系数(如带看行为衰减周期设为30天,浏览行为设为7天)
- 兴趣量化模型:使用时间衰减函数
score = Σ(behavior_weight × e^(-λ×Δt)),其中λ根据房源热度动态调整 - 分级更新策略:关键标签(如商机意向)秒级更新,长周期标签(如消费能力)天级更新
3.2 存储方案选型对比
针对不同应用场景,我们做了如下技术选型:
| 存储系统 | 适用场景 | 性能指标 | 优化手段 |
|---|---|---|---|
| ClickHouse | 人群圈选分析 | 亿级数据秒查 | 位图索引+预聚合 |
| HBase | 实时特征服务 | 4W QPS@5ms | 冷热分离+RowKey散列 |
| MongoDB | Push消息服务 | 千万级分页<100ms | 跳跃式ID设计+覆盖索引 |
特别说明:ClickHouse位图运算实现方案:
sql复制-- 人群包交并差计算示例
SELECT bitmapCount(bitmapAnd(tag1_users, tag2_users)) AS overlap_count
FROM user_tags_bitmaps
WHERE tag_id IN (101, 205)
4. 业务应用效果与优化案例
4.1 精准营销闭环
典型工作流:
code复制[潜客挖掘] → [商机预测] → [个性化触达] → [效果归因]
某城市实战数据:
- 通过"近30天带看3次未签约"人群定向投放优惠券,转化率提升220%
- 使用Lookalike算法扩展的相似人群,获客成本降低35%
- 实时兴趣标签使得APP首页房源点击率增长18%
4.2 推荐系统增强
将DMP输出的三类标签融入推荐模型:
- 事实标签:作为特征输入
- 偏好标签:用于候选集筛选
- 预测标签:影响排序权重
在"猜你喜欢"模块的AB测试中,融合DMP标签的模型NDCG@10提升0.23。
5. 平台演进方向与经验总结
5.1 未来优化重点
-
标签深度挖掘:
- 构建房产知识图谱,识别"学区需求""地铁偏好"等隐含特征
- 试点图神经网络挖掘家庭决策关系
-
系统性能升级:
- 测试Flink替换Spark Streaming实现亚秒级延迟
- 探索ByteHouse替代原生ClickHouse提升并发能力
5.2 关键实施经验
- 业务对齐原则:每个标签必须对应具体业务动作,如"装修高潜"标签直接联动家装频道运营
- 数据质量监控:建立埋点数据完备率、标签覆盖度等15个核心指标看板
- 成本控制策略:通过TCO模型评估存储方案,冷数据自动降级至OSS归档
在实施过程中我们发现,房产DMP建设要特别注意行为数据与交易数据的关联。例如单纯分析浏览数据容易误判需求,必须结合带看记录、经纪人反馈等线下数据交叉验证。我们通过建立"线上行为分+线下置信度"的加权评分机制,使标签准确率从初期的68%提升至89%。