PV、UV 统计方案 | 虾米记事本

type

status

date

slug

summary

近期有个CPS相关的需求，其中有一个功能，是对CPS合作商（partner）的引流效果进行统计分析，需要以合作商的维度，统计PV、UV信息（合作商存在多级，但是不超过3级），数据情况大致如下

C端 → nginx → 后端应用 → kafka → CPS统计服务 → MongoDB

基于 redis，后台线程异步从 redis 分桶数据中，获取增量数据，刷入到 mysql 中

redis 中的 key 命名规则 appns:pv:导流商id:日期(yyyyMMdd):时间(HH:mm),每个 key 默认过期时间为 30 分钟，其中时间分桶规则为每5分钟一个桶，示例如下

消费数据时，保存到 mongo 后，计算得到对应的 key 集合中，value 使用 redis 的 INCR 自增，并将 key 保存到一个特殊的 app:pv:keys 中(zset 结构)，score 为 yyyyMMddHHmm

通过定时调度，每5分钟扫描 app:pv:keys 中分数 < 5分钟之前score 的 keys，遍历每个key，将对应的增量数据，刷入到数据库中，并从 app:pv:keys 删除（同时删除对应的 key）

方案优势

后续优化方案

如果用户张三，通过 partnerA 的引流链接进入到应用中，partnerA 的 UV + 1, 相同一天，张三又通过 partnerB 的引流链接进入应用时，partnerB 的 UV + 1

技术方案考虑使用 redis 的 HyperLogLog 实现，实现细节如下

消费数据时，保存到 mongo 后，计算对应事件的 key，格式为 appns:uv:导流商id:日期(yyyyMMdd)，使用 PFADD KEY VALUE 命令，将对应的 openid 添加到指定的 HyperLogLog 中, 同时将 key 保存到 app:uv:keys:yyyyMMdd 集合中（只用redis的list）

增加兜底调度，每天凌晨时刻，基于 MongoDB 中的数据重新统计前一天每个 partner 的 UV，更新到数据库中，同时清理昨日的 app:uv:keys:yyyyMMdd

方案优势

后续优化方案

考虑在应用内存中，积攒一小批后，通过 PFADD key element1 element2 element3 ... elementN 去操作 HyperLogLog

📎 参考文章

一文理解 HyperLogLog(HLL) 算法 | 社区征文 - 文章 - 开发者社区 - 火山引擎
一文理解 HyperLogLog(HLL) 算法 | 社区征文 - 文章 - 开发者社区 - 火山引擎
HyperLogLog(HLL) 算法是一种估算海量数据基数的方法，被广泛用于各个数据库产品中。与精确的基数统计算法相比，HLL 具备可合并性 (mergeability) ，因而可以方便地对海量数据进行并行计算，被广泛地用于大数据多维分析场景中。例如分别统计一款 APP 每个小时的 UV 以及全天的 UV，这类问题就非常适合使用 HLL 算法。本文将会由浅入深，从基本概念讲起，引导读者从直观上理