这篇文章写于听了吴锴的了解信息流产品和内容推荐算法写的摘要笔记。
- 信息流产品的价值,用户粘合性方面?商业营收?行业内的数据
- 信息流产品如何做推荐
- 一般使用的指标
- 决定信息流整体推荐信息因素
- 信息流用户画像的建立
信息流产品的特点
1> 在合适的场景为用户提供合适的内容
2> 适合手机屏幕,手指上下流动
3> 数据量做够大,能够不断刷新内容
信息流产品的价值
商业上的价值:信息流产品已经成为用户接受的高效变现模式
用户的价值: 是一个拥有海量信息,及时新鲜的内容可以给用户带来便捷阅读,还能提供个性化。
推荐怎么做
人工运行 + 推荐算法 ——> 内容推荐
人工: 新闻价值判断、热点预测、突发事件响应、时效性、策划
机器: 预估CTR、个性化匹配,学习、聚合
理论上的框架
UI界面: 展示内容并和用户产生交互 用户上报系统:记录用户的行为,并上报到日志存储系统 用户行为日志存储系统:存储用户的各种行为数据 推荐系统:分析用户行为,生成推荐数据列表
Bayes: 这个是为了保证多样性,保证推荐的可能来自与ItemCF, UserCF等 Fix: 不希望出现马太效应,不希望固化,用户的兴趣变化及时发现。需要在用户有新行为,用户画像实时更新,增加时间衰减性,用户过去的特征逐渐降权以及在推荐结果列表中增加探索性内容。
如何评估模型
离线模型关注的指标:
- 准确率:推荐列表中有多少比例是用户读过的
- 召回率:推荐列表中的文章占阅读记录的多少
- 覆盖率:推荐列表的文章占文章总数的比例
实现过程中的关注指标:
- UV转换率:阅读UV/曝光UV,反映多少比例的曝光用户转换为阅读用户
- PV转换率:阅读PV/曝光PV,反映文章的平均转换情况
- 人均篇数:阅读PV/阅读UV,反映内容消费深度
- 人均阅读时长:阅读总时长/阅读UV,反映内容消费深度
影响推荐效果主要因素
- 多样性:图文资讯、图片、短视频、直播、问答
- 数量:没有强大的内容库算法无法发挥作用
- 质量:正规媒体机构文章、大V自媒体文章、专题和专栏的深度内容
- 时效性:热点突发事件新闻在1h内入库。
- 视觉交互:会影响用户对内容的预期
- 下拉刷新:到看到内容更新的时间,间隔越小用户越愿意下拉刷新
- 数据上报:上报的时机、阈值和去重需要规范
- 冷启动:地点、热点、手机
用户画像
包括用户主动和推送刺激,经过数据挖掘从而生成用户画像,这个画像可能是基于规则生成的标签。包括人口属性和内容偏好(多级,一级类目,且不能轻易改变,用推送来验证画像准确率,一级类目一般每周更新,二级类目,标签几乎实时更新。)
用推送来验证准确性,如果推荐比较准确,一般点击率达到20%以上。同时这种负反馈和搜索对用户画像影响很大(负反馈比如用户点击不感兴趣,或者用户主动搜索)