前段时间在知乎学习了《了解信息流产品和内容推荐算法》,收获蛮多。对其中重要的部分进行了整理,这篇文章就是主要内容的摘要,附带课件。
从目前移动互联网的大环境来看,信息流是最能带来商业价值的产品形态之一。信息流推荐算法的今日头条,已经估值超过了200亿美金。图为信息流推荐算法简化框架:
⏱ 对用户的价值:
- 便捷阅读
- 海量信息
- 新鲜及时
- 个人兴趣
💵 商业价值:
- 类似搜索广告(网易-头条)
- 产品产生粘性(2 千万-1.2 亿)
- 用户时长增加(40-70 分钟)
- 广告曝光增加
- 广告营收增加(50-150 亿)
🧐 如何推荐内容:
- 人工运营:新闻价值判断、突发新闻、热点预测、时效性和策划
- 算法推荐:预估 CTR、个性化匹配、学习、聚合,适合长尾内容
- 海量内容,适合采用人工运营+算法推荐。
图为一个内容推荐算法的示例:
🌊 算法模型分流:
- 70% 给稳定模型
- 10% 给实验模型 A
- 10% 给实验模型 B
- 10% 给式样模型 C
🚀 算法模型评测指标:
- 准确率:推荐列表中,多少文章是用户读过的(训练集/测试集)。8/20=40%
- 召回率:推荐列表中,用户读过的文章占用户阅读记录总数的比例。8/10=80%
- 覆盖率:推荐列表中,推荐文章占文章库总数的比例。20/100=20%
举例:文章总量为 100,用户实际看了 10 篇文章。最终实验模型推荐了 20 篇文章,用户看过的有 8篇。准确率为 40%,召回率为 80%,覆盖率为 20%
📮 核心业务指标:
- UV 转化率:阅读 UV/曝光 UV,反应多少比例的曝光用户转化为阅读用户。
- PV 转化率:阅读 PV/曝光 PV,反应违章的平均转化情况。
- 人均篇数:阅读 PV/阅读 UV,反应内容消费深度。
- 人均阅读时长:阅读总时长/阅读 UV,反应内容消费深度。
⚙️ 影响推荐算法的因素:
👉 是否有强大的内容库:
- 多样性:图文、图片、短视频、直播、问答;
- 数量:每日入库量级超过 50W,可推荐集 20W;
- 质量:正规媒体文章、大 V 自媒体文章、专题专栏等深度文章;
- 时效性:突发事件一小时内入库,微博具有最好的时效性;
👉 是否有好的交互视觉,交互视觉会影响用户为内容的预期:
- 风格和内容要匹配;
- 留白减少 10%,UV 转化率提高 5%;
- 刷新速度减少 500ms,UV 转化率提高 5%;
👉 是否对业务参数进行了优化:
- 参数调优更多是一种艺术,而不是技术。
- 频道列表和顺序,新用户频道调整。(是否可以根据地域进行频道调整?)
- 下拉刷新更新条目数。今日头条首次 15 条,后续 8 条;
- 新闻条目小字信息。今日头条来源+评论数+下发时间;
👉 数据上报,会极大的影响推荐的准确度和策略选择:
- 数据要全面;
- 数据量要大;
- 数据上报准确。
上报规范:时机、阈值、去重;
上报内容:条目曝光、点击、详情页停留时长、列表/专题页时长上报、详情页/专题/视频完成度上报。
👉 冷启动策略:
- 地点、热点、设备
- 其他(手机厂商):安装应用、用户搜索等等
👉 探索与发现:
- 当用户有新的行为时,画像实时更新;
- 过去的特征画像进行时间衰减,逐渐降权;
- 在推荐列表中增加探索性的内容(Fix)
👉 是否有好的算法模型:
- 算法模型来源:大公司交流、学术界论文、自建模型
- 更重要的是算法人员对业务的理解
- 算法模型 》编码实现、性能问题、实验效果、参数调优、维护成本、模型迭代、其他问题 》实际应用
🎭 用户画像体系:
用户主动、推送刺激 》数据挖掘 》生成画像
- 一级类目的制定不能轻易改变,对算法影响较大;
- 用推送验证画像准确性,如果画像准确,点击率在20%;
- 一级类目每周更新,二级类目和标签实时更新;
- 负反馈、搜索数据较少,但对画像影响较大;
图为用户画像的结构和内容偏好示例:
🗿 相关领域:
- 内容库:
内容接入 》内容下发 》后台管理 》自媒体 》过滤去重 》文本分析 》情感分析 》内容分级
- 用户画像:
标签创建 》标签测试 》标签分级 》数据上报 》数据处理 》数据挖掘
- 短视频:
内容接入 》内容下发 》数据分析 》运营策略 》算法策略 》视频广告
- 搜索:
召回策略 》搜索界面 》数据分析 》排序策略 》搜索热词 》搜索广告
- 信息流广告:
收入分成 》流量分配 》筛选策略 》性能优化 》界面优化 》eCPM 优化
⛳️ 如何进入信息流领域:
-
研究自媒体平台:
- 研究下发策略;
- 研究管理后台;
- 研究数据统计;
-
从内容运营切入:
- 研究推送文案;
- 研究推送数据;
- 研究专题策划;
-
如何做产品:
- 了解推荐流程;
- 使用各种应用;
- 研究各种内容;
📚 推荐书籍:
《推荐系统实践》、《这就是搜索引擎 核心技术详解》、《计算广告》
🏄 课件下载:
整理了下 Live 的课件,下载地址:百度云盘 密码:z1cy