前段时间在知乎学习了《了解信息流产品和内容推荐算法》,收获蛮多。对其中重要的部分进行了整理,这篇文章就是主要内容的摘要,附带课件。

从目前移动互联网的大环境来看,信息流是最能带来商业价值的产品形态之一。信息流推荐算法的今日头条,已经估值超过了200亿美金。图为信息流推荐算法简化框架:

⏱ 对用户的价值:

  • 便捷阅读
  • 海量信息
  • 新鲜及时
  • 个人兴趣

💵 商业价值:

  • 类似搜索广告(网易-头条)
  • 产品产生粘性(2 千万-1.2 亿)
  • 用户时长增加(40-70 分钟)
  • 广告曝光增加
  • 广告营收增加(50-150 亿)

🧐 如何推荐内容:

  • 人工运营:新闻价值判断、突发新闻、热点预测、时效性和策划
  • 算法推荐:预估 CTR、个性化匹配、学习、聚合,适合长尾内容
  • 海量内容,适合采用人工运营+算法推荐。

图为一个内容推荐算法的示例:

🌊 算法模型分流:

  • 70% 给稳定模型
  • 10% 给实验模型 A
  • 10% 给实验模型 B
  • 10% 给式样模型 C

🚀 算法模型评测指标:

  • 准确率:推荐列表中,多少文章是用户读过的(训练集/测试集)。8/20=40%
  • 召回率:推荐列表中,用户读过的文章占用户阅读记录总数的比例。8/10=80%
  • 覆盖率:推荐列表中,推荐文章占文章库总数的比例。20/100=20%

举例:文章总量为 100,用户实际看了 10 篇文章。最终实验模型推荐了 20 篇文章,用户看过的有 8篇。准确率为 40%,召回率为 80%,覆盖率为 20%

📮 核心业务指标:

  • UV 转化率:阅读 UV/曝光 UV,反应多少比例的曝光用户转化为阅读用户。
  • PV 转化率:阅读 PV/曝光 PV,反应违章的平均转化情况。
  • 人均篇数:阅读 PV/阅读 UV,反应内容消费深度。
  • 人均阅读时长:阅读总时长/阅读 UV,反应内容消费深度。

⚙️ 影响推荐算法的因素:

👉 是否有强大的内容库:

  1. 多样性:图文、图片、短视频、直播、问答;
  2. 数量:每日入库量级超过 50W,可推荐集 20W;
  3. 质量:正规媒体文章、大 V 自媒体文章、专题专栏等深度文章;
  4. 时效性:突发事件一小时内入库,微博具有最好的时效性;

👉 是否有好的交互视觉,交互视觉会影响用户为内容的预期:

  1. 风格和内容要匹配;
  2. 留白减少 10%,UV 转化率提高 5%;
  3. 刷新速度减少 500ms,UV 转化率提高 5%;

👉 是否对业务参数进行了优化:

  1. 参数调优更多是一种艺术,而不是技术。
  2. 频道列表和顺序,新用户频道调整。(是否可以根据地域进行频道调整?)
  3. 下拉刷新更新条目数。今日头条首次 15 条,后续 8 条;
  4. 新闻条目小字信息。今日头条来源+评论数+下发时间;

👉 数据上报,会极大的影响推荐的准确度和策略选择:

  1. 数据要全面;
  2. 数据量要大;
  3. 数据上报准确。

上报规范:时机、阈值、去重;

上报内容:条目曝光、点击、详情页停留时长、列表/专题页时长上报、详情页/专题/视频完成度上报。

👉 冷启动策略:

  1. 地点、热点、设备
  2. 其他(手机厂商):安装应用、用户搜索等等

👉 探索与发现:

  1. 当用户有新的行为时,画像实时更新;
  2. 过去的特征画像进行时间衰减,逐渐降权;
  3. 在推荐列表中增加探索性的内容(Fix)

👉 是否有好的算法模型:

  1. 算法模型来源:大公司交流、学术界论文、自建模型
  2. 更重要的是算法人员对业务的理解
  3. 算法模型 》编码实现、性能问题、实验效果、参数调优、维护成本、模型迭代、其他问题 》实际应用

🎭 用户画像体系:

用户主动、推送刺激 》数据挖掘 》生成画像

  1. 一级类目的制定不能轻易改变,对算法影响较大;
  2. 用推送验证画像准确性,如果画像准确,点击率在20%;
  3. 一级类目每周更新,二级类目和标签实时更新;
  4. 负反馈、搜索数据较少,但对画像影响较大;

图为用户画像的结构和内容偏好示例:

🗿 相关领域:

  • 内容库:

内容接入 》内容下发 》后台管理 》自媒体 》过滤去重 》文本分析 》情感分析 》内容分级

  • 用户画像:

标签创建 》标签测试 》标签分级 》数据上报 》数据处理 》数据挖掘

  • 短视频:

内容接入 》内容下发 》数据分析 》运营策略 》算法策略 》视频广告

  • 搜索:

召回策略 》搜索界面 》数据分析 》排序策略 》搜索热词 》搜索广告

  • 信息流广告:

收入分成 》流量分配 》筛选策略 》性能优化 》界面优化 》eCPM 优化

⛳️ 如何进入信息流领域:

  • 研究自媒体平台:

    1. 研究下发策略;
    2. 研究管理后台;
    3. 研究数据统计;
  • 从内容运营切入:

    1. 研究推送文案;
    2. 研究推送数据;
    3. 研究专题策划;
  • 如何做产品:

    1. 了解推荐流程;
    2. 使用各种应用;
    3. 研究各种内容;

📚 推荐书籍:

《推荐系统实践》、《这就是搜索引擎 核心技术详解》、《计算广告》

🏄 课件下载:

整理了下 Live 的课件,下载地址:百度云盘 密码:z1cy