Hulu的推荐引擎阅读笔记
一, Item Data
shows’ type:
- on-air shows(直播剧)
- library shows(普通剧情)
他们的重要性以及时域上的变化结构
其中直播剧很重要,占了一大部分流量,普通剧情也非常重要,到了夏天,周末,直播局的流量就会下降,普通剧就会上升。
二, User Data
explict:voting data
系统架构
一, 在线部分
User profile builder: historical behaviors and topics generate from old behavior,using topic model to generate the user topic
Recommendation Core: 推荐出所有的相似宝贝
Filtering: 去掉用户已经看了的
Explanation:向用户解释自己推荐的原因
二, 离线部分架构:
Data Center:存在hadoop集群和关系型数据库中
Related Table Generator:从两种的来:itemsCF和content-based(title, description, channel, company, actor/actress, and tags)
Topic Model:使用topic model来计算相似度,使用的是LDA 的topic model,聚类的数量小于频道数
Feedback Analyzer:降低那些推荐多次但是无人点击的,根据用户偏向于vote推荐和watch推荐来调节用户方面的参数
Report Generator:各种报表CTR,覆盖率
算法
一, Item-based Collaborative Filtering:
r(u,j)是用户u对j的偏好,s(i,j)是(i,j)的相似程度
n(i)是看了i的用户集合
二, Recent Behavior:
三, 新奇性:
2. 给用户推荐用户的产品与用户以前看的流行的和不流行的分别相关的产品
四, Explanation-based Diversity:
解释以后对那些看了10个以上show的用户是有帮助的
五, Temporal Diversity:
1. 推荐最新的show,保持多样性
2. 给推荐的结果洗牌
3. 降低用户已经看了多遍的show,提高ctr10%
性能分析
经验集锦
Every user behavior can reflect user preferences.
Every user behavior can reflect user preferences.
Recent behaviors are much more important than old behaviors
版权所有: 本文系米扑博客原创、转载、摘录,或修订后发表,最后更新于 2014-05-22 23:39:54
侵权处理: 本个人博客,不盈利,若侵犯了您的作品权,请联系博主删除,莫恶意,索钱财,感谢!
转载注明: Hulu的推荐引擎阅读笔记 (米扑博客)