一, Item Data

shows’ type:

  1. on-air shows(直播剧)
  2. library shows(普通剧情)

他们的重要性以及时域上的变化结构

其中直播剧很重要,占了一大部分流量,普通剧情也非常重要,到了夏天,周末,直播局的流量就会下降,普通剧就会上升。

 

二, User Data

implict:info of user watch, browsing, searching

explict:voting data

 

系统架构

一, 在线部分

hulus-recommendation-engine-1

User profile builder: historical behaviors and topics generate from old behavior,using topic model to generate the user topic

Recommendation Core: 推荐出所有的相似宝贝

Filtering: 去掉用户已经看了的

Ranking:重排序保证多样性和新奇性

Explanation:向用户解释自己推荐的原因

 

二, 离线部分架构:

hulus-recommendation-engine-2

Data Center:存在hadoop集群和关系型数据库中

Related Table Generator:从两种的来:itemsCF和content-based(title, description, channel, company, actor/actress, and tags)

Topic Model:使用topic model来计算相似度,使用的是LDA 的topic model,聚类的数量小于频道数

Feedback Analyzer:降低那些推荐多次但是无人点击的,根据用户偏向于vote推荐和watch推荐来调节用户方面的参数

Report Generator:各种报表CTR,覆盖率

 

算法

一, Item-based Collaborative Filtering:

hulus-recommendation-engine-math-01

r(u,j)是用户u对j的偏好,s(i,j)是(i,j)的相似程度

hulus-recommendation-engine-math-02

n(i)是看了i的用户集合

 

二, Recent Behavior:

用户最近的表现比以前的行为更重要,所以最近行为的打分更重要

hulus-recommendation-engine-3

 

三, 新奇性:

1. 降低流行的产品

2. 给用户推荐用户的产品与用户以前看的流行的和不流行的分别相关的产品

四, Explanation-based Diversity:

解释以后对那些看了10个以上show的用户是有帮助的

五, Temporal Diversity:

1. 推荐最新的show,保持多样性

2. 给推荐的结果洗牌

3. 降低用户已经看了多遍的show,提高ctr10%

 

性能分析

hulus-recommendation-engine-4

 

经验集锦

Every user behavior can reflect user preferences.

Every user behavior can reflect user preferences.

Recent behaviors are much more important than old behaviors

Novelty, Diversity, and offline Accuracy are all important factors