一、系统的概述
协同过滤方法只考虑了用户评分数据,忽略了项目和用户本身的诸多特征,如电影的导演、演员、发布时间等,以及用户的地理位置、性别、年龄等。如何充分、合理的利用这些特征,获得更好的推荐效果,是基于内容推荐策略所要解决的主要问题。
基于内容的推荐系统:根据历史信息(如评价、分享、收藏过的文档)构造用户偏好文档,计算推荐项目与用户偏好文档的相似度,将最相似的项目推荐给用户。例如,在电影推荐中,基于内容的系统首先分析用户已经看过的打分比较高的电影的共性(演员、导演、风格等),再推荐与这些用户感兴趣的电影内容相似度高的其他电影.

 

二、基于内容的推荐系统的层次结构
基于内容的推荐系统概述

show_mop

如上图所示,生成推荐的过程主要依靠三个部件:
第一、 内容分析器:从原先的商品信息(例如文档、网页、新闻、产品描述)中提取有用的信息用一种适当的方式表示。例如,将网页表示成关键词向量,该表示形式将作为属性学习器和过滤部件的输入结点。
第二、 文件学习器:该模块收集、泛化代表用户偏好的数据,生成用户概要信息。通常,是采用机器学习方法从用户之前喜欢和不喜欢的商品信息中推出一个表示用户喜好的模型。例如,一个基于网页的推荐系统的属性学习器能够实现一个相关反馈的方法,将表示正面和负面例子的向量与表示用户概要信息的原型向量混合在一起。训练样例是那些附有用户正面和负面反馈信息的网页。
第三、 过滤部件:通过学习用户概要信息,匹配用户概要信息和商品信息,推荐相关的商品,结果是一个二元的连续型的相关判断(相似度度量)。后者将生成一个用户可能感兴趣的潜在商品评分列表。该匹配是计算原型向量和商品向量的余弦相似度。


三、主要算法
1. 基于关键词的空间向量模型
用户偏好文档和推荐项目文档都采用关键词表示特征,进而采用 TF—IDF方法为每个特征分配一个权重。
采用 k 维向量
aabb分别表示项目文档和用户 c 的偏好文档,k 是关键词的个数。
关键词Ki在文档dj中的词频 TFi定义为:

cc
关键词 Ki在文档集中出现的逆频IDFi 定义为:
dd
最终的权值为:
ee
其中N为文档集包含的文档数,ni为文档集中包含关键词Ki的文档数, fij 为关键字Ki在文档 dj 中出现的次 数。
项目文档和用户偏好文档的余弦相似度为:

ff
 

2. Rocchoi 算法——用户反馈
空间向量模型中的相关反馈方法都是基于Rocchoi方法的,在这种方法中查询条件的改变是通过所有文档特中征项权值的变化来实现的。最基本的Rochcoi中心向量方法可以表示为:

gg
其中,q是初始查询向量,DR是相关文档集,向量Xi是第i个相关的文档向量,向量 Xj是第j个不相关的文档向量,α、β 是Rocchoi 权重。


四、系统的优缺点

与基于协同过滤的推荐系统相比,基于内容的推荐系统有以下三个优点:
1.用户独立性:基于内容过滤的推荐系统只需要分析当前用户的偏好文档,而协同过滤还在用户群中找到当前用户的相似用户并综合这些相似用户对某项目的评价,即可以不受打分稀疏性问题的约束。

2. 透明性:通过列出推荐项目的特征,解释为什么推荐这些产品,使用户在使用时具有更好的用户体验。

3. 新产品问题:新项目进入推荐系统后, 基于内容的推荐方法为其提取特征, 进而建立刻画其内容的特征向量,


然后根据用户偏好文档决定是否向用户推荐,然而基于内容的推荐系统也存在着以下一些缺点:
1.有限的内容分析:只能分析一些容易提取的文本类内容( 新闻、网页、博客),而自动提取多媒体数据(图形、视频流、声音流等)的内容特征具有技术上的困难。
2.过度规范问题:不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。
3.新用户问题:当一个新的用户没有或很少对任何商品进行评分时,系统无法向该用户提供可信的推荐。