User Profiling Approaches for Demographic Recommender Systems

2019, Jun 12    

摘要

我们日常生活中的许多决定都依赖于人口统计数据,这是衡量人与人之间亲密程度的一个很好的指标。然而,由于许多在线系统缺乏这些数据,它们可以搜索显式或隐式的替代方案。在众多解决方案中,协同过滤是另一种解决方案,尤其是对于许多用户不愿公开其人口统计数据的电子商务应用程序。本文探索、讨论和研究了人口统计推荐系统(DRSs)的许多用户分析方法。这些方法在属性类型、属性表示和分析方法方面为分析用户提供了许多选择。我们给出了它们的布局、描述和适当的相似度计算方法。通过对实际数据集的大量实验,对这些方法进行了详细的比较。每种方法的优缺点都得到了说明,以便为将来的工作提供更多的优势。

绪论

构建一个推荐系统(RS的五个阶段:命名,数据收集,用户画像,相似度计算,邻居选择,最终预测。

基于画像数据,推荐系统可以分为:基于内容的RS(CBRS)、协同的RS(CRS)、基于人口统计数据的RS(DRS)。

  • 基于内容的RS:如果用户画像是从用户之前喜欢过的物品的描述中抽取出来的

  • 基于人口统计数据的RS:如果用户画像是描述一类用户或一组用户的一系列属性,那么这样的推荐系统就是DRS

  • 协同的RS:如果用户画像是用户提供的物品的一系列排名,这样的推荐系统可能使用基于用户的方法也可能使用基于物品的方法。

推荐系统的目标:

  • 解决网络信息过载问题
  • 提高系统与用户之间的关系。

这两个目标都与以下两个问题密切相关:

  • 系统如何展示给用户
  • 满足用户的需求需要多少时间

在这么多种类型的推荐系统中,DRS(基于人口统计的)是唯一仅需少量特征就能给上千用户提供服务的最快的推荐系统。这使得DRS成为许多在线系统面对急速增长的用户与物品时优先考虑的选择。

DRS的限制:安全与隐私问题导致很难拿到用户的人口统计信息

人口统计信息:年龄、性别、职业、收入、民族等

本篇论文研究了用户画像和相似度计算阶段,并假设所有方法其他阶段都是相同的。本篇论文文的贡献有以下四方面:

  1. 研究了许多DRS的用户画像方法
  2. 对于一些画像方法我们介绍了相似度度量
  3. 我们提出了一种用于邻域集生成的级联分析方法
  4. 我们提出了一种单属性分析方法,将每个属性视为一个独立的概要文件,然后合并它们的预测

论文的其余部分按如下方式组织:

  • Section 2:综述
  • Section 3:介绍DRS并讨论其优缺点
  • Section 4: 讨论基于人口统计信息的用户画像以及构建用户画像的一些基本属性
  • Section 5: DRS中的用户画像方法以及对应的相似性度量
  • Section 6:数据集及实验
  • Section 7:分析实验结果
  • 最后总结

2 文献综述(回顾)

Al-Shamri and Bharadwaj 这篇文章提出了一个袖珍用户模型,在评价驱动特征之外还使用了用户的统计信息。模型中的数据使得系统可以解决冷启动的问题

3 基于人口统计的推荐系统

DRS是一种老套陈旧的系统,因为它就是基于用户的统计学属性将用户分类。然后DRS使用用户关于物品的观点作为系统推荐的bias(偏差)。值得注意的是DRS和CRS都使用用户与用户之间的关系但是基于不同的数据。因此DRS的优点大部分时候都与CRS相似,在以下方面:

  • 在识别跨类型利基市场方面的独特能力
  • 吸引用户跳出熟悉的领域
  • 随着时间的推移不断提高自己的能力

一般来说,DRS有M个用户,U={u1,…,uM},有N个统计学属性,D={a1,…,aN}。通常,DRS在用户注册期间使用问卷的方式获取用户的人口统计信息以及用户的特征。在用户与系统交互期间,用户可能会被隐式地或显示地问到对于K个物品的评价,S={s1,…,sk},比如说新闻,网页,书,电影或是cd等。初始时,每个用户ui可能会评价Si的一个子集。用户uc对一个物品sk的评价用rc,k表示。

在构建完用户画像以后,DRS使用一个合适的相似度模型计算当前活跃用户与剩余的训练用户之间的相似性。相似性表示两个用户之间有关系有多紧密。因此,对于当前活跃用户来说,一系列邻居从相似度排名的前几位中被选出来。然后DRS对在邻居集中见到而不在当前活跃用户中出现的物品给出一个预测评价。评价分数prx,k表示用户ux对物品sk的期望兴趣值。预测评价值prx,k一般由用户ux的邻居集对sk的评价聚合得到:

计算机生成了可选文字: u,u,

DRS不需要一系列的评价 构建用户画像,不像CRS和CBRS。这也就以为这DRS不存在新用户问题。更有趣的是,DRS与现实生活中我们被推荐的方式是一样。比如一个学生得到的大部分推荐信息都来自于她的铜须。此外,DRS很简单,快速,并且直接因为画像属性总是很少相比较于评价(打分)。这对于当用户量很大时非常重要。对于其他RS,系统的精确度非常依赖于打分(评价)的数量,因为系统从用户那里拿到的评价越多,推荐的质量就越高。但是DRS不是这样,因为画像在很长一段时间是固定的一旦画像属性从用户那里拿到 后。

另一方面,DRS的主要缺点在于安全性及隐私性问题尤其对于电子商务来说。通常用户不太愿意分享太多个人信息给系统出于安全的考虑。由于其隐私性,一些用户认为公开人口统计数据打破了这些系统的匿名性。在推荐方面,从人口群体中产生的推荐可能太笼统了。但是,这么说不对如果在人口统计分组中存在很多种口味和模式时。

4. 人口统计学用户画像

历史上构建用户画像的方法:(举了几个例子)

  • 提供交互对话,使用手写属性
  • 端调查收集统计数据来分类用户
  • 从用户的主页提取统计信息来构建分类器

用余弦相似性计算相似度

5. 构建用户画像的方法

DRS中5种构建用户画像的方法

方法A 混合画像方法

使用年龄作为数量属性而使用年龄和职业作为分类属性

方法B 分类画像方法

方法C 模糊画像方法

方法D 级联画像方法

方法E单属性 画像方法