首页 雷火竞猜正文

汇博人才网,怎么着手规划和构建引荐体系?看这儿-雷火电竞app

admin 雷火竞猜 2019-06-12 203 0

选自 towardsdatascience

作者:Parul Pandey

参加:陈韵莹、shooting

关于引荐体系,咱们之前现已在相关文章中介绍了其概念、原理、意图等。本文中,作者进一步拓宽,具体描绘了规划和构建引荐体系的流程。最终,她还附上了一些引荐体系专用的 Python 库,以简化流程。

挑选太少欠好,但挑选太多会导致瘫痪。

你听说过闻名的果酱试验吗?在 2000 年,来自哥伦比亚大学和斯坦福大学的心理学家 Sheena Iyengar 和 Mark Lepper 依据现场试验提出了一项研讨。

往常,顾客在当地食品市场的一家高级杂货店购物,那里有个试吃货摊供给了 24 种果酱。某天,相同的试吃货摊只供给了 6 种果酱。

这项试验的意图是判别哪种状况能取得更高的销量,料想的是更多品种的果酱能招引更多的人,然后带来更多的生意。可是,研讨人员观察到一种古怪的现象:虽然摆上 24 种果酱时货摊招引了更多人的爱好,但与只递上 6 种果酱时比较,销售额反而更低(大约是后者的十分之一)。

图源:The Paradox of Choice

所以为什么会这样?其实许多的挑选看起来的确很有招引力,可是过量的挑选有时会让客户感到困惑和阻止。因而,即便网上商店能够拜访数以百万计的产品,但假如没有好的引荐体系,这些挑选也会弊大于利。

术语和架构

物品/文档

这些是体系引荐的实体,如 Netflix 上的电影,Youtube 上的视频和 Spotify 上的歌曲。

查询/上下文

体系运用一些信息来引荐上述物品,这些信息构成了查询信息。查询信息还能够是以下各项的组合:

嵌入

嵌入是将分类特征表明为接连值特征的一种办法。换句话说,嵌入是将高维向量转换到叫做嵌入空间的低维空间。在这种状况下,要引荐的查询或物品有必要映射到嵌入空间。许多引荐体系依赖于学习查询和物品的恰当嵌入表征。

资源地址:https://developers.google.com/machine-learning/glossary/#embeddings

上面是一个很好的引荐体系资源,值得一读。我在上面做了一些总结,但你能够具体研讨它。它从全体视点描绘了引荐体系,特别是从谷歌的视点。

架构概述

引荐体系常见的架构包含以下三个根本组件:

1. 候选生成

这是引荐体系的第一阶段,将用户曩昔活动中的事情作为输入,并从一个大型语料库中检索一小部分(数百)视频。主要有两种常见的候选生成办法:

依据内容的过滤是指依据物品自身的特点来引荐物品。体系会给用户引荐与其曩昔喜爱的物品相类似的东西。

协同过滤依赖于用户-物品交互,而且依据类似用户喜爱类似事物的概念,例如购买某物品的客户也购买了此物品。

2. 评分

另一个模型一般以 10 分为满分进一步对候选集进行排名和评分,这构成了第二阶段。以 Youtube 为例,排名网络经过丰厚的视频特征和用户特征取得期望的方针函数,依据此函数来为每个视频评分。按其分数排名,评分最高的视频将出现给用户。

3. 从头排名

这是第三阶段,体系会考虑额定的约束,以保证多样性,新鲜度和公平性。例如,体系删除了之前用户清晰不喜爱的内容,而且还考虑了网站上的任何新物品。

典型引荐体系的全体结构

类似度核算

你怎么界说两个物品是否类似?事实证明,依据内容的过滤和协同过滤技能都应用了某种类似性衡量。下面来看看两种衡量办法。

假定有两部电影-电影 1 和电影 2 归于两种不同的类型。咱们将两部电影制作在二维图形上,假如电影不归于某一类别,则赋值为 0;假如电影归于某一类别,则赋值为 1。

这儿,电影 1(1,1)归于类别 1 和类别 2,而电影 2(1,0)只归于类别 2。这些坐标能够被看作是向量,这些向量之间的夹角告知咱们它们的类似度。

余弦类似度

核算两个向量之间夹角的余弦,similarity(movie1,movie2) = cos(movie1,movie2) = cos 45,成果约为 0.7。余弦为 1 时类似度最高,而余弦为 0 时表明类似度为 0。

点积

两个向量的点积是角的余弦乘以范数的乘积,即 similarity(movie1,movie2) = ||movie1|| ||movie 2|| cos(movie1,movie2)。

引荐体系流程

典型的引荐体系流程包含以下五个阶段:

典型的引荐体系流程

假定咱们正在构建一个电影引荐体系。体系没有关于用户或电影的先验常识,只知道用户经过与电影进行交互给出的评分。下面是由电影 ID、用户 ID 和电影评分组成的数据帧。

电影评分数据帧

由于咱们只要自己打出的评分,或许不行公平,所以咱们能够运用协同过滤来建立引荐体系。

1. 预处理

咱们要先将电影评分数据帧转换为用户-物品矩阵,也称为功效矩阵(utility matrix)。

图源:https://2018.pycon.ca/fr/talks/talk-PC-55468/

矩阵的每个单元格都为用户对电影的评分。这个矩阵一般可用一个 scipy 稀少矩阵来表明,由于一些特定的电影没有评分,一切许多单元格都是空的。假如数据稀少,协同过滤就没什么用,所以咱们需求核算矩阵的稀少度。

假如稀少值到达 0.5 或以上,那么协同过滤或许就不合适了。这儿需求留意的另一个重点是,空的单元格实践上代表新用户和新电影。因而,假如新用户的份额很高,那么咱们或许会考虑运用其他引荐办法,如依据内容的过滤或混合过滤。

总是会有过于活跃的用户(总是打 4 或 5 分)或过于消沉的用户(评分都是 1 或 2)。因而,咱们需求对评分进行归一化,以权衡用户和物品的误差。这能够经过均值归一化来完成。

图源:Normalisation the Ratings

2. 模型练习

数据经过预处理后,咱们要开端建模构建流程。矩阵分化是协同过滤中常用的一种技能,虽然也有其它办法,如邻域法(Neighbourhood method)。以下是相关进程:

用户评分是由人生成的电影特征。咱们以为这些能够直接观察到的特征很重要。可是,也有一些不行直接观察到的特定特征,它们在评分猜测中也很重要。这些隐性特征被称为潜在特征(Latent Features)。

潜在因子办法的简略图示

潜在特征能够被以为是用户和物品之间交互的根底特性。本质上,咱们不清楚每个潜在特征代表什么,但能够假定一个特征或许代表一个用户喜爱喜剧电影,另一个潜在特征或许代表该用户喜爱动画电影等等。

图源:https://2018.pycon.ca/fr/talks/talk-PC-55468/

这儿的潜在因子用 K 表明。这个重建的矩阵弥补了原始用户-物品矩阵中的空白单元格,因而现在现已知道不知道的评分了。

可是咱们怎么完成上面所示的矩阵分化呢?好吧,事实证明,有许多办法能够做到这一点,办法如下:

3.超参优化

在调参之前,咱们需求挑选一个评价方针。关于引荐体系来说,遍及的评价方针是 Precision@K,它需求检查前 K 个引荐,并核算那些引荐中与用户实践相关的引荐所占的份额。

因而,咱们的方针是找到给出最佳 Precision@K 的参数或许想要优化的任何其它评价方针。一旦找到参数,咱们就能够从头练习模型,以取得猜测的评分,而且咱们能够运用这些成果生成引荐。

4. 后处理

然后咱们能够对一切猜测的评分进行排序,并为用户取得前 N 个引荐。咱们还期望扫除或过滤掉用户曾经现已交互过的物品。就电影而言,没有必要引荐用户曾经看过或不喜爱的电影。

5. 评价

咱们之前现已评论过这个问题,但咱们在这儿更具体地评论一下。评价引荐体系的最佳办法是实践。像 A/B 测验这样的办法是最好的,由于咱们能够从实在的用户那里得到实在的反应。可是,假如这行不通,咱们就有必要求助于一些离线评价。

在传统的机器学习中,咱们经过切割原始数据集来创立一个练习集和一个验证集。可是,这关于引荐体系模型不起作用,由于假如咱们在一个用户群上练习一切数据然后在另一个用户群上验证它,模型不会起作用。

因而,关于引荐体系,咱们实践上需求随机地屏蔽掉矩阵中一些已知的评分。然后,咱们经过机器学习猜测这些屏蔽的评分,然后将猜测评分与实践评分进行比较。

线下评价引荐体系

早前,咱们评论了 Precision 作为评价方针,这儿还有一些其他方针能够运用。

python 库

有许多专门为了引荐意图而创立的 python 库可供运用。以下是最受欢迎的几个:

定论

在本文中,咱们评论了引荐在缩小挑选范围上的重要性。咱们还叙述了规划和构建引荐体系的流程。实践上,Python 能够拜访许多专门的库来简化这个进程。不如测验运用一个来构建自己的个性化引荐引擎吧。

延伸阅览:

原文链接:https://towardsdatascience.com/recommendation-systems-in-the-real-world-51e3948772f3

本文为机器之心编译,转载请联络本大众号取得授权。

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
雷火电竞版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

表格制作,6月21日中天钢铁集团种类线材价格调整信息-雷火电竞app

  • 蛟,物业服务行业应遵从市场规律-雷火电竞app

    蛟,物业服务行业应遵从市场规律-雷火电竞app


  • 罗,香蕉周刊(零六九二六三)-雷火电竞app

  • 飞鸟与鱼,疑似杀死梵高的手枪拍卖 他到底是自杀仍是他杀?-雷火电竞app

    飞鸟与鱼,疑似杀死梵高的手枪拍卖 他到底是自杀仍是他杀?-雷火电竞app

  • 最近发表

      雷火电竞app_雷火竞技app_雷火电竞2

      http://www.ani-world.net/

      |

      Powered By

      使用手机软件扫描微信二维码

      关注我们可获取更多热点资讯

      雷火电竞出品