灵魂拷问：为什么你在网购时总买下自己本来不想的东西呢

为什么人们会买一些与自己购物搜索预期不同的东西?这是一个值得思考的问题。

Alexa 购物团队负责搜索功能的高级经理 Liane Lewin-Eytan 在自己的博客中解释道：

比如，人们对 Alexa 发出搜索指令，通过购物搜索算法，Alexa 最终会罗列出一些产品供用户挑选，那些能满足用户需求的产品可以理解为“相关产品”。而这些“相关产品”的最终呈现依赖于人工注释员的判断。

简而言之，人工注释员会标记出符合用户预期的相关产品，而其他产品则为不相关产品。有趣的是，亚马逊方面最近发现，用户经常会与注释员标记为不相关的产品产生联系。

举个例子，人工注释员会将“购买汉堡”的词条与汉堡产品联系起来，而不是将该词条与“汉堡机”联系起来，但亚马逊发现，发出“购买汉堡”这一指令的用户可能会买看似无关的汉堡机，并不会买真正的汉堡。

亚马逊将用户的这种行为进行了分类，第一种是直接购买不相关产品，就像前面举的汉堡机的例子;第二种是与不相关产品“互动”，例如将不相关产品添加到购物车，或是分享给其他用户。

亚马逊的研究表明，在面对销量高的或者是更加便宜产品时，用户购买不相关产品的可能性更高;而且，相比起美容产品和杂货产品类别，人们在诸如玩具和数码产品等类别中购买不相关产品的可能性更大。

为了进一步了解用户的这一行为，亚马逊研究人员作出了许多努力。

首先，研究团队使用统计方法来识别长短不一的关键词的搜索结果。研究发现，相比起中等长度的搜索关键词，通过简短/相对冗长的关键词搜索的用户在购买决策方面更加灵活。因此，他们认为，短关键词表示用户的不确定性和探索的意愿，长关键词会降低精确匹配的可能性;这两种方式都会让用户与不相关产品产生关联的可能性增大。

另外，研究人员还考虑了搜索结果中相关产品和不相关产品之间的间接关系。例如，两个产品是相同风格、品牌或类别，或者它们经常是配套购买的，那么，它们之间就存在着间接关系。

研究人员使用了两种不同的间接关系度量方法，一种基于描述性术语的含义，另一种基于购买历史。这两个因素都会影响用户购买不相关产品的可能性。

上述大都是数据统计方面的分析，亚马逊还进行了两次实验，以评估搜索结果中看似不相关的产品的价值。

首先，研究人员进行了 1500 次搜索查询，每次查询都记录一个相关产品和一个不相关产品，并考虑了对这些产品应用五种不同选择策略的结果。

第一种策略，即“最优策略”，始终选择能够带来更高的购买水平或参与水平的产品。(参与水平/购买级别是参与行为/购买行为与数据样本中的所有交互的比率。)另外四种分别是“相关策略”，即选择相关产品;“不相关策略”，即选择不相关产品，“随机策略”，即在两种产品中随机选择，“最差策略”，即选择会降低参与水平/购买水平的产品。

从上图的表格中可以看出，相比起通过最优策略和相关策略选择的商品(没有误差)，其余策略选择的商品在购买水平和参与水平方面都有着不小的差距。

在另一个实验中，研究人员使用相同的 1500 个查询来训练三种不同的机器学习模型：一种学习最大化相关性，第二种学习最大化购买水平，第三种学习最大参与水平。在此基础上，亚马逊构建了两个融合模型，一个结合了关联模型和参与模型，另一个结合了关联模型和购买模型，而且，还可以对每个融合模型进行调优，为组成该模型的两个模型的输出分配不同的权重。

例如，在关联购买融合模型中，将关联和购买级的权值分别设置为 1 和 0，设置之后，该融合模型将只产生关联模型输出;将融合模型的权重都设置为 0.5 将会得到两个模型输出的均匀混合。对于这两个融合模型，亚马逊设置了一系列的权重并绘制了结果。

正如上图所示，相关性和购买水平/参与水平之间存在权衡：提高或降低关联性将会影响购买水平/参与水平的表现。

亚马逊表示，如果搜索结果不能满足客户的需求，但看起来是相关的，客户可能会理解并原谅这种不足。与此同时，购买水平/参与水平代表了一种更主观的相关性类型，人工注释员无法评估这种相关性，这也可能导致无法推荐出令人满意的产品。

目前，亚马逊用来评估相关性和购买/参与水平之间权衡的模型还相当粗糙，一个更复杂更强大的机器学习模型能够获得更好的结果，特别是如果它被明确地训练来评估一些确定的因素，例如关键词长度、价格和间接关系等。

雷锋网了解到，在 2 月份即将举行的 ACM Web 搜索和数据挖掘会议上，亚马逊将进一步展示这项研究的成果。