外媒,自2014年亚马逊发布智能音箱Echo以来,亚马逊Echo、谷歌Home和Apple HomePod等“智能音箱”设备已经销售了数以百万台,大科技公司正在将亚马逊Alexa、苹果Siri、谷歌Assistant、微软Cortana,以及Facebook的类似服务整合到人们生活中。咨询公司Juniper Research估计,到2023年,全球智能音箱年市场规模将达到110亿美元,全球约有74亿部语音控制设备。
科技公司表示智能音箱只有在用户激活时才会录音,但事实上正在把永远开着的麦克风引入私密空间。亚马逊及其竞争对手表示,绝大多数语音请求都是由电脑自动执行的,无需人工审核。然而,这些智能设备都在依赖成千上万的低薪员工进行人工转录,用户私密对话已经成为他们最有价值的数据集之一。所有科技公司都认为,这是改善他们产品的一种合理方式。
其实我们一直在被偷听
Ruthy Hope Slatis简直不敢相信她所听到的。她曾被波士顿郊外的一家临时机构雇用,为亚马逊转录音频文件,这是一项被亚马逊所模糊的工作。作为每小时只拿12美元薪酬的合同工,她和同事(正式名称为数据助理)需要听取随机交谈的片段,并在自己的笔记本电脑里记下听到的每个单词。
亚马逊对外只会说这项工作对其绝密的语音识别产品至关重要,然而,这些语音片段中却包含着用户亲密时刻的录音。
2014年秋天,亚马逊推出了Echo智能音箱,该设备带有语音激活虚拟助手软件Alexa。亚马逊在其首个Echo广告中将Alexa视为人工智能的奇迹。在该广告中,一个幸福的家庭正在命令Alexa接收新闻更新、回答问题答案,并帮助孩子们做作业。但是,Slatis很快就开始意识到人类在这款产品背后的影响力。
她记得当时自己在想:“天哪,这就是我正在做的事情。”亚马逊会捕获云中的每个语音命令,并依靠像她这样的数据助理来训练系统。一开始,Slatis认为自己所听取的片段来自有酬劳的测试人员,这些测试人员自愿用自己的语音模式来换取几美元的奖励。然而,她很快意识到这个想法是错误的。
她和她的同事正在听取的录音通常很激烈、很尴尬,而用户也会在音箱面前承认自己的秘密和恐惧。随着转录项目的发展以及Alexa的流行,录音中透露的私人信息也随之增加。其他合同工回忆说,自己听过孩子分享了他们的家庭住址和电话号码,听到一名男子试图订购性玩具,甚至听到一名晚宴客人大声地想知道亚马逊当时是否正在偷听。Slatis说:“用户往往只是开玩笑,但其实完全不知道自己正在被偷听。”她于2016年选择了辞职。
科技公司们说他们正在改正
雷锋网了解到,自从Slatis第一次感到毛骨悚然以来的五年中,四分之一的美国人购买了“智能音箱”设备,例如Echo、Google Home和Apple HomePod。到目前为止,亚马逊已经赢得了这场销售大战,据报道,用户已经购买了超过1亿个Alexa设备。
但是如今,这些全球最大的公司之间正在展开一场新的战争,通过将麦克风内置于手机、智能手表、电视、冰箱、SUV等各种物品中,把Alexa、Siri、Google Assistant和Cortana嵌入到人们的生活中。咨询公司Juniper Research估计,到2023年,全球智能音箱的年市场规模将达到110亿美元,语音控制设备将达到约74亿个,这相当于地球上的每个人都拥有一个设备。
而现在的问题是,我们要如何处理这样的规模呢?
按照科技公司的声明,这些机器并没有每时每刻创建音频文件,因为智能音箱仅在用户激活它们时才录制音频。但是,当始终在线的麦克风被引入厨房和卧室中时,它们可能会无意间捕获到用户不想共享的声音。
然而,这些所谓的智能设备无疑需要依赖成千上万的低薪人群,他们需要在这些声音片段中添加注释,以便技术公司可以升级其“电子耳朵”。至此,我们最微弱的耳语竟成为科技公司最有价值的数据集之一。
今年早些时候,彭博社首先报道了技术行业使用人类来审查从用户那里收集的音频(并且没有向用户披露这一事实)。这其中就包括了苹果、亚马逊和Facebook。相关高管和工程师表示,建立庞大的人类监听网络会带来问题或干扰,尽管这一直是改善其产品的明显方法。
除此之外,雷锋网(公众号:雷锋网)也注意到,在过去的几年中,苹果在收集和分析人们的声音方面变得更加激进,担心Siri的理解力和速度落后于Alexa和Google Assistant。苹果将Siri视为语音搜索引擎,因此它必须做好准备以应付无休止的用户查询,并加大对音频分析的依赖。
2015年,当苹果首席执行官蒂姆·库克宣称隐私是一项“基本人权”之时,苹果的机器每周需要处理超过十亿次请求。当时,用户可以开启一项功能,保持语音助手始终在线,这样他们就不再需要按下按钮来激活语音助手。苹果在其用户协议法律条款中表示,可能会记录和分析语音数据以改善Siri,但没有任何地方提到会是人类员工在监听。一位前合同工说:“监听别人的语音,让我感到非常不舒服。曾在Siri高级开发团队工作的John Burkey说。“这不是间谍行为。这与应用崩溃并询问是否要将报告发送给苹果的行为是相同的。”
许多合同工表示,尽管大多数Siri要求都是很普通的,但他们仍然会听到的色情化的语音,以及种族歧视或恐同性言论。
苹果表示,只有不到0.2%的Siri请求需要进行人类分析。前任经理将合同工的指控视为夸张。曾带领开发团队的Siri联合创始人Tom Gruber说:“实际上,我们要处理的很多都是噪音,并不是说机器打算录制某些声音,这只是某种意义上的概率问题。”
到2019年,苹果将Siri引入其无线耳机和HomePod扬声器等产品后,每月需要处理150亿条语音命令。0.2%意味着每月,人类合同工需要处理3000万条语音命令,一年下来就会是3.6亿条。Siri团队的前首席研究科学家Mike Bastian说,随机录制的风险随着用例的增加也在不断增长。他提到了Apple Watch的“抬起激活”功能,该功能在检测到佩戴者的手腕被抬起时会自动激活Siri。他说:“这就导致假阳性率很高。”
2016年,亚马逊创建了Frequent Utterance Database(FUD),以帮助Alexa为常见请求添加答案。与FUD合作的前员工表示,渴望更积极挖掘数据的产品团队与负责保护用户信息的安全团队之间存在紧张关系。2017年,亚马逊推出了配备摄像头的Echo Look,该产品被称为AI造型师,可以推荐服装搭配。知情人士说,它的开发者考虑将相机编程为在用户要求Alexa讲笑话时自动开机。他们的想法是录制用户面部的视频并评估用户是否在笑。这些人说,亚马逊最终搁置了这个想法。该公司表示,Alexa目前没有使用面部识别技术。
该公司已在世界各地设立了转录“农场”。今年,它举行了多次面向海外转录员的入门招聘活动。一位花了数十年时间为科技公司开发识别系统的语音技术专家说,最近的招聘规模暗示亚马逊音频数据分析的规模令人震惊。亚马逊表示,它“认真对待客户及其录音的安全性”,并且需要全面了解区域性口音和口语化才能使Alexa走向全球。
微软在今年8月承认,它使用人类帮助审查通过语音识别技术生成的语音数据。宝马、惠普和Humana等企业正在将这一技术集成到自己的产品和服务中。包括阿里巴巴、搜索巨头百度和手机制造商小米在内的中国科技公司每个季度都在收集数百万个智能音箱的语音数据。
谷歌搜索向Google Assistant提供了来自数十亿种可用设备的查询,这些设备包括Android智能手机和平板电脑、Nest恒温器和Sony TV。谷歌已经雇用了海外的临时工来转录片段,以提高系统的准确性。谷歌已承诺,审阅的录音不会与任何个人信息相关联。但是今年夏天,一家谷歌承包商向比利时广播公司VRT NWS分享了1000多个用户记录。这家媒体能够根据用户所说的话找出录音中的某些人是谁,这让那些被查明的用户感到震惊。这些记录中的10%,是因为设备错误地检测到激活词,并在未经用户同意的情况下进行了录音。
在相关新闻报道不断出现之后,这些大型科技公司于今年调整了他们的虚拟助手项目。
谷歌暂停了人类对Assistant音频的转录,苹果开始允许用户删除他们的Siri历史记录并选择不共享更多内容,使共享录音成为可选内容,并直接雇用了许多前承包商来增强其对人类监听的控制力。
Facebook和微软在其隐私政策中添加了更明确的免责声明。
亚马逊也引入了类似的披露方式,并开始允许Alexa用户选择不进行人工审核。
一些研究人员说,智能手机处理能力的提高和一种称为联合学习的计算机建模形式可能最终会淘汰这些监听行为,因为这些机器将变得足够聪明,可以在没有合同工帮助的情况下解决问题。目前,由于没有更严格的法律或消费者的强烈反对,随着语音设备的激增,人类音频审核队伍几乎肯定会继续增长。
作者.刘琳
关键词: