深度学习正在让用户隐衷成为交际巨头的摇钱树能提现的棋牌游戏排行,用人造智能和公共智慧消灭

原标题:Facebook 利用 AI 识别表情包里的不当内容

在《重新定义公司:谷歌是如何运营的》一书中分享了这样一条经验:在谷歌,最优秀的产品是靠技术因素而非商业因素赢得成功的。

能提现的棋牌游戏排行 1

福布斯近日撰文介绍了Facebook利用深度学习技术来全面了解用户的四种令人惊叹的方式,它们分别是文本分析、人脸识别、定向广告和设计AI应用程序。

“谷歌几乎所有的成功产品都是由坚实的技术洞见作为基础的……所谓技术洞见,是指用创新方式应用科技或设计,以达到生产成本的显著降低或产品功能和可用性的大幅提升的效果。”施密特和罗森伯格写道。

Facebook 的审查人员无法审核人们在平台上发布的每一张图片,因此 Facebook
希望通过人工智能来帮助他们。在一篇博客文章中,Facebook 介绍了一个名为
Rosetta
的系统,它可以利用机器学习来识别图像和视频中的文本,然后将其转录为机器可读的内容。特别地,Facebook
发现这个工具有助于在表情包上转录文本。

近年来,媒体对机器学习、深度学习等人工智能技术进行过不少的基本介绍。展开相关研究的企业也不在少数,那企业们实际上又是如何应用它们的呢?

而在当前被谷歌视为成功基石的技术则是人工智能。除了在Google
I/O大会上亮相的Google Lens、Google Assistant、Google
Home等产品,人工智能技术也被谷歌应用于解决内容型产品的成本和可用性问题,其最新成果是借助机器学习模型评估网络会话影响的工具Perspective,Perspective的第一个功能识别线上“有毒(Toxic)”评论已经上线。

文本转录工具并不是什么新鲜事,但 Facebook
却面临着不同的挑战,因为其平台量级巨大,以及其上的图像种类繁多。根据官方说法,Rosetta
现在已经上线,每天会从 Facebook 和 Instagram 上抓取 10
亿个图像和视频帧文本进行转录。

Facebook是通过了解它的用户和为广告主“包装”用户数据来展开业务的。而它从业务运营赚到的钱会重新投入到给用户提供有用的新功能,目前来说主要是提供视频和购物功能。接着,它还会利用这些功能服务来进一步了解用户。

阻击“有毒”内容

目前还不清楚 Facebook
正在对这些数据进行怎样的处理。文章指出,这对于照片搜索和屏幕阅读器等基本功能非常有用。但看起来
Facebook
也开始把它放在更大的目标上,比如弄清楚什么样的内容更吸引人,更重要的是,可以找出哪些表情包、图片或视频中存在仇恨、侮辱等不当言论。

随着该社交网络带给人们的通讯和对话交流方式被证明对我们很有价值,它成为了能够吸纳海量用户数据的“磁石”。那些数据涉及用户是谁、他们如何花费时间、他们喜欢什么等信息。对于Facebook从事数据挖掘工作的数据科学家们来说,挑战在于那些数据大部分都非常散乱,属于非结构化数据。

随着技术不断演进,商业竞争也日益激烈,内容运营成为各种商业模式都在思考的课题,而评论内容也逐渐成为许多互联网产品的核心竞争力之一。

Facebook表示,文本提取和机器学习正在被用于“自动识别违反我们的仇恨言论政策的内容”,而且该系统还支持多语言。鉴于
Facebook
众所周知的内容审核问题,一个能够自动标记可能有问题的图像的功能,对于
Facebook 来说应该会很有用。

能提现的棋牌游戏排行 2

当然,评论的活跃度和内容质量都是需要运营团队精心照料的,互联网评论中的违法、侮辱、骚扰、色情、暴力等垃圾信息屡禁不绝,这些信息对内容运营毒害很大。而如何清除这些“有毒”内容,是一个亟待解决的行业问题。

Facebook 利用 AI 识别表情包里的不当内容动点科技。返回搜狐,查看更多

虽然Facebook平台上12亿用户每分钟上传的照片数量达到13.6万张,更新的状态数量达到29.3万,但直至最近,Facebook只能够寄望从它少量的非结构化数据(不易被量化和放入图标进行计算机分析的信息)当中挖掘价值。

以谷歌为例,其90%收入来自广告,但没有广告主愿意自己投放广告的页面包含那些让人感觉不舒服的内容。沃尔玛、百事可乐和Verizon等广告客户都因不良内容影响而暂停YouTube平台广告投放计划,这导致谷歌损失上亿美元。因此,商业利益直接驱动谷歌清楚“有毒”内容。

责任编辑:

深度学习正在帮助解决这一问题。深度学习技术使得机器能够自行归类数据。一个简单的例子就是,深度学习图像分析工具懂得学习识别含有猫的图像,不需要被告知猫长得什么样。通过分析大量的图像,它能够从图像的背景学习到信息——如还有什么东西可能会出现在猫图中?什么文本或者元数据可能暗示图像含有猫?

其次,用户体验是谷歌阻击“有毒”内容的另一原因,谷歌的文化追求是让用户可以直接查询到他渴望的内容,其搜索算法一直为此优化,然而垃圾评论(通常是批量发布的)会把用户喜闻乐见的内容淹没;同时,垃圾评论还会影响到优质内容创作者的创作热情,更多的用户也会因此拒绝发表意见,社区将会沦陷。

通过进行量化,以及方便分析工具获取深刻见解的形式呈现数据,这有助于结构化非结构化的数据。Facebook的研究者尝试回答这样的问题:公司的产品多经常出现在有猫的图像当中?我们是否该专注于向喜欢猫的人展示我们的广告吗?

人工智能的新希望

那一基本原理解释了为什么深度学习对Facebook有用,随着深度学习算法变得更加先进,它们能够被应用于更多我们所分享的数据,从文本到图片再到视频。

在引入人工智能技术之前,业界惯用清理不良内容的方法,是人工举报、人工审核以及策略和传统算法的结合。

以下几个特定的使用案例解释了深度学习如何被用来获得价值,帮助Facebook实现为用户带来更多便利,进而能够进一步了解他们的目标。

《连线》杂志曾对八名现职和前谷歌广告质量评分员(ads quality
raters)的进行采访并总结出,他们的工作任务包括:审查视频内容;审阅评论区并标记用户的不当言辞;检查谷歌广告网络服务的各类网站以保证它们达到谷歌标准;为广告质量本身评分。庞大的工作量迫使他们把数量和速度的优先级放在准确度之上。有时甚至需要用不到2分钟的时间检查几小时的视频。同时,谷歌需要给这些审核人员(外包)支付每小时15美元的工资,这比大多数城市的最低工资高。

1. 文本分析

人工智能的进步带来了新的希望,国外的Facebook、Twitter,国内的网易云安全(易盾)、万象优图等团队都在尝试使用人工智能来消减大部分的人工工作量,以实现更好的成本、效率和性能。作为一家执行“AI
First”的公司,谷歌也已经开发人工智能系统识别和过滤垃圾信息。在谷歌高层看来,这个问题无法也不应该由人力解决。

Facebook上分享的数据很大一部分还是文本。视频可能涉及更大量级的数据,但在获取洞察方面,文本仍能够带来同等的价值。一张图片可能含有1000个字,但如果你只想要回答一个简单的问题,你通常不需要回答1000个字。任何无助于回答你的问题的数据都是噪音,都会浪费用于存储和分析的资源。

Perspective:AI+集体智慧维护评论秩序

Facebook采用它自行研发的一项名为DeepText的工具来学习分析用户所发帖子的语境,进而提取字词的意思。通过分析词语之间的关系,神经网络能够根据那些词语周围的词语理解它们的意思变化。由于这是一种半监督半非监督式的学习,那些算法不一定有解释每个词语意思的参考数据,比如字典。相反,DeepText是根据词语是如何被使用的来自学。

2017年2月,谷歌反滥用技术团队(Counter Abuse Technology
Team)联合谷歌母公司Alphabet旗下的Jigsaw(其前身为谷歌智库部门Google
Ideas)宣布推出名为Perspective的新工具,自动检测网络上的侮辱、骚扰和虐待言论。Jigsaw表示,对于输入的任何词句,Perspective都能立即给出其“毒性”评分,比任何关键词黑名单都要准确,比任何人类审核人员都要快。

这意味着DeepText不会被拼写的变化、俚语或者特别的语言运用难倒。事实上,Facebook称该技术“能够支持各种语言”——由于它给词语贴标签的形式,它能够轻松地在各种不同的语言当中切换,能够将它从一种语言中学到的东西应用于另一种语言。

作为Conversation
AI开源项目的一部分,Perspective以API形式开放给更多开发者,使得社交媒体和新闻网站能够更方便地使用机器学习技术检测评论语言的“毒性”,进而更好地管理评论内容。为了识别“有毒”评论,Conversation
AI已经进行了大量的训练。谷歌和Jigsaw从维基百科、《纽约时报》等合作伙伴手上拿到了数百万条评论数据,让10名Jigsaw员工确定每一条评论是否“有毒”,再将这些判断结果作为训练样本输入给机器学习模型。模型会给出输入词句“有毒”或者会“把天聊死”的概率。例如,“你不是好人(you
are not a nice
person)”被理解为“有毒”的可能性是9%,而“你是个恶心的男人(you are a
nasty man)”的反馈结果是91%。

目前,该项工具被用于根据人们的对话内容将他们指向他们可能想要购买的产品。Facebook曾发布视频,举例解释DeepText是如何根据语境来决定是否该给用户提供购物链接。

Perspective
API允许开发者使用自动化代码访问那些测试,集成到页面中让评论者在输入的同时就能看到毒性指数。用户可以在官网(
API的效果。

2. 人脸识别

诚然,Perspective并不完美,因为算法还无法理解文字背后的语境和感情,对语言的真实意思可能会有误判。财富网站报道称,Perspective对高频词句判断准确率确实很高,但一些不知名的侮辱性词汇(如libtard)的毒性评分很低;相反地,“生活是一种煎熬(life’s
a
bitch)”的毒性指数却很高。不过,谷歌官网已明确表示:Perspective还处在早期阶段,难免还有很多错误。所以,页面提供了反馈选项,模型会根据反馈数据更新,提高精准度。

Facebook采用名为DeepFace的深度学习应用程序,致力于教导它识别照片中的人。该公司表示,在识别两张不同照片中的人是否是同一个人上,其最先进图像识别工具比人类还要准确——DeepFace识别成功率达到97%,人类则是96%。

事实上,这是Perspective的产品逻辑:利用集体的智慧不断驱除“有毒”评论,维护社区秩序。Conversation
AI产品经理亚当斯(CJ
Adams)表示,团队希望每个人都能参与到这个项目,利用这些模型改进网络讨论。在此之前,社交/新闻网站的评论管理,只有“赞成”、“反对”、“关闭评论”或者人工调节等选项,而Perspective提供了另一种选择(即集体智慧),并且效果是与时俱进的。确实,挖苦短语“nice
work, libtard”的评分已经是34%,而不是财富网站之前评论的4%。

这种技术的使用显然存在争议。隐私拥护者们指出,这种工具做得过火了,它会让Facebook能够根据人群的高分辨率照片给很多的人脸打上名字,这显然会对我们在公众场所匿名行走的自由构成威胁。欧盟监管机构对此表示认同,2013年它说服Facebook将该项功能从欧洲公民的账号中撤除。当时,该社交媒体巨头使用的是一个人脸识别工具的早期版本,并没有采用深度学习技术。自该技术首次引起广泛关注以来,Facebook就一直没有透露它的进展。或许,它在等待一些隐私案件的裁决,想要在此之后再公布它的推出计划。

那么,目前不那么成熟的模型在生产环境中有多大意义呢?当前互联网产品那么多,人工智能误判带来的过度限制,会不会导致另一种“把天聊死”,然后用户转向竞品呢?如前所述,网站管理者的选项很少,Jigsaw认为,很多媒体网站只有很傻的黑名单,或者干脆关闭评论,而Perspective会让网络对话更便利。Jigsaw首席研究科学家卢卡斯·迪克森(Lucas
Dixon)表示,系统的目标不是100%的精确度,而是足够好,即让期待文明评论的人不再忌讳参与互联网讨论。

3. 定向广告

Jigsaw首席研究科学家卢卡斯·迪克森(Lucas Dixon)

Facebook利用深度神经网络(深度学习的基石)来决定向哪些用户展示哪些广告。这一直以来都是它的业务的基础,通过让机器自行尽可能多地了解我们,在推送广告时以最富有洞察力的方式将我们聚拢在一起,该公司希望维持其对谷歌等其它角逐广告市场的高科技竞争对手的竞争优势。

作为一款志在借用集体智慧改进算法的产品,Perspective也充分考虑了个体口味的差异,它

4. 设计AI应用程序

允许用户自行选择显示评论的毒性指数阈值。例如,以下气候变化讨论的截图,其中包括了高层次的负面评论:

Facebook甚至认定,决定那些运作能够通过AI和深度学习来改进的任务,能够由机器来处理。它实施了一个名为Flow的系统,该系统利用深度学习分析来每月对30万个机器学习模型进行模拟,让工程师能够测试验证他们的想法,精确找到提升运营效率的机会。

而下面这个截图显示的对同一个话题的更多评论,将“毒性”拉到光谱的左侧。可能有人会认为,这些评论仍然武断,但没那么苛刻:

开源

注意,Perspective的毒性尺度选择除了开放给评论管理者,也向读者提供。这意味着网站可以根据清晰的毒性指数定制合适的过滤规则,也意味着读者可以自主决定怎么愉快地聊天。这个策略能更好地保证产品的使用率,保护系统收集到足够丰富的数据来改进模型精确度。

Facebook非常支持开源,其名为Facebook人工智能研究(FAIR)的AI实验室的大部分研究成果都免费提供给任何人使用或者修改。Facebook的深度学习技术主要基于Torch平台,该平台环境专注于深度学习技术和社交网络的开发。

Perspective的另一个好处,就是系统不必与帐号关联,这让匿名评论的监管变得简单。谷歌曾强制将YouTube评论系统与Google+帐号关联,让视频创作者根据用户所处的圈子自动批准特定用户的评论。但这一做法引发了一些非议。

该公司甚至将其GPU驱动的AI硬件设计开源。那种超快速的计算机专门针对深度学习任务的执行进行了优化,该类任务往往需要非常强大的处理能力,因为它们涉及大量的运算,处理输入数据的速度要求很高。

根据Jigsaw的介绍,检测语言毒性只是Perspective的第一个模型。接下来的一年,他们将利用机器学习来增加其他能力。特别是,他们将开始筛选脱离主题的评论或缺乏实质意见的内容。模型训练好之后,网站和读者将可以配置评论设置,只显示相关性最强的内容。

展望未来

《纽约时报》、维基百科、经济学人、卫报等已经在使用Perspective。据报道,《纽约时报》这样的网站之前只能处理10%的文章评论,但在采用Perspective后可以实现100%覆盖。当然,小型网站同样可以受益。不过,社交和媒体公司目前还需要依靠IT人员将Perspective整合到自己的网站上。预计第三方开发人员将会构建新特性,允许缺乏编码知识的用户能够直接安装评论管理工具。

深度学习很可能将会继续在Facebook的未来发展中扮演重要的角色。尽管它目前对潜在的新应用三缄其口,但它提出过的想法包括:自动生成图片的语音描述来辅助视觉障碍者,以及预测哪些地方需要更大范围的网络覆盖,履行将网络连接推向全球各地的使命。长期而言,他们实力雄厚的AI和深度学习实验室可能也将会让无数的机构组织获益,不管是通过直接使用他们的服务,还是间接得益于他们对开源的支持。

谷歌的挑战

【编辑推荐】

从产品设计的角度,Perspective无可指摘,但这并不表示摆在谷歌面前的是一片坦途。首先,即便通过开放API获得大量的数据,同时神经网络的潜力正在不断释放,自然语言理解和自然语言处理仍是当前人工智能领域的难点。有评论说,Perspective对《纽约时报》的内容审核有用,但在Twitter、Reddit能发挥的作用不大。

其次,多语言障碍。Perspective目前的主要使用场景是英语,Jigsaw表示Perspective只是改善在线交流的第一步,他们希望工具能够复制到别的语种,从而实现更多的用途。那么,数据的缺失和语言习惯的不同都是模型调整必须深入思考的问题。

更重要的,就是对抗总是在升级。攻击者总会不停地试探审核的规则和工具的规律,设法通过新花样绕开屏蔽。网易云安全技术团队在于黑/灰产的斗争中对此深有体会。迪克森也承认这一点,但他认为攻击总是有迹可循的。

最后,文本信息只是评论的一部分,Perspective目前也只是侧重于语言暴力,并未覆盖比如恶意链接这样的垃圾信息,谷歌还需要面对图片、视频形式不良信息的挑战。但是,谷歌使用人工智能技术全面解放人工审核的决心是无可置疑的。

在视频方面,人工智能同样还不完美。谷歌仍然倚重广告质量评分员识别和标记敏感内容,为算法提升提供更多、质量更高的数据:谷歌要求他们对视频标题和内容做更细致的评级并进行分类,例如“不当言论”包含“亵渎”、“仇恨言论”或“其他”等,“暴力”内容包含“恐怖主义”、“战争与冲突”、“死亡悲剧”等,此外还有“毒品”和“性/裸露”(具体分类为“虐待”、“裸体”和“其他”)等。

中国公司行动启示

基于人工智能的内容安全解决方案是不完美的,但中国企业也必须承认人工智能的高效率、远超关键词过滤的精准度,以及未来的潜力。那么,采用人工智能技术来维护在线交流氛围是必须考虑的选项。同时,人工智能的精准度依赖于足够多的高质量输入数据,由于国内外的网络环境、政策具有差异性,网民对相同言论的感觉和容忍度也有所不同,国内用户应当采用积累足够多国内特征库的服务商提供的技术方案,并积极提供包含新特征的数据,让人工智能算法与时俱进,以应对不断升级的攻击。

信息来源:

The Hidden Laborers Training AI to Keep Ads Off Hateful YouTube Videos

Now Anyone Can Deploy Google’s Troll-Fighting AI

Check Out Alphabet’s New Tool to Weed Out the ‘Toxic’ Abuse of Online
Comments

YouTube Starts Rolling Out Its New Commenting System Based On Google+

以上由网易企业服务-企业信息化服务提供商:湖南领先网络科技有限公司
整理发布。

网易企业服务(qiye163.co)是网易凭借其20年品牌优势与经验打造的企业级产品矩阵,致力于提供一站式企业信息化解决方案。网易企业服务的推出是网易在企业邮箱的基础上对企业市场的进一步重要布局。湖南领先网络科技是网易企业产品一级经销商,专业为企业提供网易企业邮箱、网易办公套件、网站建设、域名注册等一站式信息化解决方案。