人工智能秒变人工智障这一荒唐的错误是怎么犯的(别让人工智能导致人工愚蠢)

 人工智能秒变人工智障这一荒唐的错误是怎么犯的(别让人工智能导致人工愚蠢) 热门话题

句子,句子

让我们举两个词来体会它们所蕴含的情感。

“真的非常感谢。”

“谢谢你听我说,因为有你温暖了四季……”

 人工智能秒变人工智障这一荒唐的错误是怎么犯的(别让人工智能导致人工愚蠢) 热门话题

很简单,可能会说这不是最近经常玩的段子吧。

不过,问问长辈,他们可能长得像“地铁老人看手机”。

但是,与流行文化之间存在代沟的不仅仅是长辈们,还有AI。

不,一位博主最近刊登了一篇分析谷歌数据集的文章,发现在对Reddit评论的情感辨别中,错误率高达30%。

 人工智能秒变人工智障这一荒唐的错误是怎么犯的(别让人工智能导致人工愚蠢) 热门话题

例如,此示例:

我要向朋友发火来表达我对他的爱。

谷歌的数据集将其判断为“愤怒”。

还有以下评论:。

你的TM差点吓死我啦。

谷歌数据集将其判别为“困惑”。

 人工智能秒变人工智障这一荒唐的错误是怎么犯的(别让人工智能导致人工愚蠢) 热门话题

你不懂我的段子。

人工智能秒变人工智障这一荒唐的错误是怎么犯的。

最擅长断章取义

这得从他的辨别方法开始。

谷歌数据集在评论标签时,会用文本进行判断。

你可以看到谷歌的数据集错误地将文字中的情绪判断为愤怒。

 人工智能秒变人工智障这一荒唐的错误是怎么犯的(别让人工智能导致人工愚蠢) 热门话题

让我们推测一下谷歌数据集辨别错误的原因。在上面的例子中,这四条评论都包含了“脏话”。

谷歌的数据集以这些“脏话”作为判断的依据,但仔细阅读完整的评论就会发现,这个所谓的“根据”只是用来增强整个句子的语气,没有实际意义。

网友们的评论往往不是孤立的,其帖子、帖子平台等元素可能会改变整个意思。

例如,如果你看这个评论

仅凭这一点很难判断情绪因素。但是如果你知道他是来自肌肉网站的评论,猜起来可能不难。

 人工智能秒变人工智障这一荒唐的错误是怎么犯的(别让人工智能导致人工愚蠢) 热门话题

无视评论帖子本身,或者用感情色彩强烈的词语来判断情感因素是不合理的。

一个句子不是孤立的。它有特定的语境,其意义也会随着语境的变化而变化。

通过将评论放入完整的上下文中来判断情绪色彩,判别的精度可能会大幅提高。

但造成30%高失误率的不仅仅是“断章取义”,还有更深层次的原因。

“我们的段子AI不知道。”

除了上下文干扰数据集判别外,文化背景也是非常重要的因素。

在国家区域,甚至网站社区都有自己的文化符号,这种文化符号圈外的人很难解读,因此成为一个棘手的问题。

要更准确地判断一个社区评论的情绪,就必须对该社区进行一些数据训练,深入了解整个社区的文化基因。

在Reddit网站上,网友评论说:“所有评分者都是以英语为母语的印度人。”。

 人工智能秒变人工智障这一荒唐的错误是怎么犯的(别让人工智能导致人工愚蠢) 热门话题

这会让你对一般的惯用语、语气词和特定的“段子”产生误解。

只说这些,数据集的判别错误率高的原因变得清楚。

但同时,提高AI的情感辨别精度也有明确的方向。

例如,博主也在这篇文章中给出了一些建议。

首先,在评论标签时,要深入了解他所处的文化背景。以Reddit为例,要判断其评论的情绪色彩,必须对美国某些文化、政治有透彻的了解,还必须能迅速get专属网站的“段子”。

其次,测试标签的反讽、惯用语、茎的辨别是否正确,使模型能够很好地理解文本的意思。

最后,对验证模型的判断和我们真实的判别,进行反馈,更好地训练模型。

One More Thing

AI大牛吴恩达曾发起以数据为中心的人工智能运动。

 人工智能秒变人工智障这一荒唐的错误是怎么犯的(别让人工智能导致人工愚蠢) 热门话题

将人工智能工作者的重点从模型/算法开发转移到训练模型的数据质量。吴恩达说。

数据是人工智能的食物。

训练数据的好坏对一个模型来说也很重要,在以数据为中心的新AI方法中,数据的一致性很重要。为了得到正确的结果,必须固定模型或代码,反复提高数据质量。

 人工智能秒变人工智障这一荒唐的错误是怎么犯的(别让人工智能导致人工愚蠢) 热门话题


1c

发表评论

Copyright 2002-2022 by 上海市精美塑料包装有限公司(琼ICP备2022001899号-3).All Rights Reserved.