句子,句子
让我们举两个词来体会它们所蕴含的情感。
“真的非常感谢。”
“谢谢你听我说,因为有你温暖了四季……”
很简单,可能会说这不是最近经常玩的段子吧。
不过,问问长辈,他们可能长得像“地铁老人看手机”。
但是,与流行文化之间存在代沟的不仅仅是长辈们,还有AI。
不,一位博主最近刊登了一篇分析谷歌数据集的文章,发现在对Reddit评论的情感辨别中,错误率高达30%。
例如,此示例:
我要向朋友发火来表达我对他的爱。
谷歌的数据集将其判断为“愤怒”。
还有以下评论:。
你的TM差点吓死我啦。
谷歌数据集将其判别为“困惑”。
你不懂我的段子。
人工智能秒变人工智障这一荒唐的错误是怎么犯的。
最擅长断章取义
这得从他的辨别方法开始。
谷歌数据集在评论标签时,会用文本进行判断。
你可以看到谷歌的数据集错误地将文字中的情绪判断为愤怒。
让我们推测一下谷歌数据集辨别错误的原因。在上面的例子中,这四条评论都包含了“脏话”。
谷歌的数据集以这些“脏话”作为判断的依据,但仔细阅读完整的评论就会发现,这个所谓的“根据”只是用来增强整个句子的语气,没有实际意义。
网友们的评论往往不是孤立的,其帖子、帖子平台等元素可能会改变整个意思。
例如,如果你看这个评论
仅凭这一点很难判断情绪因素。但是如果你知道他是来自肌肉网站的评论,猜起来可能不难。
无视评论帖子本身,或者用感情色彩强烈的词语来判断情感因素是不合理的。
一个句子不是孤立的。它有特定的语境,其意义也会随着语境的变化而变化。
通过将评论放入完整的上下文中来判断情绪色彩,判别的精度可能会大幅提高。
但造成30%高失误率的不仅仅是“断章取义”,还有更深层次的原因。
“我们的段子AI不知道。”
除了上下文干扰数据集判别外,文化背景也是非常重要的因素。
在国家区域,甚至网站社区都有自己的文化符号,这种文化符号圈外的人很难解读,因此成为一个棘手的问题。
要更准确地判断一个社区评论的情绪,就必须对该社区进行一些数据训练,深入了解整个社区的文化基因。
在Reddit网站上,网友评论说:“所有评分者都是以英语为母语的印度人。”。
这会让你对一般的惯用语、语气词和特定的“段子”产生误解。
只说这些,数据集的判别错误率高的原因变得清楚。
但同时,提高AI的情感辨别精度也有明确的方向。
例如,博主也在这篇文章中给出了一些建议。
首先,在评论标签时,要深入了解他所处的文化背景。以Reddit为例,要判断其评论的情绪色彩,必须对美国某些文化、政治有透彻的了解,还必须能迅速get专属网站的“段子”。
其次,测试标签的反讽、惯用语、茎的辨别是否正确,使模型能够很好地理解文本的意思。
最后,对验证模型的判断和我们真实的判别,进行反馈,更好地训练模型。
One More Thing
AI大牛吴恩达曾发起以数据为中心的人工智能运动。
将人工智能工作者的重点从模型/算法开发转移到训练模型的数据质量。吴恩达说。
数据是人工智能的食物。
训练数据的好坏对一个模型来说也很重要,在以数据为中心的新AI方法中,数据的一致性很重要。为了得到正确的结果,必须固定模型或代码,反复提高数据质量。
1c
发表评论