您的位置:首页 >IT界 >

食谱、维基百科、自动生成西英混合语……AI研究人员为获得数据也是拼了

1

数据是推动人工智能发展的燃料,它为我们提供了许多我们认为理所当然的进步:YouTube字幕,Spotify音乐推荐,以及在互联网上跟踪你的令人毛骨悚然的广告。

但是,在收集有用数据时,AI专家通常必须具有创造性。采用自然语言处理(NLP),这是人工智能的一个子领域,专注于教授计算机如何解析人类语言。在NLP实证方法年会上,专家们提出了一系列广泛的研究,这些研究以一些巧妙的方式收集了信息。我们总结了以下四个最有趣的方式。

西英混合语

在今年关于多语言NLP的论文中,微软提出了一个专注于处理“代码混合语言”的文本或语音,它们在两种语言之间流畅地切换。考虑到世界上一半以上的人口都是多语言的,这个未充分研究的领域很重要。

研究人员从西英混合语(Spanglish,混有西班牙语的英语)开始,但他们缺乏足够的西英混合语文本来训练机器。与多语言对话中的代码混合一样常见,它很少在文本中找到。为了克服这一挑战,研究人员编写了一个程序,将英语放入微软必应翻译器中,并将一些翻自西班牙语的短语重新编入原始文本。该程序确保转换的单词和短语具有相同的含义。就这样,他们能够根据需要创建尽可能多的西英混合语。

由此产生的NLP模型优于之前仅使用西班牙语和英语进行训练的模型。研究人员希望他们的工作最终能够帮助开发以混合代码语言自然发声的多语言聊天机器人。

食谱

食谱不止是适合制作食物,到了研究人员的手里,它们也可以为机器提供营养。它们都遵循类似的逐步模式,通常包括与文本相对应的图片 - 这是教学机器同时理解文本和图像的结构化数据的极好来源。这就是为什么土耳其哈斯特帕大学的研究人员编制了一个大约20,000个插图烹饪食谱的巨大数据集。他们希望它将成为一种新的资源,用于对联合图像文本理解的性能进行基准测试。

他们所谓的“RecipeQA”将建立在之前的研究基础上,该研究分别侧重于机器阅读理解和视觉理解。在前者中,机器必须理解问题和相关段落才能找到答案;在后者中,它会在相关照片中搜索答案。并排显示文本和照片会增加任务的复杂性,因为照片和文本可能共享互补或冗余的信息。

短句

谷歌希望AI能够为你的散文润色。为此,其研究人员创建了有史以来最大的数据集,用于将长句子分解为具有相同含义的较小句子。那么,你会在哪里找到大量的编辑数据?当然非维基百科莫属。

根据维基百科丰富的编辑历史,研究团队提取了人们分割长句的实例。结果:与此前任务的基准数据集中找到的词汇分割示例相比,语句分割示例多60倍,词汇量多90倍。该数据集还涵盖多种语言。

当他们在新数据上训练机器学习模型时,它的准确率达到了91%。 (这里,百分比反映了在重写后保留其含义和语法正确性的句子的比例。)相比之下,对先前数据训练的模型仅达到32%的准确度。当他们将两个数据集合并训练另一个模型时,它达到了95%的准确度。研究人员得出结论,未来的改进可以通过寻找更多的数据来源来实现。

社交媒体偏见

研究表明,我们生成的语言可以很好地预测我们的种族、性别和年龄,即使这些信息从未明确说过。考虑到这一点,以色列巴伊兰大学和艾伦人工智能研究所的研究人员尝试通过删除那些嵌入式指标来使用AI来消除文本偏差。

为了获得可以代表不同人口统计数据的语言模式的足够数据,他们转向Twitter。他们从用户那里收集了大量推文,这些推文均匀分布在非西班牙裔白人和非西班牙裔黑人之间;男女之间;以及18-34岁及35岁以上年龄段的人群之间。

然后,他们使用对抗方法,将两个神经网络相互对抗,看看他们是否可以自动删除推文中固有的人口统计指标。一个神经网络试图预测人口统计数据,而另一个试图将文本调整为完全中立,目标是将第一个模型的预测准确度降低到50%(或几率)。该方法最终显著减轻了种族、性别和年龄指标,但并非完全缓解。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。