(翻译)从图像中学习语言
此文为我自己翻译的,首次被发布在微信公众号:大数据分析挖掘(BigData321)上
原文地址:MIT-NEWS
系统将记录的语音与图像相关联,可能会引领全自动语音识别的未来。
语音识别系统,像手机上那些语音转换成文本的,通常是机器学习的结果。电脑钻研数千甚至数百万音频文件和它们的转录,学习其声学特性对应的词。
但转录录音是昂贵、费时的工作,这将语音识别局限在了富有国家中的一小部分语言。
在本周的神经信息处理系统(NIPS)大会上,来自麻省理工学院的计算机科学与人工智能实验室的研究人员(CSAIL)提出了一种新的方法训练语音识别系统而不依赖转录。相反,他们的系统分析图像与对图像的口语描述之间的相关性,如从大量的音频记录中捕获的对图像的口语描述。然后,系统学习这些记录相关的声学特性与图像特征。
“这项工作的目标是让机器学习语言的方式更像人类,”CSAIL高级研究科学家,新系统论文的合著者Jim Glass说,“当前人们用于训练语音识别器的方法是非常监督式的。你得到一段话,然后被告知说的是什么。你为大量的数据做这个。”
“已经取得了很大的进步——比如Siri和谷歌——但获得这些注释是昂贵的,人们因此真正专注的是世界上的主要语言。世界上有7000种语言,我认为只有不到2%的语言有ASR(自动语音识别)能力,可能不会有人来解决其他语言。所以,如果你想尝试思考科技如何更大程度上造福社会,想想我们需要去改变的现有形势是很有意思的。这些年来我们一直讨论的方法是,着眼于我们可以从更少的监督学习中学到什么。”
将Glass加入论文合著者行列的是第一作者David Harwath与Antonio Torralba,前者是一位麻省理工学院电子工程与计算科学(EECS)研究生,后者是EECS的一位教授。
视觉语义
论文中写到这个版本的系统不关联语音录音与其文本,相反,它关联的是语音与其主题相关的一组图像。但这种相关性可以作为其他的基础。
举例而言,如果一段话语与一类特定图像相关联,同时这些图像又有与它们相关的文本,它应该可以为这段话语找到可能的转录,这些都无需人工干预。同样地,一类图像相关的文本提供了一种自动翻译的方法。
反过来说,文本相关的类似的图像,比如说“风暴”和“云”,可以推断出有相关的含义。因为在某种意义上系统在学习词语的意思——与它们相关的图像——而不仅仅是它们的发音,它比标准的语音识别系统有更广泛的潜在应用。
为了测试他们的系统,研究人员使用有1000个图像的数据库,每个都有一项与其相关的自由形式的语言描述记录。他们给他们的系统提供其中一个记录,然后要求它检索并反馈10个最匹配的图像。一次得到的10个图像包含正确的那个的概率是31%。
“我一直强调,我们还在像婴儿那样学步,我们还有很长的路要走,”Glass说,“但这是一个鼓舞人心的开始。”
研究人员通过一个庞大的数据库从图像中训练他们的系统,该数据库由Torralba、CSAIL主要研究科学家Aude Oliva以及他们的学生建立。通过亚马逊众包(Amazon’s Mechanical Turk)网站,他们筹集大众用语言描述图片,在大约10秒到20秒的时间内,想到什么说什么。
对于研究者采用的方法的初步论证,这种定制的数据对于确保良好的结果是非常有必要的。但训练系统的最终目标是使用数字视频,尽可能减少人工参与。“我认为这将自然地推广到视频。”Glass说。
模式融合
为了建立他们的系统,研究人员使用神经网络,近似地模仿大脑结构的机器学习系统。神经网络由处理节点组成,像单个神经元一样,处理节点只能进行非常简单的计算,但它们通过密集的网络中彼此连接。数据被送到网络的输入节点,输入节点修改它然后将它送到其他节点,这个节点修改它然后再将它送到其他节点,如此循环。当一个神经网络被训练时,它不断地修改节点执行的操作,以便在特定的任务上提高性能。
实际上研究者的网络是两个独立的网络:一个以图像作为输入,另一个作为频谱图,其代表音频信号作为振幅随时间变化的分量频率。每一个网络顶层的输出都是一个1024维向量——一个1024个数字的序列。
网络的最终节点是两个向量的点积。更确切地说,它将向量中的对应项相乘然后将它们全部加起来产生一个单一的数字。在训练过程中,网络必须尝试在音频信号对应图像时使点积最大化,同时在不对应时使点积最小化。
对于每一个研究人员系统分析的图谱,它可以识别点积的峰值极点。在实验中,这些峰值确切地选出了词,这些词提供了准确的图片标签——例如“棒球”这个词,系统会选择一个正在投球的棒球投手的照片,或者“草地”和“运动场”,系统会选择一片草地的图像。
在正在进行的工作中,研究人员已经完善了系统,使得它能挑选出单个词的频谱图,并且识别出它们对应的图像的区域。
“可能一个婴儿从他对环境的感知中学习说话,其中很大一部分是视觉上的,”国立台湾大学电子工程与计算科学教授李琳山说,“今天,机器学习已经开始模仿这样的学习过程。这项工作是这个方向上最早的努力之一,我第一次学习它的时候真的是印象深刻。”
“或许更令人兴奋的是我们可以通过深度神经网络学习多少,”芝加哥大学丰田技术研究所助理教授Karen Livescu补充说,“研究社区做得越多,我们越意识到他们可以从大量的数据中学到很多。但是很难标记大量的数据,所以这项工作是真的令人兴奋,Harwath等人能够从未标记的数据中学习。我真的很好奇,想看看他们能够走多远。”