brendan

brendan(未来机器学习能不能读出唇语)

kszqyz kszqyz 发表于2022-10-23 04:57:16 浏览251 评论0

抢沙发发表评论

本文目录

未来机器学习能不能读出唇语

给你介绍一下机器学习在唇读领域的最新进展吧。

还记得经典科幻电影《2001 太空漫游》中的飞船主控计算机 Hall 吗?它具有依靠阅读说话人的嘴唇运动理解其所表达的内容的能力,这种能力也在推动那个幻想故事的情节发展中起到了至关重要的作用。2016 年 11 月,牛津大学、Google DeepMind 和加拿大高等研究院(CIFAR)联合发布了一篇同样具有重要价值的论文,介绍了利用机器学习实现的句子层面的自动唇读技术 LipNet(插句题外话,这篇论文曾被ICLR 2017 拒之门外,在学界引起轩然大波)。它不是靠语音信号而是靠图像信号,而且准确率十分惊人。在 GRID 语料库上,LipNet 实现了 93.4% 的准确度,超过了经验丰富的人类唇读者和之前的 79.6% 的最佳准确度。

唇读在人类的交流和语音理解中发挥了很关键的作用,这被称为「麦格克效应(McGurk effect)」(McGurk & MacDonald, 1976),说的是当一个音素在一个人的说话视频中的配音是某个人说的另一个不同的音素时,听话人会感知到第三个不同的音素。

唇读对人类来说是一项众所周知的艰难任务。除了嘴唇和有时候的舌头和牙齿,大多数唇读信号都是隐晦的,难以在没有语境的情况下分辨(Fisher, 1968; Woodward & Barber, 1960)。比如说,Fisher (1968) 为 23 个初始辅音音素的列表给出了 5 类视觉音素(visual phoneme,被称为 viseme),它们常常会在人们观察说话人的嘴唇时被混淆在一起。许多这些混淆都是非对称的,人们所观察到的最终辅音音素是相似的。

所以说,人类的唇读表现是很差的。听觉受损的人在有 30 个单音节词的有限子集上的准确度仅有 17±12%,在 30 个复合词上也只有 21±11%(Easton & Basala, 1982)。

因此,实现唇读的自动化是一个很重要的目标。机器读唇器(machine lipreaders)有很大的实用潜力,比如可以应用于改进助听器、公共空间的静音听写、秘密对话、嘈杂环境中的语音识别、生物特征识别和默片电影处理。机器唇读是很困难的,因为需要从视频中提取时空特征(因为位置(position)和运动(motion)都很重要)。最近的深度学习方法试图通过端到端的方式提取这些特征。但是,所有的已有工作都只是执行单个词的分类,而非句子层面的序列预测(sentence-level sequence prediction)。

这篇论文提出了 LipNet,这是第一个句子层面的唇读模型。就像现代的基于深度学习的自动语音识别(ASR)一样,LipNet 是以端到端的方式训练的,从而可以做出独立于说话人的句子层面的预测。我们的模型在字符层面上运行,使用了时空卷积神经网络(STCNN)、LSTM 和联结主义时间分类损失(CTC)。

在仅有的一个公开的句子层面的数据集 GRID 语料库(Cooke et al., 2006)上的实验结果表明 LipNet 能达到 93.4% 的句子层面的词准确度。与此对应的,之前在这个任务上的独立于说话人的词分类版本的最佳结果是 79.6%(Wand et al., 2016)。

论文还将 LipNet 的表现和听觉受损的会读唇的人的表现进行了比较。平均来看,他们可以达到 52.3% 的准确度,LipNet 在相同句子上的表现是这个成绩的 1.78 倍。

最后,通过应用显著性可视化技术(saliency visualisation techniques (Zeiler & Fergus, 2014; Simonyan et al., 2013)),论文解读了 LipNet 的学习行为,发现该模型会关注视频中在语音上重要的区域。此外,通过在音素层面上计算视觉音素(viseme)内和视觉音素间的混淆矩阵(confusion matrix),论文发现 LipNet 少量错误中的几乎所有都发生在视觉音素中,因为语境有时候不足以用于消除歧义。

为什么暂停绝地求生了

昨天晚上,大火了一年多的《刺激战场》突然公告停机了,让很多在玩游戏的人大跌眼镜,来的太突然了,23:30分左右,玩家陆续收到弹出通知,陪伴了大家一年多的国民游戏至此和大家告别。大吉大利,以后不吃鸡了,改和平唠嗑了。

其实,说意外也意外,说情理之中也是说的过去,意外是因为刺激战场已经是月活数亿的现象级游戏了,如果要停的话,应该有个过渡期,毕竟玩家突然被下线肯定影响体验。但是说情理之中也是正常,毕竟腾讯是一家公司,公司就是要赚钱的。吃鸡一直是免费的,腾讯要付出大量的研发和服务器维护费用,所以他停机也是意料之中。

首先,腾讯是在香港上市的大众持股的公司,股东是有盈利要求的,如果刺激战场一直免费不仅赚不到,反而会消耗大量服务器资源和带宽费用,人工成本也高昂,去年以来腾讯的股价并不好看,其他业务如微信的增长已经到了尽头,游戏业务依然是主心骨,盈利的大头,所以必须想办法变现。 其次,在海外市场,刺激战场的国外版的装机量已经达到3.6亿次下载了,每年的盈利上亿美元,如果横向对比的话同行的网易也杀气腾腾在日本市场赚的盆满钵满,所以腾讯不可能放任国内市场一直这么消耗下去,无法盈利。

第三,是版号问题,刺激战场因为不符合监管层的意愿,认为这类设计类游戏泰国血腥,直接以杀死对手为目的,会影响中小学生的价值观,所以一直有限制的。版号一直不给腾讯,而现在新的过审版本的游戏《和平精英》已经过完监管机关的审核。

那么就要淘汰掉刺激战场,将能下蛋的母鸡放上去。 综上3点,刺激战场的下架停机是腾讯必然走的一步棋,陪伴我们无数个快乐时光的刺激战场就此落幕了,希望大家以后:大吉大利,天天吃鸡!

在欧美,有哪些很厉害的小众歌手

大家好!这个季节,这个年,我觉得是最不热闹的一个年!疫情还没完全控制之前,希望大家出门戴上口罩哦!我是音乐领域创作者,针对此题,以下是我的观点:

现在欧美乐坛那些大咖们都烂大街了,你知道有哪些十分有特征,有实力,歌曲超棒却不温不火,不为人知的小众歌手

Down By The Sally Gardens

查理兰保夫,爱尔兰村庄歌手,五十多岁才发行第一张专辑,嗓音温文宽恕

Always on My Mind

Trobar De Morte,这位是真的很小众,网上都搜不到什么音讯,中世纪风格,有点怪异。

The Harp Of Dagda

Arianna Savall,这位也搜不到音讯,曲风安静,值得引荐

我的问答分享到此结束,感谢各位能看完!最后在这里,我祝福武汉能早日走出疫情的困扰!武汉人个个都是英雄,所以你们一定要坚强!祝大家2020事事顺心,谢谢大家!