研究表明唇读准确率远低于影视作品呈现的水平,专业唇读者正确识别单词率仅52.3%,大脑会在无意识中将视觉和听觉信号融合来理解语言。

唇读是真实的技能,但远不如电影和电视剧所暗示的那样精确。英语中只有约40%的发音可以从嘴唇上视觉区分,这意味着即使是熟练的唇读者也在处理不完整的信息,需要通过上下文、面部表情和肢体语言来填补空白。

大脑在对话中会不断将所见与所闻混合,无论你是否意识到这一点。1976年通过著名的McGurk效应得到了证明:当研究人员播放一个音节的音频同时配上发出不同音节的嘴部视频时,听者一致感知到第三种混合声音,这种声音既不匹配音频也不匹配视频。大脑将两个流融合为统一的感知,听者无法将它们分离。

这反映了日常言语感知的工作方式。大脑根据听觉和视觉信号的可靠性来权衡两者。在嘈杂的餐厅中,嘴部的视觉信号变得更加重要,大脑会自动更依赖它。脑成像研究表明,观看某人说话会激活涉及听觉处理和视觉运动感知的区域。

唇读准确率极低,远没有影视里看起来那么靠谱

唇读的核心挑战是许多不同的发音产生相同的嘴形。语言科学家将这些外观相似的发音归类为viseme。例如p、b和m都涉及双唇闭合然后释放,看起来完全相同。f和v也是如此,都涉及上齿触碰下唇。早期分类发现英语中仅有四个视觉上可区分的辅音组,这意味着数十种不同发音折叠成少数几个可见嘴部动作。

专业唇读者的表现显著优于未受训者,但数字低于多数人预期。在一项基准测试中,人类唇读专家正确识别了52.3%的单词。当以零错误转录来衡量时,准确率降至仅12.4%。这些数据来自条件良好的受控环境,真实环境中的准确率通常更差。

对于听力损失者来说,添加视觉言语线索能带来显著改善。一项针对老年人的研究发现,将视觉唇部线索与听觉输入结合,比仅使用音频提高了35%的单词识别率。专门的言语阅读训练通常能提升10到15个百分点的识别能力。

物理条件对唇读影响巨大。研究发现,当阅读者必须从90度侧角而非正面观看时,唇读得分下降14%到22%。在0到45度范围内,距离越近准确率越高。光照也扮演复杂角色:头顶照明在口腔内投射阴影时得分降低3%到12%,当说话者站在明亮窗户前时准确率骤降41%。

人工智能已在唇读基准上超越人类。牛津大学开发的LipNet系统在标准句子级数据集上达到93%的准确率,而同一测试中人类专家为52%。这表明AI系统能够提取人类无法检测的视觉言语信息,可能通过捕捉舌头位置、下颌运动和时序中过于细微的模式来实现。

原文:https://phys.org/news/2026-06-visual-words-reveals-lip-readers.html