机器听力:使语音识别系统更具包容性

科技
0 131

机器听力:让语音识别系统更具包容性

语音技术的交互,如亚马逊的Alexa、苹果的Siri和谷歌助手,通过提高效率和生产力来使生活更加便利。然而,在交互过程中,生成和理解语音时出现错误是常见的。使用这些设备时,说话者经常会将他们的语音样式从其正常模式转换为更大声、更慢的注册,称为技术指导的语音。

对技术指导语音的研究通常着眼于美国英语的主流变体,而没有考虑到那些更经常被技术误解的说话群体。在代表声学学会的AIP出版社发表的JASA Express Letters上,来自谷歌研究、加州大学戴维斯分校和斯坦福大学的研究人员希望填补这一空白。

语音技术经常误解的一个群体是说非洲裔美国人英语(AAE)的个体。由于自动语音识别错误的比率可能更高,技术中的语言歧视可能会导致下游影响。

“在所有的自动语音识别系统中,每四个由黑人男性说出的单词中就有一个被错误地转录了,”合著者Zion Mengesha说道。“这影响了在使用语音技术的各个机构中,包括医疗保健和就业领域中的非洲裔美国人英语说话者的公平性。”

“我们看到了一个机会,通过与黑人用户交谈并了解他们在与语音技术互动时的情感、行为和语言反应,以更好地理解这个问题,”合著者Courtney Heldreth说道。

该团队设计了一个实验,测试了AAE说话者在想象与语音助手交谈时如何调整他们的语音,相比之下是与朋友、家人或陌生人交谈。该研究通过比较语速和音高变化,测试了熟悉的人类、陌生的人类和语音助手导向的语音条件。研究参与者包括19名自我认定为黑人或非洲裔美国人的成年人,他们曾经遇到过语音技术的问题。每位参与者向语音助手提出一系列问题。这些问题也被重复,仿佛在与熟悉的人交谈,再次重复,仿佛在与陌生人交谈。共记录了153个录音。

对录音的分析显示,与与其他人交谈时相比,说话者在与语音技术交谈时表现出两种一致的调整:较慢的语速和较少的音高变化(更单调的语音)。

“这些发现表明,人们有针对与技术交谈的心理模型,”合著者Michelle Cohn表示。“他们采用一套‘模式’以更好地被理解,考虑到语音识别系统的差异。”

还有其他被语音技术误解的群体,比如第二语言使用者。研究人员希望扩大在人机交互实验中探索的语言变体,并解决技术中的障碍,使其能够支持所有想要使用它的人。

0 收藏 分享 举报
  • «
  • »