什么是自动语音识别?

01/21/2021

在人工智能发展和全球疫情的双重作用下，企业加强了与客户的线上沟通。企业越发依赖于虚拟助手、聊天机器人以及其他的语音技术，以实现与客户的高效互动。这几类人工智能，都是依赖于自动语音识别技术，简称为ASR。ASR涉及到将语音转换为文本，促使计算机理解人类语言并与人类对话。 ASR的使用量正在与日俱增。在Deepgram与Opus Research合作进行的一项最新调查中，向来自北美洲多个行业的400名决策者调查了其公司的ASR使用情况。99%的调查对象表示，他们都有在使用ASR，主要以手机应用中的语音助手为主，这说明了这项技术的重要性。随着ASR技术的不断发展，ASR逐渐受到企业的青睐，它可以提高企业在虚拟环境中的客户服务质量。请详细阅读文章，了解更多关于ASR的信息，比如ASR工作原理、ASR最佳用例以及在部署人工智能ASR模型时如何克服常见的挑战等。

自动语音识别

自动语音识别的工作原理过去几十年里，由于强大的人工智能和机器学习算法，ASR的发展速度迅猛。如今，大多ASR程序仍使用定向对话，但一些优化版本已开始利用自然语言处理技术，这是人工智能的子领域。定向对话ASR 当您打电话给银行时，您可能体验过定向对话。如果是一些大型银行，您通常需要先与计算机互动，然后才联系到相应的人员。计算机可能会要求您简单地回答“是”或“否”来确认身份，或直接读出您的卡号。无论是哪一种情况，您都是通过直接对话式ASR来互动。这些ASR程序只限于简短的口头回答，因此词汇量有限。这些ASR程序适用于简单的客户互动，无法胜任复杂的沟通。

基于自然语言处理的ASR

如上所述，NLP是人工智能的一个子领域。NLP是指一种教会计算机理解人类语音或自然语言的方法。在下文中，我们使用了通俗易懂的语言，简要介绍了基于NLP语音识别程序的工作原理：

您向ASR程序说出一个指令，或提出一个问题。
该程序将您的语音转换为频谱图，这是机器可读的音频文件。
一个声学模型通过消除任何背景噪声（例如，狗叫声或静电）来清理您的音频文件。
算法将清理后的音频文件分解成音素。音素是声音的基本组成部分。例如，在英语中，“ch”和“t”是音素。
算法分析音素的序列，并使用统计概率来确定序列中的单词和句子。
NLP模型可以将语境应用到句子中，例如，确定您说的是“write”还是“right”。
一旦ASR程序理解了您说的内容，ASR程序就可以给予您合理的答复，并通过“文本-语音”转换技术来回复您。

虽然根据所使用的算法类型，上述流程会发生变化，但这并不妨碍我们理解ASR程序的工作原理。基于NLP的ASR没有限制，并且能够模拟真实对话，是迄今为止最先进的版本。例如，一个基于NLP的ASR系统的典型词库可以涵盖6万多个单词。评估ASR有两个维度，即单词错误率和响应速度；在理想条件下，ASR系统在理解人类语音方面可以达到接近99%的准确率。但是，大多数情况都不满足理想条件。数据科学家针对关于如何教会ASR程序理解人类语音这个主题，持续开展实验。数据科学家正在探索其他可以与完全监督学习互补的方法，这需要收集每个可能会出现的语言例子来训练人工智能，并应用主动学习等技术。与程序互动的人越多，程序自主学习能力就越强。您可以想象到，这无疑节省了研究人员的大量时间。

自动语音识别的应用

基本上，ASR应用适用于各行各业。到目前为止，已有很多客户采用了ASR技术，以优化客户体验。以下是几个突出的应用：

语音虚拟助手：受欢迎的虚拟助手有很多：谷歌助理、苹果的Siri、亚马逊Alexa和微软的Cortana。这些应用提高了获取信息的速度和效率，在我们日常生活中随处可见。未来，虚拟助手市场仍会蓬勃发展。

转录和听写：许多行业都需要语音转录服务。借助这类应用，可以转录公司会议、销售部门的客户电话、政府调查采访，甚至是记录病人的治疗过程。

教育：ASR提供了非常有用的教育工具。例如，帮助人们学习第二语言的应用。

车载信息娱乐系统：在汽车行业中，ASR被广泛应用，以优化车内体验。最新的汽车型号具有识别语音命令功能，例如驾驶员可以发出指令“将温度调高两度”。这些系统旨在将车内环境的管理工作自动化，无需驾驶员腾出方向盘上的手来完成，从而提高安全性。

安全：ASR可以识别关于“进入某些区域”的语音，提高安全性。

无障碍：ASR还是一个可以推进无障碍性的工具，未来发展前景广阔。例如，不懂或无法使用技术的人可以在智能手机上发出语音指令；例如，“打电话给Jane”。上述多个应用适用于各个行业，并且操作过程简单。由此可知，近年来ASR技术市场的呈指数级增长，实属正常现象。

如何克服自动语音识别中的挑战

在上文我们提到ASR工作的现场环境大多不符合理想条件，会对技术的精确度产生负面影响。破坏理想条件的常见因素有很多，为实施ASR的团队带来了挑战。幸运的是，您可以采取一些方法来克服这些挑战。

ASR挑战

导致ASR领域出现挑战的几个常见因素：

噪声数据

通常，噪声数据是无意义的数据。但在ASR背景下，噪声数据也有字面意义。在理想环境中，音频文件里语音清晰且没有背景噪声，但现实往往并非如此。音频数据中可能会包含一些无关的噪声，例如有人在背景中咳嗽，有其他人在主扬声器上说话，有建筑噪声，甚至是静电。一个高质量的ASR系统能够提取出有用的音频数据，并消除无意义的数据。

发言者差异性

ASR系统经常需要理解性别、地区、背景各不相同的人的语音。以下是人类语音出现差异的多个方面： – 语言 – 方言 – 口音 – 音高 – 音量 – 语速若想让ASR系统为所有终端用户提供一致卓越的体验，ASR系统需要能够理解和解释多种不同的语音。

硬件设施质量低

大多公司都缺乏高质量的录音设备，从而导致音频文件中出现上文提到的噪声数据。

同音字和语境障碍

仅仅是英语一门语言，就存在多个同音词，即发音相同但含义不同的词。ASR系统需要依靠一个高度准确的NLP算法来运行，以根据语境来解释每位发言者的说话内容。

单词之间缺少界限

我们在写字或打字时，会使用空格、标点符号等来分开每个单词和句子。但如果是在说话，单词和句子就会连成一串。在这样的情况下，ASR程序无法将一连串语音分成独立片段。

通往成功的道路

幸运的是，通过个性化的数据采集和标注项目，我们可以解决部分挑战。您可以采集，甚至有机会创建语音数据集，这个数据集更能代表客户的语音差异情况，提高客户服务质量。您可以选择自己解决问题，也可以选择和拥有ASR经验的第三方数据供应商合作，充分利用其专业知识和工具。合适的数据合作伙伴可以为您提供特定用例所需的数据，以及与您ASR应用兼容的数据平台，助力您快速启动项目。目前，很多数据供应商都能提供用于语音识别的成品数据集，但这还不够，他们应该还能根据多元化的发言者群体，满足您独特的数据需求。此外，数据供应商还可以提供工具，帮助您克服上文中提到的挑战。选择合适的合作伙伴对ASR计划的成功起着决定作用。

数据科学总监Chi Zhang的专业洞察

在培训前，了解ASR应用的使用场景：像TIMIT、Librispeech这样的标准语料库已被广泛用于ASR模型的初始训练或现有ASR模型的基准测试。但正是应用使用场景的数据，对您最终交付的ASR模型性能起着更关键的作用。在ASR模型的训练数据采集或合成阶段，定义ASR应用的使用场景，了解应用会面对着怎样的录音工具、声学环境、领域特定的术语和词汇，甚至是用户的年龄、性别、健康状况分布。使用与应用场景相匹配的训练数据，可以提升ASR应用的性能。

关注您使用的语言模型：在定义ASR应用的使用场景以及准备好相关的训练数据后，与使用通用语言模型相比，使用特定领域的语言模更能提高ASR应用的性能。由于最近的发展，即使在特定的领域或应用中，世界各地不断出现新的词汇、缩写和术语。基于这种趋势，重新训练语言模型或调整语言模型中的热词权重，可以保证ASR的性能水平，跟上用户的发展步伐。

迭代更新模型：近年来，新的工具和前端技术在市场上不断涌现。随着用户趋势和事件的发生，出现了新的词汇和术语。ASR模型，包括声学模型和语言模型，需要通过可靠的标注和转录新数据来重新训练或迭代更新。如此，ASR应用可以提供始终如一的用户体验，或优化用户体验。

我们能为您做些什么

澳鹏可以提供高质量、带标注的训练数据，为业界最具创新性的机器学习和商业解决方案赋能。帮助构建能够理解和提取人类文本和语音含义的智能系统，该系统可用于多种使用场景，例如聊天机器人、语音助手、搜索相关性、转录等等。我们的许多标注工具都具有智能标注功能，利用机器学习模型进行自动标注，提高标注员的工作效率和准确度。我们了解当今企业的复杂需求。澳鹏成立25余年来，支持235+种语言和方言为世界各地政府机构和大型企业提供高质量的语言数据和服务。详细了解我们的ASR能力或点击联系我们，直接与我们交流。

澳鹏提供290+种语言方言的语音数据服务，包括清洗、切分、转写、标注等，为您的语音处理需求提供全面支持。

联系我们