如何更好地使用语音数据集？常用数据集列表

04/27/2022

您的语音识别系统是经济高效，还是差强人意，这取决于您的数据。机器学习项目能否成功推出和获得投资回报，最重要的决定因素就是数据。如果您计划构建一个语音识别系统或对话式AI（聊天助理），则需要一个大型语音识别数据集。

如今，如何获得所需要的数据并确保数据的高质量是许多公司面临的难题之一，因为高质量的数据才能帮助他们构建成功的机器学习模型。

合适的数据集可以小成本解决大问题

预标注数据集的重要性在于它们如何使公司或组织受益。预标注数据集可以使组织更快地进入部署阶段，并减少资金投入。

如果选择现成数据集，而不是自行构建数据集或购买自定义数据集，您就可以将团队的大部分时间和资金投入语音识别模型的构建和训练中。当无需过多关注收集和标注数据，您就能集中所有资源进行模型的构建和训练，从而获得质量更高、性能更好的模型。有了更好的模型，您的投资就会得到更高的回报，有更好的成效和更佳的见解。

无论您身在何处，都能从组织的现成数据集中受益。现成数据集能以更低廉的成本提供更好的数据，得以让更多的组织有效地构建并推出语音识别机器学习模型。

实践中的成品数据集

来自MediaInterface的一个实践中预标注数据集示例。虽然MediaInterface与医疗相关机构合作并收集数据已达20多年，但因为德语是他们主要市场使用的语言，他们绝大多数的数据都是德语数据。

MediaInterface希望将业务扩展到法国，因此需要法语数据。他们面临的另一个障碍是，由于《通用数据保护条例》（GDPR）的保护和指导方针，许多地名数据被修改了。于是，MediaInterface向澳鹏求助。

MediaInterface通过使用澳鹏的一个预标注数据集，从中获得21,000个法语名称和14,000个地名。这些数据帮助他们在新市场中有效地扩展业务。

通过使用预标注数据集，MediaInterface并未投入巨大的成本，就在一个新市场中有效地拓展了业务。

成品语音数据集

对于缺少时间或资源自行构建自定义数据集的公司来说，预标注数据集是一个新的选择。预标注/成品语音识别数据集是一组已标注和编译的音频文件，可用作训练数据，用于为对话式AI（聊天助理）等用例构建机器学习模型。

预标注数据集的优势在于，它们已经被构建好，随时可以使用。在使用预标注数据集之前，公司要么从零开始自行构建数据集，收集并标注每个数据点，要么雇佣其他公司为他们构建数据集。无论是自行构建数据集还是购买自定义数据集，对公司资源都是耗费时间和资金的难题。

现在，有大量预标注语音识别数据集可供选择。获得预标注数据集可以有两种选择：购买或开源。这两种选择各有千秋，您只需根据本公司情况选择合适的一种。

通过互联网，您可以找到十几种甚至更多可用于查找和购买预标注语音识别数据集的资源。在澳鹏，我们拥有超过250个数据集，其中包括超过11,000小时的音频数据集，涉及80种不同语言和多种方言的870万个单词。

成品数据集示例

预标注数据集是启动AI或机器学习项目的一个很好的资源，无论其来自澳鹏还是其他供应商。有了现成的预标注数据集，您就可以直接进入训练模型阶段，免去任何项目延迟。使用预标注数据集经济高效，能够加快部署。自行构建或购买数据集从开始到完成平均需要8到12周的时间，而购买和接收一个预标注数据集只需要几天到一周时间。

网上有许多资源提供预标注语音识别数据集。您可以从我们的网站着手筛选音频数据集，也可以查看我们下面建议的其他付费或开源数据集资源。

以下各数据库均包括语音音频文件和文本转录，您可以使用它们构建您的语音语料库。这些数据库包含各种不同声学条件下各种说话者的话语，可为您提供高质量、多样化的数据。

澳鹏：世界各地的阿拉伯语语音数据集

我们的预标注语音识别数据集存储库包含世界各地许多不同的阿拉伯语语音数据集。我们有埃及、沙特阿拉伯和阿联酋等国家的阿拉伯语语音数据集。

澳鹏：婴儿哭声

我们最新的一个预标注音频数据集是预先录制和标注的婴儿声音。在这些音频文件中，您会听到不同的婴儿哭声和声音。这个数据集非常适合训练AI模型识别不同类型的婴儿声音和哭声，并可用于提醒婴儿父母。

澳鹏：不太常见的语言

市场上预标注数据集存在的一个主要问题是，它们侧重于欧洲语言或英语。我们的预标注数据集存储库包含不太常见的语言，如：

印度尼西亚语
孟加拉语（孟加拉国）
保加利亚语（保加利亚）
中高棉语（柬埔寨）
克罗地亚语
达里语（阿富汗）
东北话（中国）
希腊语
匈牙利语
普什图语
波兰语
土耳其语
维吾尔语（中国）
武汉话（中国）

以上只是我们100多个语音识别预标注数据集中的一小部分语言和方言。查看全面列表，请点击：澳鹏的成品数据集

澳鹏：母语非中文人士说中文数据集

我们现有的语音识别存储库中包含的一个母语非中文人士的中文语音数据集。这种数据集非常适合在训练数据集中构建更多类型的说话者和口音，由此将产生性能更好的机器学习模型。

这个数据集包括200小时的外国人讲中文的语音。说话者来自以下国家/地区：

阿根廷
澳大利亚
加拿大
埃及
中国香港
印度
印度尼西亚
日本
哈萨克斯坦
肯尼亚
韩国
吉隆坡
吉尔吉斯斯坦
老挝
马来西亚
毛里求斯
蒙古
菲律宾
俄罗斯
新加坡
南非
塔吉克斯坦
泰国
土耳其
美国
越南

澳鹏：全球不同地区说同一个语言数据集

我们的预标注数据集的另一个独特之处在于，您可以从中获得使用不同地区方言讲述的同一种语言的数据集。例如，德语数据集就不仅包括德国人说的德语。如果您要为说德语的人构建一个机器学习模型，要是您的数据集只包含德国人说的德语，您的数据就不完整。

这些涵盖世界各地人语音的数据集包括：

英语
法语
西班牙语
德语
意大利语

LibriSpeech

在非澳鹏提供的现成数据集中，我们强烈推荐LibriSpeech。这个数据集是LibriVox项目的一个组成部分，该项目包括自有声读物汇编的语音数据。这个数据集中包含大约1000小时的被分割和标注的语音数据。

M-AI实验室语音数据集

语音识别数据集存在的另一个常见问题是，它们无法代表性别，因为它们通常以男性声音为主，而女性声音很少，这可能会导致语音助手和其他机器学习模型的能力存在性别偏见。

这就是我们从预标注数据集中推荐M-AI实验室语音数据集的原因所在。它包括近1000小时的成对音频转录，代表着几种语言的男性和女性声音。

有很多不同的来源可为您提供高质量的预标注数据集，它们可用来训练您的机器学习模型，帮助您有效地进入部署阶段。

开源语音数据集列表

使用现成数据集训练语音识别机器学习模型是一种经济高效的部署方式。但是，如果您的开发预算非常紧张，还有另一种成本更低的选择。

您可以免费使用开源语音识别数据集。这些开放数据集包括由各种团体或人员提供的音频文件和文字记录。您可以在网上找到各种不同来源的开源数据集。您可能需要多花一些时间去寻找一个开源数据集并验证它的质量，但这些多花的时间却可以为您省下一大笔钱。

下面是一些我们建议您尝试使用的开源语音识别数据集。

Kaggle

Kaggle是一个寻找开源语音识别数据集的好地方。Kaggle是一个在线社区，数据科学家和机器学习工程师在此分享数据、想法和构建机器学习模型的技巧。在Kaggle上，您可以找到50,000多个适用于各种用例的开源数据集。

Common Voice

另一个很棒的开源语音识别数据集来自Common Voice。这个数据集包含60多种不同语言的7000多小时的语音。这个数据集与其他数据集的不同之处在于，它包含了年龄、性别和口音的元数据标签，这些可以帮助您训练机器学习模型，并构建准确的结果。

homink

homink来自韩国国立国语院，包含120小时的韩语语料库。对于希望在机器学习项目中包括韩语的人来说，这个专业开源数据集是一个很好的资源。

siddiquelatif

siddiquelatif是另一个独特的开源数据集。这个数据集包括了从乌尔都语脱口秀中收集到的400句乌尔都语话语。这些话语代表了男性和女性说话者以及各种各样的情绪。

与可供购买的预标注数据集相比，开源数据集有时在规模和质量上可能会有所欠缺，但如果您希望在预算紧张的情况下启动机器学习项目，它们会是个不错的选择。只要稍作研究和挖掘，您就可以找到高质量的开源语音识别数据集。

语音数据集：使用中的致命问题

质量是机器学习模型训练数据的一个关键要素。将高质量的训练数据输入机器学习模型中，就会获得高质量的结果。如果使用的数据质量不高，结果也会差强人意。

虽然高质量的数据似乎是一个含糊不清的问题，但在检查和选择现成数据集时，有几个大问题需要注意。

忽视不太常用的语言

许多预标注数据集并不能代表所有的语言，甚至不能代表最常用的语言。在网上浏览预标注数据集时，您会注意到有些语言的数据集比较难找。这种语言偏见使得构建和训练具有代表性的机器学习模型变得困难重重。

虽然会存在这种偏见，但您也可以找到一些用于纠正这种偏见的程序。例如，开源数据集homek和siddiquelatif分别代表韩语和乌尔都语。

另一个关于代表性不足的语言的数据库来自蒙特利尔计算机研究所。这个数据库让使用讲土著语言的录音和创建可靠的转录变得容易。这个数据库所包括的土著语言有：

因纽特语
东克里语
伊努语
奇佩维安语

虽然您可能会发现其他使用土著语言的数据集，但这个数据集的独特之处在于其标注和索引。您可以使用关键词搜索数据库、执行语音分割和使用语言标注工具。这类高质量数据集使得构建土著语言的自动语音识别模型成为可能。

在寻找预标注数据集和构建语音识别机器学习模型时，认识到潜在的偏见是非常重要的。您应该在数据集中寻找偏见，并尽量避免将其构建到模型中。

使用有偏见的数据

有偏见的数据是预标注数据集存在的另一个主要问题。数据和语音识别机器学习模型会有许多不同形式的偏见。两种最常见的偏见是性别偏见和种族偏见。一般来说，市场上的机器学习模型识别女性和有色人种语音的能力较差。尽管语音识别软件近年来已经有所进步，但这还不够。

斯坦福大学2020年的一项研究对亚马逊、IBM、谷歌、微软和苹果等公司的2000个语音样本的语音转文本项目进行了研究。他们发现，这些语音转文本服务识别黑人说话者的词语的误认率几乎是白人说话者的两倍。这种偏见体现了数据缺乏多样性和训练数据的偏见。要部署一个成功的机器学习模型，关键是数据要代表整个人群，而不仅仅是人群的一部分。

种族偏见并不是语音识别机器学习模型面临的唯一偏见。研究还发现，语音识别模型中存在性别偏见。Tatman博士在计算语言学协会北美分会发表的一项研究发现，谷歌的语音识别软件对识别男性语音的准确率比女性高13%。这种差异似乎很小，但值得注意的是，与必应、AT&T、WIT和IBM Watson相比，谷歌的性别偏见还是最小的。

与其他任何机器学习模型一样，语音识别模型通过使用大量数据的训练来学习。因此，训练数据集的质量对于部署成功的机器学习模型至关重要。如果使用有偏见的、低质量的数据，您的模型就将产生有偏见的、低质量的结果。模型会模仿在数据中发现的偏见。即使这些偏见是无意的，它们仍然可能损害用户和公司利益。数据越多样化，机器学习模型的偏见就越小。

如何避免数据中的偏见

在构建机器学习模型时，要确保模型的成功和投资的高回报，使用无偏见的训练数据是关键。避免和消除机器学习模型中的偏见并不能一劳永逸。消除偏见需要注意细节、认真计划和深思熟虑。

以下是一些可以减少机器学习模型偏见的小例子：

提供内隐偏见训练，以提高对偏见的认识。哈佛大学的“内隐和公平的AI”等资源提供了有关项目和研讨会。
搜索偏见较少的数据，不要满足于找到的第一个现成数据集。
调查数据提供者，查阅他们关于AI偏见的文章。
在推出机器学习模型之前，请不同测试人员来发现偏见。
承认偏见是我们世界的一部分，也是我们数据的一部分。

随着机器学习模型在我们日常生活中变得日益重要，让人人都能平等使用这项技术将至关重要。

构建能够学习和适应的AI

机器学习模型的一个重大转变可以帮助消除偏见，构建能够在使用过程中学习和适应的模型。当机器学习模型可以边使用边学习时，它们就能更好地适应不同的子集、人群和环境，使它们的适应性更强，偏见更少。

Verbit就是一例，它是一种内部AI工具，每次使用都会让它变得更智能。用户可以上传词汇表，包括说话人的姓名和复杂的词语，这样机器学习工具就可以更容易地识别这些词语，并生成更准确的转录。同样，该模型还可以从稍后人类审查转录时做出的更正中学习。

这种人与模型之间的反复交互可以让模型不断地学习、改变和适应。这样就能生成一个偏见更少、适合人人使用的模型。正如该例一样，AI应该适应用户，而不是让用户去适应AI。当机器学习模型能够通过与更多人的互动不断学习并改进时，我们就没有必要满足于平庸的结果。

招聘的多样性

说到偏见，我们不能目光短浅。偏见是我们文化的一部分，为了消除技术中的偏见，我们必须在社区中减少偏见。这意味着要我们要改变招聘做法。

团队越有代表性，机器学习模型和数据就越有代表性。负责审查项目、决策和数据的人员越具有多样性，机器学习模型中出现内隐偏见的可能性就越小。构建模型时，我们会自然而然地从个人角度出发。但是，这却并不能带来最好的模型或产品。要构建适合所有人的最佳产品，关键是让更多多样化的人员参与其中。这就需要从招聘的做法开始。

澳鹏成品数据集

如果您正在寻找高质量的现成数据集来帮助训练您的语音识别模型，那么澳鹏可以提供帮助。我们有各种各样的预标注数据集，可以用于各种用例。我们有代表超过80种不同语言和方言的数据集，您一定能从中找到所需要的正确数据。

在澳鹏，我们还努力提供有代表性的、无偏见的数据。

无论您在寻找什么，我们都有资源可以提供帮助。您可以在我们预标注语音识别数据集中进行选择，向我们购买定制的语音识别数据集。如果在我们的列表中没有找到合适的，我们还能帮助您找到适合您用例的现成数据集。我们拥有您从头到尾部署语音识别机器学习模型所需的各种工具和服务，为您提供全流程保障。

了解预标注数据集如何为您节省时间和资金。

澳鹏提供600+成品数据集，包括ASR、文本、发音词典、图像及视频，为您的快速部署提供高质量数据。

查看数据集列表