语音分割和语音转写工具 | 澳鹏数据标注平台

09/29/2021

语音是人与人沟通的最重要方式，要让机器理解人类世界，因此，语音识别能力是让机器理解世界的基础能力。通过深度学习算法建立的语音识别模型效果较好，但训练模型需要用到大量结构化的语音数据，即对非结构化的语音数据进行结构化处理，基础的结构化处理包括语音分割和语音转写。

澳鹏Appen中国自主研发的人工智能辅助数据标注平台MatrixGo，集成了为多样场景定制的标注工具箱。其中，语音分割和语音转写工具便是Appen团队专门针对高质量的语音识别模型训练而研发。

语音分割工具

语音分割是指标记语音信号的开始时间和结束时间，划分语音中句子、单词、音节等的边界。根据算法要求的不同，语音分割标注有很多种不同的标注方式。

分割时，根据是否有实际说话内容，可以将音频分割为有效和无效片段。对无效片段，根据算法要求，可以选择两种不同的处理方式：

或只分割出有效片段，无效片段不做分割。针对两种不同的标注方式，需要标注工具支持不同的模式。

当一段语音中同时有多个说话人说话时，会有不同的分割方式：根据主说话人的语音内容分割，有多个说话人同时说话时，只分割出主说话人的语音；或独立分割每个说话人的语音内容，不同说话人的分段可能会有重叠。

在实际项目中，通常要求切分时间点与第一个音节的开始时间只相差几百甚至几十毫秒，这对于标注工具及人员操作的要求较高。澳鹏Appen标注工具可提供刻度、量尺等功能，辅助达到高标准的标注精度要求。

澳鹏Appen标注工具还可以使用语音分割算法对数据进行预处理，使得实际标注时只需要在预处理的基础之上做出调整即可，大大提高标注效率和速度，降低成本。

语音转写是将分割出的每个语音段里的内容转写成文字。除了转写出文本外，还可以给语音设置属性标签、文本标签等，以满足语音分类、情绪判定等不同标注需求。

由于不同说话人的语速、说话清晰度等都不尽相同，因此标注工具需要支持不同的播放速度设置，以及不同的语音播放模式。

在分割出语音片段后，工具支持给每个片段选择不同的属性标签，如说话人、情感、内容分类等等，可用于对语音内容的分类；在转写文本中，工具亦支持进一步在文字中设置停顿、强调、疑问等文本标签。

同样地，语音转写工具也具有算法辅助功能：标注员完成音频分割后，可通过算法预转写语音内容，并在预转写结果的基础上进行修改。

澳鹏自主开发的数据标注平台承载了多种标注工具，包括3D点云，2D图像，文字与语音等多种标注工具，并且包含智能标注、人工智能辅助标注等功能。同时，您可以通过SaaS和私有化部署方式使用MatrixGo，为您的项目进行高效赋能。如有兴趣，可以联系我们，我们的项目经理会为您进行功能演示以及提供报价。

澳鹏MatrixGo数据标注平台涵盖多种标注工具套组、项目管理、工作流、AI辅助标注等，支持快速高效的数据标注交付。