Appen 为 Hugging Face 的开放式 ASR 排行榜提供非公开测试数据集

05/14/2026

华盛顿州柯克兰，2026 年 5 月 6 日—领先的人工智能生命周期高质量数据提供商Appen Limited（ASX：APX）今天宣布与 Hugging Face 合作，将私有的高质量音频数据集引入 Open ASR Leaderboard，这是语音识别领域使用最广泛的基准之一。

自2023年9月上线以来，Open ASR排行榜的访问量已超过70万次，凸显了其在研究人员和企业评估自动语音识别（ASR）模型方面的核心作用。该排行榜根据词错误率（WER）对模型进行排名，词错误率是衡量转录准确度的指标，分数越低表示性能越好。

Appen交付副总裁Sergio Bruccoleri表示：“语音人工智能领域在模型性能方面取得了巨大进步，但用于衡量这些进步的基准却未能跟上步伐。只有当底层数据反映出语音技术的实际应用情况时，排行榜才能完整地反映出情况。而这正是我们与Hugging Face合作的意义所在。”

随着排行榜日益重要，“基准测试优化”（benchmaxxing）的风险也随之增加。所谓基准测试优化，是指为了在公开测试集上取得高分而对模型进行优化，却未能提升实际应用性能。为了解决这个问题，Appen 提供了一套全新的私有英语音频数据集，并将其整合到排行榜评估框架中。这些数据集的私有性显著提高了作弊的难度，从而全面提升了结果的可信度。

Appen的数据集增加了什么

Appen 的贡献涵盖了多种口音的脚本化语音和日常对话语音，使排行榜能够更细致地展现模型性能。具体而言，新的私有数据支持以下指标：

平均脚本 WER：涵盖多个受控录音中的朗读语音。
平均对话词错误率：捕捉包含打断、填充词和变化的自然对话
美国口音与非美国口音的平均WER：突出美式英语与更多样化口音之间的表现差距。

这些维度反映了Appen研究的一个核心发现：不存在单一的“万能”自动语音识别（ASR）模型。在识别干净、带有美式口音的音频方面表现出色的系统，在识别日常对话或非母语人士的语音时可能表现不佳。这些新的指标使这些权衡取舍清晰可见。

“可靠的 AI 评估始于高质量的数据，我们很高兴与 Appen 合作，在 Open ASR 排行榜中推出这一新赛道，”Hugging Face 的音频机器学习工程师 Eric Bezzam 表示。

个人数据如何改变评分

这份排行榜是整个行业向更严格、更相关的基准测试转变的一部分。Appen 的研究表明，从多语言评估到多模态红队演练，一个主题反复出现：目前缺乏真正反映模型在实际应用中情况的基准测试。

通过将音频覆盖范围扩展到真实世界条件，为非英语和非欧洲语言奠定基础，并透明地展示准确性和效率之间的权衡，Appen 和 Hugging Face ASR 排行榜帮助企业、研究人员和开发者更好地了解他们所依赖的语音技术。

关于 Open ASR 排行榜

由 Hugging Face 维护的 Open ASR Leaderboard 是一个开放的自动语音识别模型基准测试资源。它对不同模型和数据集的评估进行了标准化，并在 GitHub 和 Hugging Face Hub 上提供了开源的评估脚本和 UI 代码。模型开发者可以通过向排行榜的公共 GitHub 代码库提交 pull request 来提交结果。

关于 Appen

Appen（ASX：APX）是人工智能生命周期数据领域的全球领导者，拥有30年的数据源采集、标注和模型评估经验。凭借我们的专业知识、平台和全球用户群体，我们助力企业快速、大规模地推出全球最具创新性的人工智能产品。Appen拥有业内最先进的人工智能辅助数据标注平台，并拥有遍布全球的超过100万名贡献者，他们使用超过235种语言。我们的产品和服务使Appen成为科技、汽车、金融、零售、医疗保健和政府等行业领导者的值得信赖的合作伙伴。Appen的客户和办事处遍布全球。