Appen 为 Hugging Face 的开放式 ASR 排行榜提供非公开测试数据集

05/14/2026

华盛顿州柯克兰,2026 年 5 月 6 日—领先的人工智能生命周期高质量数据提供商Appen Limited(ASX:APX)今天宣布与 Hugging Face 合作,将私有的高质量音频数据集引入 Open ASR Leaderboard,这是语音识别领域使用最广泛的基准之一。

自2023年9月上线以来,Open ASR排行榜的访问量已超过70万次,凸显了其在研究人员和企业评估自动语音识别(ASR)模型方面的核心作用。该排行榜根据词错误率(WER)对模型进行排名,词错误率是衡量转录准确度的指标,分数越低表示性能越好。

Appen交付副总裁Sergio Bruccoleri表示:“语音人工智能领域在模型性能方面取得了巨大进步,但用于衡量这些进步的基准却未能跟上步伐。只有当底层数据反映出语音技术的实际应用情况时,排行榜才能完整地反映出情况。而这正是我们与Hugging Face合作的意义所在。”

随着排行榜日益重要,“基准测试优化”(benchmaxxing)的风险也随之增加。所谓基准测试优化,是指为了在公开测试集上取得高分而对模型进行优化,却未能提升实际应用性能。为了解决这个问题,Appen 提供了一套全新的私有英语音频数据集,并将其整合到排行榜评估框架中。这些数据集的私有性显著提高了作弊的难度,从而全面提升了结果的可信度。


Appen的数据集增加了什么

Appen 的贡献涵盖了多种口音的脚本化语音和日常对话语音,使排行榜能够更细致地展现模型性能。具体而言,新的私有数据支持以下指标:

  • 平均脚本 WER:涵盖多个受控录音中的朗读语音。
  • 平均对话词错误率:捕捉包含打断、填充词和变化的自然对话
  • 美国口音与非美国口音的平均WER:突出美式英语与更多样化口音之间的表现差距。

这些维度反映了Appen研究的一个核心发现:不存在单一的“万能”自动语音识别(ASR)模型。在识别干净、带有美式口音的音频方面表现出色的系统,在识别日常对话或非母语人士的语音时可能表现不佳。这些新的指标使这些权衡取舍清晰可见。

“可靠的 AI 评估始于高质量的数据,我们很高兴与 Appen 合作,在 Open ASR 排行榜中推出这一新赛道,”Hugging Face 的音频机器学习工程师 Eric Bezzam 表示。

个人数据如何改变评分

这份排行榜是整个行业向更严格、更相关的基准测试转变的一部分。Appen 的研究表明,从多语言评估到多模态红队演练,一个主题反复出现:目前缺乏真正反映模型在实际应用中情况的基准测试。

通过将音频覆盖范围扩展到真实世界条件,为非英语和非欧洲语言奠定基础,并透明地展示准确性和效率之间的权衡,Appen 和 Hugging Face ASR 排行榜帮助企业、研究人员和开发者更好地了解他们所依赖的语音技术。

关于 Open ASR 排行榜

由 Hugging Face 维护的 Open ASR Leaderboard 是一个开放的自动语音识别模型基准测试资源。它对不同模型和数据集的评估进行了标准化,并在 GitHub 和 Hugging Face Hub 上提供了开源的评估脚本和 UI 代码。模型开发者可以通过向排行榜的公共 GitHub 代码库提交 pull request 来提交结果。

关于 Appen

Appen(ASX:APX)是人工智能生命周期数据领域的全球领导者,拥有30年的数据源采集、标注和模型评估经验。凭借我们的专业知识、平台和全球用户群体,我们助力企业快速、大规模地推出全球最具创新性的人工智能产品。Appen拥有业内最先进的人工智能辅助数据标注平台,并拥有遍布全球的超过100万名贡献者,他们使用超过235种语言。我们的产品和服务使Appen成为科技、汽车、金融、零售、医疗保健和政府等行业领导者的值得信赖的合作伙伴。Appen的客户和办事处遍布全球。