成品数据集

澳鹏经授权许可的成品数据集助您快速启动AI项目

澳鹏成品数据集

澳鹏提供八百余个成品数据集,共有近十万小时的采集或网络公开的音频资源、五十余万幅图像和超过一亿字/词文本,涵盖80+种语言和方言。我们也在不断构建新的数据集,以满足全球企业用户的部署需求。

语音识别数据集

覆盖90余种语言,总时长近十万小时

电话信道,手机,高保真麦克风等多种录音设备,以及网络数据清洗

对话类的语音数据库80余个,量级10000+小时

朗读类的语音数据库近120个,量级70000+小时

自由说数据库20个,量级20000+小时

特种数据库:0-3岁婴幼儿啼哭音频70小时;猫狗叫声数据库70小时;多领域儿童高保真唤醒词

获取数据集

大模型数据集

81亿token l 千万词条的LLM数据集

涵盖医学、金融、法律、教育、中文百科、代码等多领域

逻辑推理数据集,包括思维链、多模态图表示意图分析等

多模态数据集,包含百万条图文对或视频文本对,支持多种语言

安全性问答数据集,支持大模型的毒性测试以及安全性训练

获取数据集

图像数据集

总计六百万幅图片

数百万的高质量多模态图文对数据集

十余种不同语言的通用场景OCR图片数据集

精标日语发票,992张

特种数据库:电梯间电动车精标数据、多居室户型图集、汽车尾灯图片集、发丝分割数据集

获取数据集

文本数据集

三十余万道含标注的的多学科题目集

发音词典覆盖98种语言,共523万词条

词性词典覆盖22种语言,共326万词条

命名实体库(NER)覆盖8种语言,超100万词条

获取数据集

视频数据集

东南亚各国人物朗读视频

海量开源视频爬取数据集

获取数据集

语音合成数据集

多种语言,400名声优,20+国家资深声优资源库

覆盖多种不同情绪的音色及应用场景

获取数据集

数据集应用场景

数据集列表

您可以搜索、筛选寻找您需要的数据集,并获得样例。

如有意购买,请点击获取数据集,我们的专家会与您联系。

筛选
产品类型
ASR
TTS
发音词典
图像
文本
视频
语言/地区
亚洲
北美洲
南美洲
大洋洲
普通话/方言
欧洲
非洲
Multi
常见应用场景
ASR
对话式AI
聊天机器人
语音分析
呼叫中心
虚拟助手
车载HMI及娱乐设备
智能家居
自动字幕
LLM
医疗健康
语义分析
多模态
教育教辅
TTS
客服
动作识别
翻译
行为识别
婴儿监控器
智能驾舱
文件处理
面部识别
数据训练
图片标签识别训练
智能安防
智能驾驶
图片识别
健身应用
语言建模
指令运用
语音识别
清除所有
丹麦语朗读语音数据
获取数据集
数据集编号
DMLD_ASR001_CNRD
产品类型
ASR
语言
丹麦语
国家
丹麦
常见应用场景
ASR, 语音分析
查看更多
数据集名称 :
丹麦语朗读语音数据
数据集编号 :
DMLD_ASR001_CNRD
内容简述 :
丹麦语朗读语音数据
产品类型 :
ASR
语言 :
丹麦语
国家 :
丹麦
采集设备 :
数据来源于网络
采集环境 :
数据来源于网络
单元(数据量级) :
11.7小时
是否含有转写/标注 :
常见使用案例 :
ASR, 语音分析
样例下载
斯洛文尼亚语朗读语音数据
获取数据集
数据集编号
SLD_ASR001_CNRD
产品类型
ASR
语言
斯洛文尼亚语
国家
斯洛文尼亚
常见应用场景
语音分析, ASR
查看更多
数据集名称 :
斯洛文尼亚语朗读语音数据
数据集编号 :
SLD_ASR001_CNRD
内容简述 :
斯洛文尼亚语朗读语音数据
产品类型 :
ASR
语言 :
斯洛文尼亚语
国家 :
斯洛文尼亚
采集设备 :
数据来源于网络
采集环境 :
数据来源于网络
单元(数据量级) :
11.9小时
是否含有转写/标注 :
常见使用案例 :
语音分析, ASR
样例下载
芬兰语朗读语音数据
获取数据集
数据集编号
FLD_ASR001_CNRD
产品类型
ASR
语言
芬兰语
国家
芬兰
常见应用场景
语音分析, ASR
查看更多
数据集名称 :
芬兰语朗读语音数据
数据集编号 :
FLD_ASR001_CNRD
内容简述 :
芬兰语朗读语音数据
产品类型 :
ASR
语言 :
芬兰语
国家 :
芬兰
采集设备 :
数据来源于网络
采集环境 :
数据来源于网络
单元(数据量级) :
13.5小时
是否含有转写/标注 :
常见使用案例 :
语音分析, ASR
样例下载
印地语朗读语音数据
获取数据集
数据集编号
YDLD_ASR001_CNRD
产品类型
ASR
语言
印地语朗读
国家
印地
常见应用场景
语音分析, ASR
查看更多
数据集名称 :
印地语朗读语音数据
数据集编号 :
YDLD_ASR001_CNRD
内容简述 :
印地语朗读语音数据
产品类型 :
ASR
语言 :
印地语朗读
国家 :
印地
采集设备 :
数据来源于网络
采集环境 :
数据来源于网络
单元(数据量级) :
13.8小时
是否含有转写/标注 :
常见使用案例 :
语音分析, ASR
样例下载
保加利亚语朗读语音数据
获取数据集
数据集编号
BJLD_ASR001_CNRD
产品类型
ASR
语言
保加利亚语
国家
保加利亚
常见应用场景
语音分析, ASR
查看更多
数据集名称 :
保加利亚语朗读语音数据
数据集编号 :
BJLD_ASR001_CNRD
内容简述 :
保加利亚语朗读语音数据
产品类型 :
ASR
语言 :
保加利亚语
国家 :
保加利亚
采集设备 :
数据来源于网络
采集环境 :
数据来源于网络
单元(数据量级) :
16.5小时
是否含有转写/标注 :
常见使用案例 :
语音分析, ASR
样例下载
普什图语朗读语音数据
获取数据集
数据集编号
PSTLD_ASR001_CNRD
产品类型
ASR
语言
普什图语
国家
Multi
常见应用场景
ASR, 语音分析
查看更多
数据集名称 :
普什图语朗读语音数据
数据集编号 :
PSTLD_ASR001_CNRD
内容简述 :
普什图语朗读语音数据
产品类型 :
ASR
语言 :
普什图语
国家 :
Multi
采集设备 :
数据来源于网络
采集环境 :
数据来源于网络
单元(数据量级) :
17.9小时
是否含有转写/标注 :
常见使用案例 :
ASR, 语音分析
样例下载
马拉地语朗读语音数据
获取数据集
数据集编号
MLDLD_ASR001_CNRD
产品类型
ASR
语言
马拉地语
国家
印度
常见应用场景
语音分析, ASR
查看更多
数据集名称 :
马拉地语朗读语音数据
数据集编号 :
MLDLD_ASR001_CNRD
内容简述 :
马拉地语朗读语音数据
产品类型 :
ASR
语言 :
马拉地语
国家 :
印度
采集设备 :
数据来源于网络
采集环境 :
数据来源于网络
单元(数据量级) :
18.3小时
是否含有转写/标注 :
常见使用案例 :
语音分析, ASR
样例下载
希腊语朗读语音数据
获取数据集
数据集编号
XLLD_ASR001_CNRD
产品类型
ASR
语言
希腊语
国家
希腊
常见应用场景
语音分析, ASR
查看更多
数据集名称 :
希腊语朗读语音数据
数据集编号 :
XLLD_ASR001_CNRD
内容简述 :
希腊语朗读语音数据
产品类型 :
ASR
语言 :
希腊语
国家 :
希腊
采集设备 :
数据来源于网络
采集环境 :
数据来源于网络
单元(数据量级) :
18.6小时
是否含有转写/标注 :
常见使用案例 :
语音分析, ASR
样例下载
罗马尼亚语朗读语音数据
获取数据集
数据集编号
LMLD_ASR001_CNRD
产品类型
ASR
语言
罗马尼亚语
国家
罗马尼亚
常见应用场景
语音分析, ASR
查看更多
数据集名称 :
罗马尼亚语朗读语音数据
数据集编号 :
LMLD_ASR001_CNRD
内容简述 :
罗马尼亚语朗读语音数据
产品类型 :
ASR
语言 :
罗马尼亚语
国家 :
罗马尼亚
采集设备 :
数据来源于网络
采集环境 :
数据来源于网络
单元(数据量级) :
19.9小时
是否含有转写/标注 :
常见使用案例 :
语音分析, ASR
样例下载
斯洛伐克语朗读语音数据
获取数据集
数据集编号
SLLD_ASR001_CNRD
产品类型
ASR
语言
斯洛伐克语
国家
斯洛伐克
常见应用场景
语音分析, ASR
查看更多
数据集名称 :
斯洛伐克语朗读语音数据
数据集编号 :
SLLD_ASR001_CNRD
内容简述 :
斯洛伐克语朗读语音数据
产品类型 :
ASR
语言 :
斯洛伐克语
国家 :
斯洛伐克
采集设备 :
数据来源于网络
采集环境 :
数据来源于网络
单元(数据量级) :
22.1小时
是否含有转写/标注 :
常见使用案例 :
语音分析, ASR
样例下载
1 / 54

澳鹏的数据集优势

澳鹏提供种类丰富的成品数据库,我们的数据产品目录包括700多个可授权的数据集。其中语音数据库涵盖80多种语言及方言,适用于各种常见的AI应用场景,例如: TTS,ASR等(参考下面目录表的筛选功能查询更多应用场景)。我们还提供数据管理等更多服务。

快速部署

直接获取数据库产品快速为您部署AI与机器学习项目

低成本高效益

直接获取经授权的成品数据库比您定制数据采集服务更具成本效益。

专家团队

您将拥有一支在数据采集领域耕耘近三十年的专家团队支持

支持所有数据类型

图像,视频,语音,音频,文本

大规模

提供大量、高品质的数据高效地训练您的机器模型

高质量

提高您的机器模型质量并减少数据偏见

数据采集标注定制

澳鹏同时提供数据定制采标服务,如您未找到适合您的AI的成品数据集,可联系我们为您进行定制。我们涵盖全数据类型、全球范围的服务能力可以为您快速高效大规模地创建数据集。

定制数据

高效部署模型

700+数据集支持您快速高效部署AI模型

获取数据集
@ 2025 澳鹏数据科技(上海)有限公司
隐私政策沪公网安备31011502401377号沪ICP备2022020112号
请您留言