我们在全球范围内提供多(duō)样而精确的语音数据集,用(yòng)来训练机器准确识别和理(lǐ)解不同种类的语言。
联系我们
了解更多(duō)
原理(lǐ)
算法研究
需求挖掘
定义设计
试验改进
产品形成
质量把控
数据打包
数据交付
数据采集
来自全球资源
多(duō)环境
室内
录音棚
室外
車(chē)载
多(duō)设备
移动手机 (iOS/Android)
電(diàn)脑 (台式/手提)
Pro (高保真录音机/阵列麦克风)
录音对象
语言: 中文(wén)、英文(wén)、法语、德语…
性别比: 1:1
年龄: 儿童、成年人…
教育背景: 各阶段
机器标注
人工转写
人工&机器共同
完成3轮质检
标注
准确率超过95%
我们将自身研究算法应用(yòng)于语音标注环节,确保标注效率及准确率。经过前期顶层设计,中期严格把控,后期三轮质检,最终的数据产品使得训练后的机器模型在语音识别、语义理(lǐ)解和人机交互方面表现优异。
语音数据集
基础分(fēn)类
中文(wén)普通话:10,000人
中文(wén)对话:500人
年龄
中文(wén)儿童:10,000人
中文(wén)老人:800人
口音分(fēn)类
客家方言:2,000 人
西南普通话:1,000 人
中原普通话:1,000 人
环境分(fēn)类
車(chē)载:计划中
办公室:计划中
语言分(fēn)类
中英混读:9,000 人
美式英语:1,500 人
澳大利亚英语:1,000 人
新(xīn)加坡英语对话:300 人
法语对话:500 人