判断两段音频文件是否属于同一个人,支持跨信道比对,适用于声纹识别、身份认证场景
将音频文件转换成文本数据,适用于会议/访谈/庭审记录、语音质检、智能语音助手等场景
也称音频指纹,针对用户提交的音频模板,自动从音视频数据库中检索出包含相同或相似语音片段的音视频文件
将两人对话语音进行分离并分别输出语音文本。文本内容包含说话人、语句起止时间和语句内容
将文字转化为自然流畅的人声,广泛应用于出行导航、有声阅读等场景
声纹聚类基于N:N声纹识别技术,将多个单人语音文件,按照比对相似度进行聚类,确定一个语音文件群中有几个人,将相同人语音聚类到一起
将60秒以内的语音识别为文字,可用于智能语音交互、语音指令、语音搜索等短语音交互场景
将音频流实时识别为文字,适用于长句语音输入、音视频字幕、会议等场景
将英语音频文件转换成中文文本信息
能够判别给定的语音所属语言的类别,为关键词识别、语音转写等提供语种类别信息,支持19种语言,包括:普通话、维语、藏语、英语、粤语、闽南语、哈萨克语、俄语、越南语、蒙古语、阿拉伯语、土耳其语、法语、德语、日语、韩语、波斯语、印地语、西班牙语
针对用户提交的汉语普通话语音关键词词表,在音视频数据库中检索出包含相同关键词的音视频文件(或在线对指定音视频文件),给出关键词出现的位置(时间起始点)和相似程度,结果将按照相似程度进行排序。汉语关键词支持以汉字、精确拼音(带声调)、模糊拼音(不带声调)查询
根据用户提交的英语语音关键词词表,在音视频数据库中检索出包含相同关键词的音视频文件(或在线对指定音视频文件),给出关键词出现的位置(时间起始点)和相似程度,结果按照相似程度进行排序。