将音频文件转换成文本数据,适用于会议/访谈/庭审记录、语音质检、智能语音助手等场景
将60秒以内的语音识别为文字,可用于智能语音交互、语音指令、语音搜索等短语音交互场景
将音频流实时识别为文字,适用于长句语音输入、音视频字幕、会议等场景
将英语音频文件转换成中文文本信息
将两人对话语音进行分离并分别输出语音文本。文本内容包含说话人、语句起止时间和语句内容