语音转文字

上传音频或视频,自动转成文字稿,支持多语种与字幕(SRT/VTT)导出。视频在你的浏览器本地抽取音频,原文件不上传。

⬆️
点击选择,或把音频 / 视频拖到这里
支持 mp4 / mov / mp3 / wav / m4a 等 · 单文件 ≤ 200MB · 视频在本地抽取音频,原文件不上传
识别模式

提示:首次使用某档模型,服务端会自动下载模型(需稍等)。

常见问题

支持哪些文件格式?

支持常见音频(mp3、wav、m4a、aac 等)与视频(mp4、mov、mkv 等)。视频会在你的浏览器本地抽取音频后再上传。

我的文件会被上传到服务器吗?

视频在你的浏览器本地抽取为音频,原视频不会上传;仅上传抽取后的音频用于识别,识别完成后服务端即删除。

支持哪些语言?

默认自动检测语种,并可手动指定中文、英文、日语、韩语等。中文会自动启用普通话与简体优化。

三种识别模式有什么区别?

快速(small)最快、适合长音频先出稿;标准(medium)平衡,推荐日常使用;高精度(large-v3)最准、适合正式字幕,但耗时更长。

探索更多 AI 工具与产品