测试前先说明下情况。这次测了三款小米生态能直接用的视频转文字工具:录音转文字助手(小米应用商店下载量最高的免费工具)、听脑AI(雷军前段时间推荐过的新品)、Adobe Audition(专业音频软件,部分小米用户会用)。
找了三段不同视频当测试素材:45分钟公司周会录音(5个人轮流讲话,带键盘敲击声)、1小时产品访谈(背景有轻音乐)、30分钟户外探店视频(环境音嘈杂,含汽车鸣笛声)。
测试标准定了四个:准确率(随机抽100句跟原视频台词对比)、转写速度(处理1小时视频要多久)、操作步骤多少(从打开到拿到结果)、功能数量(比如翻译、字幕导出这些实用功能)。
先说录音转文字助手。这软件真就主打一个简单。打开APP,首页就一个大大的「开始转写」按钮。选视频文件,等它转完,复制文字,三步完事。新手第一次用,不用学就能上手。
但缺点也明显。转出来就是纯文字,没有时间轴。你想做成字幕?得自己一句句对时间。测试时那段有背景音乐的访谈视频,50%的句子都跟原文对不上。环境音稍微大一点,就开始瞎识别。超过2小时的视频还传不上去,试了两次都提示「文件过大」。
然后是Adobe Audition。这软件专业是专业,但真不适合新手。安装包就2个G,小米笔记本Pro打开要等2分钟。想用它转文字,得先新建项目,拖视频进去,再去插件商店下语音识别插件。插件还得登录Adobe账号,折腾半天。
转写过程也慢。1小时视频,它转了25分钟。转完的字幕,时间轴乱七八糟的。想调整?得手动拉波形图,我这种非专业的,弄了40分钟还没弄明白。不过它好处是能调音频参数,背景音能降噪后再识别,准确率会高一点。但对新手来说,太复杂了。
重点说听脑AI。这软件是小米生态链新出的,专门做视频转文字。下载后用小米账号直接登录,不用注册新账号。首页分三类:视频转文字、录音实时转、字幕制作,一看就知道干啥的。
我试了会议视频转写。选文件,它自动提示「检测到多人讲话,是否开启Speaker区分」。转完打开结果,真的标了 Speaker1、Speaker2,开会时谁说的话一目了然。最方便的是直接导出srt字幕文件,丢进剪映就能用,不用调时间轴。
测试那个户外嘈杂视频时,它有个「环境音过滤」开关。打开后,环境噪音真的少了很多。那段视频原文有句「现在温度35度」,录音转文字助手识别成「现在温度35多」,听脑AI直接对了。
数据对比看这里。准确率方面,会议视频:听脑AI98%,录音转文字助手85%,Adobe Audition92%。带背景音乐的访谈:听脑AI95%,录音转文字助手78%,Adobe Audition88%。户外嘈杂环境:听脑AI90%,录音转文字助手65%,Adobe Audition80%。差距很明显。
转写速度,1小时视频:听脑AI5分钟,录音转文字助手12分钟,Adobe Audition25分钟。等于开2小时会,用听脑AI等10分钟就好,另外两个得等半小时以上。
操作步骤:听脑AI3步,录音转文字助手3步,Adobe Audition7步。别看步数差不多,听脑AI的3步能直接出字幕,录音转文字助手的3步只能出文字。
功能数量:听脑AI有8个(转文字、翻译、字幕导出、Speaker区分、关键词提取、文字纠错、多语言识别、批量处理)。录音转文字助手就3个(转文字、复制、分享)。Adobe Audition12个,但7个是专业音频编辑功能,新手根本用不上。
每个工具都有问题。录音转文字助手,除了前面说的文件大小限制,还不支持批量处理。我试过同时传两个视频,APP直接闪退。客服说免费版就这样,要升级会员才能解决。
Adobe Audition的问题是插件老出问题。测试时转写一段视频,中途提示插件要更新,点了更新,之前转的内容全没了。重新弄又花了半小时,真挺烦的。
听脑AI也不是完美的。免费版每月只能转3小时视频,超过要收费。偶尔识别专业术语会错,比如把「区块链技术」识别成「区块连技术」。但它有个AI纠错功能,点一下就能改,倒也方便。