最近我开发了一个自用的录音转文字应用,并利用 AI 对文字进行润色,这个工具主要用来辅助我进行个人创作和内容输出。
最初使用了讯飞的SDK来实现录音转文字功能,刚开始效果还不错,但后来发现它对长段录音的识别准确率会明显下降,经常出错。
后来我考虑采取实时录音转换,但我看过价格后,还是劝退了,实时转录价格不低,还有时长限制。所以市面上做录音转文字的应用,这块都需要花钱去买时长,也因为花钱,所以对录音长度都有严格限制,而且很多相关应用都是仅 PRO 才能用。
说到这,我也好奇那些支持买断的录音转文字软件,后期要如何长期的提供这项录音转文字的服务?
回到正题,后来我确实也考虑过购买付费服务,但我更希望先用最低成本验证这个想法。
然后到最后,我发现其实不需要这么复杂的方案,对我而言,微信输入法就够了,它自带的语音转文字功能已经能满足我的基本需求。
现在我只需要打开自己的笔记输入框,然后长按微信键盘上的语音按钮,对着键盘说话,就可以实时得到对应的文字。
说话完毕后,保存笔记,让 AI 润色修正,然后执行不同的 AI 命令,就可以成为一篇文章,达到预期的效果,完全没必要继续折腾 讯飞的SDK了。
这个应用很简单,最近我每天都在用,很适合记录一些灵感,小红书上好几个帖子都是通过这种方式发布的,我现在给它的定位是一个简单的创作者工具。
好了,今天的咚记就到这。
我是咕咚,一个软件工程师,独立开发者,inBox 笔记 作者,喜欢开发、喜欢篮球,更多介绍见 关于我以及我的公众号,每天我会在咚记中,分享自己的开发思考和日常感悟,欢迎关注,点击屏幕左下方关注按钮即可。