1、背景
公司目前有个业务使用的百度语音播报要收费了,且收费不便宜;
目前统计了线上在用的百度语音日均调用 2200+次,一年请求约 80.3W 次(后面会用到这个统计数据);
2、需求
寻找替代方案,降低成本;
3、名词解释
语音识别 (Automatic Speech Recognition,ASR) 将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者文本字符序列;
语音合成(Text To Speech,TTS)将文本转化成拟人化语音,打通人机交互闭环。可以支撑多场景、多语言的音色,支持自定义音量、语速等参数。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景;
语音播报 即语音合成;
4、方案调研
4.1、方案简介
方案一:百度语音合成:
1、支持多种收费标准:按次数包预付费、按调用量后付费、并发量扩容;
2、支持按字节、调用次数收费,支持阶梯收费; 支持http请求、java SDK调用
方案二:阿里云语音合成:
1、这次预付费和后付费两种方式;
2、按调用次数收费,支持阶梯收费; 支持http请求、java SDK调用
方案三:腾讯语音合成:
1、这次预付费和后付费两种方式;
2、按字节收费; 支持http请求、java SDK调用
方案四:科大讯飞语音合成 :
1、按调用次数收费,按年收费; 支持http请求、java SDK调用
方案五:下载语音文件,自定义识别 免费 下载的语音文件固定,扩展性不高、后期需求变更时维护成本高
4.2、价格说明
4.3、价格对比
4.3.1、按月调用次数预估价格
4.3.2、年预估总价
4.3.3、方案总结
4.3.4、并发限制
参考:目前百度语音日均请求 2200+ 次;
接口效率测试(都是生成 mp3 格式文件的数据):
单线程,测试125家物流公司和0-500数字全部处理完毕(626次请求)耗时(单位:毫秒)
最后,大家根据自己的业务场景选择合适的方案吧。
PS:以上收费规则统计于 05月 ,服务商随时可能会修改计费规则,本文仅供参考~