离线
|
目录
第一章、基本要求
1.1、使用场景或环境
1.2、支持声音识别、声纹识别
1.3、支持多国语言的语音识别
1.4、支持SDK二次开发
1.5、支持灵活输入
1.6、模块具有丰富的外部接口
1.7、支持定制功能、提供样品
1.8、系统性能要求。
第二章、性价比(公司对比)
第三章、科大讯飞
第一章、基本要求
1.1、使用场景或环境
- 医学影像放射设备 搭载语音输入模块,在室内/室外条件下,医护人员在边检查边进行语音指令输入。
- 语音输入模块根据语音指令,转成对应的文字指令。
- 医疗设备的软件系统,根据文字指令,执行其他功能操作。
1.2、支持声音识别、声纹识别
- 要求可以识别人类发出的声音,并识别声音的内容。
- 要求可以识别声音的属性,比如是谁发出的声音指令。
- 要求可识别同一语言的不同方言。
1.3、支持多国语言的语音识别
可以识别中文、英文等主流语言的声音。
1.4、支持SDK二次开发
1.5、支持灵活输入
- 比如支持长语音、段语音输入。
- 比如支持语音的断断续续输入。
1.6、模块具有丰富的外部接口
- 比如网口、串口、USB接口、SD卡接口、CAN接口、SPI接口等等。
- 电源供电接口等等。
1.7、支持定制功能、提供样品
- 模块的规格尺寸可定制。
- 模块的功能可定制、扩展。
- 产品的开发阶段,希望提供样品。
1.8、系统性能要求。
- 安全性:
- 可靠性:具备高抗电磁干扰、高抗噪声干扰等等能力。
- 实时性: 语言指令转文字指令,时延<200ms。
- 其他等等
第二章、性价比(公司对比)
参考以下链接与客服咨询之后,得到下面的表格
http://www.vic18.com/plus/view.php?aid=2128
http://www.elecfans.com/d/841906.html
http://m.elecfans.com/article/603651.html
| 串口
|
USB
接口
| 离线
| 在线
| 自定义语言
| 自定义指令
| 规格
尺寸
| 存储
容量
| 应用场景 | 声纹识别
| 实时性(ms)
|
价格
| 和商务沟通结果 | 科大讯飞
(002230)
| 输出
| 供电
| 只支持中文
| 支持中英
| 不
支
持
| 支持简单的自定义指令
|
|
| 医疗设备
/PC端
| 不
支
持
| 500
|
| 发了商务一封邮件,对方能够及时跟进 | 汇顶科技
(603160)
|
|
|
|
|
|
|
|
| |
|
|
| 商务未回复邮件 | 拓尔思
(300229)
|
|
|
|
|
|
|
|
| |
|
|
| 商务未回复邮件 | 汉王科技
(002362)
|
|
|
|
|
|
|
|
| |
|
|
| 商务未回复邮件 | 紫光国芯
(220049)
|
|
|
|
|
|
|
|
| |
|
|
| 商务未回复邮件 | 士兰微
|
|
|
|
|
|
|
|
| |
|
|
| 商务未回复邮件 | 九芯电子
|
|
|
|
|
|
|
|
| |
|
|
| 商务未回复邮件 | 景嘉微
|
|
|
|
|
|
|
|
| |
|
|
| 商务未回复邮件 | 思必驰
| | | | | | | | | | | | | 商务未回复邮件 | 云知声
| | | | | | | | | | | | | 商务未回复邮件 | 北京声致科技
| 输出 | 供电或用3.3V电源供电 | 只支持中文 | 支持中英 | 不支持 | 支持简单的自定义指令 | | 128M | | 声纹唤醒,但不支持指令转换 | | 200~300 | 该商务很不专业,打了3次电话,微信上问了4次,沟通过程很含糊,我问的问题都得不到专业的答复。最后才给我一个项目填报文档。填了文档给他发过去后,几天都不理人。从我发邮件,到填文档,前后浪费了我一个月的时间。
这家公司的产品现在一般只应用在手机,建议不要采纳这家公司的产品做Window/Linux。
对比了我以前的十几家样品的采购,这家公司服务态度真的是非常差,感觉不像一家正规的公司。
| 百度
| | | | | | | | | | | | | 未发邮件 | 第三章、科大讯飞
https://doc.iflyos.cn/aiui/whitepaper/、https://www.xfyun.cn/services/ring6mic
实际上,科大讯飞那边给了我两个文件,但是这两个文件并没有过多地阐述这个模块的功能。于是,我需要根据初期电话沟通支持的功能、模块说明链接https://doc.iflyos.cn/aiui/whitepaper/进一步调研科大讯飞的产品。
依据这个网站,获取的有效信息如下:
- AIUI——AIUI 是科大讯飞2015年推出的一套以语音为核心的人机交互解决方案,意在使应用和设备能够快速具备能听会说,能理解会思考的能力。默认配置进场识别模式。
- 语音唤醒——4-6个音节的唤醒词、唤醒率超过95%、用户可自定义唤醒词、单设备最高支持8个唤醒词同时使用。唤醒模式又分为一次唤醒和持续交互唤醒。持续交互——持续交互(continue)即全双工交互,在一次唤醒后,可以保持一段时间的唤醒(一般小于60秒),在这段时间内,可以直接与机器交互,免去唤醒词以后,会使得人机交互更加自然。该模式必须用AIUI 麦克风阵列 + AIUI 评估板(量产版)。一次唤醒——即一次唤醒,一次响应。(暂时只支持android平台)
- 语音识别——普通话近场识别(手持语言设备录用的状态)、远场识别(1m~5m,多麦)准确率达98%、95%。远场识别率1米、3米、5米分别为95%、92%、90%,远场只提供普通话。
- 方言——普通话方言
- 全双工交互——全双工交互指在设备扬声器发声时,且不关闭麦克风的情况下,用户可以打断设备的播放,进行语音识别和语义理解。
- 识别模式——一种模式是按键触发录音并识别。另一种模式是,持续录音,连续识别:可以根据业务需求保持交互状态10秒~120秒,实现一次触发多次响应。
- 拒识——过滤无关的语音和无效的噪音进行过滤,例如嗯、啊、哦等语气词。
- 语义理解——将语言转成Json数据格式????
- 自定义技能、自定义问答。
- 语音合成——将文字信息转化为声音信息,给产品配上“嘴巴”。
- AIUI 目前支持提供多种集成模式,包含 SDK,硬件接入,HTTP 协议以及微信公众号接入的方式。SDK 目前提供 Android,iOS,Linux,Windows 平台。
- 远场解决方案——方案一:麦克风阵列+输出单路音频至上位机+上位机可以集成 AIUI 的 SDK。方案二: AIUI 评估板(量产版)+ 通过串口将结构化语义信息输出到上位机。
- 热词上传——例如“燕京啤酒”在通用领域可能会被识别成“眼睛啤酒”,但是当您上传了热词后,识别成功率会大概率提升。
- SDK参数配置——Json。
上位机与AIUI交互模式:
语音唤醒:
来源:https://blog.csdn.net/xpj8888/article/details/98729998
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
|