浅析智能音箱

这波618大促最火的可能就要数智能音箱了，各个大厂纷纷推出自有品牌的智能音箱，价格从几十到上千不等，天猫精灵方糖智能音箱活动价只要89元，算是性价比非常高的了，机智的我果断下单买了３台。由于最近正好在忙一个智能语音项目，所以对此比较感兴趣，也正好借此机会来聊下智能音响。

智能音响主要有五个硬件模块，分别是麦克风阵列、主控芯片、扩声单元、数字功放和通信模块。麦克风阵列，主要目的是拾取语音，加载数字音频处理算法可以实现降噪、回声抑制、去混响、声源定位，解决远场拾音问题,与远讲语音识别算法相匹配，麦克风阵列越多，降噪，识别率等效果越好，天猫方糖搭载的是２个麦克风阵列；主控芯片，完成的功能是对语音语义的解析理解，与手机等移动设备相类似，包括处理器、存储器、内存等核心部件。扩声单元，主要跟音质相关；数字功放模块，扬声器需要好的功放来支撑将我们播放的音频尽可能真实、低失真的传导到发声单元上；通讯模块是连接语音开放平台，获取内容资源，使用WIFI/蓝牙技术连接。

智能音箱价格差异那么大，影响的因素主要有这么几个：麦克风阵列个数，主控芯片，音质，内容资源。麦克风阵列个数越多，回声消除，降噪，识别效果等会越好；主控芯片其实跟智能手机芯片一个道理，越高级的处理速度越快；音质这个没个底，可以很low，也可以很高大上，就跟耳机一个道理；内容资源其实各家都差不多，基本都支持新闻，天气，音乐，相声，智能家居控制等等，主要差别还是在音乐版权这块，智能家居配套设备需要另行购置，暂不讨论。

智能音箱工作流程大致如下：用户通过唤醒词唤醒智能音箱，开始说话，此时用户所说内容会实时转换成文字，此过程类似于同声翻译，当用户停止说话后，系统判定用户已说完一句话，于是将最终语句交给主控芯片进行语义解析。智能音响支持很多功能，像音乐，天气，日历，新闻等，我们可以把这些功能理解成一个个技能，把用户说法理解成意图，然后把意图和技能通过语音开放平台串联起来。例如在语音开放平台的音乐技能中配置了“我想听某某的歌”这一说法，其中“某某”映射至歌手词库，在歌手词库中有很多歌手，那么当用户说“我想听任贤齐的歌”这句话时，首先会命中音乐技能，然后在歌手词库中找到“任贤齐”这个歌手，接下来就会播放对应的歌曲；再比如说在语音开放平台的音乐技能中配置了“我想听XX”这一说法，其中“XX”映射至歌曲词库，那么当用户说“我想听心太软”这句话时，首先会命中音乐技能，其次会在歌曲词库中寻找“心太软”这首歌，若能找到则播放。那么如果在相声技能中也配了“我想听某某”这一说法时，用户此时说“我想听小沈阳”时，该如何处理呢，此时语音开放平台会根据权值大小来判断优先命中音乐还是相声技能。