语音助理

AI语音助理商机不断热烧 智能音箱软硬件大跃进

字号+ 作者:廖专崇 来源:2cm 2018-08-29 23:44

智能音箱在2018年延续前两年的热潮,不过音箱本身并不能创造很大的经济价值,发展产业链才是未来胜出的重点,智能麦克风与语音处理器是跨产品型态的关键零组件,利基型的应用、中文自然语言处理与边缘运算是我们厂商值得关注的重点。


图片来源:https://pixabay.com/photo-222787/


智能音箱在2018年延续前两年的热潮,不过音箱本身并不能创造很大的经济价值,发展产业链才是未来胜出的重点,智能麦克风与语音处理器是跨产品型态的关键零组件,利基型的应用、中文自然语言处理与边缘运算是我们厂商值得关注的重点。
 
2014年电商龙头亚马逊(Amazon)推出智能音箱Echo之后,经过几年的经营,在2016、2017年大放异彩,引发一股智能音箱开发风潮,也带动沉寂已久的智能家居商机,除了Amazon,包括Google、Microsoft、Apple、Samsung、Sony、Line,还有京东、联想、阿里巴巴、小米等一线大厂都陆续推出智能音箱,不仅如此,更多二线品牌厂商也赶上这波热潮,保守估计目前市场上应该有数十款智能音箱品牌,布局并抢食智能语音应用背后带动的庞大商机。

智能音箱包括三大部分:硬件、软件服务、系统平台。工研院IEK产业分析师陈右怡说明,硬件规格大致包括开关、灯光、语音处理芯片、麦克风数组、喇叭、电池、Wi-Fi/蓝牙无线通信模块、显示面板等,其中语音处理器与麦克风数组攸关语音输入质量,也是这波发展过程中较受瞩目的关键零组件。而软件服务则是智能音箱的灵魂--智能语音助理,搭配技能(Skills),结合云端的系统平台,形成一个完整的产业生态系,以带动后续的商业模式。
 
智能音箱投入者众
 
根据市场研究机构Strategy Analytics研究指出,2018年智能音箱出货量接近4,000万台,2019年将挑战6,000万台,2022年还要进一步成长至1亿6,000万台左右,每年都是两位数的成长率。Samsung继去年与Microsoft合作推出的Invoke智能音箱后,2018年8月发表自有产品Galaxy Home(图1),音箱里有六组扩音喇叭及低音炮,用来提供环绕的播放音效;并内建八组远场麦克风,可在较大的范围内接收语音指令,语音助理就是自家的Bixby,不过发表会上摆满的产品都跟Apple Homepod一样不能运作,正式上市时间要再等等。
 


图1 Samsung 2018年8月发表搭载Bixby智能音箱Galaxy Home,并内建八组远场麦克风,可在较大的范围内接收语音指令。
 
整体而言,智能音箱的发展,产品本身并不是最重要的,Amazon Echo最早就定位是中低价产品,99美元的售价到后来衍生的多种产品都不走高价路线,以其现阶段市场领导者的身分,也发挥市场带动的效果,Amazon以电商的角色,不断扩展产业生态体系,并成为多数厂商仿效的对象。陈右怡表示,Amazon Echo串连了开发者社群、汽车服务业、智能装置、日用品服务、共享/外送服务业、音乐串流服务业等。语音指令在搜寻上,显然比现有的文字输入便利,跟据市调机构Gartner的研究,未来50%的各类搜寻,将会利用语音指令的方式呈现。
 

图2 鑫创科技产品经理曾建统认为,通用型的智能音箱主要扮演智能家居控制中枢,需要完整的系统平台与产业生态系配合。
 
以可以执行的技能而言,Alexa目前高达17,650项,Google Assistant仅有468项,Microsoft Cortana更只有174项。根据OC&C Strategy Consultants调查,拥有智能音箱的美国家庭中62%会使用智能音箱进行语音购物,2017年美国语音购物市场规模约20亿美元,预估2022年将达400亿美元,5年内翻20倍。由此可知,智能音箱拥有多少“技能”、能否带动商业模式的发展,才是其成功的关键,这些品牌大厂自然深知要努力将自己的商业模式,转换延伸到语音应用,并能提供更新、更多的价值才是发展重点。
 
经过这几年的发展,智能音箱已经出现更为细致的分众区隔之路,鑫创科技产品经理曾建统(图2)认为,通用型的智能音箱主要目的就在扮演智能家居控制中枢,除了丰富的技能之外,更需要完整的系统平台与产业生态系加以配合,带动商业模式的发展,这部分只有资源丰富的大厂具备参赛权。另外,在区域市场与应用上,也发展出许多功能较为单纯,但满足特殊需求的智能音箱,如厨房针对做菜、车上影音娱乐/唱歌需求的产品,适合中小型厂商切入。
 
智能麦克风设计眉角多
 
近来有部分人士指出,智能音箱是过渡型的产品,就像电子书阅读器一样昙花一现,不过就实际的发展来看,智能音箱目前呈现百花齐放的状况,未来不管产品是否持续发展,语音识别成为重要的人机接口已是不争的事实,因此不管终端产品型态是甚么,绝对都少不了智能麦克风与语音处理器,这两个组件的技术与发展就值得更加深入的观察。
 
一般而言,MEMS麦克风由背板(Back Plate)、氮化硅薄膜(Membrane)、1微米宽的空气隙(Air Gap)组成,其中薄膜要求低应力且柔软,能够灵敏地感测环境音压的改变。现行的MEMS麦克风技术均采用声波致动薄膜和静态背板,英飞凌(Infineon)提出一个较复杂的双背板架构,在两个背板之间嵌入薄膜,也有两个空气隙,因此能产生更好的讯号质量,讯噪比(SNR)达70dB,进一步获得更佳的高频抗扰性,实现更出色的音频讯号处理,并将10%总谐波失真(THD)的声学过载点提升到135dB声压位准(SPL)。
 
智能麦克风除了采用模拟微机电的制程之外,还有采用数字CMOS制程的麦克风,不管是采用MEMS或是CMOS都是利用半导体制程产生震膜以搜集声压,曾建统说明,除了传统的单背板/单薄膜之外,双背板/单薄膜、单背板/双薄膜等改良型的架构都有厂商提出,目的全是为了强化收音效率的讯噪比。而在系统的设计上,Amazon Echo带动的多颗麦克风数组设计已成风潮,但效果还是有很大的差异性。
 
曾建统提醒,智能语音助理硬件的设计,尤其是麦克风数组,并不是硬件照抄就好,在设计时间要针对机构与收音麦克风进行数组算法的调适,同时生产阶段也必须提高机构精准度的要求,这两个重点对语音助理装置最终量产结果有很大的影响。就像通用型的Echo使用场景大部分是在客厅,类似的麦克风数组设计套用到车用产品就不会得到最佳收音质量;而机构生产与组装若不够精准,会持续削弱麦克风的讯噪比,原本70dB的产品可能于终端产品仅表现出35dB的效能。
 
关键组件整合设计  取得效能表现优化 
 
而在语音处理器部分,最主要是处理声音的数字化与去除噪声的讯号纯化,由于智能语音助理的工作是透过AI算法,将输入的语音讯号进行语音识别与自然语言处理,担负重要的人机接口工作,也是用户经验优劣的关键,因此语音处理器的几个主要功能包括噪音抑制(Noise Suppression)、回音消除(Echo Cancellation)、语音识别(Voice Recognition Assistance)、远距收音(Far-field Pickup)、清晰语音沟通(Clear Voice Communication)等就显得非常重要。
 
语音处理器技术发展已有满长的一段时间,其实技术已经相当成熟,不过由于智能音箱将语音变成最主要的人机接口,声音整体处理效能要求比过去更高,对噪音抑制的压噪技术而言,环境声音如车辆、旁边人的说话声音都算是一种噪音,如何找出正确的噪音来源,并保留最大的原音是这部分的挑战。一般噪音分成稳态与非稳态噪音,机器运作固定频率的声音是稳态噪音,比较容易消除;非稳态噪音就是非预期出现的声音如旁人说话的声音,也比较难消除。
 
Samsung甫发表的Galaxy Home,为了收音效果特别采用八颗远场麦克风,远距收音的功能就是较远的距离之下一样能收到清晰的声音,做法就是首先侦测人声,并放大人声,但不放大噪音。曾建统认为,若要提升收音效能的表现,麦克风与语音处理器整合性设计非常重要,除了远场麦克风、扩大MEMS麦克风芯片尺寸、采用整合模拟数字转换器(Analog-to-digital Converter, ADC)的数字麦克风(Digital Mic)等做法都有,甚么设计才能在效能与成本上取得最佳表现,目前其实没有标准答案,建议还是回归到产品需求,并进行深入的软件仿真与效能测试,才有机会开发出令市场惊艳的产品。
 

图3 恩智浦半导体大中华区微处理器及微控制器产品营销经理张小平表示,保护隐私信息不轻易被入侵,需要内建安全装置。
 
智能音箱的使用近期也因为网络的便利性与不设防,产生多起网络安全事件,所以语音处理器的安全机制逐渐被重视,恩智浦半导体大中华区微处理器及微控制器产品营销经理张小平(图3)表示,保护隐私信息不轻易被入侵,需要内建安全装置的解决方案,除了保护用户信息,透过整合的SDK实现算法加速,满足语音、影音和音频的需求,可整合A/V与机器学习,满足工程师对于统一平台的要求,便于打造语音指令控制的联网产品。
 
恩智浦i.MX8M系列应用处理器,兼具处理技术和边缘运算能力,能够有效管理并缩短智能互联装置响应命令和询问的时间。张小平指出,该系列产品可用于智能电视、电视订阅服务、条形音箱与其他智能音箱,以及媒体播放器和DVR/PVR。此外,该系列处理器也适合管理照明、恒温器、门锁、居家安全、智能洒水器等各类系统与设备,能够让使用者享受直觉简单、迅速响应的智能家居体验。如:仅需发出语音指令即可播放特定的电视剧集,如果对其中的演员感兴趣,直接口头询问相关问题,屏幕上就会进行搜索并显示结果,整个过程都不会影响电视剧情的播放等。
 
语音助理为智能音箱灵魂
 
在基础的硬件之外,具备AI功能的智能语音助理显然是智能音箱产业链能否顺利发展的关键,Alexa的跨平台支持与技能多样性,目前遥遥领先Google Assistant与Microsoft Cortana,陈右怡表示,智能语音助理的生态系发展难度更高,核心的技术包括AI深度学习算法、情境感知、自动化控制、大数据分析应用、云端存取等;发展策略上,可透过开放式AI API发展第三方开发,扩展语音助理的技能,也透过定价/收费/分润机制让生态系更成熟;最后就是不断强大生态系的规模与服务的多样性与便利性,就像当年的App Store一样。
 
而语音助理的服务包罗万象,所谓“万能”的智能语音助理应该不存在,以目前四大语音助理来看,Google专长在搜寻、Siri专长在音乐、Alexa专长在购物、Cortana则是专精于商务,厂商的产业链发展也有所侧重,陈右怡相信,过几年不同领域的语音助理霸主将越来越明确。而语言与在地化的经营则是另一个重点,目前英语系的语音识别与自然语言处理技术上已经颇有突破,发展较为迅速;相较之下,中文的自然语言处理则有相当大的瓶颈,也是我们厂商可以深入发展并保有优势的地方。
 
掌握特殊应用与边缘运算趋势
 
从硬件终端产品来看,大厂会投入更多资源发展通用型的智能音箱,产品型态也将更加多样,整合于智能手机、笔电、各式家电等的状况会更加普遍。我们厂商在软硬件的发展上,应该投入利基型的硬件产品与服务,曾建统建议,特殊应用的智能音箱结合在地化语音技术发展,是我们厂商的机会。中文AI化的困难性为厂商带来蓝海的商机,只要深入累积语言分析与在地化语料,就可以建立竞争门坎,搭配我们原先就具备深厚基础的硬件技术能力,可以在智能音箱市场走出一条自己的路。
 
人机接口发展到语音是一大进步,不过未来视觉、触觉与念力都是下一波发展的方向,现在的语音AI技术也有布局未来人机接口的味道。以AI为核心的这些应用,开发的范围与需求的资源都较过去更大,诉求利基市场也不见得是单一厂商就能负担所有技术开发,需要与更多产业链上下游的厂商合作;智能音箱也是典型的边缘运算装置,未来会将更多AI功能转移到终端装置,直接在边缘进行处理,对于云端架构规模不如国外大厂的厂而言,采用较小的云端架构,并透过终端处理部分AI运算,更适合我们厂商发展。










相关文章
  • 整合不同智能语音助理服务成为趋势?

    整合不同智能语音助理服务成为趋势?

    2018-08-21 00:27

  • 智能音箱掀语音购物热,却有9成的人不用第二次

    智能音箱掀语音购物热,却有9成的人不用第二次

    2018-08-08 12:11

  • 亚马逊与谷歌将在智能电视与音箱、持续对抗

    亚马逊与谷歌将在智能电视与音箱、持续对抗

    2018-07-31 10:11

  • 号称物联网入口的智能音箱全球装置量  今年翻倍

    号称物联网入口的智能音箱全球装置量 今年翻倍

    2018-07-11 11:39