如何去给一个产品定义是否智能?能够进行计算,能够感知外部变化,能够具备交互能力,简单来说如果设备能够像人一样,可以思考与交流,并且可以根据指令帮助我们完成某一个特定的事情,笔者认为便可以称之为智能产品,而智能汽车亦如是。
从车联网到智能座舱,智能汽车技术正在快速发展,作为智能的体现,使用语音操控是最便捷的交互方式。据国务院发布的《新能源汽车产业发展规划(2021-2025)》,预计2025年新能源汽车销量将达到1700万辆,市场渗透率达到20%。具体到车载语音市场,据公开数据统计,2020年中国前装车载语音市场(包含软硬件)规模约为17亿元人民币,到2025年,市场规模将增长至30亿元人民币。
如何让驾驶员爱上车载语音?
相比按键或是触控方案,车载语音对于车辆控制,既能避免驾驶员分心,又能提升驾驶员的驾驶体验。同时,车载语音作为连接车联网的入口,就如同当年的智能音箱一样,受到了众多企业的关注。但与智能音箱相比,由于车辆的使用环境、用户群体的不同,对语音系统提出了更严苛的要求。
一个很突出的问题是,据笔者询问过几位新能源智能汽车车主表示,在体验过几次车载语音后,便表示不会再用这一功能。究其原因,主要在于用户体验不佳,反应迟钝,无法正确理解车主的需求等。
为此,电子发烧友带着这些疑惑采访到了清微智能CEO王博,他认为问题主要出在用户体验上。首先是习惯性问题,通过语音来控制并非是许多驾驶者的第一反应;第二则是技术问题,一个指令发出去,两三秒之后才反应,很难说是一个很好的体验,而且在目前的网络环境下,一些特殊场景中,可能无法联网进行使用;除此之外的网络传输信息泄密等安全问题也需要考虑。
声扬科技合伙人及产品VP谢基有对电子发烧友记者表示,从技术角度来看,想要让车载语音拥有一个好的用户体验,需要在几个方面上改进,一个是在车内环境中如何精准获取用户的声音,但车内环境复杂,存在车噪、风噪等噪音,以及各种声波反射后的混响,想要获得精准人声比较困难;另一个则是语音的识别率,当车载语音多次无法准确识别驾驶员的语音指令时,自然就不会再用了。
语音识别原理图
针对这些问题,声扬科技也联合了ADI进行相关合作,在其芯片上集成同声分离的算法,能够在两个人同时说话时,将各自的声音区分开来进行识别。
当两人以上同时说话时,单点的音节无法分辨,因为这两个声音在物理形态上处于叠加,声波叠加后可能变成第三种声音。汽车环境中,可以采用多麦克风阵列的方式将声音进行收集。再进行同声分离,分离出不同音区的声音,后续再用算法进行降噪和去混响。
而在降噪方面,尤其是在车窗开启时,噪声极大。许多汽车在车内的吸音并不一定做的很好,这种情况下车内的噪声,对于语音识别带来极大挑战。声扬科技在这些方面都有较为丰富的技术积累,同时也与ADI等企业合作进行技术攻关。
至于语义的理解,目前而言已经发展较为成熟。只要前端做的足够好,对于后端而言压力会减轻许多。声扬科技在车内场景针对数字的识别准确率可以达到99%以上,对于非固定内容的识别率也保持在90%以上。
当车载语音能够切实帮助驾驶员解决实际问题,精准接收并执行驾驶员的指令,减少注意力的分散,提升驾驶体验,这样才能得到真正广泛的应用。而在目前,车载语音仍处于较为初级的阶段,许多功能正在快速迭代,这也推动着车载语音渗透率的进一步增长。
离线语音算法仅KB级对厂商提出高要求
据水木清华研究中心数据显示,2019年,中国乘用车车载语音装配率为48.8%;2020年1-9月,装配率已经提升至64.8%。从市场竞争格局来看,据中泰证券数据显示,2020年1-4月,科大讯飞和Cerence占据83%份额,百度、思必驰、傲硕、阿里云等企业紧随其后。
2020年1-4月国内语音识别供应商装机量统计|中泰证券
在进行语音识别的过程中,车辆可能需要处于联网状态当中,这就对车路协同、大数据、移动网络有一定的要求,而在车内的应用场景中,用户使用车载语音希望能够得到即时的反馈,如调整座椅、控制空调等,这些简单且固定的命令可以交由本地去做。
王博认为,目前阶段,车载语音主要用来人对车的一些简单的操作,语义相对简单和有限,离线的方案还是比较适合的。另外,随着算法的演进和优化,以前在云端的模型,现在完全可以放在车机端使用。只要让车机具备更新语音模型的能力,就能让离线方案也获得不错的用户体验。
清微智能的车载离线语音模块无需联网,减少了网络通信的延迟,可打造真正的“无缝”连接,让系统快速响应;同时针对驾车环境,清微方案配备车噪降噪算法;另外,可重构计算技术带来的芯片灵活性可方便集成客户自有算法,提升驾驶者的使用体验。
目前而言,由于通信基础设施还未完全覆盖所有应用场景,如地下停车场中,由于信号较差,导致联网功能在一定程度上无法使用,造成用户体验下降。为此,声扬科技也提供了相应的离线解决方案,在使用声纹识别时,可以通过离线方式来判断驾驶员的身份。
谢基有表示,未来可能随着5G的发展,对于信号覆盖会有一定提升,使用云端服务会更加便捷,但并非所有场景都能够被信号覆盖。一个很显著的例子是,尽管4G网络发展多年,但在许多地点,如地下停车场时,信号仍然非常差,因此离线在某些场景中仍然是必须的。
此外,离线方案需要在CPU中运行,单靠MCU无法承载。即便是CPU,也需要进行深度的优化及定制,还需要考虑到一些芯片无法进行浮点运算,则需要再做浮点程序定点化操作。但这些芯片中所预留的RAM仅有KB级,如声扬科技在ADI的DSP芯片上运行整个算法,仅用了150KB左右,这就对于供应商厂家技术提出了更高的要求。
声纹识别解决安全问题算法解决数据难题
车载语音除了帮助驾驶员解放双手,减少注意力的分散,更多的是为驾驶员提供一种更为舒适的驾驶体验,提高对整辆车的掌控感。但车载语音的出现也带来了一个问题,当车内并非只有一人时,其他人如果也通过语音来控制车辆,如行驶过程中打开后备箱、打开车门等,反而会对驾驶造成一定的安全隐患。
对此,谢基有表示,声扬科技非常擅长的一个领域便是声纹识别,可以判断出哪些语音是车主本人所说的,哪些是其他人说的话。通过声纹判定了身份也就确认了是否有进行该操作的权限,从而解决上述问题。声扬科技也与国内的一些汽车品牌进行合作,当行车过程中靠近某个景点,提示是否需要购买门票时,可以设定只有具备权限的人,才能完成确认进行购买支付的操作。
并且声纹识别也可以进行活体检测,通过语音图谱,可以清楚的辨别是否是真人在现场说话,还是通过录音回放甚至是通过语音合成的方式进行通话,这种声纹鉴定技术也被应用在了防电话诈骗等安防领域。
当然,众所周知,做声纹识别等生物识别技术时需要使用到大量的数据,帮助企业进行技术的迭代,但许多语音厂商拿不到主机厂的数据,主机厂没有没有语音厂商的技术,又不愿意分享车内数据以提升产品功能,因此很难实现有效连接。而语音如要发挥最大优势,还应该与车控以及V2X部分进行连接。但是主机厂在这方面也对语音厂商有限制,因为如果连接的话会增加主机厂的风险。
谢基有表示,V2X有两种数据,一部分是车辆本身的行驶数据,如车速等;另一部分则是语音的数据,而语音厂商目前只需要语音数据去完成算法性能的提升,其实并不需要大量的数据,可以在应用过程当中通过自动学习来进行迭代。
同时,在应用之前,声扬科技也会通过其他场景中的语音数据,来优化算法,尽管与车内环境场景不同,但在人物的声纹特征上是一致的,通过降噪等算法,让应用环境差异变得更小,也更适用于车内的场景。因此可以认为,声扬科技的算法具有较好的普适性及独创性。
5%到20%新能源汽车带动车载语音快速发展
据中汽协发布的《2021年中国汽车市场预测报告》显示,预计2020年全年汽车总销量将达2530万辆,其中新能源汽车销量约达130万辆,占比约为5.14%。而中国推出的《新能源汽车产业发展规划》从政策层面明确提出,到2025年我国新能源汽车销量将占总销量的20%,显然未来几年,新能源汽车还有巨大的发展机遇。
而新能源汽车的快速发展,也将带动车载语音的快速渗透。谢基有认为,新能源汽车代表着造车新势力,他们对于新技术的接受程度会更高,并且新能源汽车一个很大的亮点就是智能,除了ADAS智能辅助驾驶系统外,智能座舱也是也是其中重要的一环,而车载语音便是与智能座舱紧密结合。
在过去几年,汽车中车载语音大多在后装市场,许多传统车企对于新技术的接受程度较低,想要说服这些企业在前装便把语音系统加入进去较为困难,因此只能采用后装的方式,这时候就出现了如智能后视镜、智能中控等技术。
不过目前有一个趋势,车载语音正在向前装市场渗透,随着新能源汽车的快速发展,对于车载语音具有极大的推动作用。声扬科技也表示,会持续在两个方面进行发力,一个是前端语音信号的处理,如何去解决源头的问题;二是解决安全性问题,通过声纹识别,如何在操作控制过程当中将安全性做好。
能够看到,在这个市场中,汇集了许多互联网大咖,对于这些巨头而言,需要做完整的智能生态,因此车载语音这一块自然也不会放过。但并不代表BAT这些巨头做了生态之后,其他企业就没有机会了。车载语音包含了太多的技术点,而每一个技术都能够产生巨大的市场空间。
就如同王博所提到的那样,车载语音场景为驾驶员带来更大的安全性,而语音交互也并非新的技术,最后必然会成为一种标配,随着网络速度和技术的发展,带来的无非是驾驶者对其依赖的程度逐渐加深,从目前的可有可无变为真正的需求。