声智科技陈孝良:听你所言·知你所想 从语音交互探究智能家居行业新趋势

[导读] 声智科技是一家人工智能交互与声学解决方案服务商,从事语音交互芯片、模组和设备研发、设计、制造并提供整体声学技术解决方案。其创始人陈孝良先生是声学、语音识别专家。2016年4月,陈孝良先生带领声学阵列和深度学习两个团队成立声智科技,主要致力于解决真实场景下的语音交互问题。

声智科技创始人兼CEO 陈孝良

声智科技创始人兼CEO 陈孝良

声智科技是一家人工智能交互与声学解决方案服务商,从事语音交互芯片、模组和设备研发、设计、制造并提供整体声学技术解决方案。其创始人陈孝良先生是声学、语音识别专家。2016年4月,陈孝良先生带领声学阵列和深度学习两个团队成立声智科技,主要致力于解决真实场景下的语音交互问题。目前,智能音箱引起了众多行业巨头的关注,它很可能成为人工智能的下一个入口,对此陈孝良先生接受了《智能家居》&智能头条的专访。

东西方文化差异 造就智能音箱需求

科技巨头纷纷涉足智能音箱领域,但音箱这个品类本身不具备快速增长的潜力,而且音箱的消费群体相对还比较碎片化。从数据上看,即便Amazon Echo销量逐年增加,不过并没有出现爆发式增长。智能音箱的发展其实是一种音箱升级换代的技术,本身没有太大的趋势风险,未来音箱必然都会升级成为智能音箱。

智能音箱是否能在国内市场发生爆款级现象,主要看消费者对其上市反应。东西方对于智能音箱的理解肯定有文化差异,理解文化差异之前,需要先把语音和语言区分开来,语音(Speech)是语言(Language)的信号载体,语音是人的发音器官发出的,承载一定的语言意义,而语言承载人类的智慧。通俗的讲,语音是天生存在,而语言则是需要学习不断进化。人机语音交互实际上就是语言的交互,即便语音识别做到100%,对于理解语言来说也没有具体意义,何况语言总是个性的、场景的和情绪的。毫无疑问,东西方由于文化的巨大差异,其语言表达方面也存在巨大的差异,而这种差异也决定了类似智能音箱产品的普及速度。

相比西方人来说,东方人使用智能音箱面临着更大的心理障碍。与西方人觉得机器不够聪明不同,东方人面对这类产品的表现更为含蓄和尴尬,再加上当前语音交互的现场感和及时性确实不够好,无形中加剧东方人这种心理上的障碍,这种障碍导致东方人使用智能音箱时,很难连续说出超过十句不同的表述。

这样说来,当前阶段东方人需要的智能语音设备应该很简单,只要做到准确控制和响应即可,并不需要过于“智能”。比如我想听刘德华的歌,智能语音设备准确找到并播放即可,所以智能语音设备甚至不需要多轮对话,实际上只有一次机会去部署相应的动作。一般而言只有两次对话机会,如果第三次对话还没弄清用户需求,这个智能语音设备可能就面临危机,反复对话对用户来说是很糟糕的体验。当然,从国内现状来看,当前社会就是快节奏、高压力,相信大部分人没有时间和精力回家后还要听一台智能音箱啰嗦。

智能语音应用多领域 智能音箱短期难被超越

语音交互具有强大潜力,但是现在还处在冷启动阶段,智能音箱只是一个很好的突破点,将来肯定会衍生出众多的应用,甚至重构整个消费电子行业。目前来看,整个智能家居还没有形成生态,智能音箱短期内很难扩展到其他领域。当前这个阶段,最重要的还是应该做好智能音箱的核心产品属性。

智能音箱是否成为中国家居智能化的控制中心并不好说,可能只是一种过渡,未来机器人或成为家居智能化的控制中心。短期内,智能音箱仍有较大优势,比如办公智能化、酒店智能化等领域,智能音箱都是不错的选择。至于其他,智能盒子也具有潜力,特别适合国内的家居生态。未来谁能成为入口,仍看众多产品如何博弈。

智能音箱未来市场份额至少会在千亿左右,但是最近几年估计销量突破千万台都会很难。至于行业巨头纷纷上市智能音箱,较多都是模仿Amazon Echo,即重智能轻音质,这或将成为一个严重的问题,因为智能音箱的本质属性还是音箱,若没有差异化产品很难突围。

专注声学技术和场景交互 提供一站式解决方案

声智科技目前可以提供2-8麦阵列方案、智能音箱和智能耳机套件方案、单麦和双麦方案等。SoundAI阵列拥有全方向唤醒、声源测向、定向拾音、噪声抑制、混响消除、回声抵消、异常声音检测识别、声纹识别等多项技术功能,可以满足用户在语音交互领域的全部需求。声智科技的阵列还有一个系列——通用麦克风阵列,采用标准USB端口,可轻松接入用户已有的主控开发板,直接支持设备升级到远场语音识别的能力,能让用户在最短的时间内完成产品的规划设计,性能验证,迅速完成产品量产并投放市场。

声智科技对智能音箱开发套件,提供Android&Linux系统开发环境,以及测试APP和远场语音人机交互DEMO版本,开发SDK让用户可以随意接入任意语义理解引擎(中文、英文)进行验证测试,默认内置DuerOS或者Ula交互系统。声智科技的单麦方案运用单麦识别与双工通话算法,在前端基于麦克风感知声学信号,利用噪声抑制、语音增强、声学检测、语音识别、语音唤醒、丢包补偿和语音重建等技术形成远场声学智能感知系统,解决了全双工通话的回声、噪声及猝发声的干扰问题,从而大幅改善通话过程中的吞音、杂音等现象,提升产品的远程双讲效果。

声智科技的唤醒技术、声纹识别技术、回声消除技术、声源定位技术、自适应波束形成算法技术、阵列去混响技术、单通道语音增强技术、远场语音识别技术、机器学习技术等赋予了产品定向、降噪、去混响、高唤醒率、高识别率和高灵敏度等特点,可以实现人与机器之间的远场语音交互,并提升用户不论在家庭还是办公等场景下的产品体验满意度。

在复杂生态链中寻求角色定位

纵观智能音箱生态链,国内市场显得相对复杂。比如阿里和科大讯飞,不仅本身研发产品而且对外提供技术方案,生态路线比较摇摆,这可能会伤害生产厂商。再看百度,则是坚定不移地走开放路线,而腾讯的生态策略当前看来并不十分明晰。就个人而言,是比较认同百度的开放路线,其通过与众多厂商的合作,共同创建生态产业,以支持合作厂商定义更多产品。事实上,无论是做平台还是做产品,都是鱼和熊掌的关系,二者很难兼顾,为了平台不得不放弃产品。短期来说,Amazon和Apple两家公司历经风雨积累多年,建立适合自身发展的两种生态模式,并不适合国内企业不加考虑的快速复制,企业需要在市场实践中寻找到生态模式。

声智科技作为技术链条中的重要一环,更愿意接受开放生态,我们也坚信在人工智能的早期阶段,不太可能出现过分的封闭生态。比如Amazon,Echo团队和Alexa团队之间的关系显得异常微妙,当Alexa极力推生态的时候,Echo就以持续降价应对,这对于生态厂商来说无疑就是一场灾难,所以国内企业若要复制Amazon,难度可想而知。

面对国内智能语音市场的复杂环境和中文语音公司的群雄割据,声智科技当前商业模式较为简单,主要以授权和Turnkey方案为主的B2B模式,声智科技不会像科大讯飞或者阿里那样直接去做消费电子产品。我们的竞争优势主要依靠技术,包括声学技术和远场语音交互,另外技术融合也是声智科技的软实力,比如软硬件的一体化,声学结构设计等等。在错综复杂的局面下,声智科技下一阶段主要目标是加强营销和服务,以支持更多的中小开发厂商。

在企业合作中补全短板精益产品

近期,声智科技与百度联合推出了基于DuerOS 平台的软硬件一体化解决方案,欲在帮助第三方厂商迅速开发带有远场语音交互应用的新产品。声智科技之所以与百度合作是因为声智科技核心在于软硬一体的语音交互前端,而百度核心则是语音交互后端的语义和内容。加之,百度新一代领导团队以兼容并包的思想鼓励生态合作,这对于声智科技来说无非是一次机会。我们双方通过合作补全各自的短板,并且帮助第三方合作厂商开发出更多语音智能产品,这一举措对于整个产业链来说价值非凡。我们与百度合作可以让产品厂商避开技术的陷阱,从而有更多精力关注产品细节和用户体验,无形中推进了行业的发展。

利用技术突破解决场景痛点

目前声学感知与人工智能技术在中文智能音箱的应用中愈发成熟,但仍处在技术发展的早期阶段,距离行业预期还有一段发展过程。事实上,当前语音技术处于瓶颈时期,包括声学技术、语音识别和语义理解,以及语音合成,预测3~5年内这些技术可能会有重大突破。

声智科技主要面向的是远场唤醒和远场识别,这也是当前我们的核心技术,包括声学技术和机器学习。声智科技主要贡献是把物理学和计算机学两个学科的技术融合在一起,利用基于数据的物理和数学模型提升技术效果和性能。语义识别并不是我们的研究范畴,主要通过与百度、蓦然和三角兽等合作来实现。

采访手记

随着云计算、大数据和人工智能技术的迅速发展,一时间,国内把声学和人工智能结合的企业已不在少数。不过,在人工智能技术尚未成熟之时,专注于声学的声智科技希望把人们的目光拉回到前端的语音识别交互,让“听你所言,知你所想”不再是愿景而成为一种现实。

未经允许不得转载:数智网 » 声智科技陈孝良:听你所言·知你所想 从语音交互探究智能家居行业新趋势

分享到: 更多