灵隆科技魏强:百箱大战不是技术秀场

[导读] 总有一批行业先行者在风口来临之前开始布局。2015年,京东联合科大讯飞成立了灵隆科技,并推出第一代叮咚音箱,成为国内智能音箱行业的先行者,时隔两年多的时间,灵隆科技在9月13号发布了叮咚智能音箱的第二代产品。最近,记者应邀专访了灵隆科技的CEO魏强,了解到在百箱大战的形势下,叮咚2代产品背后的故事。

如果说2017年是人工智能元年,那么发生在今年的百箱大战,或许证明了人工智能应用与落地的最佳方式——智能音箱。究其原因,或许是由亚马逊的Echo千万级的销量引爆的风口,或许是BAT巨头的参与带动的行业热潮,又或者是内容产业所寻找的更多的应用场景。

总有一批行业先行者在风口来临之前开始布局。2015年,京东联合科大讯飞成立了灵隆科技,并推出第一代叮咚音箱,成为国内智能音箱行业的先行者,时隔两年多的时间,灵隆科技在9月13号发布了叮咚智能音箱的第二代产品。

最近,记者应邀专访了灵隆科技的CEO魏强,了解到在百箱大战的形势下,叮咚2代产品背后的故事。

640.webp (53)

魏强,2000 年毕业于西安交通大学,2004 年获得日本京都大学工学博士学位。现任灵隆科技的CEO,在灵隆科技成立之前,曾任松下电器音视频产品总监、京东智能集团产品总监、期间主持了智能家居、蓝光 DVD、智能家庭私有云等多款产品的研发工作。长期从事音视频产品研发工作,具有丰富的人工智能、图像语音技术及相关产品研发经验。

背靠大树的天然优势

叮咚音箱是京东与科大讯飞联手打造的第一款智能硬件产品,两大巨头联手的背景无疑让其天生骄傲。

成立于1999年的科大讯飞,是中国最大的智能语音技术提供商,18年的技术积累,使它在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。科大讯飞在人工智能领域的布局非常广泛,智能音箱是科大讯飞在智能硬件领域最重要的落地应用。

而京东作为国内3C类电商平台,迄今为止已经成立近20个年头,随着智能化的发展,京东搭建的JD Alpha平台,为硬件终端、智能家居、软件应用等提供了开放性端口。同时京东无疑也是叮咚音箱最好的销售平台。

技术和平台的强有力支撑,使叮咚音箱的起步看起来更有底气一些。魏强介绍了三方的“分工”模式,科大讯飞主要提供前端的语音识别等核心技术,京东是主要的销售平台,灵隆科技负责技术如何应用、落地,实现产品化的整个流程。

基于用户需求为产品做减法

在聊天的过程中,不难发现叮咚音箱推出的第二代产品中的亮点所在。

640.webp (54)

一方面,自定义音箱唤醒词。当谈及这一功能的设计灵感,魏强回忆道,当初,我们的产品研发团队设计了上百个唤醒词汇,最后由近200名用户投票选出“叮咚叮咚”、“百灵百灵”、“小薇小薇”三个唤醒词。当叮咚音箱一代推出以后,收到大量的用户反馈,希望能够根据个性化、多元化的需求自定义唤醒词, 满足不同年龄阶段的用户需求。

目前市面上音箱的唤醒词大多是四字音节,叮咚智能音箱可以将其设置为四至六个。但是,魏强告诉记者,“从算法角度而言,唤醒词中包含足够多的音节,元音、辅音并行,起伏明显,从语音识别会更容易些,四个音节也更能够保证唤醒的正确率。”

另一方面,叮咚2代是国内第一款可以拨打电话的智能音箱,跟传统手机连接蓝牙音箱通话完全不同,也不需要另外接SIM卡。叮咚智能音箱的一位用户给自己的外公送了一台叮咚智能音箱,并且拍摄了一段体验视频,像视频中的老人那样,直接对音箱说“叮咚叮咚,给XX打电话”,就能够直接拨打手机通讯录中的联系人。

其实,这款叮咚音箱最大的不同在于基于用户的需求做了很多减法,服务与体验最能体现一款音箱的品质所在 。魏强表示,叮咚的技术从来不是用来秀肌肉的。灵隆科技只把最成熟的技术和功能给客户。其中大家能感知的表现有两点:

多轮语音对话,因为叮咚认为现在这个技术是不成熟的,再家庭场景下会有很多误唤醒和语义识别不准的问题,还没有达到可用的程度。所以我们开放了测试模式的AIUI仅作为体验项目。

声纹识别。因为声纹识别目前行业安全性不够,我们没有开放声纹支付等相关功能,后期相关应用也会集中在个性化推荐等。而支付我们则采用了更成熟的货到付款和小额免密的解决方案。基于京东平台的优势这些方案是成熟可用的。

对于声纹识别的应用,魏强博士强调:“目前,叮咚音箱的声纹技术不强调应用于购物场景,而是把内容做好,针对家庭成员年龄层次的区分相对明显的家居环境,使音箱能够认识用户,并且通过记录用户的习惯、喜好,根据用户的声纹针对性的推荐他感兴趣的歌曲、信息等。”

毕竟,用音箱购物还不能成为一种习惯,更不是刚需。而音箱搭载的内容却是用户关注的重点,据了解,叮咚音箱在内容版权上和百度音乐、有声读物、喜马拉雅等内容平台达成了深层次的合作,通过后台数据的直接打通,保证了音频数据的数量和质量。

除此之外,叮咚音箱的细心之处还体现在对不同年龄层次用户的语音识别上。从刚刚那段视频中可以看出,对于发音略弱、且掺杂方言表达的老人而言,叮咚音箱能做出准确的回应。另一方面,叮咚音箱从对孩子的语音识别方面做了两点优化,一是由于孩子的声带发育不完整,灵隆科技在研发过程中,通过采集不同年龄段的孩子发声的样本,建设了小朋友的声学模型;另一个是基于小朋友还没有连续的表达能力,加强了模糊识别的功能。

之所以在意这些细节上的处理,因为在家庭应用场景中,老人和孩子同样是智能音箱的使用者,而且频率很高。

百箱大战是件好事

对于目前的百箱大战,魏强说道:“我觉得这是件好事儿,不断有玩家进入,一方面催熟了这片市场的快速发展,另一方面,使智能音箱作为一种全新的产品形态及交互方式,对市场和用户也起到了一定的宣传、教育作用,提高用户的知晓度与接触度。”

智能硬件前几年涌现过不少风口,无论是智能手环(手表)也好,还是VR眼镜也好,这些产品到最后都逐渐在市场中冷淡。其中原因之一,是投机者进入,产生劣质产品导致极差的用户体验。

对智能音箱的未来,魏强持乐观态度,他说:

“整个智能音箱的前段语音技术、产品制造、再到后台各种服务的接入,是一个复杂的、较长的产业链条,并不是传统音箱加语音模块的简单合成。我们更希望以团结合作的心态共同做好智能音箱产业,更多的是产业链方面的合作。从内容服务到硬件到语音识别技术整个产业链上下游共同协作。”

这或许也是智能音箱行业,我们能够期望的最好发展方式。

未经允许不得转载:数智网 » 灵隆科技魏强:百箱大战不是技术秀场

分享到: 更多