海思半导体高级产品经理姚世勇:智慧家庭中的AI

haisi2018053101

两三年前,智慧家庭还停留在概念阶段,现在情况完全不同,已经变成了进行时,从全球范围来看,欧洲的法电、德电、意电,美国的comcast、Verison,到东南亚的韩国、日本,都相继推出智慧家庭的战略。国内情况大家比较熟悉,运营商均成立了智慧家庭联盟,全球范围内,60%的领先运营商正在开展智慧家庭业务。

AI将会成为智慧家庭最核心的要素

对于智慧家庭,不同的人有不同的理解,家庭是一个非常特殊的场景,家庭里面应该做到高速网络无处不在,智能服务无处不在。家庭里可享受以下三种服务:

一是安全的家,希望通过安防业务,构建安全的应用场景;二是舒适的家,这也是大家梦寐以求的,也是核心的应用场景;三是健康的家,图中都是目前正在开展的业务,当然不限于这些业务。针对这些业务,最重要的就是实现智慧服务,不管是大趋势、还是大战略,都频繁被提到,我们看到的情况也是如此,AI将会成为智慧家庭最核心的要素。

haisi2018053102

大家一起回顾一下AI发展的情况,在50年代初,AI概念被提出来,马上就有相应成果,开始是国际跳棋,但算法太简单,从此以后AI沉寂了近40年。直到1996年,IBM的“深蓝”与人类对弈,机器第一次战胜了国际象棋大师,引起轰动,但仍摆脱不了机器暴力计算的问题。2017年,谷歌的“阿尔法狗”战胜国际象棋大师,AI重回聚光灯下。总觉得AI跟棋有不解之缘。工业自动化很早就实现了,但是大家觉得用机器做工作,只是比人快一点、更准确些。为什么棋类引起这么大轰动?因为棋类是人类引以为豪的智慧活动。

特别是“阿尔法狗”战胜人类,其模式已经走向深度智能化,选择性运算产生的效果已经非常的震撼,前景已经超出大家想象,有人充满希望,有人充满恐慌。今天,我们看到智能领域发生了很大变化,取得了很大成功。

一头狼具有识别猎物的能力,甚至有简单的协同,但我们现在智能显然差距很大,有很多人开玩笑,说现在人工智能比不过一条狗,可能就是这个原因,人工智能绝大部分聚焦于专家系统,在某一个特定领域产生非常大的作用,还不能用于广泛的人工智能。

这个视频是憨豆去年拍的片,用的是一辆车劳斯莱斯,可以做远场语音控制,憨豆跟别人聊天的时候,提到车名,车就自动启动了,还没有注意到车,车也自动跟随在身后,随人走走停停,无意中转身,发现车很蹊跷的挪了个地方。这说明一个问题,最高端的语音识别系统也无法区别语境,只能机械接受语音命令,可能会造成笑话。

AI技术两大科技革命,驱动用户体验升级

以后产品会沿着两大方向演进,一个是交互革命,一个是AI革命。早期的操控,人机界面局限于遥控器、手柄,现在智能语音技术出现了,后续很可能出现智能视频技术,再到后面可能会出现VR、AR技术实现人机交互,这种控制会完全突破大家一直诟病的操作笨、不方便问题。另外一个是人工智能,从最早的用户侧感知,不断的进行演进,深度学习到对客户行为的认知,到最后实现能媲美人类的人工智能。

AI语音技术,是目前成熟度最高的领域之一,人工智能按应用可归结为两大类,一类是语音识别,一类是图片分类。语音识别的成熟度最高,这个生态里面大部分的网络巨头在资源整合上有很大潜力。专业语音公司像科大讯飞等,包括BAT厂家也做语音识别,内容厂商的视频内容聚集,各种音箱硬件厂商都会参与进来,最后由运营商或设备厂家做业务运营。从技术方面看,这么多技术模块才构建了一个语音识别功能,从最上层的语音分析到中间的拾音、语音增强等,最下面是用户,通过技术模块叠加互动,最终实现智能音箱,或者带STB特性的智能盒子。

作为芯片厂家,我们的着力点在端侧,我们希望把云端的语音技术不断端侧化,语音能力在端侧建立,最终实现一个效果:在家庭环境里面自然交互。大家有没有想过买了一个智能音箱,用起来不像宣传中那么顺手、便利,语音识别率没有那么高,可能就是这个原因。换言之,它是在特定环境里才可以高识别,真正客厅里面人比较多的时候,有噪音的时候,是否操作起来轻松自如,这是一个疑问。

随着当前语音技术发展,家庭里面要达到真正的自然语音交互,应该做到分布式语音层面,不能说买一个盒子放在客厅,要做一次语音交互,一定得跑到客厅去,家里还有那么多房间,甚至很多人习惯待在房间怎么办?比如出门前查一个天气,想问一下交通是否拥堵,怎么办? 分布式语音解决方案解决这个问题,借助于G.hn+WIFI分布式网络解决方案,能够让整个家庭做到网络完全覆盖。顺着高速网络,语音也可以延伸到家庭的每一个角落,拾取主人声音,给主人一个反馈。

haisi2018053103

AI视频技术,借助于AI,可以用摄像头捕捉家庭情况,或者同步进行3D建模,最后把人像从环境中提取出来,叠加到视频或者增值内容上面去,比如在家里打太极、学国标舞,可以把整个形象动作同步到原教学视频里面做比对,可以更精准、高效的学习。借助于图象技术可以衍生出很多应用,我们怎样把流量变成大家喜闻乐见的增值业务,这是一个非常大的难题。比如游戏,我们可以通过摄像头捕捉人物轮廓,作为游戏操控的媒介,来控制游戏里面的角色。第二种是现在玩的比较火的抖音,有舞蹈指导动作,很多感兴趣的年轻人可以实现他录抖音的爱好。第三种是智能试衣镜,通过现在的3D摄像头,可以获取人的三维信息,现在已有技术误差达到厘米级,非常接近真实人体,获取的模型跟衣服矢量图像结合,这样在网上将会有一个全新购衣体验,这个衣服可以不买,可以试穿,拍一个照片做一个留念也可以。大家会发现在这几种应用场景里面,这都是大屏独有的应用,是手机、电脑做不到的。

视频AI技术,也是目前在好莱坞大的影视制作公司广泛采用的技术,在面对低分辨率的图象时,通过智能技术提升整个画质。现在家庭影视娱乐设备,包括机顶盒、电视,视频依然是消费主线,是最基本的元素,脱离这个元素可能会造成用户大量的流失,我们想在这个方面做技术的加强。现在海量的标清节目、高清节目,可不可以通过AI技术直接提升到4K,同时图像质量有明显的提升?这是有可能的。通过AI技术分析视频对象,结合我们的数据库和模型,做到真正的“无中生有”,不断的提升原始图象的分辨率。

haisi2018053104

大家可以看一下示例,提升前和提升后的对比,虽然提升后还不是最真实原形,但是相对真实走近了一大步。还有一种AI视频技术做到人脸、物体的识别,人脸识别基本成熟,甚至有一些地方考虑用人脸支付,能做到这种程度,也是相当精确的技术。

我们跟大家一起探讨主动安全,今天新媒体的人讲到他们的责任、使命,我们作为芯片厂家,可探索利用终端侧的技术去保证安全,我们通过人脸识别技术,能够识别一些关键的信息,比如敏感的人脸或者文字,一旦识别,可以在终端直接打上马赛克,我们用这个技术,可以将一些人为造成的非法行为拦截住,这是通过技术手段解决的,以前只能在前端,现在有后端技术处理这个事。

增值业务的投放点、投放方式,是整个行业摸索的,作为运营商,运营着这么大的用户群,可以投放广告,如果有AI技术加持,可以跟广告商谈投什么广告,我们把产品的模型记录下来,在所有播放的视频画面中进行识别,一旦出现设定的产品,就会自动识别,运营商可通过用户可接受的方式,把广告内容打出来,产生一个增值点。

还有千人千面,大家也比较清楚了,人脸识别技术能比较准确识别家庭成员,根据家庭成员推荐内容EPG。不一定做到按人管理,可以按分类,比如大人、小孩、老人这样更自然。这里几个场景采用的技术基本上比较相似,通过信号采集预处理,根据数据库里面模型进行匹配,最终识别。

AI技术的两大挑战:端侧智能和实用程度

人工智能并不是像我们想象的那么简单,这可能也是大家提的比较多,但是用的比较少的原因,我们人工智能当前面临两大挑战:云端化和实用性问题。单一的云端化造成了很多问题,一是太多的人工智能技术依赖于云端,大量的运算堆积在云端造成很大算力负担,给运营商投资带来很大影响。二是语音、视频通过网络,实时传到网上云端,总感觉自己生活内容被直播,体验非常差,不管你说怎么保证内容安全,但是心里感受还是差。三是把自家视频传上云端,最后在云端处理完,结果返回来,周期长延时大,不是很自然。

现在端侧提供智能能力是重点,行业也正在努力,今天是谷歌I/O大会的第一天。他们正式推出AI框架,在Android系统里面已经集成了,facebook也推出了端侧架构,包括苹果也会提出端侧人工智能方案。后续端侧智能方案会是一个大方向。

另外一个实用性问题,人工智能现在发展到什么阶段,大家印象比较深的还是智能音箱,这个产品大家用了以后,口碑不算很好,国外卖的比较多,也可能跟生活习惯有关,国内这个产品并没预期中那么普及,接受度并不是那么高,为什么?我们语音识别不是很方便,不能说在家庭环境里面,需要事先让大家不要说话,再开始语音交互,这样很诡异。还有识别率怎么样,实验室可以98%,甚至有人说语音识别率是百分之百,一旦放在自然环境里面识别率可能是40%、50%,这是不可接受的。另外是要考虑成本与功耗,人工智能跟生物质能相比,能耗比差很多,这个功耗是否大家可以接受,人工智能集成进芯片,发现芯片成本会显著上升,这个成本是否可以接受。

haisi2018053105

总结一下,我们认为,现在的人工智能大致处于好玩阶段,后面还有两个阶段,一个是好用阶段,一个是好管家,终极目标是好管家,希望在家庭环境里面,人工智能像大管家一样,时刻关注家庭成员的各种状态和需求,积极主动提供周到细致的服务。

未经允许不得转载:数智网 » 海思半导体高级产品经理姚世勇:智慧家庭中的AI

分享到: