林满佳的情况背后正是当下人工智能领域的一大趋势——AIoT,其中,智能家居以最先落地的硬件形态进入到普通消费者生活中。“小度,小度”“Hey,Siri”等唤醒词已经被常常挂在嘴边。
《IDC中国智能家居设备市场季度跟踪报告》显示,2019年第一季度中国智能音箱市场出货量达到1122万台,同比增长787.2%。其中阿里巴巴和百度的出货量均为340万台,小米排在第三,出货量为290万台。阿里、百度、小米三家占据了中国智能音箱近86%的出货量。
智能音箱出货量暴增,形势一片大好。然而从数据亦能看出,在这个成长迅猛,看似蓝海的赛道里,仅剩下几个实力寡头在竞争。
更值得注意的是,几家大厂纷纷加码之时,国内最大的智能语音技术厂商科大讯飞在去年的年度业绩说明会上,董事长刘庆峰直言“不再跟进智能音箱赛道”,并指出从来没把智能音箱作为智能家居入口。
是巨额补贴伤神,还是需要对这款智能硬件进行重新定位?以家居场景为例,语音在智能音箱这个话题点的价值和作用是什么?作为相对成熟的AI技术之一,智能语音是否已经迎来红利兑现阶段?
搜狐科技“智研所”沙龙第6期特邀请到科大讯飞OS平台业务部总经理林满佳、标贝科技联合创始人兼CTO李秀林以及玩秘创始人兼CEO余轲,共同探讨智能语音的当下和未来。
智能音箱已是红海?
在80年代,以数理逻辑为核心的体制瓦解后,人工智能分化出了五大独立学科。在这五大学科中,由深度学习推动,并顺利从科研实验室走到人们身边的智能语音,由于是目前落地速度最快、覆盖率最高的人工智能技术之一,某种程度上,承担了人工智能这两年的大部分热度。
据《IDC中国智能家居设备市场季度跟踪报告》数据,2019年第一季度中国智能音箱市场出货量已达到1122万台。IDC中国助理副总裁王吉平认为,智能音箱在中国市场单季度突破1000万台销量,说明其家庭普及率虽然不及智能手机,但是已经和PC、智能电视等产品相当,且未来可展望的空间将更大。
语音交互技术是各智能硬件的重要控制手段之一,其中,智能音箱成为最先普及的硬件形态。
然而,智能音箱经历过三年似过山车一般的发展历程后,现在仅留存巨头竞争,各企业开始重新审视这一硬件产品的定位。
“为什么智能音箱在西方市场大卖,国内大家却混战一团?”玩秘创始人兼CEO余轲指出这样一个现象。虽然中国有人口红利的优势,但以亚马逊Echo和Google Home为代表的智能音箱品牌在美国的销量已经远超中国市场。
余轲认为根本原因根植于中国消费者的生活习惯,“在智能音箱之外,还有一个不可忽视的智能终端——手机,而相比于音箱,手机显然是在近期销量更大的一种终端,而且其具有用户随身携带和可移动的特性。”
中国用户更倾向于在路上及户外的场景消费更多内容,而不是家里的起居室和卧室。
一个很直观的例子是,爱奇艺的用户有70%都选择在智能手机或平板上观看视频,而在美国,大多数Netflix用户会端坐在沙发上通过电视看视频。
这使得行业内多数人对智能音箱这个赛道仍保持观望态度。
(图片来源:科大讯飞)
针对国内外智能音箱市场的差异,标贝科技联合创始人兼CTO李秀林认为“内容”是另一大关键因素。
“如果音箱背后没有内容,只是简单的交互,是没有生命力的。内容不是凭空来的,需要付费,但可以发现中国大家的付费意愿普遍不强,尤其在互联网大潮下,我们之前看的视频基本都不需要付费。但这些年境况已经变了,付费的意愿有了之后,有人愿意为音箱后面的内容付费,所以也不排除音箱还有更多的发展机会。”李秀林表示。
去年百度开发者大会上,“凯叔讲故事”正式接入百度DuerOS平台,也就是说,只要对着百度智能音箱说凯叔讲故事,智能音箱就会把里面的内容推送给你,语音请求和应答无缝对接。
百度智能生活事业群组(SLG)总经理景鲲曾在现场表示:“这是我们对未来用户需求的一个判断。比如,我只要说‘我想唱歌’,搭载DuerOS的设备就可以打开‘唱吧’让你想唱就唱,不需要像在其他设备上打开特定的APP。说一句‘我想学英语’,在线少儿英语平台VIPKID就会打开。”
与此同时,腾讯听听音箱也全力借助自己的内容优势,整合了包括QQ音乐、腾讯新闻、企鹅FM、腾讯视频、阅文集团等强大的内容体系。
可以说,在智能音箱领域,与其说是对入口的争夺,倒不如说是对场景以及内容的争夺。考虑到智能音箱的技术难度并不大,而且“再强的技术,也只能领先半年”,技术和低价已经不再能成为智能音箱竞争的筹码。
(图片来源:玩秘)
除此之外,科大讯飞OS平台业务部总经理林满佳则认为,智能音箱只不过是多数语音厂商赚到的第一桶金,它只是语音交互技术的突破点之一,不是必由之路。“分两个场景来看,智能音箱如果用来控制家具,是解决痛点,如果作为文娱或信息获取的工具,那就只是痒点。”
国内的语音技术每项都“差一点”
语音交互主要由三个环节组成:语音合成、语音识别、语义理解。“现在大家都知道的一个共识,国内语音识别技术准确率已经很高,基本保持在95%-97%的范畴。”李秀林指出,各家语音识别技术的差别不大,但交互依旧发展较慢,是因为制造商对用户需求的理解不成熟,而这方面还需要大量的用户使用数据去支持。
(图片来源:标贝科技)
对于“95%-97%”这个数据,林满佳提出了不同的看法。
“这个数字看起来很美,但我们在评估技术水平时,需要用乘法法则。”林满佳直言,大家都号称自己的准确率这么高,但在工程落地阶段,环节非常多,从语音交互麦克风阵列硬件的设计到声学,再到最后识别、语义理解到合成,每一步都是要做乘法的,0.98*0.98……,乘下去的数据就会越来越小。
“提高某一方面的算法还是需要继续突破的,最重要的是基础工程方面得去加强,中国在声学方面还是有点落后的。”Gartner分析师特雷西-蔡也曾表达过类似的观点:“中文自然语言的理解与反馈现在还不成熟,因此人机对话还较为蹩脚。”
今年5月,科大讯飞举行2019年新品发布会,发布会上,科大讯飞一举发布了五款AI+智能硬件,和智能语音云端操作系统iFLYOS的新版本iFLYOS 2.0。
据林满佳介绍,iFLYOS的设计就是为了满足人工智能硬件时代的快速落地。除语音交互人性化及产品设计个性化的特点之外,“硬件要落地快,意味着人工智能每个硬件针对性很强,所以每个领域都需要大体不同的一些硬件,所以要求你的落地速度要足够得快。”林满佳介绍,iFLYOS已经落地七个场景,并已经全部公开出来。
而行业内另一语音巨头百度,也在刚过去不久的AI开发者大会上展示了“全双工免唤醒能力”,是小度助手5.0的重要技术革新。再次突破了人机语音交互智能程度上限。
除此之外,百度还推出了针对远场语音交互的鸿鹄芯片,可以实现远场阵列信号实时处理,高精度超低误报语音唤醒以及离线语音识别。
各大科技企业对语音技术的价码实际上是对“超级入口”的抢夺,但更明显的是,现在只谈论技术已经远远不够,还需要大量的用户数据和场景喂养技术,科大讯飞一次性抛出五个智能硬件的动向也可以诠释这一点,C端正在变得越来越重要,从C端实现盈利,正在变成技术型公司商业化的终极梦想。