一、智能音箱调研报告|语音交互功能详析
2014年11月发布亚马逊低调发布智能音箱Echo,内测半年后于2015年正式发售,当年销量为250万台,16年销量520万台,超越传统音箱领头羊Sonos,成为在线音箱行业霸主,一度在细分的智能音箱市场占据了99%的市场份额。亚马逊发布的智能音箱Echo受到市场强烈反响以后,google在2017年5月发布google home,苹果在2017年WWDC发布智能音箱HomePod,国内厂商京东和科大讯飞合作推出叮咚音箱……一时间国际互联网和硬件行业巨头纷纷加入战局,争夺语音交互流量入口,带动了AI落地的一轮热潮。
智能音箱已经成为全球增长最快的消费级硬件。2017年6月苹果home pod发布以来,下半年至今,每月都有一两家科技公司发布智能音箱新产品或二代、三代产品。目前为止国内科技巨头BAT、小米,老牌电器厂商联想、苏宁,语音技术企业科大讯飞、思必驰,硬件技术创业公司出门问问、若琪等都陆续通过自研或合作的方式入局。
智能音箱的爆发离不开语音技术的支撑,掌握语音技术的有两类厂商。一是互联网巨头如Amzon、Google、BAT、苹果、微软等,二是专研语音交互技术的厂商如科大讯飞、思必驰等。语音技术厂商通过自主研发软硬件产品,或对外输出技术,赋能传统智能音箱厂商、内容和互联网服务厂商,获取用户和数据,建立平台生态。
基本信息: Amzon Alexa是亚马逊的智能虚拟助理和开放平台,2010年启动研发,于2014年11月和Echo同时发布。Alexa具备语音技术能力,并通过运行独立的程序,称为“技能”(Skills)来实现不同功能应用(类似手机里在操作系统上运行APP),支持音乐播放、语音购物、智能家控、智能通讯等一系列功能。由于其先发优势与大量的落地产品,不论是从产品搭载数量和智能水平上,alexa都已远超其他技术厂商(CNET在CES2017的统计)。
开放情况: Alexa 2015年6月,亚马逊将Alexa开放给第三方开发者,发布了 Alexa Skills Kit(ASK)和Alexa Voice Service(AVS)两套开发工具包,让开发者能够更加容易开发Alexa的“技能”;并设有了风险投资基金alexa found专门扶持语音交互领域的初创企业,以及大学生开发竞赛Alexa prize。从2014年发布时的29余项技能,到如今近4w项技能,积极开放政策和不断优化的开发工具,使得Alexa拥有了远超其他技术厂商的海量技能。
应用范围:截止目前Amzon Alexa已陆续在全球38个国家开通(中国暂未开通),涵盖英语、德语、法语、意大利语、西班牙语和日语等6种语言(暂不支持中文)。除了搭载自家echo系列音箱产品外,Alexa也赋能sonos、联想、哈曼卡顿等音箱产品,amzon fire TV等智能电视,amzon fire、华为mate9、HTC等平板电脑和智能手机,华硕、惠普、联想等笔记本电脑和PC,智能冰箱、智能灯、智能开关等智能家居产品,智能耳机、智能手表等可穿戴设备,以及包含福特、宝马、雷克萨斯、丰田等品牌的智能汽车。
基础信息: Google assistant是谷歌的虚拟助理,于2016年5月在谷歌开发者大会正式发布,支持语音交互,搭载在Google的智能手机和智能音箱中。
开放情况: 2016年12月,Google推出开发者平台Actions on Google,2017年4月发布了SDK(软件开发工具包)以便第三方开发者为Google assistant开发应用程序,并进一步扩展支持智能汽车和其他智能家居设备。Google assistant支持语音输入和视觉响应,可通过设备的相机识别物体并收集视觉信息。
应用范围:当前Google assistant已支持英语、日语、法语、德语、西班牙语等8种语言,预计2018年底将支持30多种语言,覆盖95%的Android手机(暂不支持中文)。除了搭载自家Google home系列音箱和Pixel系列智能手机外,Google assistant还赋能索尼、诺基亚等智能手机,松下、LG、Sonos等品牌的智能电视、智能机顶盒、智能音箱产品,联想、爱可视等电脑及沃尔沃等智能汽车产品。
基础信息: Cortana是微软的虚拟智能助理,于2015年1月正式发布,逐步应用于搭载windows操作系统和Android/ios系统的移动设备。Cortana具备语音交互功能,并使用bing的搜索引擎信息回答问题,能够调用应用程序、查询天气、提供餐厅和景点推荐,控制智能家居。
开放情况: 2017年的build开发者会议上,微软退出Cortana技能开发平台,允许第三方开发者为cortana开发技能。
应用范围:截止目前cortana支持包括中文(简/繁)、英语、德语、法语、日语在内的近10种语言。Cortana已集成到微软众多产品,如Edge浏览器、windows10、车机系统、Skype(微软的即时通讯服务),并赋能微软与harman kardon合作的智能音箱invoke等。
4.Apple siri
基础信息: Siri(Speech Interpretation and Recognition Interface)是苹果的虚拟助理。Siri公司创建于2007年。起初 Siri只是 iOS平台的一个应用程序,苹果在 2010年 4月收购了 Siri公司并重新开发后,Siri成为了苹果设备的内置软件,于2011年重新发布,并只允许在 iOS、macOS中运行。Siri支持语音交互,可以完成数据搜索、天气查询、设置闹钟等许多服务。
开放情况: 2016年6月苹果开发者大会上开放了Siri接口,在IOS开发平台中新增Sirikit,支持开发者调用Siri展示应用内容。Siri目前暂无独立的技能开发平台。
应用范围:截止目前Siri支持包括中文(简/繁)、英文、法文、德文、意大利文在内的20余种语言,并赋能苹果全线产品,如iPhone、iPad、iPod、Apple watch、mac等。
基本信息:科大讯飞成立于1999年,是国内最大智能语音技术厂商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、识别、评测等多项技术上拥有国际领先的成果,与中国官方关联密切,堪称“中文语音产业国家队”。科大讯飞占有中文语音技术市场70%以上市场份额,语音合成产品市场份额达到70%以上。
开放情况:讯飞开放平台是全球首个提供移动互联网智能语音交互能力的讯飞开放平台,基于讯飞开放平台陆续推出讯飞输入法、灵犀语音助手、AI+教育、AI客服、AI医疗(语音电子病历、医学影像辅助诊断系统、智能助理等)、晓译翻译机、飞鱼智能车载系统、家庭场景的讯飞魔飞麦克风系统等是多宽人工智能产品。
应用范围:科大讯飞支持34种语言,包括中文各地方言,目前已赋能长虹、海信、康佳等国内大牌智能电视、GlassX、ZWatch等可穿戴设备,奥迪、宝马、奔驰、通用、福特、上汽、广汽、长安、吉利、长城、奇瑞等国内外智能汽车,智能音箱(京东叮咚音箱)、聊天机器人(小鱼在家)等智能硬件产品,窗帘、空调等智能家居产品,为包括滴滴打车、高德地图、QQ阅读等在内的超过60000个App提供智能语音交互服务,覆盖聊天通讯、工具、视频、新闻、导航等生活领域的方方面面。
基本信息: DuerOS是百度的对话式人工智能系统,于2017年7月百度AI开发者大会上正式发布。DuerOS具备影音娱乐、信息查询、生活服务、出行路况等10大类目共200多项能力,用户可在不同场景下实现指令控制、信息查询、知识应用、寻址导航、日常聊天、智能提醒和多种O2O生活服务;同时支持第三方开发者的能力接入。
开放情况: DuerOS开放平台包括智能设备开放平台和技能开放平台,分别适应不同类型的硬件厂商和为开发者。为方便“上手”,百度发布了针对个人、产品厂商、特殊厂商的DuerOS套件,并融合包括声智科技、先声互联、Intel、Rockchip等第三方解决方案,上线了技能商店APP“小度之家”。
应用范围: DuerOS支持普通话、英语、粤语、四川话等多种语言,已赋能智能音箱、电视、冰等大小家电与智能家居产品,智能手机、手表等随身设备,车机、智能后视镜等智能车载产品,累计搭载5 000万设备,日活超过1000万,有1600万DuerOS合作伙伴,落地80多家主控设备,积累了超过10000名DuerOS开发者,DuerOS累计回答问题数已达24亿。
基本信息:小爱开放平台(原水滴平台)于2017年5月对外开放语音能力与SDK,基于小米的硬件生态和海量数据,提供全球领先的语音识别、NLP等多项人工智能技术,为开发者提供一站式的人工智能服务。
应用范围:小爱开放平台能力已在小米电视、小米AI音箱、小米金服‘米小贝’等小米软、硬件产品中集成,为小米生态链中8500万台IoT连接设备赋能,虚拟助手小爱同学的日活跃用户也达1000万。
4.AliGenie语音开发者平台·天猫精灵
基本信息: AliGenie开放平台于2017年10月12日云栖大会发布,由阿里巴巴人工智能实验室发起的,面向企业/机构/创业者/开发者,将阿里巴巴在人工智能领域积累的技术以API或SDK等形式对外共享的在线平台,目前已经拥有涵盖影音娱乐、新闻资讯、购物外卖、家居控制、生活助手、儿童教育等的100多项技能。
应用范围: AliGenie开发者平台主要包括三大部分:精灵技能市场、硬件开放平台、行业解决方案,全面赋能智能家居、制造、零售、酒店、航空等服务场景
基本信息:腾讯云的智能服务系统和智能服务开放平台,帮助智能硬件厂商实现语音人机互动和音视频服务能力。微信AI团队自 2012年起,就将语音输入、语音识别、语义分析技术等功能应用到微信中,腾讯云小微将微信的语音技术作为底层能力,故命名为“小微”,于2017年6月腾讯“云+未来”峰会上正式对外发布。
应用范围:腾讯云小微包括硬件开放平台、Skill开放平台、服务机器人(智能客服)平台,结合腾讯社交关系链,覆盖家庭、车载、运动、酒店和儿童陪伴教育等众多场景。
基本信息:思必驰2007年成立于英国剑桥,创始人均来自剑桥,2008年回国落户苏州,是国内少有的拥有人机对话技术,国际上极少数拥有自主产权、中英文综合语音技术的公司之一。思必驰于2017年9月正式发布DUI(Dialogue User Interface)开放平台,以任务式对话为核心,兼具闲聊与问答功能,打造人性化交互。作为一个全链路智能对话开放平台,DUI开放基于思必驰智能语音语言技术的对话功能,并提供GUI定制、版本管理、私有云部署等开发服务。
DUI具备青囊(服务与研发支撑)、天机(大数据)、紫微(丰富的第三方资源)、玲珑(终端解决方案与环境)四大系统。DUI平台对接丰富的第三方内容,内置国内最专业的语音语言技能商店,具备深度数据可视化、个性化自定义、零门槛操作,开发者通过DUI可实现全链路的高度定制,几乎可自定义每个模块。
应用范围:平台已覆盖车载、家居、机器人、故事机、手机助手等多应用场景,提供智能车载、智能家居、智能机器人等解决方案,赋能天猫精灵X1、小米AI音箱小爱同学、联想智能音箱、小米板牙70迈智能后视镜等前沿智能产品。
出门问问是Google(谷歌)投资的一家中国人工智能公司,由硅谷华人科学家李志飞于 2012年回国创立。拥有自主研发的语音识别、语义分析、垂直搜索、基于视觉的ADAS和机器人SLAM等核心技术。代表性的软硬件产品包括智能手表Ticwatch、车载智能后视镜问问魔镜Ticmirror、智能音箱Tichome、出门问问语音助手APP以及高级驾驶辅助系统问问魔眼Ticeye。
猎户星空拥有全套远场语音技术,自研全链路的远场语音交互系统“猎户语音OS”,已赋能喜马拉雅“小雅”音箱,美的、海尔、博联、海尔优家、欧瑞博等品牌的智能家居产品。小米AI音箱、小米电视,也应用猎户星空的TTS(语音合成)技术以及ASR(语音识别)技术。猎户星空自己音箱小豹AI音箱,接入微信支付、银联支付、融合区块链技术。
2017年猎户星空还获得了世界公认人脸识别“世界杯”的微软百万名人识别竞赛识别百万名人子命题有限制类(只使用竞赛提供数据)的第一名。2018年3月21日,猎户星空正式对外发布人工智能领域的机器人产品矩阵,在接待、售卖、儿童陪伴等多个场景落地。同时发布了猎户机器人平台 Orion OS,集合了自研的多芯片系统,摄像机+视觉算法,麦克风阵列,猎户TTS,室内导航平台和七轴机械臂等,形成了完整的机器人技术链条。Orion OS现与微软、搜狗、高通、英伟达和锤子科技等建立了战略合作伙伴关系。
Rokid公司成立于2014年7月,隶属于杭州灵伴科技有限公司。总部位于中国杭州,北京和旧金山分别设有研发中心,致力于机器人领域研究,专注于远程定向拾音/语音语义识别、人脸/手势识别、音响和投影系统等核心技术。Rokid现有PEBBLE•月石智能音箱、AR眼镜Rokid Glass、智能机器人ALIEN·外星人等产品,Rokid智能家居机器人在2016年和2017年连续两年获得CES国际消费电子产品展创新大奖。
DeepBrain 2012年成立于上海,致力于研发人工智能产品,核心团队是来自于国内外名校的技术研究人才,为超过100家厂商提供深度人机对话能力,并与三星、华为、联想、中兴达成深度合作。DeepBrain在2014年发布了国内首款智能音箱——小智超级音箱,比 Echo的推出还要早半年。其语义技能平台已进驻上千名开发者,开发了超过 1000种以智能家居为主的语义技能。
搜狗由搜狐公司创建于2004年8月3日,域名为Sogou.com,目的是增强搜狐网的搜索技能。2013年9月,腾讯注资搜狗,并将腾讯旗下的搜搜业务,输入法业务注入搜狗。2017年11月,搜狗在纽交所上市,腾讯目前持有搜狗45.37%的股权;搜狐持有搜狗股权比例为39.21%。搜狗语音技术研究于2012年启动,并在2013年6月正式上线搜狗语音云开放平台,接入搜狗包括输入法、地图在内的全线产品,并推出搜狗语音助手,与Siri一样,搜狗语音助手在手机端上提供的交互体验并不能让用户产生足够的依赖性,产品的使用率并不高。2016年8月搜狗发布了语音交互引擎「知音」,2017年12月与四维图新、飞歌展开合作,推出飞歌智能车联网软硬件解决方案G8Ⅱ后装智能车机,为2018年3月发布的小米电视 4A提供ASR语音识别能力,为会议平板厂商视源股份发布的首款智能语音平板 MAXHUB提供语音技术。
销量与市场占有率对智能音箱产品有着非比寻常的意义。因为智能语音技术刚刚落地,极其依赖用户数据的喂养,越使用才能越智能。
根据笔者估算,截止2018年Q1,全球智能音箱市场保有量占比如下所示。Amzon凭借其先发优势和形态丰富的产品,一骑绝尘,占领了71%的份额,Google以其完备的低-中-高产品矩阵和用户基础,抢夺12%的份额,天猫、小米分别凭借电商体系、智能家居生态与低价爆款策略占据6%、4%的份额,京东涉足智能音箱较早,品类丰富,也占据了3%的市场份额,apple的homepod在今年 2月9日才正式发售,且定价偏高,仍旧占据了1%,其他所有品牌占据3%。
作为智能音箱品类开创者,Amzon不断地优化音箱产品新能,持续创新。从场景和形态出发,陆续推出小巧低价的echo dot,带屏音箱echo show、闹钟音箱echo spot。既有促销爆款铺量,又有高端品类防守,具备了高、中、低三个档位完善的产品矩阵,各型号累计销量在3千万以上,是目前唯一销量破千万的智能音箱厂商,引领着全球智能音箱市场。
京东与科大讯飞联合成立的灵隆科技推出叮咚音箱,作为国内较早涉足智能音箱的厂商,从2015年5月开始,京东已经发售了一系列新品。整体产品线与Amzon相似,不断探索更多形态与场景,持续提供更多自定义功能,并以儿童教育音箱,切儿童早教市场。随着小米、阿里、百度的强势入局,京东也推出了高端带屏音箱叮咚PALY,低价叮咚mini2,抢夺国内市场。
2016年5月,在Amzon几乎垄断智能音箱市场之时,Google入场搅局,推出Google home,凭借其优雅的设计、背靠Google搜索引擎的智能问答和价格差异,曾一度占据了20%以上的市场份额,并在2017年10月推出低价的Google home mini和高价的Google home max,不断支持更多新技能和场景:接入更多智能家居设备、支持500w个菜谱抢占厨房,支持语音购物等。
小米作为国内领先的智能家居生态构建者,产品覆盖了耳机、移动电源、手环、插座、血压计、空气净化器、净水器、运动相机、平衡车、电池、床头灯、电饭煲等智能家居设备。小米于2016年底开始研发虚拟助手小爱同学,并在2017年9月正式发布了智能音箱小爱同学,除了强大的小米家居生态背景,小爱同学还因其机智的人设获得极高关注。2018年小米推出Q萌版小爱同学mini加入国内低价冲量大战。
阿里对新技术研发极为重视,在17年7月发布了天猫精灵x1,同时亮相的还有负责阿里消费级AI产品研发的阿里巴巴人工智能实验室,17年10月云栖大会正式宣布成立达摩院,网罗各个重点技术领域的专家人才,进行基础科学、AI芯片和颠覆式技术创新研究。18年3月推出天猫精灵M1曲奇,火眼支架,6月推出天猫精灵方糖,持续探索更多音箱形态,花式输出AI技术,包括图像识别、人脸识别、物体检测及情感反馈等能力。同时提高产品性价比,紧守音箱低价冲量的战场。依托阿里强大的电商网络,天猫精灵已成为国内销量最大的智能音箱品牌。
2017年2月百度全资收购渡鸦科技,11月发布了RavenH智能音箱,形状新奇色彩绚丽,带有可拆卸点阵触控板,对标高端音箱Sonos、Bose和哈曼卡顿,售价1699。18年初联合老牌音响制造商DOSS(德仕)推出DOSS智能音箱,3月、6月陆续推出国内首款智能视频音箱599元的小度在家、89元低价小度智能音箱,在京东和天猫发售,凭借极高的性价比,在国内音箱价格战中尚有一席。
除了销量可见的主流智能音箱,国内外仍有不少智能音箱产品。如微软与哈曼卡顿联合推出的invoke,搭载了微软Cortana,Line与高通合作推出的Clova,以及国内中小创业团队的系列智能音箱,出门问问的Tichome、喜马拉雅的小雅音箱等等。随着智能音箱市场的逐步成熟,各类音箱或者会找到自己的位置,或者无声寂灭。
智能音箱除了提供核心内容资源消费功能,各品牌还深挖居家场景,开放平台,吸引第三方开发者,提供了越来越多的技能。智能音箱界独领风骚的Amzon Echo已经具备了超过3w项技能,从技能增长梯度看,2016年开始爆发式增长,随着Echo销量的增加,至今仍在不断攀升。超过3w项技能加持的Amzon比它的一众追随者更像一个语音操作系统。
如同智能手机操作系统的app一样,海量的语音操作系统技能中,真正获得关注的还是少数,大量的技能成为僵尸技能,无人问津。因此其他智能音箱品牌,只要覆盖了高频、核心功能,提供更多资源、家控和创意功能,则无需畏惧Amzon恐怖的技能数量。
智能音箱产品功能趋同,主要分为内容技能、工具技能、互动娱乐三个大方向;功能面向核心场景及针对核心人群的核心功能趋向性逐渐显现。
用户关注度高的功能主要有音乐影视、生活助手、智能家居、游戏娱乐,其次是教育内容、趣玩搞笑、新闻,再其次是新闻、财经类功能;
工具技能用户口碑偏低,但有不可替代性;互动娱乐技能可替代性强,口碑和体验好的功能更受欢迎;内容技能评价均匀,重点在优质资源可得性。
摘录自ebay、Walmart、京东、天猫等电商平台的用户评论数据。
1)智能音箱产品整体受欢迎程度很高、用户接受度较高,评价矩阵皆为70~80%的5星好评;
2)用户对音箱产品唤醒、识别、解析等语音基础性能感知差异不大(可能由于个人拥有音箱品牌数量少于1个,对比不明显);对音质、内容资源丰富度、“聪明程度(智能感与趣味性)”等较为敏感。
3)老人、孩子对音箱的满意度、喜爱度是重要消费决策因素。
4)海外用户对音质要求更高,对音箱的使用场景区分更鲜明,倾向于为不同居所场景配备多个音箱产品,对是否自带电池等要求不多;国内用户音质要求和鉴别水平不足,期望自带电池便携便移动。
5)用户期望唤醒词自定义、内容资源更丰富、资源内容相互打通。
1)音箱销量: 2017年全球智能音箱出货量3200w台,其中Amzon与Google以大约9:1的比例瓜分市场。Amzon音箱销量量级已超2000w,铺货量和活跃设备数全球遥遥领先。截止2018年4月底,国内厂商销量以天猫、小米为首,量级在200w左右,百度、腾讯及众创业公司量级均在10w之下。具备生态闭环和技术平台的大厂商均有“高性价比铺量”的趋向,以低价占据迅速用户市场。据Canalys分析公司保守预测,2018年全球音箱销量将增长到5630台,美国作为主战场销量将达3840台,中国作为第二大市场销量可达440万台。
2)功能覆盖:智能音箱产品功能同质化明显,主要分为内容技能、工具技能、互动娱乐三个大方向;具备生态闭环和技术平台的大厂商正在将以语音技术为核心的AI技术平台打造成Android/ios式的操作系统,吸引更多智能硬件厂商、独立开发者入驻;鉴于技术水平差距不明显和技能开发者的可转移性,技术、技能都不会是决胜的关键因素。
3)用户反馈:智能音箱产品整体市场接受度较高,评价矩阵皆为70~80%5星好评;用户对唤醒成功率、识别成功率、解析成功率等语音交互基础性能感知差异不大,对音箱的音质、内容资源丰富度、智能感与趣味性等维度较敏感;同时用户期望仍处于不断攀升的阶段,对音箱产品提出了越来越多个性化要求。