這個夏天,智能音箱火了。一方面是巨頭摩拳擦掌,國外有亞馬遜、谷歌、蘋果、微軟,國內(nèi)有京東、阿里巴巴、搜狗、喜馬拉雅、科大訊飛等等,另一方面是中小企業(yè)期盼能分到一杯羹,深圳南山區(qū)的創(chuàng)業(yè)者星羅棋布。
這是個能讓豬飛起來的風(fēng)口,還是偽繁華的泡沫,抑或一次行業(yè)整體的升級換代?
小編接觸到的專家、從業(yè)者傳遞了這樣的信息:作為一種產(chǎn)品形態(tài),智能音箱不排除有曇花一現(xiàn)或者改弦更張的可能性,但這背后代表著真實而日益逼近的交互方式的變革,迎合了人類的對于簡單、便捷的本性追求。
同時,語音又是連接物聯(lián)網(wǎng)的橋梁,家庭場景的價值將被更深挖掘,家居產(chǎn)品的制造、銷售環(huán)節(jié)唄打散、重構(gòu),帶來全新的品牌機(jī)會。
因此,智能音箱是一個不得不關(guān)注的高地。小編梳理了關(guān)于該產(chǎn)品的十個關(guān)鍵問題,特別適合初入門者服用。
1. 看起來是音箱,實際是語音交互
在Sugr創(chuàng)始人兼CEO 宋少鵬看來,智能音箱代表了人機(jī)交互的最先進(jìn)成果——語音交互,這一方式符合人類對降低與物理世界交流所需成本的歷史趨勢。
人機(jī)交互演進(jìn)的方向很簡單:使得交互成本的降低,即人完成交互所需要消耗的能量,或者說人完成交互所需要付出的成本。
如果大家沿著歷史的規(guī)律,鍵盤——鼠標(biāo)——觸屏——語音,如果你想算2的10次方減1,在這四種交互環(huán)境下,大家可以算一算完成這個交互需要多少時間,答案是顯然的。
人類解決聲音產(chǎn)品的歷史迭代,經(jīng)歷了一個怎樣的過程?
如果我們把時間撥回到兩百年以前,可以想象一下,熱愛音樂的人去欣賞音樂,需要駕著馬車,到音樂廳或者歌劇院,才能欣賞音樂。
留聲機(jī)的發(fā)明,使得音樂第一次進(jìn)入了家庭,我可以躺在家里面去欣賞音樂,是不是我付出的能量減少了?
沿著這個思路一路迭代,到了iPod,我可以把1000首歌裝在我的口袋,手指一滑,就可以欣賞我喜歡的音樂。能量的消耗就更少了。
2014年,亞馬遜Echo發(fā)布了智能音箱,動動嘴皮子就可以獲得你想要的音樂,能量的消耗進(jìn)一步減少了。
因此,從音樂產(chǎn)品的迭代,恰恰印證了以上的規(guī)律——降低了人跟物理世界交互所需的能耗。(Sugr創(chuàng)始人兼CEO 宋少鵬)
2. 還有人工智能
出門問問CEO李志飛認(rèn)為,智能音箱是虛擬個人助理的一種存在形式,而后者則是人工智能技術(shù)在消費領(lǐng)域的應(yīng)用。
最近人工智能特別火,大家可能每天都會看到各種各樣人工智能的報道,比如說無人駕駛,智慧醫(yī)療、智慧城市,這其實很多都是一些2B的應(yīng)用,而在2C領(lǐng)域有一個大家經(jīng)常聽到的類別,那就是虛擬的個人助理。
1956年,人工智能概念提出,過去這幾十年,人類尤其是計算機(jī)的科學(xué)家,一直都在想象我們是不是能夠創(chuàng)造一個機(jī)器,能夠像人一樣,跟人進(jìn)行自然的對話,然后幫助你處理很多事情。
這是歷史發(fā)展過程中一些簡單的產(chǎn)品,當(dāng)然還有很多別的產(chǎn)品或技術(shù),但這可能是大眾關(guān)注比較多的。
在1956-2011年,即在Siri出現(xiàn)之前,可能更多是算法,主要是政府或者學(xué)術(shù)界在研究算法,把自然語言處理、計算機(jī)視覺、圖像識別,各種各樣算法的框架搭起來。
在2011年的時候,Apple發(fā)布了Siri,這可能一下子激發(fā)了大家對語音助手的討論或者期待。我相信,當(dāng)時所有人買了一個iPhone拿回家,第一件事情可能就是調(diào)戲一下Siri,顯示一下自己的智商比Siri要高,然后就再也不用了。確實,在過去很多時候都是這么一個場景。
但是,不管怎么樣,大家確實看到了大眾對于這種虛擬語音助手的熱情。所以,后來無論是Google還是微軟,還是Amazon,他們都發(fā)布了自己的虛擬助理,或者語音助手這樣一個產(chǎn)品。
其實在Siri之前,無論是IBM還是微軟,還是Google,他們在語音交互的技術(shù)上做了很多很多嘗試,也做了很多產(chǎn)品的嘗試,只不過從來沒有像Apple一樣把Siri包裝成一個類似于人的助理,然后引起大量的討論。
但是,確實Apple的用戶教育能力是非常強(qiáng)的,所以在這之后基本上引起了整個虛擬個人助理的熱潮。
另外一個時間點我覺得比較關(guān)鍵,2014年Amazon發(fā)布智能音箱Echo。
早期虛擬個人助理都是在手機(jī)上的體現(xiàn),但是其實很多人只是調(diào)戲一下,顯得自己的智商比機(jī)器還高,很放心,基本上就不再用了。
而現(xiàn)在可以看得到,智能音箱可能是繼智能手機(jī)之后一個唯一超過一千萬量的產(chǎn)品,有比較高頻的人機(jī)交互產(chǎn)品。。
在那之后,大家其實就看到了,Google也發(fā)布了音箱,中國已經(jīng),或者說正在進(jìn)入“百箱大戰(zhàn)”,最后誰能勝出?誰也不知道。
我認(rèn)為單一的一個設(shè)備是很難承載所有的交互的,未來無論是交互的方式還是交互的設(shè)備,都會是多元化的。交互的方式除了語音、手勢、圖像、視覺、表情各種各樣的方式可能都會是綜合性的。語音可能比今天變得更重要一點,但是它絕對不會成為80%都靠語音交互方式。
設(shè)備無論是耳塞也好,還是車載的設(shè)備也好,還是未來的AR、VR的設(shè)備也好,可能都會是虛擬個人助理硬件的載體。
3. 為什么音箱最先引爆熱點?
宋少鵬指出,智能音箱這樣的產(chǎn)品形態(tài)最早在美國出現(xiàn),這與當(dāng)?shù)氐囊魳废M習(xí)慣密切相關(guān),極高的用戶粘性使人工智能技術(shù)不用多完善就得以商用。
美國的第一批廣大流行音樂消費者是成長于汽車上的黃金一代,汽車上都配備收音機(jī)。
在北美,大家習(xí)慣了背景式的、實時存在式的播放,在任何一個生活場景里面都會有音樂的存在。落實到家庭場景里面,音箱幾乎就是剛需。
有了這樣的剛性需求,有了流媒體這樣的播放習(xí)慣,換句話說,就是在智能音箱為大家提供語音交互的時候,其實用戶對于語義理解的要求沒有那么高。
音箱本來就是被動播放音樂的產(chǎn)品,人工智能和語音助手的植入使它成為一個主動獲取信息、獲取音樂,成為一個流量的入口。
慢慢地,技術(shù)的迭代使得它開始加入了家居其他產(chǎn)品的控制功能,逐步成長為家居的中控,這樣就有了無比巨大的想象空間,這也就解釋了為什么幾乎所有的互聯(lián)網(wǎng)巨頭,包括Google、亞馬遜、微軟、蘋果都進(jìn)入了這樣一個產(chǎn)品競爭的賽道。
巨頭的進(jìn)入使得產(chǎn)業(yè)的升級就會加快,服務(wù)的完善就會加快。所以,智能音箱在今年夏天成為了一個現(xiàn)象級的產(chǎn)品。
4. 為什么玩家都要來搶占智能音箱的高地?
有種傳聞,在深圳市南山區(qū)方圓一公里的范圍內(nèi),就有超過100家智能音箱制造商。為什么大家一股腦都擠進(jìn)來了呢?李志飛從技術(shù)和商業(yè)的角度闡述了其中的門道。
從技術(shù)角度說,智能音箱是一個語音交互特別有意思的產(chǎn)品。
我們在語音交互以及在語音交互硬件商落地做了很多嘗試,包括手機(jī)、Googleglass、智能手表、車載、音箱、耳塞,我們發(fā)現(xiàn),如果你要使語音交互有用,要具備幾個條件:
條件一:硬件的載體本身有一定的用戶需求。因為Googleglass當(dāng)時很大的問題,很快沒人用了。
條件二:使用的場景是比較私密的。智能手機(jī)現(xiàn)在在公共場合很難用語音交互的,但家里是一個比較私密的場景,自然用戶可能愿意用語音進(jìn)行交互。
條件三:語音交互可能是你最好比較方便的形式,可能沒有更好的方式,比如Googleglass就很難用別的方式。
我們當(dāng)時看DAU(日活躍用戶數(shù)量),比如手機(jī)語音交互的DAU小于1%;手表小于10%;車載大于60%,也就是100個用戶有60個用戶會用語音進(jìn)行交互;Googleglass是80%,因為它沒有別的交互方式。
總結(jié)起來,我覺得這三點是語音交互能不能得到應(yīng)用一個基本的判斷:
1. 硬件本身要有黏性。
2:使用空間比較私密。
3:語音交互可能是唯一的或者少有的一個好的交互方式。
這三個條件都很重要,Googleglass單獨看DAU很高80%,但是這個硬件本身沒有剛需,使得它的語音交互作為上面的一個軟件也沒有用。
為什么家居這么重要?我認(rèn)為家居第一是私密的,第二我認(rèn)為它有一定的使用場景。
在技術(shù)層面,它代表不同的維度。舉個例子,我們講語音識別的遠(yuǎn)場近場,可能手機(jī)和手表,可能大于30厘米的距離,實際上一般你的后視鏡也好,你的距離可能都在這里,所以這個基本上也是1米的距離。但是,音箱現(xiàn)在大家宣稱最大是5米。這確實技術(shù)上是一個很有意思的場景,以前所有的語音識別收集數(shù)據(jù)都是離麥克風(fēng)這么近或者更近,可能很少有人那么遠(yuǎn)的,而且需要遠(yuǎn)場喚醒,因為你不能手去弄它。
而且在家里有多輪對話,家里小孩可能喜歡對話,而且你們沒有屏幕,可能沒有別的方式。
所以,在技術(shù)上,它是語音交互獨一無二、非常重要的練兵場。
從商業(yè)角度來說,大家生活空間不就家里、車?yán)铩⒙飞?、辦公室,這基本上覆蓋了每天的空間。
所以,家里肯定是一個非常重要的空間。
未來搜索,我們首先用PC、鍵盤到手機(jī)上,已經(jīng)很多開始用語音,未來家里可能直接用對話進(jìn)行搜索,所以肯定是入口的一個東西。
包括內(nèi)容消費,比如現(xiàn)在很多音樂、音頻,這種內(nèi)容可能未來都收費,這個是智能音箱可能是很重要的消費場景,所以也是一個內(nèi)容的入口。
還有就是智能家居控制的入口,因為你很難想象,每個空調(diào)本身自己放遠(yuǎn)場識別的語音識別系統(tǒng)跟它交互,或者每一個電視、音箱,每一個電飯煲、掃地機(jī)器人都配備遠(yuǎn)場的語音交互非常智能的服務(wù)。我覺得智能音箱可能是從一個中心,它背后去控制各種設(shè)備。
5. 百箱大戰(zhàn)競爭點在哪里?
(李志飛)有的人拼性價比,硬件供應(yīng)鏈能力比較強(qiáng),打低價,把市場搞的很亂,或者說別人都沒路可以走;
有的拼智能,語音交互做的不錯,全部都是自己的系統(tǒng),可以更快、更準(zhǔn)、對話更深,這個可能是我們比較重要的一個點;
有的人是說,有內(nèi)容生態(tài),有音樂、FM、相聲各種東西,這個打內(nèi)容;
有的可能是打渠道。
所以現(xiàn)在確實沒有一個選手全都具備了,當(dāng)然市場上確實可能有那么3-4家,每一個都有自己稍微比較強(qiáng)一點的地方,可能拿著這個點不停地打。
6. 有了語音,我們還需要屏幕嗎?
目前市場上主流的智能音箱不帶有屏幕,依靠語音交互,據(jù)外媒報道,F(xiàn)acebook正在研發(fā)一款更加注重視覺畫面交互的音箱,配置一塊15英寸的觸摸屏幕。
(李志飛)從產(chǎn)品的角度,我一直覺得智能音箱這種100%靠語音交互的產(chǎn)品是很難做好的,一定得有一個屏幕的出現(xiàn)。
但是屏幕是跟電視綁定,還是自帶,或者必要的時候把手機(jī)打開,這其實是一個可以值得探討的問題。
我反而相信,智能音箱可以上智能手機(jī)的屏幕,在有必要的時候,還是打開手機(jī)做一些操作,這可能是比較漸進(jìn)式、現(xiàn)實的解決方案。
智能電視作為智能音箱的屏幕,我覺得是不太靠譜的。電視是一個很重的設(shè)備,我打開它會覺得,把這么大的一個屏幕一打開,就是為了控制一個空調(diào)或者怎么樣,我覺得這個事情完全不make sense(沒有意義),這是非常重要的一種交互方式,所以我不認(rèn)為它會成為最主要的音箱屏幕的輔助形式。
當(dāng)然,音箱可以跟智能電視交互沒什么問題,但是更多是以使用電視場景的時候,我通過音箱控制。而不是說我為了控制空調(diào),我跟智能音箱說了一句話,智能音箱把電視打開,電視顯示出一個什么樣的結(jié)果,最后我看到什么東西,這個是不太現(xiàn)實的。
7. 入口是唯一的嗎?
很流行的設(shè)想是,智能音箱將控制整個家,難道真的只有這一個入口嗎?
(李志飛)從軟件的角度來說,我認(rèn)為入口是統(tǒng)一的。
只不過硬件的載體是什么?是單一的音箱還是兩三個音箱,或者在各處有不同的設(shè)備?
首先,我認(rèn)為,不會是唯一的設(shè)備,但我也不同意每一個設(shè)備都會有自己遠(yuǎn)場語音交互的能力。因為成本方面不合理,比如加50元或者100元給空調(diào)做遠(yuǎn)場語音交互,就為了控制開關(guān)溫度,我覺得這是非常沒有道理的事情。
這是現(xiàn)在亞馬遜、Google都在思考的問題??梢跃瓦x小設(shè)備,在花盆里,無處不在,有很多的模組。
然而,是一個新的設(shè)備形態(tài),可能就貼在面板上,放在花盆里、臥室的墻上,這種有一個特色,其實我們今天定義的屋里(遠(yuǎn)場語音交互)是不是有必要?因為可能房間有8個設(shè)備,我走到哪都有。
8. 國內(nèi)智能音箱的需求量大嗎?
(李志飛)首先,短時間內(nèi)達(dá)到什么千萬級別的量,很難。今年整個市場差不多能達(dá)到100萬的出貨量。
我覺得智能音箱這種形式要分軟件和硬件兩個層面來看。
第一,從軟件的角度來說,無論智能電視還是路由器、空調(diào)或者墻上的一個鐘,成為一個入口設(shè)備,我覺得都比較類似。
每個房間可能形式都會不一樣,在廁所有可能現(xiàn)在像梳妝鏡一樣的魔鏡成為最主要的載體,在客廳是音箱,在臥室可能是鐘或者是掛燈有關(guān)的這種,所以這種是有可能會變化的。
但是不管怎么樣,尤其對我們這樣的公司來說,我們還是把這個軟件、交互AI作為最核心的東西。所以,市場硬件更多是我們的一個載體,我們找到一個大家能夠接受的一種形式。
9. 智能音箱能在國內(nèi)普及嗎?
宋少鵬認(rèn)為,中美音樂欣賞以及家庭環(huán)境的差異,導(dǎo)致智能音箱在國內(nèi)的發(fā)展路徑不可能照搬美國的。
我們身邊的消費者需要一個什么樣的智能音箱?
中美消費者對于音樂消費的DNA是不同的。美國音樂消費從聽收音機(jī)開始的。收音機(jī)是什么呢?收音機(jī)是電臺、radio,一個一個電臺播放的是按照曲風(fēng)、曲目、歌單所排列的音樂,所以我們認(rèn)為北美的音樂消費DNA是源于流媒體。
中國的音樂消費者最初接觸音樂源于80年代初期的改革開放,港臺的音樂以盒帶、卡帶的形式大量流入內(nèi)地。大家首次接觸音樂是精美的盒帶、完美的印刷,包括封面、歌詞,打開之后、欣賞完這些內(nèi)容,才去把它放到收錄機(jī)里面聽音樂。聽的內(nèi)容是一般是一個歌手的完整專輯,里面可能有各種各樣的曲風(fēng),還很少有合集和混編,記憶深刻的是某一個歌手或者某一首歌。所以,我們認(rèn)為中國音樂消費者的DNA是源于那個時候的盒帶式的播放,是一種點播式的。
我們認(rèn)為這就是兩地音樂消費的DNA根源上的不同。
這樣的不同在我們兩地的音樂APP上就有了體現(xiàn),我們以Spotify為例子,還有QQ音樂(用戶量最大的中文音樂播放器),很大的不同:
1、搜索在QQ音樂始終是一級菜單,在最顯眼的地方,最方便用戶搜索。為什么?因為用戶要點播。在Spotify上你要到二級菜單才能完成搜索的功能。
2、封面、歌詞我們都在非常顯著的位置,非常多的視覺信息,而在Spotify這邊沒有。
總的倆說,北美的音樂消費是流媒體式的,他們的生活中的場景處處都有音樂,音樂就在那里放著,并不需要太多地去改變它、更換它。而我們的音樂消費DNA是點播式的,需要實時確定我要聽這個、我要聽那個。由此導(dǎo)致兩地的消費者對于音樂播放硬件的要求是不同的。
我們認(rèn)為在中國點播會是一個非常強(qiáng)的需求,將會是一個常態(tài),點播會帶來技術(shù)上的需求,它包括更強(qiáng)大的語義理解能力,更豐富、更深入的音樂知識圖譜,以及更完善的音樂版權(quán)和曲庫。
同時,中美兩地的消費者消費的場景也有很大的不同,挑兩個例子來跟大家分享。
1、在美國,用戶使用的空調(diào)通常都是中央空調(diào),通過每個房間的溫控來控制空調(diào)的溫度。
而在我們家里,通常都是壁掛式或者是落地式的空調(diào),每一個空調(diào)都有單獨的搖控器,這就決定了如果音箱作為一個智能家居的中控,它對于空調(diào)的接口、控制場景和體驗是不同的。
2、在北美消費者的廚房是開放式的,跟客廳融入一體的廚房,這也是亞馬遜Echo最最常用的一個使用場景。而在我們身邊,大家都知道,廚房為你完成的是煎、炒、烹、炸,這個場景是完全不一樣的。
由此還可以推出很多不一樣的場景,大家可以去思考,這些場景所帶來的用戶需求一定是不同的。
所以我們認(rèn)為,在中國做智能音箱,一定不能復(fù)制亞馬遜Echo的路徑,而是要找到我們真正消費者的需求,落實消費者的場景,來解決我們自己的問題。
10. 距離一款電影Her那樣的產(chǎn)品有多遠(yuǎn)?
科幻片電影《她》(Her)其中的“女主角”——一款虛擬個人助理產(chǎn)品,給大家?guī)砹藷o盡的想象空間,但是李志飛強(qiáng)調(diào),從技術(shù)實現(xiàn)的難度上看,它真的還只是科幻片。
1、技術(shù)。
從技術(shù)的角度,如果說我們?nèi)タ凑麄€技術(shù)的發(fā)展,在四年前,語音識別本身就是整個瓶頸,如果語音識別都不準(zhǔn),后面的理解、內(nèi)容都沒有有什么用?
但是到今天,語音識別的技術(shù)本身已經(jīng)發(fā)展到一定程度,不會成為這個虛擬個人助理是不是能夠被使用起來的瓶頸。
而今天最大的瓶頸就是自然語言的理解。我相信大家都有一個經(jīng)驗,當(dāng)你去調(diào)戲SIRI或者是調(diào)戲各種音箱的時候,第一輪沒什么問題,當(dāng)你跟它進(jìn)行一個對話,你把句式換一換,或者說你再特意調(diào)戲一下它,基本上兩、三輪就把它問死了,它是答非所問,或者純粹就是“呵呵”的那種。
所以這個確實是自然語言理解以及對話是我們未來兩、三年遇到的特別大的瓶頸。在那之后,可能才是推薦、推理、背后的思考、理解和自己能夠創(chuàng)造一些新的東西出來,這是再之后的。
一個特別有意思的悖論,一方面計算機(jī)可以創(chuàng)造一個程序,可以打敗世界上最牛的下棋的,無論是圍棋還是象棋的棋手,表現(xiàn)計算機(jī)非常聰明。但是另外一方面,計算機(jī)都不能像一個5歲的小孩一樣跟你進(jìn)行一個正常的對話。
我認(rèn)為最核心的是我們今天計算機(jī)沒有對物理世界和常識有建模、理解。
2、用戶場景角度。
因為虛擬個人助理或者是語音交互要得到使用,其實就是看你有什么樣的場景,用戶是調(diào)戲一下就走,還是說真正有活躍度。
當(dāng)用戶打開這個機(jī)器,每天有多少比例會用語音交互,也就是說語音交互的DAU。智能車載可能是我們未來看到最先普及的語音交互的,其次還是無線耳塞或者是智能家居,最后才是手機(jī)。
上一篇:網(wǎng)易嚴(yán)選的第一次 亞朵的一步棋
下一篇:再見宜家!你競爭對手的AR應(yīng)用領(lǐng)先一步了
聲明:本站部分信息來自互聯(lián)網(wǎng),轉(zhuǎn)載的目的在于傳遞更多信息及用于網(wǎng)絡(luò)分享,并不代表本站贊同其觀點和對其真實性負(fù)責(zé),也不構(gòu)成任何其他建議。如果您發(fā)現(xiàn)網(wǎng)站上有侵犯您的知識產(chǎn)權(quán)的作品,請與我們?nèi)〉寐?lián)系,我們會及時修改或刪除