蘋果公司在剛剛結束的WWDC2023上發佈的其首款混合現實頭顯設備 Vision Pro ,不僅具有強大的空間追蹤與環境感知能力,還深度融合了虛擬現實與增強現實技術,在全球范圍內引發了熱烈的討論。
詮視科技作為擁有空間計算核心底層技術的XR領軍企業,其創始人CEO林瓊近日接受了新浪VR媒體采訪,幹貨滿滿。
林瓊:這是一個新時代的開啟
新浪VR小編:蘋果公司剛剛發佈了全新混合現實頭顯設備Vision Pro,從開始研發到正式發佈,經歷了7年時間,您認為蘋果為什麼選擇這個時間點發佈這款產品?
林瓊:如庫克所說,Mac將我們帶入個人計算時代,iPhone將我們帶入移動計算時代,Vision Pro將我們帶入空間計算時代,這一演變體現了人機交互方式的不斷革新,從鍵盤鼠標、觸屏,到姿態、眼控、手勢、語音等更加自然的交互形式的演繹,是人類回歸更加自然交互方式的必由之路。
蘋果在這個時間發佈這款產品是在其完整的傳統交互產品之上的一個統合性的升級,集大成之作,是其產品迭代的節點,為今後10年定了方向。
宛如2015年的iPhone,風口已來。
新浪VR小編:作為資深的業內人士,您如何評價這款產品?
林瓊:這款產品包含大量業界開創性的技術和概念,其眾多的技術細節如大家所見,是登峰造極的,最核心的芯片技術和感知交互技術, 兩者相輔相成。
其中強大的算力和處理帶寬是解決三維空間低延遲感知交互的必備條件,為實現感知交互而打造的R1協處理芯片是實現空間計算與多傳感器融合的基礎,分佈式計算的架構再一次被驗證是MR的必由之路, 這也是詮視科技從入場的第一天就堅持的技術路徑。
我們也有完整的技術和產品方案。
圖:Xvisio SeerLens™ B50A Pro
比如我們已經發佈的SeerLens B50RE就支持了4相機+IMU的VSLAM頭部追蹤定位、TOF+RGB相機的三維重建、雙目相機做的三維手勢交互、眼控、AI降噪的語音和低延時的OST顯示,在即將發佈的一體機升級版SeerLens B50A Pro裡增加了下方視角的雙目相機覆蓋手勢追蹤,讓手勢操作更加輕松。
我們也做到了MTPL《Motion to Photon Latency》 小於10ms。
我們深刻地理解到,要做好三維空間的感知交互, 算力和算法是最核心的條件。
Vision Pro的推出,給業界示范了各種技術路徑的可能性以及和生態結合的想象空間。
Vision Pro也面臨大家老生常談的應用場景的挑戰。
之前業界在不同層面上都有過嘗試,但沒人信,沒人買單。
蘋果的出牌是C端應用的風向標,這是蘋果的市場號召力。
同樣的技術和路徑,為什麼隻有蘋果能玩起來,就是其生態的力量。
新浪VR小編:蘋果表示 『空間計算』時代已經來臨,您認為這是一個新概念嗎?
林瓊:所謂空間計算是空間感知與交互的籠統稱呼。
空間計算的目的是讓我們能夠實現流暢自然的三維空間交互體驗。
我們從PC、手機的二維世界,進入到三維世界, Vision Pro以及其他各類XR《AR/VR/MR》設備所帶來的最大革新就是更加自然的三維空間沉浸式的交互體驗。
為實現此目的,要有用來形成三維立體視覺的,放在眼前的顯示屏《稱之為近眼顯示屏》, 以及用於感知姿態、肢體動作、眼動的傳感器及數據處理單元。
如我們所見,在Vision Pro裡用到了大量的各類相機。
視覺傳感是XR設備的主要傳感器,它具有體積、功耗、重量、速度、成本的眾多優勢。
但因為視覺傳感是以像素為單位的空間傳感技術,而像素級的圖像處理是要消耗巨大算力的任務。
要實現沉浸式體驗,對使用者的位置與姿態的感知是前提,視覺SLAM《即時建圖與定位》就是XR產品必備的核心底層技術。
要實現流暢的體驗,高精度低延時的VSLAM算法對算力要求很高。
此外要實現實時的三維環境重建,實現虛實結合,也需要極高算力。
這也就解釋了所謂空間計算的必要性。
這個概念不是個新東西。
詮視科技自2017年創立以來,一直從事以VSLAM為基礎空間感知交互技術與人機交互技術的研發,形成了一套完整的算力+算法的單元化產品解決方案 SlimEdge XR,和基於VSLAM和空間計算技術的系列產品:
SeerSense™
SeerLens™
SeerController™
SeerGesture
SeerPad™
然而當這個概念被蘋果引入到C端市場後,就會人人皆知。
這也是蘋果的燈塔效應。
這是一個新時代的開啟, 就像手機觸屏一樣,老概念在蘋果手上就被玩火了。
很無奈,也很慶幸我們終於等到了這一天。
新浪VR小編:從發佈的信息來看,這款Vision Pro產品使用了4個傳感器和6個麥克風,總共控制了12個攝像頭,您覺得這是否重新定義了行業標準?
林瓊:並不是,這些技術都是成熟的,聲場技術已經很成熟,幾年前的Hololens已經有8個攝像頭, Magic Leap II 也有12個以上的攝像頭。
為追求極致的體驗,一般要配備4個攝像頭做SLAM,2個攝像頭做眼控,2個RGB攝像頭做VST,TOF攝像頭做深度。
Vision Pro的創新是加了2個EyeSight 相機和外部顯示屏,讓外界可以看到佩戴者的眼神。
至於是否能成為新標準,要看顯示行業發展速度。
OST的AR透視應該更加自然。
Vision Pro是個旗艦級產品,我們可以用其幾個功能組合就能落地很多應用場景,做個Lite版,這也是Vision Pro對行業的教育和示范作用。
至於雙芯片架構倒是和行業的趨勢一致。
高通的AR2也是基於類似的佈局。
然而早年我們堅持雙芯片的架構還經常不被理解。
新浪VR小編:Vision Pro 這次的頭戴式顯示器,隻憑手勢、眼控、聲音進行交互,你覺得這是未來元宇宙交互的主流方向嗎?
林瓊:空間計算與多模態交互是 Vision Pro的亮點,也是三維時代的交互特征。
目前VR以手柄為主,以眼控+手勢替代手柄固然方便,但也要看場景。
手勢的弊端是沒有反饋,有些場景手柄還是有其優勢,尤其是近來流行的獨立追蹤的6DOF手柄,我們把它比喻為三維鼠標。
詮視科技推出的SeerController就是集多年的技術大成打造的這樣一款產品。
該產品獲得了3項中美發明專利,也希望能作為Vision Pro的備選外設,值得期待。
新浪VR小編:如何看待蘋果選擇VST《Video See Through》方案?
林瓊:VST 是在VR的基礎上增加了透視能力,變身成MR。
其優勢是可以利用VR大的視場角和內容生成。
和VST相對應的是OST《Optical See Through》前者是通過相機看世界與虛擬的內容結合, 後者是通過裸眼看世界,把虛擬內容與現實相結合。
VST可以做到110° 的視場角, OST目前一般為50°-70°。
VST雖然可以看到外部世界,但還會有VR固有的一系列問題:如VAC《聚焦沖突的問題》、重量、眩暈感、封閉感等。
OST的挑戰是顯示器件的分辨率、視場角、亮度和色彩還有待提高。
VST隻是過渡性的解決方案,看世界畢竟還是是隔靴搔癢。
未來一定是OST的終局。
新浪VR小編:EyeSight令人大開眼界,您怎麼看待這項技術?
林瓊:這是在OST成熟前的無奈的解決方案。
也反映了人們社交的需求。
實現起來代價還是比較高的。
新浪VR小編:3D視頻引發了大家的熱議,這種技術現在國內有類似的方案嗎?
林瓊:那個3D視頻的功能也不是新東西,在Xvisio SeerLens B50系列裡我們早就提供了這類能力,即RGBD的3D成像的能力。
在很多手機裡也集成了類似功能。
之前沒有3D的呈現手段,看不出其價值。
蘋果把這項技術集成在其應用裡的示范意義更大,這還是得益於蘋果的生態能力。
新浪VR小編:如何看待 Apple Vision Pro 續航僅 2 小時,能否滿足用戶需求?
林瓊:C端可更換電池基本夠用,但可更換的設計也是無奈的選擇。
有人說這少了些果味。
比起把電池放在頭顯上,這個選擇更好。
在B端我們的分體式產品的設計要支持4小時續航。
新浪VR小編:3P Pancake方案的優缺點是什麼?
林瓊:Pancake輕薄,成像質量好,一定是VR光學顯示的方向,目前就是成本高。
但未來一定會降下來,國內已經有眾多的廠家參與到供應鏈的賽跑中了。
新浪VR小編:蘋果真正進軍這個行業了,國內企業的機會在哪?
林瓊:蘋果的入場無疑給行業打了一劑強心針,大家看到了一個3D元宇宙時代的復合生態的發展路徑和很多技術路徑的可行性,堪稱行業教科書。
未來各個行業都有在垂直領域找到相應技術與產品的落地機會。
詮視科技經過幾年的耕耘後,面向空間計算、感知交互儲備了全棧的技術能力,包括分佈式計算芯片平臺、SLAM定位追蹤、深度檢測、AI識別、手勢眼控交互、語音控制、AROS、多相機系統標定、XR系統延遲補償、多人協同等一系列能力,打造了Seer系列產品。
目前已經在賦能醫療、工業、教育等領域的應用場景。
國內的各個行業的數字化進程發展迅速,都將擁有非常廣闊的發展空間。
欲了解更多關於詮視科技的信息,敬請訪問我們的
官方網站:https://www.xvisiotech.com
如有合作意向,請通過以下聯系方式與我們取得聯系:
郵箱:[email protected]
電話:+86-021-5290 0903
我們將竭誠為您提供優質的服務與支持。