具身智能的任務和使命,就是如何解決讓當前的人工智能,或者說當前的智能,由弱智能變成強的智能。
本文為吳易明先生在2025西部産業科技大會發表的演講。
吳易明(西安中科光電精密工程有限公司董事長、總經理):感謝觀點、感謝高新配套提供這個機會,讓我來分享“具身智能是智能科學的新範式”。
各位領導、各位嘉賓,下午好!我是吳易明,現在的身份是西安中科光電精密工程有限公司的董事長、總經理。我在創業之前,1998年到2013年,一直在中科院西安光學精密機械研究所工作,2013年開始創業,這個公司做了12年,具身智能機器人的研發做了9年。
我的報告分為5個方面,要在15分鐘内表達清楚我的觀點還是有點困難,我争取講得更通俗、更簡單些。
具身智能當前的發展态勢。首先回顧一下,我們公司是2019年獲得關鍵性的突破,到2021年我在人社部跟中國工程物理研究院舉辦的高級研修班上講課的時候提到,具身智能是智能科學的新範式,2022年我們注冊了“具身智能”的商標。2023年,英偉達的黃仁勳提出了AI的下一個浪潮是具身智能,引發了全球的關注,今年政府工作報告正式把具身智能作為一個新的發展方向。
(見PPT)這是當前典型的觀點,大家通常會解讀為“大模型+機器人”,或者大模型訓練機器人,我在今天的報告廳外面看到一個機器人,它可能也是這種思路。另外一種觀點就是解讀為人形機器人裝上智能的腦袋,大家默認一個關鍵的思路,就是當前的大模型可能已經解決了智能的根本問題,這個解讀實際上是有點不對的。
我們對具身智能的觀點相對來說跟現在主流的或者學術界的解讀不太一樣,後續的解讀有些地方我會講得細一點,有些地方會快速略過。
當前看到人形機器人的表演和各種運動的展示,有一個非常著名的公司就是波士頓動力,它從大概2012年到現在,每半年就出來表演一次,但是目前波士頓動力的發展路徑,已經被一些國内的公司掩蓋了。從運動的控制能力,以及已經獲得的效果來看,波士頓動力在歷史上取得的成績還是值得稱贊的。
當前投資界和學術界已經意識到具身智能的一些思路和方法可能有問題。(見PPT)這是比較著名的三位人士的觀點,一位是現在非常火的宇樹科技的創始人,他分享的關于具身智能當前發展态勢的觀點,他認為3到5年内是很難家用的,這跟我前幾年判斷具身智能的技術架構發展節奏是有點像的,但是我們已經突破了具身智能最本質的東西,只是太抽象了,傳播力沒那麼好。
目前大家對世界模型的理解還是一個廣義世界模型。我在這幾年的研究當中,我對這個模型的理解,一個機器人能夠自主作業,最基本的模型是我們可以感知小世界模型,我們當前感知到的空間,我們聽到的聲音,能夠感受到大家的表情等等,這是世界模型的一個最基本的方式。但是現在大家講世界模型的時候,對這個概念不是太準。
楊立昆講世界模型,他也意識到當前的大模型、具身智能,實際上最重要的不是運動能力,是智能沒有突破,沒有突破的情況下就很難讓機器人自主作業,就更談不上讓機器人進入家庭、進入工廠,來自主地完成非确定情況下的任務。
簡單總結一下目前的訓練模式,就是大模型訓練機器人,一般有這麼幾種模式,但是它都是靠數據標注,大量的數據、大量的算力,以及人為的標注,它是一種窮舉法,這個方法思路上是跟人類理解世界的方式不一樣的,所以現在是非常耗能、非常耗數據的,數據枯竭之後就沒法繼續發展。
具身智能的任務和使命,就是如何解決讓當前的人工智能,或者說當前的智能,由弱智能變成強的智能。它有4個關鍵的問題,首先是理解四維時空,第二是自主推理、規劃及行動,第三是語言理解及工具運用,語言和我們日常使用的工具是等價的,這是我這麼幾年研究的主要成果,第四是交互促進涌現及智能的自增長。現在只要是能實現前三條,我們的機器人替代所有物理世界的勞動是一個必然的趨勢。第四條實現之後會引發社會危機,我們認為這個事情要先擱置起來。
具身智能是科學智能的新範式,首先要回顧智能的概念,按照我們對智能的研究,我們說一個主體是智能的,可以簡單地理解為它是懂科學的,就是它能夠有效地發現規律、運用規律、提升和改進規律。
所有科學家做具身智能的研究,都躲不開具身認知,對具身智能概念的給出,首先就是要回顧具身認知,它是認知科學和心理學一個重要的領域,它是研究生理體驗與心理狀态之間的關繫,我們在看到一個世界的時候,大腦到底是哪些神經原被激活了,它就是研究這個問題的,所以具身的概念不是胳膊和腿,這一塊是要按照我們的觀點做一個校正的,起源于哲學領域對身心二元論的批判反思,後續逐漸轉向實證科學研究,並擴展到心理學、教育學、人工智能等領域。
在20世紀具身認知的理論發展是很快的,特别是在教育領域,對小孩的教育研究是比較多的,但是怎麼應用到具身智能的研究領域,現在只是模仿了一個皮毛,我們基于對具身認知底層的研究,形成我們的一些基礎的方法。所以我們給出具身智能的定義,智能是主語,具身是方法,就是以具身認知為指導的人工智能,體現哲學一元認知的思想。
這個概念比較拗口,可以按照孫子兵法上的觀點理解,我們人在認知世界的時候,可以把感知的主體、對象,以及我們自身主體和環境都納入思考範圍,構建一個模型。我們睜開眼,是基于我們的眼睛和大腦,構建了一個具身世界模型,基于這個模型的推演和各種對象的交互作用,以及發展演化趨勢,形成了一種解決問題的方法。
所以具身智能的一個基礎性的方法是建構性的,實際上是我們構建了一個模型,類似于打仗的時候做了一個兵棋推演,直接推演出來應該怎麼做,這個推演不好,我們再重構各個要素,再得到一個我們想要的結果。
(見PPT)這是具身智能的基本模型,是我去年提出的框架。具身智能基本模型要解決的核心問題就是左邊的兩個箭頭,我們看到的世界,我們看到屏幕、桌子、杯子,給出這個對象一個命名,然後對象的命名跟對象之間的關繫問題,就是指稱問題,讓一個人造的智能主體能夠像人一樣,解決名詞的命名,以及基于名詞尋找物理對象的過程,就是人工智能要解決的核心問題。當前大數據、大模型主要用的是訓練的方式,我一直在批判這個方式。
具身智能的範式和原有人工智能方法的範式差異,這也是比較抽象的,我就給大家展示一下,最主要是強調我們的大腦,它是一個信息物理繫統,對我們感知到的直觀的物理世界,要有一種同構性,如果沒有這個同構性,我們很難解決問題。就是說二維的方法很難解決三維的問題,但是三維的方法能解決二維的問題,這就是同構性,這是一個主要的思路。
我們公司在最近8年左右研發的過程中,突破的數學方法,其實是來源于我們在2016年的時候拿到了科技部重大專項的支持,這個專項支持我們當時求助于深度學習的方式,來解決在加工過程中任意立體對象精準識别的時候,我們發現深度學習的方式沒法解決,所以我就想到數學,大概通過3年左右的數學方法推導,到2019年左右解決了問題,實際上解決的問題是一個比較學術化的表述,就是對任意立體對象的數學表征。
我們看到的物理世界,我們到底記住了什麼,應該怎麼樣表征,這個過程我們借鑒了中國漢字誕生和演化的歷史,漢字的底層是名詞,名詞的前身是岩畫,岩畫是人感知到世界之後,信息抽象和形成一種信息的卸載,就是從我們的大腦里面卸載到物理空間的一種人為的記錄,後續産生了名詞、動詞等等,這個過程我們用數學的方法實現了,同時這個方法對數據的需求量非常小,基本上是數據壓縮10的七次方的數量級。這就是這個方法的一個簡要的過程。幾個數學工具就是微分、幾何、群論、拓撲等等,這都是20世紀發展出來的數學。
這里面強調認知上的突破,就是空間等價性,我看到的世界和我移動、感知到的世界是等價的。另外要解決一個問題,我們什麼時候用邏輯判斷,什麼時候用概率判斷,這是兩個很抽象的問題。在這個認知的指導下,我們突破了一繫列的技術,前兩個是底層的技術突破,我們讓機器人在空間里自主地尋位,其實是一個無人駕駛技術,只不過是我們現在沒有往這邊做産業的介入。
(見PPT)這是我們的産品,我們對外可以宣傳的産品主要是智能焊接機器人。其實我們去年和今年主要的業務還是涉軍和涉密的任務。
我們已經解決的問題,在當前人工智能研究領域的地位,簡單來說,就是大模型解決了語言的對話問題,運動執行這一塊有一些機器人公司已經解決了,我們就是解決讓機器人怎麼樣自主理解,自主作業和自主決策的過程,所以識别和規劃的問題是我們解決的核心問題。
這個問題在學術領域來說,采用的方法是符号接地。我們說的所有的話都可以理解為一種符号,這個符号如果不能夠落在物理世界,它就是懸空的。現在我們說大模型會出現幻覺,實際上是因為它不能有效地接地。
我們一般說一個方法的時候,我們講實踐是檢驗真理的唯一標準。怎麼樣轉回來?實踐和理論循環這個路是怎麼打通的?這個方法跟當前的方法的區别是,我們是數學的方法,我們把思路調整過來了,可能會用到一些數據訓練,但是對數據訓練的依賴度不高,我們也嫁接了一些訓練的成果,這是我們在後面做産業的時候要做的事情。
應用方面,我們現在解決的問題,類比于人類的邏輯架構是對應的,就是眼睛指揮手來幹活,或者是眼睛指揮自主的移動,這也是我們已經解決的問題。
工業領域,所有的當前不适合自動化線生産的,潛在都是可以解決的。我們的核心的應用是視覺智能。
(見PPT)這是一些其他領域的應用,工業智能是一個非常大的領域。
具身智能的發展,按照我們對這個事情的判斷,10年之内機器人會普及到千家萬戶,這是我在2021年做的一個預測。現在我們做的是外觀像機器一樣的機器人,其實我們已經開始布局人形機器人,以前做的主要是智能的部分,現在要做産品落地的成分,就是把别人已經做好的人形機器人拿過來,我們賦能它的智能的能力。
(見PPT)這是對未來的預測。
我的匯報就到這里,謝謝大家。
免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。
撰文:吳易明
審校:勞蓉蓉