理想汽車董事長兼CEO 李想
理想汽車智能空間AI負責人 陳偉
騰訊新聞科技主筆 張小珺
李想,這位公認的理想汽車產品“天花板”,怎么就覺得自己成了“瓶頸”?
決定“All in AI”的李想,期待實現AGI(通用人工智能)的“iPhone 4時刻”,讓普通人也能輕松使用。他強調簡潔的產品設計、長期的技術投入和堅定的用戶價值導向,還對汽車行業競爭、企業管理和個人成長有了新的認識。
全力以赴邁向“成為全球領先的人工智能企業”的目標,李想的欲望只有成長。騰訊新聞科技主筆張小珺深度對話理想汽車董事長兼CEO李想、空間AI負責人陳偉,以下為訪談節選。
01到Agent階段,才是真正的“iPhone 4時刻”。
張小珺:你第一次用ChatGPT是什么時候,當時是什么感受?
李想:發布的時候就用了,當時一個最大的感覺就是,人工智能應該有的樣子。
張小珺:如果讓你做OpenAl的CEO,你會比Sam做得更好嗎?
李想:不會,我覺得Sam Altman他們做得非常成功。
張小珺:如果現在讓你做OpenAI的CEO,你會做什么?
李想:今天還是OpenAl定義的AGI(通用人工智能)第一個階段:聊天機器人,我覺得OpenAl完全按照這個定義做了最好的產品體驗。第二個階段是推理者,到第三個階段Agent(智能體)的時候,才是真正的“iPhone 4時刻”,普通老百姓都能用了,它能獨立地、持續地、連續地完成任務,而不需要靠密集的提示詞。但這時候產品應該是個什么交互,對于所有的這些頭部企業,都是應該要認真去思考的。
02讓人和Al之間的交互,像人與人交互一樣自然。
張小珺:為什么一個車企要自研大模型?這個決策是怎么做出的?
陳偉:這個事情也是逐漸達成共識的,我們當時已經把線上的關于自然語言處理的技術,切換到了預訓練的模式下,任務型對話能夠在車里面,做車控、媒體、導航這樣非常多垂域的覆蓋,上面用預訓練的模式能夠快速高效地、高質量地完成這樣的能力。
2022年年底,ChatGPT發布了,我們看到了大模型帶來的認知智能和語言智能上突飛猛進的變化,這件事情對我們來說是有非常大震撼的。我們內部也在想,為什么我們沒有快速地考慮把這個模型架做得那么高那么大。
后來想哥就提了一個話題,他說現在我們應該回歸用戶體驗,核心的問題在認知智能上面。那么認知智能這件事,我們就需要考慮怎么把技術做升維,能夠用更厲害、更先進的技術,把理想同學的認知快速拉上來,把天花板拉高。這件事對于我們后面去做基座模型,我覺得是指引性的狀態。
所以我們必須要從基座,從底層開始建設,這樣未來我們在做更多技術創新的時候,產品和研發才能有更快速的迭代,體驗才能持續地去做創新,而不是只做行業的一個平均水平。
張小珺:作為一個后來者,你們準備怎么追趕ChatGPT?
陳偉:我覺得OpenAl現在是整個行業的標桿,除了目前OpenAl宣稱進入L2(推理者)以外,絕大部分的團隊現在還停留在L1(聊天機器人)這個階段。在這樣的一個狀態下,技術處于早期,而我們在做一個無限游戲。探索邊界還不清晰的情況下,我們最重要的事情就是把握住目前的第一性原理Scaling Law(規模效應)。
我們的迭代也非???,去年年底12月OTA 5.0之后一直到現在,Mind GPT 云端的大模型已經迭代了30多次。
張小珺:Mind GPT 是怎么迭代的?
陳偉:Mind GPT 到現在為止一共經歷了三代。
2023年4月,Mind GPT 1.0的第一版模型出來,到2023年年底的時候,我們車機的OTA 5.0發布了這個大模型的上車,是行業第一家把大模型推動上車的公司,也是(汽車行業)首家通過國家大模型備案的。2023年年底上車的時候,其實已經經歷了第六個版本。
今年年中,我們完成了 Mind GPT 2.0的變化,對于我們算法團隊來說,除了關注模型效果的提升以外,還要關注整個訓練效率和推理效率。Mind GPT 未來的模型架構,肯定會是一個MoE(混合專家模型)加Transformer的結構,會持續往前迭代,我們在MoE模型上線的時候,相較于 Mind GPT 1.0大概翻了一倍,但是推理成本跟 Mind GPT 1.0基本保持一致。這樣在效果和效率上,就達到了一個我認為是雙贏的局面。Mind GPT 2.0的重點在語言的理解和知識上,另外一塊是在長上下文上有了比較大的突破,也就是在邏輯推理能力上做了進一步的強化。
今年年底,我們會上線 Mind GPT 3.0,這是我們的第三代的 Mind GPT 的能力。Mind GPT 3.0相較于前面兩代的核心不同在于,以前我們的重點放在了語言模型上,但是我們認為未來的在人機交互的過程中,它應該是一個多模態的端到端的大模型,應該融合了整個人機交互的體系里,像語音、視覺、語言這樣的模態進去,能夠理解不同的模態,然后能夠在一個模型內完成從感知到認知再到表達的完整能力。這樣的好處就是它能夠讓人機交互的延遲,從以前的比如說幾秒鐘變成可能500毫秒以內,這樣人和機器、人和Al之間的交互,就能像人與人交互一樣這么自然。
張小珺:這是多大規模的數據量?
陳偉:我們現在的預訓練數據規模量已經到10萬億Token的規模了,有了高質量的課本知識以外,我們還需要給大模型提供一個由簡單到復雜、由粗到精的一個過程,讓它逐漸地一步一步去學習。所以我們在預訓練后訓練階段,也要構建一套分段學習的邏輯,同時在數據的構建上,我們要考慮怎么能給它建立一套好的學習邏輯,所以現在重要的就是要盡快地把強化學習后訓練的事情做好。
張小珺:你們有一些特色化的數據嗎?
陳偉:第一個是多模態的數據,有自動駕駛的,也有理想同學的對話模態,這些數據是獨有的。第二個是用戶在產品里自己使用的數據,代表了你的場景或產品本身場景的一些特性,這也是自己獨有的,所以我們也在構建自己的數據飛輪,爭取能夠把這些數據的能力進一步發揮出來。
03不做人工智能,我們就什么都不是。
張小珺:理想同學跨越到L3(智能體)的點會是什么?
陳偉:對于邏輯推理來說,更重要的是做好子任務分解以后,還要讓它針對自己的思考方式去做更多的發散性思考,在每一個思考路徑上做出自己的反思,做到自我糾錯。甚至忽然間碰到死胡同的時候還能回溯回來,所以我覺得這是一個非常強的思考能力。
我們的重心是希望能夠實現從L1 ChatBot(聊天機器人)到L2(推理者)的變化。我們定義L1有兩個核心的特點,第一個是能夠實現多模態,因為人就是能聽會看的,所以我們認為語音和視覺加入到大模型是非常關鍵的。第二個是指令遵循的能力,能夠聽得懂人在跟它講什么,再復雜的命令也能聽得懂,并且能夠比較準確地執行。
所以支撐理想同學的技術,就是 Mind GPT 的多模態智能體的技術,理想同學走到L3的時候,Mind GPT 應該長成的樣子,就是一個多模態智能體。
張小珺:現在大家都覺得預訓練的Scaling Law(規模效應)達到了天花板,這對于中國團隊的影響是什么?
陳偉:如果我們想做好后訓練,我們依然需要有個好的基座模型,因此我們依然需要去具有自己的預訓練的Scaling Law(規模效應)。
這件事情短期內會出現,會傳出來有些公司在模型做得更大以后,效果可能沒有想象中的明顯,但我認為這個可能還是一個從AI的算法到Al的infra之間,目前的有些要待攻克的問題。
第二個點我覺得Scaling Law(規模效應)本身在解決的問題是模型的效果和數據和模型規模之問的關系。我們越來越覺得數據不只是規模的,需要有高質量的數據才能把規模做上去,才真正有價值。
所以這個過程中可能大家對于Scaling Law(規模效應)的看法也會有一個粗到精的過程,理解才能更深刻,但是我認為這個肯定會是大模型時代的第一性原理