5月無(wú)疑是名副其實(shí)的“AI月”,從OpenAI直播演示ChatGPT更新內(nèi)容,到谷歌的I/O開(kāi)發(fā)者大會(huì)2024,再到微軟的Build年度開(kāi)發(fā)者大會(huì)。這些活動(dòng)向世界進(jìn)一步展示了AI生產(chǎn)力的無(wú)限可能。今天,我們?yōu)榇蠹揖恼砹诉@三場(chǎng)重磅發(fā)布會(huì)的亮點(diǎn),幫助您迅速把握即將問(wèn)世的新技術(shù)以及正在迅速崛起的行業(yè)趨勢(shì)。
Open AI春季更新發(fā)布會(huì)
圖源:現(xiàn)場(chǎng)截圖
此次Open AI僅是在線上舉辦了“春季更新”活動(dòng)。雖然活動(dòng)沒(méi)有精美的ppt,也沒(méi)有震撼的demo,連Sam Altman都沒(méi)有露面,但是它推出的新旗艦?zāi)P?ldquo;GPT-4o”真實(shí)地震撼了大家。
1. 推出多模態(tài)大模型GPT-4o。它可以接受文本、音頻和圖像任意組合的輸入,可以實(shí)時(shí)對(duì)音頻、視覺(jué)和文本進(jìn)行推理,并生成這些格式的相應(yīng)輸出。
2. 新模型使ChatGPT能夠處理50種不同的語(yǔ)言,速度和質(zhì)量同時(shí)得到提高。它可以在短短232毫秒內(nèi)處理音頻輸入,平均耗時(shí)320毫秒,與人類對(duì)話中的反應(yīng)時(shí)間相當(dāng)。
3. GPT-4o允許ChatGPT以更加逼真的方式與用戶交流。它不僅能檢測(cè)用戶聲音中的情緒,分析面部表情,還能根據(jù)用戶需求改變語(yǔ)調(diào)和節(jié)奏。如果想聽(tīng)睡前故事,它可以用耳語(yǔ)說(shuō)話。如果需要來(lái)一段帶“酸味兒”的對(duì)話,它就能以輕松、諷刺的語(yǔ)氣與人交談。它甚至還可以按要求唱歌,一會(huì)兒是高亢的女高音,一會(huì)兒又能變成迷人的女低音;甚至還能表達(dá)自我,例如對(duì)示愛(ài)表現(xiàn)出害羞的樣子。
4. 擁有了新能力后的GPT-4o,也擁有了與硬件結(jié)合的更多可能性。例如,以穿戴設(shè)備為載體,借助攝像頭來(lái)幫助視障人士;通過(guò)智能眼鏡、智能耳機(jī)等,成為人們的生活助理。
5. 除了推出新模型,在產(chǎn)品上Open AI也做出了諸多更新。首先,未來(lái)ChatGPT免費(fèi)用戶的默認(rèn)模型將升級(jí)成GPT-4o,不過(guò)使用額度是有限的;此外,大量的付費(fèi)功能開(kāi)放給免費(fèi)用戶;最后,Open AI推出了macOS的客戶端,并表示W(wǎng)indows客戶端有望在下半年推出。
Google I/O 2024
圖源:現(xiàn)場(chǎng)截圖
在Open AI發(fā)布會(huì)的24小時(shí)后,2024年Google I/O全球開(kāi)發(fā)者大會(huì)如期召開(kāi)。在長(zhǎng)達(dá)兩個(gè)小時(shí)的開(kāi)幕主題演講中,谷歌展示的Project Astra和Veo,直接對(duì)標(biāo)了目前Open AI領(lǐng)先的GPT-4o與Sora。此外,谷歌還展示了最新版Gemini加持的搜索能力,AI Overviews工具更是顛覆了搜索的邏輯。
1. 發(fā)布了GPT-4o同類產(chǎn)品Project Astra——基于Gemini模型開(kāi)發(fā),它可以通過(guò)攝像頭“看到”周圍環(huán)境并做出解說(shuō),能幾乎沒(méi)有延遲地與人互動(dòng),也能通過(guò)攝像頭解讀代碼和做數(shù)學(xué)題。除了語(yǔ)音交互外,它借助Gemini和谷歌豐富的應(yīng)用生態(tài),鏈接更多谷歌應(yīng)用,讓用戶“只用一句簡(jiǎn)單的prompt”,就能把信息鏈接起來(lái),實(shí)現(xiàn)規(guī)劃;另外還有記憶功能——對(duì)攝像頭掃描過(guò)的地方形成記憶,即便當(dāng)下視野不同,也能“根據(jù)記憶”告訴你想要找的東西。
2. 推出Gemini 1.5 Flash輕量級(jí)模型,速度更快,效率更高,從而能覆蓋更多的用戶。它擅長(zhǎng)總結(jié)、聊天、凝練圖像和視頻,從長(zhǎng)文檔和表格中提取信息。Gemini 1.5 Flash通過(guò)Gemini 1.5 Pro“蒸餾”得來(lái)——“知識(shí)蒸餾”是一種模型壓縮技術(shù),讓小模型學(xué)習(xí)大模型,將重要的知識(shí)和技能遷移過(guò)來(lái)。
3. Gemini 1.5 Pro(和1.5 Flash)支持100萬(wàn)tokens理解(年底,這個(gè)數(shù)字將直接翻番增至200萬(wàn)),是目前大模型服務(wù)中所能支持的最長(zhǎng)上下文輸入——它能充當(dāng)“數(shù)據(jù)分析師”,從你上傳的表格中“及時(shí)”發(fā)現(xiàn)洞察,構(gòu)建自定義的可視化圖表。全面接入Gemini的“谷歌辦公全家桶”,也將在未來(lái)幾個(gè)月內(nèi)陸續(xù)上線“智能問(wèn)答”“智能郵件回復(fù)”“表格圖像化總結(jié)”等新功能。模型的推理更進(jìn)一步,改進(jìn)了對(duì)模型對(duì)具體用例響應(yīng)的控制,遵循用戶復(fù)雜和微妙的執(zhí)行。
4. 發(fā)布了讓用戶自定義模型的Gems,對(duì)標(biāo)Open AI的GPTs。
5. AI搜索現(xiàn)身,被命名為AI Overviews。這個(gè)功能可以“簡(jiǎn)化”用戶提問(wèn),擁有更強(qiáng)大的多步推理能力。面對(duì)一個(gè)復(fù)雜問(wèn)題,它會(huì)先將其拆解成多個(gè)簡(jiǎn)單問(wèn)題,再將簡(jiǎn)單問(wèn)題拆解成多個(gè)關(guān)鍵詞——反饋給用戶的頁(yè)面中,將是高度格式化的解釋、簡(jiǎn)潔實(shí)用的行動(dòng)指引、直接引導(dǎo)后續(xù)行為的鏈接等。未來(lái)的搜索產(chǎn)品邏輯可能會(huì)被徹底顛覆,人們不需要一個(gè)單獨(dú)的“搜索引擎”。
6. 更新了圖像模型——Imagen 3,團(tuán)隊(duì)表示它生成的圖片細(xì)節(jié)更好,錯(cuò)誤更少;推出了新的音樂(lè)模型,但并沒(méi)有透露模型名稱,只提到正在和一些音樂(lè)人合作試用。
7. 對(duì)標(biāo)OpenAI Sora的模型推出了文生視頻模型Veo。官方稱,Veo模型可以生成超過(guò)一分鐘的1080p分辨率視頻,并具有多種電影和視覺(jué)風(fēng)格。
8. 此外,Android有了更多系統(tǒng)級(jí)AI功能。除了年初發(fā)布的畫(huà)圈搜索功能外,新添加了TalkBack與詐騙電話實(shí)時(shí)監(jiān)測(cè)兩個(gè)功能:前者主要針對(duì)視力障礙人群,你可以讓AI助手讀取你手機(jī)屏幕的內(nèi)容,并且用語(yǔ)音描述給你;后者用AI分析電話內(nèi)容,當(dāng)存在詐騙等風(fēng)險(xiǎn)時(shí)會(huì)彈窗提醒用戶。
微軟Build 2024開(kāi)發(fā)者大會(huì)
圖源:現(xiàn)場(chǎng)截圖
“三十多年來(lái),微軟對(duì)于計(jì)算機(jī)一直有兩個(gè)夢(mèng)想——一是讓計(jì)算機(jī)理解我們,而不是我們?nèi)ダ斫庥?jì)算機(jī);二是在信息不斷增加的世界中,讓計(jì)算機(jī)幫助我們根據(jù)信息有效地進(jìn)行推理、計(jì)劃和行動(dòng)。人工智能浪潮已經(jīng)為我們的夢(mèng)想找到了答案。”微軟CEO薩蒂亞?納德拉在發(fā)布會(huì)上說(shuō)道。
在發(fā)布會(huì)上,微軟一口氣宣布了50多項(xiàng)AI能力更新,從推出新的Windows機(jī)器“Copilot+PC”,到Recall等AI驅(qū)動(dòng)的生成式AI功能,每一項(xiàng)都在告訴我們“AI 將如何重塑你的未來(lái)”。
1. 推出內(nèi)置AI的新電腦——Copilot+PC。新設(shè)備配備了一個(gè)名為Prism的模擬層,承諾與Windows的x86應(yīng)用程序無(wú)縫兼容。最直觀的變化是,新的鍵盤(pán)上會(huì)有一個(gè)Copilot鍵——用戶只要按下按鈕就能召喚Copilot,開(kāi)啟人工智能輔助功能。而這也是微軟近三十年來(lái)首次調(diào)整鍵盤(pán)布局,上一次他們?cè)阪I盤(pán)上加入的按鈕是Windows鍵。
2. Microsoft Copilot。在本次大會(huì)上,微軟展示了Copilot如何提升組織的團(tuán)隊(duì)協(xié)作和業(yè)務(wù)效率。主要介紹了以下三個(gè)升級(jí):
a) Team Copilot:Copilot從幕后的個(gè)人AI助手,擴(kuò)展為團(tuán)隊(duì)成員。用戶將能夠在Teams、Loop、Planner等協(xié)作工具中調(diào)用Copilot。Team Copilot能夠在會(huì)議中擔(dān)任會(huì)議主持人,管理會(huì)議議程、跟蹤會(huì)議時(shí)間并記錄會(huì)議要點(diǎn);也可以在聊天中作為協(xié)作者,提供重要信息、跟蹤行動(dòng)項(xiàng)目并解決未決問(wèn)題;它還可以擔(dān)任項(xiàng)目經(jīng)理,幫助確保每個(gè)項(xiàng)目順利推進(jìn),并及時(shí)通知團(tuán)隊(duì)進(jìn)行輸入。微軟宣布,Team Copilot將在今年晚些時(shí)候推出預(yù)覽版。