AutoGLM的一小步,人機(jī)交互進(jìn)化的一大步
55年前,左腳剛剛踏上月球的阿姆斯特朗,說(shuō)了一句簡(jiǎn)單的話:“這是個(gè)人的一小步,卻是人類的一大步。”
過(guò)去幾十年里,很多人曾引用過(guò)這句話,用來(lái)定格某個(gè)歷史性時(shí)刻。今天,我們想把這句話套用到智譜的AutoGLM上。
11月29日的智譜Agent OpenDay上,對(duì)外公測(cè)或內(nèi)測(cè)了三個(gè)產(chǎn)品——瀏覽器插件AutoGLM Web、電腦智能體大模型GLM-PC,以及一個(gè)多月前“劇透”過(guò)的AutoGLM,也是智譜第一個(gè)產(chǎn)品化的智能體Agent。
短短一個(gè)月的時(shí)間,AutoGLM的能力不再局限于點(diǎn)外賣、朋友圈點(diǎn)贊,帶來(lái)了多個(gè)新進(jìn)展:
AutoGLM 可以自主執(zhí)行超過(guò) 50 步的長(zhǎng)步驟操作,也可以跨App執(zhí)行任務(wù);AutoGLM開(kāi)啟“全自動(dòng)”上網(wǎng)新體驗(yàn),支持等數(shù)十個(gè)網(wǎng)站的無(wú)人駕駛;像人一樣操作計(jì)算機(jī)的GLM-PC啟動(dòng)內(nèi)測(cè),基于視覺(jué)多模態(tài)模型實(shí)現(xiàn)通用Agent的技術(shù)探索。
同時(shí)AutoGLM 啟動(dòng)了大規(guī)模內(nèi)測(cè),將盡快上線成為面向 C 端用戶的產(chǎn)品,并宣布啟動(dòng)“10個(gè)億級(jí) APP 免費(fèi) Auto 升級(jí)”的計(jì)劃。
01 AutoGLM可以做什么?
看到這里,可能不少人會(huì)疑問(wèn):什么是AutoGLM?
單從名字上看,很容易讓人聯(lián)想到自動(dòng)駕駛,畢竟幾乎每輛汽車的中控區(qū)都有一個(gè)AUTO按鈕,表示該功能或設(shè)置為自動(dòng)模式。
顧名思義,AutoGLM的場(chǎng)景正是用AI控制手機(jī),只需要一句語(yǔ)音指令,AutoGLM即可模擬人類操作手機(jī)來(lái)完整任務(wù)。AI從只有對(duì)話功能的Chatbot,正在進(jìn)化為“有手、有腦、有眼睛”的自主Agent。
為了方便大家理解,我們提前做了一波測(cè)試。
對(duì)于不方便看視頻的小伙伴,這里大致說(shuō)一下我們測(cè)試的四個(gè)場(chǎng)景:分別是到小紅書查找周末出行攻略、給小紅書博主的最新內(nèi)容評(píng)論、到拼多多上買一箱涌泉蜜桔、訂一張從寧波到北京的機(jī)票。
直接說(shuō)結(jié)果,AutoGLM都準(zhǔn)確完成了工作,幾個(gè)涉及到購(gòu)買的場(chǎng)景,只需要我們最后付款即可。稍有不足的是,遇到彈窗或需要人工確認(rèn)的環(huán)節(jié),目前AutoGLM還無(wú)法處理,需要人為操作后才能繼續(xù)后面的流程。
由于時(shí)間的原因,我們的測(cè)試沒(méi)有太深入,對(duì)于AutoGLM的能力升級(jí),可以參考智譜Agent OpenDay上傳遞出的信息:
超長(zhǎng)任務(wù):理解超長(zhǎng)指令,執(zhí)行超長(zhǎng)任務(wù)。例如,在采購(gòu)火鍋食材的例子中,AutoGLM 自主執(zhí)行了 54步無(wú)打斷操作。并且,在這種多步、循環(huán)任務(wù)中,AutoGLM 的速度表現(xiàn)超過(guò)人手動(dòng)操作。
跨 App :AutoGLM 支持跨 App 來(lái)執(zhí)行任務(wù)。用戶將習(xí)慣于 AI 自動(dòng)處理,而不是在多個(gè) APP 間來(lái)回切換。由于目前 AutoGLM 形態(tài)更像是用戶和應(yīng)用間的APP執(zhí)行的調(diào)度層,因此跨 App 能力是里面非常關(guān)鍵的一步。
短口令:AutoGLM 能夠支持長(zhǎng)任務(wù)的自定義短語(yǔ)。今天,你不用再給AutoGLM說(shuō):“幫我買一杯瑞幸咖啡,生椰拿鐵,五道口店,大杯、熱、微糖” 這類超長(zhǎng)指令,只需要說(shuō)“點(diǎn)咖啡”。
隨便模式:我們都會(huì)陷入選擇恐懼,AutoGLM 今天可以主動(dòng)幫你做出決策。隨便模式下所有步驟都讓 AI 決策,帶來(lái)有抽盲盒式的驚喜。想不想嘗嘗AI為你點(diǎn)的咖啡口味?
以此類推,AutoGLM Web和GLM-PC的能力和AutoGLM相似,面向的場(chǎng)景分別是瀏覽器和電腦端,并且有一些智能手機(jī)上做不到的功能。
比如AutoGLM Web能夠理解用戶的指令,自動(dòng)為用戶在網(wǎng)頁(yè)上站內(nèi)檢索、多鏈接總結(jié),甚至進(jìn)一步實(shí)現(xiàn)生成arXiv日?qǐng)?bào),搭建Github倉(cāng)庫(kù),在微博超話簽到等個(gè)性化功能。
再比如遠(yuǎn)程手機(jī)發(fā)指令,GLM-PC可以自主完成電腦操作,可以設(shè)定一個(gè)未來(lái)時(shí)間,在開(kāi)機(jī)狀態(tài)下定時(shí)執(zhí)行任務(wù)。
想象一下:即使你在摸魚、喝咖啡或者上廁所,你的電腦依然在工作,絲毫不會(huì)影響工作的進(jìn)度。
02 人機(jī)交互進(jìn)入AI時(shí)代
當(dāng)然,讓我們印象深刻的,并非是AutoGLM所實(shí)現(xiàn)的能力,而是對(duì)人機(jī)交互模式的巨大沖擊,基于自然語(yǔ)言的人機(jī)交互已經(jīng)是現(xiàn)在進(jìn)行時(shí)。
小時(shí)候上“微機(jī)課”,老師經(jīng)常掛在嘴邊的一句話就是:“你們要學(xué)會(huì)用電腦。”
之所以會(huì)出現(xiàn)一個(gè)“學(xué)”字,因?yàn)椴僮麟娔X必須要學(xué)會(huì)使用鍵盤和鼠標(biāo)、必須學(xué)會(huì)輸入法、必須要去適應(yīng)每一個(gè)應(yīng)用的復(fù)雜界面,想要編寫程序還需要從0開(kāi)始學(xué)一門編程語(yǔ)言。盡管這些工具在不斷進(jìn)步,人與機(jī)器的協(xié)作依然是一件高門檻的事,特別是一些專業(yè)軟件,想要完成某個(gè)任務(wù)需要很多個(gè)步驟,過(guò)程中充斥著機(jī)械性的重復(fù)勞動(dòng)。
AutoGLM目前的功能還很基礎(chǔ),卻拉開(kāi)了人機(jī)交互進(jìn)化的序幕:借助于大模型的強(qiáng)大能力,只需要一句話,AI就能自動(dòng)幫我們處理復(fù)雜的任務(wù),人機(jī)協(xié)作的門檻進(jìn)一步降低。
不再是人被動(dòng)適應(yīng)機(jī)器,而是讓機(jī)器理解人類。
試圖打破人機(jī)交互僵局的,不只是國(guó)內(nèi)的智譜,蘋果的Apple lnteligence、Anthropic的Computer Use、谷歌的Jarvis,以及OpenAI即將發(fā)布的Operator,都在朝同樣的方向進(jìn)行創(chuàng)新。
問(wèn)題來(lái)了,大模型距離重塑人機(jī)交互范式還有多遠(yuǎn)呢?
自動(dòng)駕駛領(lǐng)域有L1—L5的能力劃分,OpenAI、智譜等企業(yè)也提出了類似的技術(shù)階段:L1是語(yǔ)言能力、L2是邏輯能力(多模態(tài)能力)、L3是使用工具的能力、L4是自我學(xué)習(xí)能力,最終做到像人一樣理解界面、規(guī)劃任務(wù)、使用工具、完成任務(wù)。
“壞消息”在于,目前大模型能力還處于初級(jí)階段。按照智譜 CEO 張鵬的說(shuō)法,“Agent 將極大地提升 L3 使用工具能力,同時(shí)開(kāi)啟對(duì) L4 自我學(xué)習(xí)能力的探索。”
“好消息”則是,在智譜Agent OpenDay上,榮耀、華碩、小鵬、高通、英特爾等,分別從不同的場(chǎng)景出發(fā),分享了他們對(duì)智能終端的實(shí)踐及展望。
也就是說(shuō),大模型重塑人機(jī)交互范式,絕非是大模型企業(yè)的愿景,而是包含終端廠商、芯片廠商在內(nèi)的產(chǎn)業(yè)上下游的共識(shí)。隨著AutoGLM能力的提升,將能調(diào)用越來(lái)越多的應(yīng)用,適配越來(lái)越多的系統(tǒng),實(shí)現(xiàn)越來(lái)越復(fù)雜的連貫自主操作。
另一個(gè)不應(yīng)該忽略的信息是:端側(cè)算力正在持續(xù)提升,智譜順勢(shì)推出了為AI原生設(shè)備適配的模型和端云同源的協(xié)同架構(gòu),意味著Agent不僅將在應(yīng)用上實(shí)現(xiàn)用戶體驗(yàn)變革,還能將推廣到各類智能設(shè)備上,手機(jī)+AI、PC+AI、汽車+AI等將不斷涌現(xiàn)。
03 寫在最后
在大模型的概念剛走紅時(shí),就有人將其比作是“操作系統(tǒng)”。
至少?gòu)腁utoGLM的表現(xiàn)來(lái)看,即便只是在用戶和應(yīng)用之間增加一個(gè)智能調(diào)度層,已經(jīng)有了GLM-OS(以大模型為中心的通用計(jì)算系統(tǒng))的雛形。倘若能夠進(jìn)一步實(shí)現(xiàn)原生的人與機(jī)器交互,將從根本上改變?nèi)藱C(jī)交互模式,所有人都可以用自然語(yǔ)言操作手機(jī)、電腦、汽車、眼鏡等等。
值得期待的是,著名調(diào)研機(jī)構(gòu)Gartner已經(jīng)將agentic AI列為2025年十大技術(shù)趨勢(shì)之一,預(yù)測(cè)2028年至少有 15%的日常工作決策將由agentic AI自主完成。
轉(zhuǎn)載請(qǐng)?jiān)谖恼麻_(kāi)頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請(qǐng)聯(lián)系作者本人,侵權(quán)必究。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
授權(quán)事宜請(qǐng)至數(shù)英微信公眾號(hào)(ID: digitaling) 后臺(tái)授權(quán),侵權(quán)必究。
評(píng)論
評(píng)論
推薦評(píng)論
暫無(wú)評(píng)論哦,快來(lái)評(píng)論一下吧!
全部評(píng)論(0條)