AutoGLM的一小步，人機交互進化的一大步

原創贊收藏評論

舉報 2024-11-29

掃描,分享朋友圈

55年前，左腳剛剛踏上月球的阿姆斯特朗，說了一句簡單的話：“這是個人的一小步，卻是人類的一大步。”

過去幾十年里，很多人曾引用過這句話，用來定格某個歷史性時刻。今天，我們想把這句話套用到智譜的AutoGLM上。

11月29日的智譜Agent OpenDay上，對外公測或內測了三個產品——瀏覽器插件AutoGLM Web、電腦智能體大模型GLM-PC，以及一個多月前“劇透”過的AutoGLM，也是智譜第一個產品化的智能體Agent。

短短一個月的時間，AutoGLM的能力不再局限于點外賣、朋友圈點贊，帶來了多個新進展：

AutoGLM 可以自主執行超過 50 步的長步驟操作，也可以跨App執行任務；AutoGLM開啟“全自動”上網新體驗，支持等數十個網站的無人駕駛；像人一樣操作計算機的GLM-PC啟動內測，基于視覺多模態模型實現通用Agent的技術探索。

同時AutoGLM 啟動了大規模內測，將盡快上線成為面向 C 端用戶的產品，并宣布啟動“10個億級 APP 免費 Auto 升級”的計劃。

01 AutoGLM可以做什么？

看到這里，可能不少人會疑問：什么是AutoGLM？

單從名字上看，很容易讓人聯想到自動駕駛，畢竟幾乎每輛汽車的中控區都有一個AUTO按鈕，表示該功能或設置為自動模式。

顧名思義，AutoGLM的場景正是用AI控制手機，只需要一句語音指令，AutoGLM即可模擬人類操作手機來完整任務。AI從只有對話功能的Chatbot，正在進化為“有手、有腦、有眼睛”的自主Agent。

為了方便大家理解，我們提前做了一波測試。

對于不方便看視頻的小伙伴，這里大致說一下我們測試的四個場景：分別是到小紅書查找周末出行攻略、給小紅書博主的最新內容評論、到拼多多上買一箱涌泉蜜桔、訂一張從寧波到北京的機票。

直接說結果，AutoGLM都準確完成了工作，幾個涉及到購買的場景，只需要我們最后付款即可。稍有不足的是，遇到彈窗或需要人工確認的環節，目前AutoGLM還無法處理，需要人為操作后才能繼續后面的流程。

由于時間的原因，我們的測試沒有太深入，對于AutoGLM的能力升級，可以參考智譜Agent OpenDay上傳遞出的信息：

超長任務：理解超長指令，執行超長任務。例如，在采購火鍋食材的例子中，AutoGLM 自主執行了 54步無打斷操作。并且，在這種多步、循環任務中，AutoGLM 的速度表現超過人手動操作。

跨 App ：AutoGLM 支持跨 App 來執行任務。用戶將習慣于 AI 自動處理，而不是在多個 APP 間來回切換。由于目前 AutoGLM 形態更像是用戶和應用間的APP執行的調度層，因此跨 App 能力是里面非常關鍵的一步。

短口令：AutoGLM 能夠支持長任務的自定義短語。今天，你不用再給AutoGLM說：“幫我買一杯瑞幸咖啡，生椰拿鐵，五道口店，大杯、熱、微糖” 這類超長指令，只需要說“點咖啡”。

隨便模式：我們都會陷入選擇恐懼，AutoGLM 今天可以主動幫你做出決策。隨便模式下所有步驟都讓 AI 決策，帶來有抽盲盒式的驚喜。想不想嘗嘗AI為你點的咖啡口味？

以此類推，AutoGLM Web和GLM-PC的能力和AutoGLM相似，面向的場景分別是瀏覽器和電腦端，并且有一些智能手機上做不到的功能。

比如AutoGLM Web能夠理解用戶的指令，自動為用戶在網頁上站內檢索、多鏈接總結，甚至進一步實現生成arXiv日報，搭建Github倉庫，在微博超話簽到等個性化功能。

再比如遠程手機發指令，GLM-PC可以自主完成電腦操作，可以設定一個未來時間，在開機狀態下定時執行任務。

想象一下：即使你在摸魚、喝咖啡或者上廁所，你的電腦依然在工作，絲毫不會影響工作的進度。

02 人機交互進入AI時代

當然，讓我們印象深刻的，并非是AutoGLM所實現的能力，而是對人機交互模式的巨大沖擊，基于自然語言的人機交互已經是現在進行時。

小時候上“微機課”，老師經常掛在嘴邊的一句話就是：“你們要學會用電腦。”

之所以會出現一個“學”字，因為操作電腦必須要學會使用鍵盤和鼠標、必須學會輸入法、必須要去適應每一個應用的復雜界面，想要編寫程序還需要從0開始學一門編程語言。盡管這些工具在不斷進步，人與機器的協作依然是一件高門檻的事，特別是一些專業軟件，想要完成某個任務需要很多個步驟，過程中充斥著機械性的重復勞動。

AutoGLM目前的功能還很基礎，卻拉開了人機交互進化的序幕：借助于大模型的強大能力，只需要一句話，AI就能自動幫我們處理復雜的任務，人機協作的門檻進一步降低。

不再是人被動適應機器，而是讓機器理解人類。

試圖打破人機交互僵局的，不只是國內的智譜，蘋果的Apple lnteligence、Anthropic的Computer Use、谷歌的Jarvis，以及OpenAI即將發布的Operator，都在朝同樣的方向進行創新。

問題來了，大模型距離重塑人機交互范式還有多遠呢？

自動駕駛領域有L1—L5的能力劃分，OpenAI、智譜等企業也提出了類似的技術階段：L1是語言能力、L2是邏輯能力(多模態能力)、L3是使用工具的能力、L4是自我學習能力，最終做到像人一樣理解界面、規劃任務、使用工具、完成任務。

“壞消息”在于，目前大模型能力還處于初級階段。按照智譜 CEO 張鵬的說法，“Agent 將極大地提升 L3 使用工具能力，同時開啟對 L4 自我學習能力的探索。”

“好消息”則是，在智譜Agent OpenDay上，榮耀、華碩、小鵬、高通、英特爾等，分別從不同的場景出發，分享了他們對智能終端的實踐及展望。

也就是說，大模型重塑人機交互范式，絕非是大模型企業的愿景，而是包含終端廠商、芯片廠商在內的產業上下游的共識。隨著AutoGLM能力的提升，將能調用越來越多的應用，適配越來越多的系統，實現越來越復雜的連貫自主操作。

另一個不應該忽略的信息是：端側算力正在持續提升，智譜順勢推出了為AI原生設備適配的模型和端云同源的協同架構，意味著Agent不僅將在應用上實現用戶體驗變革，還能將推廣到各類智能設備上，手機+AI、PC+AI、汽車+AI等將不斷涌現。

03 寫在最后

在大模型的概念剛走紅時，就有人將其比作是“操作系統”。

至少從AutoGLM的表現來看，即便只是在用戶和應用之間增加一個智能調度層，已經有了GLM-OS（以大模型為中心的通用計算系統）的雛形。倘若能夠進一步實現原生的人與機器交互，將從根本上改變人機交互模式，所有人都可以用自然語言操作手機、電腦、汽車、眼鏡等等。

值得期待的是，著名調研機構Gartner已經將agentic AI列為2025年十大技術趨勢之一，預測2028年至少有 15%的日常工作決策將由agentic AI自主完成。

本文系作者授權數英發表，內容為作者獨立觀點，不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注：作者、出處和鏈接。不按規范轉載侵權必究。

掃描,分享朋友圈

Alter聊IT

其他

近期精選文章更多

带玩具逛街时突然按下按钮的故事,丰满的妺妺3伦理播放,新婚人妻不戴套国产精品,大肉大捧一进一出好爽视频百度

AutoGLM的一小步，人機交互進化的一大步

評論

評論

推薦評論

全部評論（0條）

Alter聊IT

關于

聯系

相關信息