带玩具逛街时突然按下按钮的故事,丰满的妺妺3伦理播放,新婚人妻不戴套国产精品,大肉大捧一进一出好爽视频百度

OpenAI 機(jī)器人驚艷亮相!ChatGPT 有了身體

原創(chuàng) 7 收藏6 評論
舉報(bào) 2024-03-18

1710469020602877.jpg

首發(fā):愛范兒
原標(biāo)題:GPT-4 發(fā)布一年后,OpenAI 機(jī)器人驚艷亮相!ChatGPT 有了身體

以 GPT-4 為代表的大模型已經(jīng)建造了大腦,下一步則是需要能承載這一大腦的機(jī)器人軀體。

13日深夜,人形機(jī)器人明星公司 Figure AI 震撼發(fā)布了一段視頻,展示了他們的機(jī)器人 Figure 01 在 OpenAI 強(qiáng)大模型的支持下,進(jìn)行的一系列對話交互。

視頻中的機(jī)器人展現(xiàn)出了靈活的操作反應(yīng),其與人類溝通的流暢度幾乎可以與真人相媲美。

這距離 Figure AI 獲得 OpenAI 、微軟、英偉達(dá)等公司投資,僅僅過去了不到半個月。也讓我們看到,OpenAI 最強(qiáng)的多模態(tài)大模型有了身體后會是什么樣子。


一、Figure 01,最懂你的人形機(jī)器人?

得益于 OpenAI 多模態(tài)大模型的強(qiáng)大支持,F(xiàn)igure 01 現(xiàn)在可是個桌上物品識別的小能手。蘋果、瀝水架、水杯和盤子,對它來說都是小菜一碟!

餓了,想讓它整口吃的,它能秒懂你的心思,麻溜地遞上一個蘋果。

而且,它甚至能邊撿起你丟棄的垃圾,邊跟你解釋為啥剛才給了你蘋果。在大模型的輔助下,F(xiàn)igure 01 可以理解桌面上唯一的食物——蘋果。

在人類的一聲令下,F(xiàn)igure 01 還能做家務(wù),收拾餐具,這機(jī)器人,簡直是家庭生活的最佳伙伴。完整視頻如下(已翻譯):

視頻來自:@op7418

廣大網(wǎng)友在看到這段令人驚艷的視頻后,反應(yīng)可謂是五花八門。

網(wǎng)友已經(jīng)迫不及待地給 Figure 01 安排任務(wù)了,任務(wù)清單里怎么還混進(jìn)了機(jī)器人前輩的電影。

競爭對手怕是要看在眼里,急在心里,準(zhǔn)備暗地里摩拳擦掌,來一場技術(shù)大比拼?

更興奮的網(wǎng)友表示,AGI 的曙光似乎就在眼前。

當(dāng)然,總有些挑剔的聲音,有的網(wǎng)友就吐槽說,這機(jī)器人說法怎么結(jié)結(jié)巴巴呢?

網(wǎng)友也沒放過玩梗的機(jī)會。

Figure AI 掌門人 Brett Adock 也不甘寂寞,在 X 上跳出來做了一番精彩解讀。

視頻展示了端到端神經(jīng)網(wǎng)絡(luò)的應(yīng)用(end-to-end neural networks)。在此過程中沒有使用遙控器(teleop)。視頻是以實(shí)際速度(1.0倍速)拍攝的,并且是連續(xù)不斷的。
如您在視頻中看到的,機(jī)器人的速度有了顯著的提升,我們正在逐步達(dá)到與人類相似的速度。


二、無需遙控,自學(xué)成才

那么 Figure 01 是怎么做到的呢?

Figure AI 團(tuán)隊(duì)負(fù)責(zé)人 Corey Lynch 在 X 上解釋了一番。

具體來說,視頻中展示的所有行為都是通過學(xué)習(xí)獲得的(非遙控操作),并且以實(shí)際速度(1.0 倍速)執(zhí)行。

Figure AI 將機(jī)器人攝像頭拍攝的圖像和通過板載麥克風(fēng)記錄的語音轉(zhuǎn)錄文本輸入到一個由 OpenAI 訓(xùn)練的多模態(tài)模型中,這個模型能夠同時理解圖像和文本信息。

該模型會處理整個對話的歷史記錄,包括以往的圖像,以生成語言響應(yīng),并通過文本到語音的方式向人類回話。同一個模型還負(fù)責(zé)決定執(zhí)行哪種已學(xué)習(xí)的閉環(huán)行為來響應(yīng)給定的命令,它將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到 GPU 上,并執(zhí)行相應(yīng)的策略。

而將 Figure 01 連接到一個大型預(yù)訓(xùn)練的多模態(tài)模型,為其帶來了許多有趣的新功能。

現(xiàn)在,F(xiàn)igure 01 + OpenAI 能夠:

詳述其周圍環(huán)境。
在決策時運(yùn)用常識推理。例如,「桌子上的餐具,像那個盤子和杯子,很可能接下來會被放到烘干架上」。
將含糊的高級指令,如「我餓了」,轉(zhuǎn)化為符合情境的適當(dāng)行為,比如「遞給那個人一個蘋果」。
用簡單的英語解釋為什么它執(zhí)行了某個特定的動作。例如,「這是我能夠從桌子上提供的唯一可食用物品」。

當(dāng)談到 Figure 01 通過學(xué)習(xí)掌握的精細(xì)雙手操作技能時,其實(shí)這背后也蘊(yùn)含著一系列復(fù)雜而精妙的原理。

所有行為都由神經(jīng)網(wǎng)絡(luò)的視覺-運(yùn)動轉(zhuǎn)換器策略驅(qū)動,這種策略能直接將圖像像素映射到動作。這些網(wǎng)絡(luò)以每秒 10 幀的速率接收機(jī)器人內(nèi)置圖像,并生成每秒 200 次的 24 自由度動作(包括腕部姿勢和手指關(guān)節(jié)角度)。

這些動作作為高速「設(shè)定點(diǎn)」,供更高速率的全身控制器跟蹤,確保動作的精確執(zhí)行。

這種設(shè)計(jì)實(shí)現(xiàn)了關(guān)注點(diǎn)的有效分離:

互聯(lián)網(wǎng)預(yù)訓(xùn)練模型對圖像和文本進(jìn)行常識推理,以生成一個高級計(jì)劃。
學(xué)習(xí)到的視覺-運(yùn)動策略執(zhí)行這個計(jì)劃,完成那些難以手動指定的快速、反應(yīng)性行為,例如在任何位置操縱一個可變形的袋子。
同時,全身控制器負(fù)責(zé)確保動作的安全性和穩(wěn)定性,例如,保持機(jī)器人的平衡。

對于 Figure 01 取得的巨大進(jìn)步,Corey Lynch 感慨道:

就在幾年前,我還認(rèn)為與一個能自主規(guī)劃和執(zhí)行學(xué)習(xí)行為的人形機(jī)器人進(jìn)行完整對話,將是未來數(shù)十年后的事情。顯然,許多事情已經(jīng)發(fā)生了巨大變化。


三、這會是人形機(jī)器人的 GPT 時刻嗎

不得不說,F(xiàn)igure 01 的發(fā)展速度簡直像是踩了油門,一路狂飆。

今年 1 月,F(xiàn)igure 01 就掌握了制作咖啡的技能,這一成就得益于端到端神經(jīng)網(wǎng)絡(luò)的引入,使得機(jī)器人能夠自主學(xué)習(xí)和糾正錯誤,僅需 10 小時的訓(xùn)練。

一個月后,F(xiàn)igure 01 已經(jīng)學(xué)會了搬運(yùn)箱子并運(yùn)送至傳送帶的新技能,盡管其速度僅為人類的 16.7%。

在這個過程,F(xiàn)igure AI 商業(yè)化的步伐也未曾停歇,與寶馬制造公司簽訂了商業(yè)協(xié)議,將 AI 和機(jī)器人技術(shù)融入汽車生產(chǎn)線,并落戶于寶馬的工廠。

緊接著,就在兩周前,F(xiàn)igure 宣布完成了 6.75 億美元的 B 輪融資,公司估值飆升至 26 億美元。

投資方幾乎涵蓋了硅谷的半壁江山——Microsoft、OpenAI 創(chuàng)業(yè)基金、英偉達(dá)、Jeff Bezos、Parkway Venture Capital、Intel Capital 和 Align Ventures 等。

當(dāng)時,OpenAI 與 Figure 還宣布將共同開發(fā)下一代人形機(jī)器人 AI 模型,OpenAI 的多模態(tài)模型將擴(kuò)展到機(jī)器人感知、推理和交互環(huán)節(jié)。

如今,從 Figure 01 身上,我們仿佛能窺見未來生活的草稿。事實(shí)上,在大模型之前,機(jī)器人屬于專用設(shè)備,如今有了大模型的通用能力,通用機(jī)器人開始曙光乍現(xiàn),現(xiàn)在的我們不止需要 ChatGPT,還需要 WorkGPT。

這些進(jìn)化間接印證了一條清晰可見的道路:當(dāng) AI 大模型生根發(fā)芽之后,總歸是要走進(jìn)現(xiàn)實(shí)世界,而具身智能則是最佳的路徑。

一直活躍在 AI 前線的英偉達(dá)創(chuàng)始人黃仁勛曾洞察道:「具身智能將引領(lǐng)下一波人工智能浪潮。」

將 OpenAI 大模型融入 Figure 01 也是有意的戰(zhàn)略布局。

成熟的 AI 大模型充當(dāng)人工大腦,模擬了人腦復(fù)雜的神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了語言理解、視覺識別、情景推理等認(rèn)知功能,解決了機(jī)器人更高層次的認(rèn)知和決策問題。

與此同時,各種傳感器、執(zhí)行器、計(jì)算單元被集成到機(jī)器人軀體中,實(shí)現(xiàn)了對環(huán)境的感知和交互。比如視覺系統(tǒng)可以捕捉圖像和視頻,觸覺傳感器可以感受物體的形狀和質(zhì)地等。

Figure AI 創(chuàng)始人 Brett Adcock 此前在接受采訪時表示,未來 1-2 年,F(xiàn)igure AI 將專注于開發(fā)具有里程碑意義的產(chǎn)品,期望在未來一兩年內(nèi)向公眾展示人形機(jī)器人的研發(fā)成果,涵蓋 AI 系統(tǒng)、低級控制等,最終呈現(xiàn)能在日常生活中大展身手的機(jī)器人。

他還透露,在成本方面,一個人形機(jī)器人約有 1000 個零件,重約 150 磅(68 公斤),而電動汽車可能有約 1 萬個零件,重達(dá) 4000-5000 磅(1800-2250公斤)。

因此,長期來看,人形機(jī)器人的成本有望低于廉價電動汽車,這取決于執(zhí)行器、電機(jī)組件、傳感器的成本及計(jì)算成本。

機(jī)器人專家 Eric Jang 曾提出他的洞見:「盡管許多 AI 研究者認(rèn)為通用機(jī)器人的普及還需數(shù)十年,但別忘了,ChatGPT 的誕生仿佛幾乎就在一夜之間。」

一年前的今天,OpenAI 震撼發(fā)布了 GPT-4,向世界證明了大模型的強(qiáng)大威力。

一年后的今天,我們沒等來 GPT-5,但也迎來 Figure 01,而這會是人形機(jī)器人的 GPT-4 時刻嗎?


作者公眾號:愛范兒(ID:ifanr)
1710413217688026.bmp

本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
轉(zhuǎn)載請?jiān)谖恼麻_頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
本文系數(shù)英原創(chuàng),未經(jīng)允許不得轉(zhuǎn)載。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    主站蜘蛛池模板: 会宁县| 潍坊市| 多伦县| 宁海县| 廉江市| 临洮县| 乌拉特后旗| 舞钢市| 桐梓县| 宁乡县| 上栗县| 大埔区| 普兰店市| 杭锦后旗| 富顺县| 枣强县| 内黄县| 东阿县| 合山市| 梅州市| 松潘县| 乌拉特前旗| 辛集市| 教育| 皮山县| 连南| 蒙山县| 睢宁县| 长宁区| 雷州市| 武宁县| 余姚市| 高陵县| 永泰县| 安康市| 时尚| 云安县| 望城县| 内黄县| 衡阳市| 罗源县|