带玩具逛街时突然按下按钮的故事,丰满的妺妺3伦理播放,新婚人妻不戴套国产精品,大肉大捧一进一出好爽视频百度

深夜重磅!GPT-4o 正式發(fā)布:視頻語音交互絲滑到嚇人,還免費(fèi)可用

原創(chuàng) 12 收藏17 評論1
舉報 2024-05-14

作者:李超凡、莫崇宇,首發(fā):愛范兒

今天凌晨,一場不到 30 分鐘的發(fā)布會,將又一次大大改變 AI 行業(yè)和我們未來的生活,也會讓無數(shù) AI 初創(chuàng)公司焦頭爛額。

這真不是標(biāo)題黨,因為這是 OpenAI 的發(fā)布會。

剛剛,OpenAI 正式發(fā)布了 GPT-4o,其中的「o」代表「omni」(即全面、全能的意思),這個模型同時具備文本、圖片、視頻和語音方面的能力,甚至就是 GPT-5 的一個未完成版。

更重要的是,這個 GPT-4 級別的模型,將向所有用戶開放,并且未來幾周內(nèi)先向 ChatGPT Plus 推送。

熱點(diǎn),GPT-4o,A,IOpenAI,行業(yè)動態(tài)

我們先給大家一次性總結(jié)這場發(fā)布會的亮點(diǎn),更多功能解析請接著往下看。

發(fā)布會要點(diǎn)

1、新的 GPT-4o 模型:打通任何文本、音頻和圖像的輸入,相互之間可以直接生成,無需中間轉(zhuǎn)換;

2、GPT-4o 語音延遲大幅降低,能在 232 毫秒內(nèi)回應(yīng)音頻輸入,平均為 320 毫秒,這與對話中人類的響應(yīng)時間相似;

3、GPT-4o 向所有用戶免費(fèi)開放;

4、GPT-4o API,比 GPT 4-Turbo 快 2 倍,價格便宜 50%;

5、驚艷的實(shí)時語音助手演示:對話更像人、能實(shí)時翻譯,識別表情,可以通過攝像頭識別畫面寫代碼分析圖表;

6、ChatGPT 新 UI,更簡潔;

7、一個新的 ChatGPT 桌面應(yīng)用程序,適用于 macOS,Windows 版本今年晚些時候推出。

這些功能早在預(yù)熱階段就被 Altman 形容為「感覺像魔法」。既然全世界 AI 模型都在「趕超 GPT-4」,那 OpenAI 也要從武器庫掏出點(diǎn)真家伙。

當(dāng)然,還輪不到 GPT-5 登場。

視頻來自@dotey


一、免費(fèi)可用的 GPT-4o 來了,
但這不是它最大的亮點(diǎn)

其實(shí)在發(fā)布會前一天,我們發(fā)現(xiàn) OpenAI 已經(jīng)悄悄將 GPT-4 的描述從「最先進(jìn)的模型」,修改為「先進(jìn)的」。這正是為了迎接 GPT-4o 的到來。

GPT-4o 的強(qiáng)大在于,可以接受任何文本、音頻和圖像的組合作為輸入,并直接生成上述這幾種媒介輸出。

這意味著人機(jī)交互將更接近人與人的自然交流。

GPT-4o 可以在 232 毫秒內(nèi)回應(yīng)音頻輸入,平均為 320 毫秒,這接近于人類對話的反應(yīng)時間。此前使用語音模式與 ChatGPT 進(jìn)行交流,平均延遲為 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。

它在英文和代碼文本上與 GPT-4 Turbo 的性能相匹敵,在非英語語言文本上有顯著改進(jìn),同時在 API 上更快速且價格便宜 50%。

熱點(diǎn),GPT-4o,A,IOpenAI,行業(yè)動態(tài)

而與現(xiàn)有模型相比,GPT-4o 在視覺和音頻理解方面表現(xiàn)尤為出色。

1、你在對話時可以隨時打斷;

2、可以根據(jù)場景生成多種音調(diào),帶有人類般的情緒和情感;

3、直接通過和 AI 視頻通話讓它在線解答各種問題。

從測試參數(shù)來看,GPT-4o 主要能力上基本和目前最強(qiáng) OpenAI 的 GPT-4 Turbo 處于一個水平。

熱點(diǎn),GPT-4o,A,IOpenAI,行業(yè)動態(tài)熱點(diǎn),GPT-4o,A,IOpenAI,行業(yè)動態(tài)

過去 Siri 或其他語音助手的使用體驗都不夠理想,本質(zhì)上是因為語音助手對話要經(jīng)歷三個階段:

1、語音識別或「ASR」:音頻 -> 文本,類似 Whisper;

2、LLM 計劃下一步要說什么:文本 1 -> 文本 2;

3、語音合成或「TTS」:文本 2 -> 音頻,想象 ElevenLabs 或 VALL-E。

熱點(diǎn),GPT-4o,A,IOpenAI,行業(yè)動態(tài)

然而我們?nèi)粘5淖匀粚υ捇旧蠀s是這樣的

1、在聽和說的同時考慮下一步要說什么;

2、在適當(dāng)?shù)臅r刻插入「是的,嗯,嗯」;

3、預(yù)測對方講話結(jié)束的時間,并立即接管;

4、自然地決定打斷對方的談話,而不會引起反感;

5、在聽和說的同時考慮下一步要說什么;

6、在適當(dāng)?shù)臅r刻插入「是的,嗯,嗯」;

7、優(yōu)雅地處理并打斷。

此前的 AI 語言助手無法很好處理這些問題,在對話的三個階段每一步都有較大延遲,因此體驗不佳。同時會在過程中丟失很多信息,比如無法直接觀察語調(diào)、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達(dá)情感。

熱點(diǎn),GPT-4o,A,IOpenAI,行業(yè)動態(tài)

當(dāng)音頻能直接生成音頻、圖像、文字、視頻,整個體驗將是跨越式的。

GPT-4o 就是 OpenAI 為此而訓(xùn)練的一個全新的模型,而要時間跨越文本、視頻和音頻的直接轉(zhuǎn)換,這要求所有的輸入和輸出都由同一個神經(jīng)網(wǎng)絡(luò)處理。

而更令人驚喜的是,ChatGPT 免費(fèi)用戶就能使用 GPT-4o 可以體驗以下功能:

1、體驗 GPT-4 級別的智能;

2、從模型和網(wǎng)絡(luò)獲取響應(yīng);

3、分析數(shù)據(jù)并創(chuàng)建圖表;

4、聊一聊你拍的照片;

5、上傳文件以獲取摘要、寫作或分析幫助;

6、使用 GPTs 和 GPT Store;

7、通過 Memory 構(gòu)建更加有幫助的體驗。

而當(dāng)你看完 GPT-4o 下面這些演示,你的感受或許將更加復(fù)雜。


二、ChatGPT 版「賈維斯」,
人人都有

ChatGPT 不光能說,能聽,還能看,這已經(jīng)不是什么新鮮事了,但「船新版本」的 ChatGPT 還是驚艷到我了。


1、睡覺搭子

以一個具體的生活場景為例,讓 ChatGPT 講一個關(guān)于機(jī)器人和愛的睡前故事,它幾乎不用太多思考,張口就能說出一個帶有情感和戲劇性的睡前故事。

甚至它還能以唱歌的形式來講述故事,簡直可以充當(dāng)用戶的睡眠搭子。


2、做題高手

熱點(diǎn),GPT-4o,A,IOpenAI,行業(yè)動態(tài)

又或者,在發(fā)布會現(xiàn)場,讓其演示如何給線性方程 3X+1=4 的求解提供幫助,它能夠一步步貼心地引導(dǎo)并給出正確答案。

當(dāng)然,上述還是一些「小兒戲」,現(xiàn)場的編碼難題才是真正的考驗。不過,三下五除二的功夫,它都能輕松解決。

熱點(diǎn),GPT-4o,A,IOpenAI,行業(yè)動態(tài)

借助 ChatGPT 的「視覺」,它能夠查看電腦屏幕上的一切,譬如與代碼庫交互并查看代碼生成的圖表,咦,不對勁?那我們以后的隱私豈不是也要被看得一清二楚了?

熱點(diǎn),GPT-4o,A,IOpenAI,行業(yè)動態(tài)


3、實(shí)時翻譯

現(xiàn)場的觀眾也給 ChatGPT 提出了一些刁鉆的問題。

從英語翻譯到意大利語,從意大利語翻譯到英語,無論怎么折騰該 AI 語音助手,它都游刃有余,看來沒必要花大價錢去買翻譯機(jī)了,在未來,指不定 ChatGPT 可能比你的實(shí)時翻譯機(jī)還靠譜。

實(shí)時翻譯(官網(wǎng)案例)

感知語言的情緒還只是第一步,ChatGPT 還能解讀人類的的面部情緒。

熱點(diǎn),GPT-4o,A,IOpenAI,行業(yè)動態(tài)

在發(fā)布會現(xiàn)場,面對攝像頭拍攝的人臉,ChatGPT 直接將其「誤認(rèn)為」桌子,正當(dāng)大家伙以為要翻車時,原來是因為最先打開的前置攝像頭瞄準(zhǔn)了桌子。

不過,最后它還是準(zhǔn)確描述出自拍面部的情緒,并且準(zhǔn)確識別出臉上的「燦爛」的笑臉。

兩個 GPT-4o 互動并唱歌(官網(wǎng)案例)

有趣的是,在發(fā)布會的尾聲,發(fā)言人也不忘 Cue 了英偉達(dá)和其創(chuàng)始人老黃的「鼎力支持」,屬實(shí)是懂人情世故的。

對話語言界面的想法具有令人難以置信的預(yù)見性。

Altman 在此前的采訪中表示希望最終開發(fā)出一種類似于 AI 電影《Her》中的 AI 助理,而今天 OpenAI 發(fā)布的語音助手切實(shí)是有走進(jìn)現(xiàn)實(shí)那味了。

OpenAI 的首席運(yùn)營官 Brad Lightcap 前不久曾預(yù)測,未來我們會像人類交談一樣與 AI 聊天機(jī)器人對話,將其視為團(tuán)隊中的一員。

現(xiàn)在看來,這不僅為今天的發(fā)布會埋下了伏筆,同時也是我們未來十年生活的生動注腳。

蘋果在 AI 語音助手「兜兜轉(zhuǎn)轉(zhuǎn)」了十三年的時間都沒能走出迷宮,而 OpenAI 一夜之間就找到出口。在不久的將來,也許人手一個鋼鐵俠的「賈維斯」將不再是幻想。


三、《她》來了

雖然 Sam Altman 沒在發(fā)布會上出現(xiàn),但他在發(fā)布會后就發(fā)布了一篇博客,并且在 X 上發(fā)了一個詞:her。

這顯然在暗指那部同名的經(jīng)典科幻電影《她》,這也是我觀看這場發(fā)布會的演示時,腦子里最先聯(lián)想的畫面。

電影《她》里的薩曼莎,不只是產(chǎn)品,甚至比人類更懂人類,也更像人類自己 ,你真的能在和她的交流中逐漸忘記,她原來是一個 AI。

這意味著人機(jī)交互模式可能迎來圖像界面后真正的革命性更新,如同 Sam Altman 在博客中表示:

新的語音(和視頻)模式是我使用過的最好的計算機(jī)界面。它感覺像電影中的人工智能;而且我仍然有點(diǎn)驚訝它是真實(shí)的。達(dá)到人類級別的響應(yīng)時間和表現(xiàn)力原來是一個很大的改變。

之前的 ChatGPT 讓我們看到自然用戶界面初露端倪:簡單性高于一切——復(fù)雜性是自然用戶界面的敵人。每個交互都應(yīng)該是不言自明的,不需要說明手冊。

但今天發(fā)布的 GPT-4o 則完全不同,它的幾乎無延遲的相應(yīng)、聰明、有趣、且實(shí)用,我們和計算機(jī)的交互從未真正體驗過這樣的自然順暢。

這里面還藏著巨大可能性,當(dāng)支持更多的個性化功能和與不同終端設(shè)備的協(xié)同后,意味著我們能夠利用手機(jī)、電腦、智能眼鏡等計算終端做到很多以往無法實(shí)現(xiàn)的事情。

AI 硬件不會再試積累,當(dāng)下更令人期待的,就是如果下個月蘋果 WWDC 真的官宣與 OpenAI 達(dá)成合作,那么 iPhone 的體驗提升或許將比近幾年任何一次發(fā)布會都大。

英偉達(dá)高級科學(xué)家 Jim Fan認(rèn)為,號稱史上最大更新 iOS 18 ,和 OpenAI 的合作可能會有三個層面:

1、放棄 Siri,OpenAI 為 iOS 提煉出一個純粹在設(shè)備上運(yùn)行的小型 GPT-4o,可選擇付費(fèi)升級使用云服務(wù)。

2、原生功能將攝像頭或屏幕流輸入到模型中。芯片級支持神經(jīng)音視頻編解碼器。

3、與 iOS 系統(tǒng)級操作 API 和智能家居 API 集成。沒有人使用 Siri 快捷方式,但是是時候復(fù)興了。這可能會成為一開始就擁有十億用戶的 AI 代理產(chǎn)品。這對智能手機(jī)來說,就像特斯拉那樣的全尺寸數(shù)據(jù)飛輪。

說到這里,也不得不心疼明天要舉辦發(fā)布會的 Google 一秒。


作者公眾號:APPSO(ID:appsolution)
1715653357450415.png

本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
轉(zhuǎn)載請在文章開頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
本文系數(shù)英原創(chuàng),未經(jīng)允許不得轉(zhuǎn)載。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    全部評論(1條)

    主站蜘蛛池模板: 吉林市| 宣武区| 鄂州市| 大足县| 安国市| 南华县| 平乡县| 广平县| 湟中县| 辉县市| 云南省| 昌宁县| 台湾省| 遵化市| 临西县| 东辽县| 盘山县| 五大连池市| 甘洛县| 徐闻县| 泗洪县| 鹿泉市| 荥经县| 响水县| 宁阳县| 泰来县| 灵川县| 乐东| 嵊泗县| 岑溪市| 两当县| 文成县| 安阳市| 贡觉县| 玉林市| 乌拉特中旗| 辽源市| 玛多县| 三门峡市| 望江县| 乌鲁木齐县|