带玩具逛街时突然按下按钮的故事,丰满的妺妺3伦理播放,新婚人妻不戴套国产精品,大肉大捧一进一出好爽视频百度

ECI@創新科技 | ChatGPT之后的四大LLM趨勢及其對AI開發者的影響(上)

轉載 收藏 評論
舉報 2023-08-22


ECI @HiTech開欄語


【ECI @科技創新】是由ECI@HiTech科技創新專委會每周從全球精選熱門科技創新主題,幫助科技創新者和初創團隊取得成功!讓我們共同攜手,尋找改變現有游戲規則的科技創新,激發人類的智慧和挑戰,實現科技的創新和夢想。這就是科技創新的終極魅力!也是ECI”將創新帶入生活Bring Innovation to Life” 的使命所在!


通常來說,科技的發展都會交替經歷平臺期和爆發期。平臺期的科技創新更多聚焦于識別并解決客戶現在的痛點,而爆發期的科技創新更多聚焦于引領并創造客戶未來的需求,劃時代的偉大科技創新往往誕生于此。


隨著ChatGPT等大型語言模型(LLM)的迅速發展和普及,AI開發者們正面臨著前所未有的挑戰和機遇。在這個充滿變革的時代,它們將對AI開發者產生深遠的影響。


截至2023年5月的流行LLM(按提及量)的評選。提及量、趨勢和下游任務的適用性是從包括商業媒體、一般新聞、AI博客和科學出版物的超過50萬份AI相關在線文檔的語料庫中計算得出的。任務適用性是使用語義嵌入和模型與NLP任務之間的潛在關聯強度計算得出的。

2022年10月,我們發表了一篇關于選擇特定NLP用例的文章,例如會話、翻譯和總結。自那以后,人工智能取得了巨大進步,在本文中,我們將回顧過去幾個月的一些趨勢以及對人工智能開發者的影響。具體而言,我們將討論自回歸模型的任務選擇,商業和開源LLM之間的不斷發展的權衡,以及LLM的集成和生產中故障的緩解。


生成式人工智能推動自回歸模型,而自編碼模型則在等待時機


對于許多人工智能公司來說,ChatGPT似乎已經成為了不可忽視的最終競爭對手。早些時候,當向客戶推銷我的分析創業公司時,我們經常面臨這樣的挑戰:“如果谷歌、臉書、阿里巴巴、Yandex等大公司也在拐角處做同樣的事情,你會怎么做?”如今,最常見的問題則是:“為什么你不能用ChatGPT來做這件事?”

簡單地說就是:ChatGPT在很多方面都很棒,但它還沒有涵蓋人工智能的全部范圍。目前的炒作明顯是圍繞著生成人工智能進行的——而不是分析人工智能,或者是相當新的合成人工智能分支。這對LLM來說意味著什么?LLM可以用三個目標進行預訓練,即自回歸、自編碼和序列到序列。通常,一個模型會針對其中一個目標進行預訓練,但也有例外,例如UniLM是針對所有三個目標進行預訓練的。過去幾個月推廣AI的有趣的生成性任務是對話、回答問題和生成內容。模型確實學習“生成”下一個標記、句子等的任務。這些任務最好由自回歸模型執行,包括GPT家族以及大多數最新的開源模型,如MPT-7B、OPT和Pythia。自動編碼模型更適合于信息提取、提煉和其他分析任務,它們處于后臺——但我們不要忘記,2018年LLM的最初突破發生在自動編碼模型BERT上。雖然這對現代人工智能來說可能是石器時代,但自動編碼模型對于許多B2B用例尤其重要,這些用例的重點是提取針對特定業務任務的簡潔見解。我們或許會目睹圍繞自動編碼和新一代LLM的另一波浪潮,這些新一代LLM擅長提取和合成信息以用于分析目的。

對于開發人員來說,這意味著流行的自回歸模型可以用于內容生成的所有方面——內容越長越好。然而,對于分析任務,您應該仔細評估您使用的自回歸LLM是否將輸出滿意的結果,否則應考慮使用自編碼模型或更傳統的NLP方法。



開源與營利性組織競爭,刺激了LLM效率和規模的創新

在過去的幾個月里,關于開源和商業人工智能之間的不穩定關系,已經有了很多爭論。從短期來看,開源社區無法在這場競賽中保持領先,因為要想獲勝,就必須在數據和/或計算上投入巨資。但從長遠來看,即使是像谷歌和OpenAI這樣的大公司也感受到了開源的威脅。在這種緊張局勢的推動下,兩個陣營都在繼續建設,由此產生的進步最終匯聚成富有成效的協同效應。開源社區非常注重節儉,即通過少花錢多辦事來提高LLM的效率。這不僅使LLM能夠為更廣泛的用戶群提供服務。我們認為,從環境的角度看,AI的民主化是更加可持續的。有三個主要維度,可以讓LLM更高效:

減少計算和內存:例如,與標準注意力算法相比,FlashAttention[4]允許減少GPU上的讀取和寫入次數,從而加快內存效率的微調。減少參數:在標準微調中,所有模型權重都需要重新訓練-但是,在大多數情況下,只有一小部分權重會影響模型在微調數據上的性能。參數高效的微調(PEFT)識別出這一子集并“凍結”其他權重,從而可以大大減少資源使用量,同時實現模型更穩定的性能。

減少參數:在標準微調中,所有模型權重都經過重新訓練——然而,在大多數情況下,只有一小部分權重會影響模型在微調數據上的性能。參數高效微調(PEFT)識別這個子集并“凍結”其他權重,這可以大大減少資源使用量,同時實現更穩定的模型性能。

減少訓練數據:數據質量的比例要高于數據量——訓練數據越集中和精心策劃,優化性能所需的數據就越少。最成功的方法之一就是指令微調。在訓練過程中,LLM提供了針對特定任務的指示,這些指示反映了推理過程中最終會如何提示。縮小訓練空間,使人們能夠從更少的數據中更快地學習。指令微調已經實踐了一段時間,例如在T0、FLAN、InstructGPT中,最終它也是ChatGPT的基礎方法。

另一個極端是,目前,“生成式人工智能控制掌握在少數能夠負擔大規模訓練和部署模型的資金的人手中”。商業產品的規模正在爆炸式增長——無論是模型規模、數據規模還是訓練時間——在輸出質量方面顯然超過了開源模型。這里沒有太多技術上的報告,相反,人們更關心治理和監管方面的問題。因此,“一個關鍵風險是,像GPT這樣強大的LLM只會朝著適合這些公司商業目標的方向發展。”

這兩個目標將如何實現,它們最終會實現嗎?一方面,任何可以減少資源消耗的技巧最終都可以通過投入更多資源來再次擴大規模。另一方面,LLM培訓遵循冪律,這意味著學習曲線隨著模型大小、數據集大小和培訓時間的增加而趨于平緩。你可以用人類教育的類比來思考這個問題——在人類的一生中,上學的時間增加了,但普通人的智力和博學程度是否也隨之提高了呢?

人工智能學習曲線趨平的積極影響在于,它緩解了人們對于其逐漸比人類更加“強大、聰明”的恐慌情緒。但請做好準備,法學碩士的世界充滿了驚喜,而其中最不可預測的之一便是爆發式的成長。所謂爆發式,指系統內發生定量的改變引發了行為上的定性的變化——即“量變帶來質變”,或簡單地說,“更多則意味著不同”。在他們訓練的某些時刻,法學碩士似乎獲得了不在最初訓練范圍之內的意料之外的新能力。目前,這些能力以新的語言技能的形式出現——例如,模型不僅僅是生成文本,而是突然學會了總結或翻譯。預測這種情況何時會發生以及新功能的性質和范圍是不可能的。因此,這種現象雖然對研究人員和未來學家來說很有吸引力,但遠沒有在商業環境中提供可觀價值。

隨著越來越多的方法被開發出來,提高了LLM微調和推理的效率,開源LLM的物理運行周圍的資源瓶頸似乎正在放松。由于商業LLM的使用成本高且配額有限,越來越多的公司考慮部署自己的LLM。然而,開發和維護成本仍然存在,并且大多數所述優化還需要擴展技術技能,以便對部署它們的模型和硬件進行操作。在開源和商業LLM之間進行選擇是一個戰略性的選擇,應該在仔細考察成本(包括開發、運營和使用成本)、可用性、靈活性和性能等一系列權衡后進行。一個常見的建議是,先從大型商業LLM開始,快速驗證你最終產品的商業價值,并在之后的開發中“轉換”為開源產品。但這種轉變可能很困難,甚至不現實,因為LLM擅長的任務大相徑庭。有可能開源模型不能滿足已經開發好的應用程序的需求,或者需要做大量修改來減輕相關的權衡。最后,對于在LLM上構建各種功能的公司而言,最先進的設置是多LLM架構,該架構允許利用不同LLM的優勢。


 LLM正在通過插件、代理和框架進行操作

LLM培訓的巨大挑戰已經基本解決,另一個工作分支的重點是將LLM集成到現實世界的產品中。除了提供現成的組件以增強開發人員的便利性之外,這些創新還有助于克服LLM的現有局限性,并為其增加推理和使用非語言數據等附加功能。其基本思想是,雖然LLM已經很擅長模仿人類的語言能力,但它們仍然需要被置于更廣泛的計算“認知”環境中,以進行更復雜的推理和執行。這種認知包括許多不同的能力,如推理、行動和觀察環境。基礎:目前,它是使用插件和代理進行近似的,這可以通過模塊化LLM框架來進行組合,例如LangChain、LlamaIndex和AutoGPT。

  • 插件提供對外部數據和功能的訪問

預訓練的LLM在使用數據方面存在重大實際限制:一方面,數據很快就過時了,例如GPT-4雖于2023年發布,但其數據截至于2021年。另一方面,大多數現實世界的應用需要對LLM中的知識進行一些定制。考慮構建一個應用程序,允許您創建個性化的營銷內容——您可以向LLM提供更多有關產品和特定用戶的信息,效果會更好。插件使這成為可能——你的程序可以從外部源獲取數據,比如客戶電子郵件和呼叫記錄,并將其插入提示,以便得到個性化、受控的輸出。

  • 言行一致

語言與行動緊密相連。我們的交際意圖往往圍繞行動,例如當我們要求某人做某事或拒絕以某種方式行動時。計算機程序也是如此,可以看作是執行特定操作的函數集合,當某些條件不滿足時會阻止它們等等。基于LLM的代理將這兩個世界結合在一起。這些智能體的指令并非用編程語言硬編碼,而是由LLM以推理鏈的形式自由生成,從而實現給定的目標。每個代理都有一組插件,可以根據推理鏈的要求進行調整——例如,他可以結合一個搜索引擎來檢索特定信息,并結合一個計算器來對這些信息進行后續計算。代理的概念在強化學習中已經存在了很長時間——然而,截至今日,強化學習仍然發生在相對封閉和安全的環境中。在LLM的廣泛常識的支持下,代理現在不僅可以冒險進入“大世界”,還可以利用無窮的組合潛力:每個代理都可以執行多個任務來實現目標,多個代理可以相互交互和協作。此外,智能體從與世界的交互中學習,并建立了一種比LLM的純語言記憶更接近人類多模態記憶的記憶。


框架為LLM集成提供了便捷的接口

在過去的幾個月里,我們看到了一系列基于LLM的新框架,如LangChain、AutoGPT和LlamaIndex。這些框架允許將插件和代理集成到復雜的代和操作鏈中,以實現包括多步推理和執行在內的復雜過程。開發人員現在可以專注于高效的快速工程和快速應用程序原型。目前,使用這些框架時仍有大量硬編碼,但它們可能會逐漸演變為一個更全面、更靈活的認知和行動建模系統,例如Yann LeCun提出的JEPA架構。

這些新組件和框架對構建者有什么影響?一方面,它們通過利用外部數據和機構來增強LLM的潛力。框架結合便利的商業LLM,已經將應用程序原型設計變成了幾天的事情。但LLM框架的興起也對LLM層產生了影響。現在它隱藏在一個額外的抽象之后,并且和任何抽象一樣,它需要更高的意識和紀律才能以可持續的方式得到利用。首先,在開發生產時,仍需要一個結構化的流程來評估和選擇特定的LLM來完成手頭的任務。

目前,許多公司假設OpenAI提供的最新模型是最合適的,因此跳過了這一過程。其次,LLM的選擇應與所需的智能體行為相協調:所需的行為越復雜和靈活,LLM的性能就越好,以確保它在廣泛的選擇空間中選擇正確的行動。最后,在操作中,MLOps管道應確保模型不會偏離不斷變化的數據分布和用戶偏好。

注:本文內容轉載于Towards Data Science文章:

Four LLM trends since ChatGPT and their implications for AI builders


https://towardsdatascience.com/four-llm-trends-since-chatgpt-and-their-implications-for-ai-builders-a140329fc0d2


目前,2023 ECI Awards(艾奇獎)正在征賽中,同時,我們在與參賽者的日常交流中,也收到了許多關于比賽的詢問。為了提升參賽者的體驗,ECI組委會將之前在征賽過程中,已經發布的關于各類常見問題和關鍵信息等內容,整理了一份參賽答疑必備手冊(請點擊鏈接進行了解:ECI Awards 2023丨精彩紛呈!全面掌握報獎流程與技巧!)我們鼓勵各位參賽者能夠認真準備作品,并祝愿大家在比賽中斬獲佳績!點擊下方鏈接進行報賽:


報賽鏈接


ECI Media官方媒體矩陣



聯系我們




本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本內容為作者獨立觀點,不代表數英立場。
本文禁止轉載,侵權必究。
本文系數英原創,未經允許不得轉載。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    發布者
    ECI Awards

    ECI Awards

    上海 黃浦區

    蒙自路169號智造局一期2號樓201-203室

    主站蜘蛛池模板: 香港 | 广东省| 谷城县| 汕尾市| 兴国县| 德昌县| 迭部县| 贵南县| 宜宾市| 东兴市| 阿巴嘎旗| 正定县| 临武县| 张家港市| 乌兰浩特市| 嘉祥县| 秭归县| 霞浦县| 长岛县| 太康县| 武功县| 黑山县| 无棣县| 盐亭县| 拉孜县| 尚义县| 德庆县| 寿光市| 兴城市| 清流县| 崇阳县| 桃园县| 兰西县| 宁化县| 茶陵县| 文成县| 沈阳市| 思南县| 湘阴县| 凌云县| 遂川县|