全球速讀:AI模型“大即好”的觀點已經走不通了
如果 AI 想要發展更好,將不得不用更少的資源實現更強大的功能。
談起“大型語言模型”(LLMs),如 OpenAI 的 GPT (Generative Pre-trained Transformer)——驅動美國流行聊天機器人的核心力量——名字已經說明了php一切。這種現代 AI 系統由龐大的人工神經網絡驅動,這些網絡采用一種寬泛的方式模擬著生物大腦的工作機制。2020年發布的 GPT-3就是一款大語言模型 “巨獸”,擁有1750億個“參數”,這是神經元之間模擬連接的名稱。GPT-3通過在幾周內使用數千個擅長 AI 計算的 GPU 處理數萬億字的文本進行訓練,耗資預計超過460萬美元。
然而,現代 AI 研究的共識是:“大即好,越大越好”。因此,模型的規模增長速度一直處于飛速發展之中。GPT-4于三月份發布,據估計其擁有大約1萬億個參數——比前一代增加了近六倍。OpenAI 的 CEO Sam Altman 估計其開發成本超過1億美元。而整個行業也呈現出同樣的趨勢。研究公司 Epoch AI 在2022年預測,訓練頂級模型所需的計算能力每六到十個月就會翻倍(見下圖)。
(資料圖)
AI 模型參數規模不斷增大會帶來一些問題。如果 Epoch AI 的預測準確,訓練成本每十個月翻一倍,那么到2026年,訓練成本可python能超過十億美元——這還只是在假設數據不會先被耗盡的前提下。2022年10月的一項分析預測,用于訓練的高質量文本可能在相同的時間內用盡。此外,即使模型訓練完成,運行大型模型的實際成本也可能十分昂貴。
今年早些時候,摩根士丹利銀行估算,如果一半的 Google 搜索由目前的 GPT 類型程序處理,這可能會讓公司每年多支出60億美元。隨著模型規模的增長,這個數字可能會繼續上升。
因此,許多人認為 AI 模型“大即好”的觀點已經走python不通了。如果要繼續改善 AI 模型(更別提實現那些更宏大的 AI夢想了),開發者們需要找出如何在資源有限的情況下獲得更好的性能。就像 Altman 先生在今年四月回顧大型 AI 的歷史時所說:“我認為我們已經到了一個時代的盡頭。”
量化緊縮
反之,研究人員開始關注如何提高模型的效率,而不只是追求規模。一種方式是通過降低參數數量但使用更多數據來訓練模型以達到權衡。2022年,Google 的 DeepMind 部門在一個包含1.4萬億字的語料庫上訓練了一個擁有700億參數的 LLM,名為 Chinchilla。盡管參數少于GPT-3的1750億,訓練數據只有3000億字,但這個模型的表現超過了GPT-3。為一個較小的LLM提供更多的數據意味著它需要更長的時間來訓練,但結果是一個更小、更快、更便宜的模型。
另一種選擇是讓降低浮點數的精度。減少模型中每個數字的精確位數,即四舍五入,可以大幅減少硬件需求。奧地利科學技術研究所的研究人員在三月份證明,四舍五入可以大幅度減少類似 GPT-3模型的內存消耗,使得模型可以在一臺高端 GPU 上運行,而不是五臺,且“精度下降可以忽略不計”。
一些用戶會對通用編程客棧 LLM 進行微調,專注于生成法律文件或檢測假新聞等特定任務。雖然這不像首次訓練 LLM 那樣復雜,但仍可能代價昂貴且耗時長。微調 Meta(Facebook 的母公司)開源的擁有650億參數的 LLaMA 模型,需要多個 GPU,花費的時間從幾個小時到幾天不等。
華盛頓大學的研究人員發明了一種更高效的方法,可以在一天內在單個 GPU 上從 LLaMA 創建一個新模型 Guanaco,性能損失微乎其微。其中一部分技巧就是采用了類似奧地利研究人員的四舍五入技術。但他們還使用了一種叫做 “低秩自適應(Low-Rank Adaptation ,LoRA)” 的技術,該技術涉及固定模型的現有參數,然后在其中添加一組新的、較小的參數。微調是通過僅改變這些新變量來完成的。這使得事情簡化到即使是計算能力相對較弱的計算機,如智能手機,也可以勝任這項任務。如果能讓 LLM 在用戶設備上運行,而非目前的巨型數據中心,那可能帶來更大的個性化和更好的隱私保護。
同時,一個 Google 的團隊為那些可以使用較小模型的人提供了新的選擇。這種方法專注于從大型通用模型中挖掘特定的知識,并將其轉化為一個更小且專業化的模型。大模型充當教師,小模型充當學生。研究人員讓教師回答問題,并展示其推理過程。教師模型(大模型)的答案和推理都用于訓練學生模型(小模型)。該團隊成功地訓練了一個只有77億參數的學生模型(小模型),在特定的推理任務上超過了其有5400億參數的教師模型(大模型)。
另一種方法是改變模型構建方式,而不是關注模型在做什么。大部分 AI 模型都是采用 python 語言開發的。它設計得易于使用,讓編程人員無需考慮程序在運行時如何操作芯片。屏蔽這些細節的代價是代碼運行得更慢。更多地關注這些實現細節可以帶來巨大的收益。正如開源 AI 公司 Hugging Face 的首席科學官Thomas Wolf 所說,這是“目前人工智能領域研究的一個重要方面”。
優化代碼
例如,在2022年,斯坦福大學的研究人員發布了一種改進版的“注意力算法”,該算法允許大語言模型(LLM)學習詞語和概念之間的聯系。這個想法是修改代碼以考慮正在運行它的芯片上發生的情況,特別是追蹤何時需要檢索或儲存特定信息。他們的算法成功將 GPT-2(一種早期的大型語言模型)的訓練速度提高了三倍,還增強了它處理更長查詢的能力。
更簡潔的代碼也可以通過更好的工具來實現。今年早些時候,Meta 發布了 AI 編程框架 PyTorch 的新版本。通過讓程序員更多地思考如何在實際芯片上組織計算,它可以通過添加一行代碼來使模型的訓練速度提高一倍。由Apple 和 Google 的前工程師創建的初創公司 Modular,上個月發布了一種名為 Mojo 的新的專注于 AI 的編程語言,它基于 Python。Mojo 讓程序員可以控制過去被屏蔽的所有細節,這在某些情況下使用 Mojo 編寫的代碼運行速度比用 Python 編寫的等價代碼塊數千倍。
最后一個選擇是改進運行代碼的芯片。雖然最初是用來處理現代視頻游戲中的復雜圖形, GPU 意外地在運行AI模型上表現良好。Meta 的一位硬件研究員表示,對于 "推理"(即,模型訓練完成后的實際運行),GPU 的設計并不完美。因此,一些公司正在設計自己的更專業的硬件。Google 已經在其內部的 “TPU” 芯片上運行了大部分 AI 項目。Meta 及其 MTIA 芯片,以及 Amazon 及其 Inferentia 芯片,都在做類似嘗試。
有時候只需要一些簡單的改變(比如對數字四舍五入或切換編程語言)就可以獲得巨大的性能提升,這可能讓人感到驚訝。但這反映了大語言模型(LLM)的發展速度之快。多年來,大語言模型主要是作為研究項目,關注點主要是讓它們能夠正常運行和產生有效結果,而不是過于關注其設計的優雅性。只是最近,它們才變成了商業化、面向大眾市場的產品。大多數專家都認為,還有很大的改進空間。正如斯坦福大學的計算機科學家 Chris Manning 所說:“沒有任何理由相信目前使用的神經架構(指代當前的神經網絡結構)最優的,不排除未來會出現更先進的架構”。
標簽:
相關熱詞搜索: