計(jì)算機(jī)行業(yè)專題報(bào)告:大模型推理算力知多少?
【資料圖】
Transformer生成為訪存密集型任務(wù),顯存及其帶寬限制算力利用。
Transformer作為自回歸模型,生成每一個(gè)新的token,都需要將所有輸入過的token反復(fù)計(jì)算,實(shí)際產(chǎn)業(yè)中,會將已經(jīng)計(jì)算過的量(K、V值)預(yù)存下來,避免重復(fù)計(jì)算,導(dǎo)致每生成一個(gè)token,都需要與顯存進(jìn)行數(shù)據(jù)交互(訪存),導(dǎo)致相比計(jì)算,Transformer模型在生成過程中對訪存的需求更高。目前全球最先進(jìn)AI芯片的計(jì)算速度“遠(yuǎn)快于”顯存帶寬。我們認(rèn)為,針對大模型推理這類訪存密集型任務(wù),對其算力需求的估計(jì),不能單單考慮其FLOPs的需求,更重要的瓶頸在于訪存。
目前的優(yōu)化手段主要是在算力成本與用戶體驗(yàn)之間做平衡。實(shí)踐中有大量優(yōu)化技術(shù)以克服GPU利用率低的問題,但存在一定取舍,總結(jié)而言,在不做模型精簡的情況下,GPU利用率與時(shí)延難以同時(shí)兼顧。而做參數(shù)量化、模型蒸餾等模型精簡看似可以做到“兼顧”,但卻舍棄了模型本身的效果。我們認(rèn)為,高昂的推理算力成本是阻礙以GPT為代表的LLM模型應(yīng)用大規(guī)模落地的重要原因之一,后續(xù)隨著算力性價(jià)比不斷提升,大模型應(yīng)用發(fā)展前景廣闊。
支撐GPT-3.5推理任務(wù)的A100數(shù)量或至少在5萬張左右。根據(jù)我們測算,若以GPT-3.5當(dāng)前的流量情況以及token生成速度,大約需要5萬張左右的A100才能承載推理。而如果再考慮到:1.當(dāng)前全球流量最高的網(wǎng)站月活水平;2.更高的精度以發(fā)揮更好的模型效果;3.GPT-4若想要解開限制等因素,推理算力的需求或?yàn)殚L期高景氣,同時(shí)當(dāng)前高昂的成本是阻礙應(yīng)用大規(guī)模落地的主要因素之一。
英偉達(dá)L40s開啟降本第一步,應(yīng)用有望加速落地。L40s在特定場景下性價(jià)比超越A100,供貨周期較短。我們認(rèn)為,L40s的發(fā)布首先將為英偉達(dá)及其算力產(chǎn)業(yè)鏈相關(guān)企業(yè)帶來更快的實(shí)際業(yè)績受益,而非難以交付的“高增長訂單”。同時(shí),非超大型模型端的降本有望加速應(yīng)用(或尤其圖像領(lǐng)域)大規(guī)模落地。在千億級甚至以上參數(shù)的超大模型訓(xùn)練與推理方面,A/H系列仍具有不可代替的能力,L40s的發(fā)布既填補(bǔ)了一部分腰部客戶需求,但以科技巨頭需求為主的A/H系列芯片又仍將需求旺盛。
風(fēng)險(xiǎn)提示:AI技術(shù)迭代不及預(yù)期的風(fēng)險(xiǎn),商業(yè)化落地不及預(yù)期的風(fēng)險(xiǎn),政策支持不及預(yù)期風(fēng)險(xiǎn),全球宏觀經(jīng)濟(jì)風(fēng)險(xiǎn)。
標(biāo)簽:
相關(guān)熱詞搜索: