專屬客服號(hào)
微信訂閱號(hào)
全面提升數(shù)據(jù)價(jià)值
賦能業(yè)務(wù)提質(zhì)增效
伴隨國(guó)內(nèi)“百模大戰(zhàn)”愈演愈烈,AI產(chǎn)業(yè)化前夜似乎已在不知不覺(jué)中來(lái)臨。海量數(shù)據(jù)爆發(fā),計(jì)算量指數(shù)級(jí)增長(zhǎng),傳統(tǒng)基礎(chǔ)設(shè)施架構(gòu)下的算力早已無(wú)法滿足模型時(shí)代的算力需求。據(jù)OpenAI測(cè)算,全球AI訓(xùn)練所用的計(jì)算量呈現(xiàn)指數(shù)級(jí)增長(zhǎng),平均每3.43個(gè)月便會(huì)增長(zhǎng)一倍,目前計(jì)算量已擴(kuò)大30萬(wàn)倍,遠(yuǎn)超算力增長(zhǎng)速度。國(guó)家信息中心聯(lián)合浪潮信息發(fā)布的《智能計(jì)算中心創(chuàng)新發(fā)展指南》顯示,當(dāng)前我國(guó)超過(guò)30個(gè)城市正在建設(shè)或提出建設(shè)智算中心,但仍然無(wú)法滿足相關(guān)的需求。智能算力的供需矛盾日益凸顯,由AI大模型引發(fā)系列連鎖反應(yīng)正在讓科技圈從“狂熱”走向“冷靜”。
算力之困已經(jīng)爆發(fā)了?
打造一個(gè)大模型究竟需要多少算力?公開(kāi)數(shù)據(jù)顯示,ChatGPT初始所需的算力就是1萬(wàn)塊英偉達(dá)A100(一種AI芯片),價(jià)格大約是1億美元。后續(xù)的調(diào)優(yōu)訓(xùn)練每天算力消耗大概是3640PFLOPS,需要7至8個(gè)算力達(dá)到500PFLOPS的數(shù)據(jù)中心支持,建設(shè)成本約為三四十億元。
“大模型的用戶量、訪問(wèn)速度、網(wǎng)絡(luò)帶寬、訓(xùn)練模式等都會(huì)影響到其算力需求的大小。”中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員張?jiān)迫诮邮堋吨袊?guó)電子報(bào)》記者采訪時(shí)表示,“要訓(xùn)練一個(gè)中國(guó)版的ChatGPT,首先要部署價(jià)值至少1億美元的硬件設(shè)施,還要準(zhǔn)備大筆訓(xùn)練調(diào)優(yōu)的費(fèi)用。”
騰訊云異構(gòu)計(jì)算產(chǎn)品負(fù)責(zé)人宋丹丹對(duì)《中國(guó)電子報(bào)》記者介紹稱,大模型對(duì)算力的要求分為訓(xùn)練和推理兩個(gè)階段。訓(xùn)練需要短時(shí)間內(nèi)的并行算力,而且要在短時(shí)間內(nèi)能夠做到交付,對(duì)算力的量、算力的穩(wěn)定性和性能、彈性擴(kuò)縮容能力有高要求。進(jìn)入推理階段,對(duì)于單位算力的性價(jià)比、成本、算力所處的位置、端應(yīng)用服務(wù)是否能夠快速連接等要求比較高。這就要求企業(yè)具備海量的可擴(kuò)縮容的高性能算力,并且這些算力能夠穩(wěn)定交付。
騰訊云自研的星星海服務(wù)器在云上支持AI企業(yè)的大模型訓(xùn)練需求
近日,廣發(fā)證券分析師對(duì)國(guó)內(nèi)AI大模型的訓(xùn)練和推理階段算力需求,以及相應(yīng)的成本進(jìn)行了測(cè)算。結(jié)果顯示,在暫不考慮軟件層面算法優(yōu)化帶來(lái)的模型消耗算力成本下降的前提下,國(guó)內(nèi)大模型在訓(xùn)練與推理階段或?qū)a(chǎn)生相當(dāng)于1.1萬(wàn)臺(tái)或3.8萬(wàn)臺(tái)(樂(lè)觀假設(shè)下)高端AI服務(wù)器的算力需求,以單片A100售價(jià)10萬(wàn)元、AI加速卡價(jià)值量占服務(wù)器整機(jī)約70%計(jì)算,則對(duì)應(yīng)約126億元或434億元增量AI服務(wù)器市場(chǎng)規(guī)模。
“實(shí)際上,算力之困已經(jīng)爆發(fā)了。”張?jiān)迫寡裕瑖?guó)內(nèi)目前大模型存在技術(shù)水平不高、同質(zhì)化等問(wèn)題,主要是算力層面和國(guó)外差距比較大,沒(méi)有算力基礎(chǔ),后面算法等都無(wú)法進(jìn)一步發(fā)展。這些大模型企業(yè)不是不愿意盡快更新迭代,而是算力不夠用,只能精打細(xì)算。
浪潮云首席技術(shù)官孫思清在接受《中國(guó)電子報(bào)》記者采訪時(shí)表示,從通用算力到智能算力,算力需求的變化其實(shí)與場(chǎng)景需求密切相關(guān)。伴隨模型參數(shù)規(guī)模越來(lái)越大,智能化程度越來(lái)越高,對(duì)并行計(jì)算能力以及包括存儲(chǔ)、網(wǎng)絡(luò)等在內(nèi)的底層基礎(chǔ)硬件能力,以及擴(kuò)展性、靈活性的要求也越高。此外,算力還要與大模型本身進(jìn)行更好的適配。在這樣的形勢(shì)下,智能算力需求激增。
記者了解到,近幾個(gè)月騰訊云智算商機(jī)相比去年同期增長(zhǎng)10倍以上。另?yè)?jù)一些服務(wù)器廠商透露,目前智算服務(wù)器出貨量超過(guò)通用CPU了。不過(guò),孫思清表示,未來(lái),隨著軟硬件升級(jí)和大模型核心技術(shù)的提升,同等規(guī)模的大模型所需算力也許會(huì)逐漸減少。
提升算力利用率要做“加法”
隨著AI大模型同雨后春筍一般層出不窮,人工智能應(yīng)用加速向各行各業(yè)滲透,新一輪算力革命加速啟動(dòng)。工信部最新數(shù)據(jù)顯示,中國(guó)算力總規(guī)模居全球第二,保持30%左右的年增長(zhǎng)率。新增算力設(shè)施中,智能算力占比已超過(guò)50%。在多個(gè)權(quán)威市場(chǎng)分析機(jī)構(gòu)的排名中,美國(guó)和中國(guó)都屬于算力的領(lǐng)跑者,主要差距在于計(jì)算效率和應(yīng)用水平。
“我國(guó)算力的利用率只有30%。”中國(guó)工程院院士鄔賀銓坦言。他認(rèn)為,算力利用率低一方面是因?yàn)殡m然算力有了,但是存儲(chǔ)沒(méi)有跟上,算力不能得到很好發(fā)揮,建議進(jìn)行數(shù)據(jù)優(yōu)化;另一方面是因?yàn)樗懔κ褂瞄T檻相對(duì)較高,只有極少數(shù)企業(yè)能做,建議降低門檻,讓算力使用更簡(jiǎn)單便捷。
提升算力供給能力是重中之重。孫思清表示,硬件層面,CPU、GPU等核心硬件的性能越來(lái)越高,將有效提升算力供給能力;軟件層面,模型算法和計(jì)算框架的優(yōu)化,也能緩解一定的算力壓力,減少對(duì)算力的依賴。
浪潮云基于運(yùn)維安全大模型建立新型OpsCenter服務(wù)交付體
“不同于超算需要的64位雙精度浮點(diǎn)運(yùn)算,智能算力多為32及以下的低精度運(yùn)算,它是分階段的,可以通過(guò)硬件加速來(lái)實(shí)現(xiàn)算力提升。”張?jiān)迫硎尽1热纾S著數(shù)據(jù)量的增長(zhǎng)和計(jì)算任務(wù)的復(fù)雜化,CPU、GPU需要具備更高的計(jì)算和處理能力,存儲(chǔ)器需要具備更大的容量和更快的讀寫速度。同時(shí),算力提升還需要更大的網(wǎng)絡(luò)帶寬、速度更快的網(wǎng)絡(luò)設(shè)備,從而更快地完成大規(guī)模數(shù)據(jù)傳輸和處理。
“智算即異構(gòu)計(jì)算。相對(duì)于只用CPU的通用計(jì)算,在服務(wù)器里CPU+GPU就是異構(gòu)計(jì)算。背后的邏輯,是讓最適合的專用硬件去做最適合的事。”宋丹丹表示,“對(duì)于整個(gè)算力的優(yōu)化是分層級(jí)解決的。除了計(jì)算資源自身的架構(gòu)和性能提升,也就是卡的迭代外,我們會(huì)在虛擬化層,通過(guò)GPU虛擬化或者計(jì)算池化等等一系列的技術(shù),會(huì)把算力做更多的多機(jī)多卡互聯(lián),然后把它以云服務(wù)、容器、Serverless或者實(shí)例的模式更靈活地對(duì)外使用。在平臺(tái)層,通過(guò)任務(wù)流的模式,以深入上層服務(wù)的方式進(jìn)一步優(yōu)化計(jì)算效率。”
優(yōu)化算力調(diào)度要做“減法”
如果能讓復(fù)雜的算力資源匹配與調(diào)度過(guò)程變得簡(jiǎn)單化,無(wú)疑會(huì)實(shí)現(xiàn)事半功倍的效果。有觀點(diǎn)認(rèn)為,公有云可以更大程度的調(diào)度多元算力,讓算力資源的調(diào)配變得更快速、更簡(jiǎn)單、更便捷。
日前,復(fù)旦大學(xué)率先選擇將智能計(jì)算平臺(tái)CFFF部署在公有云上。據(jù)復(fù)旦大學(xué)浩清教授、人工智能創(chuàng)新與產(chǎn)業(yè)研究院院長(zhǎng)漆遠(yuǎn)透露,有賴于公共云模式,跑在CFFF平臺(tái)上的項(xiàng)目可享受到超千卡并行的智能算力,千卡并行的有效算力達(dá)到行業(yè)領(lǐng)先的92%,可拓展性達(dá)到萬(wàn)卡,萬(wàn)卡并行有效算力也可達(dá)90%。
中國(guó)工程院院士、阿里云創(chuàng)始人王堅(jiān)指出,從計(jì)算到智算,公共云提供的是像電一樣的計(jì)算服務(wù),把算力基礎(chǔ)設(shè)施部署在公共云上將加速推動(dòng)產(chǎn)業(yè)步入開(kāi)放發(fā)展的新階段。在他看來(lái),AI大模型的訓(xùn)練和運(yùn)營(yíng)需要集約化、在線的算力基礎(chǔ)設(shè)施。集約化的算力基礎(chǔ)設(shè)施是基礎(chǔ)支撐,要求更高的計(jì)算并行性、更高的計(jì)算效率、更低的計(jì)算成本,并且要求適配各類專用計(jì)算芯片。在線化對(duì)算力提出更高要求,從模型訓(xùn)練和應(yīng)用看,需要形成“用戶膨脹、使用反饋、模型進(jìn)化”的飛輪效應(yīng),海量用戶在線使用和大規(guī)模API調(diào)用集成等都需要在線化的算力資源。這種集約化、在線化的需求,與公共云集中建設(shè)運(yùn)維、彈性伸縮、按需服務(wù)的商業(yè)模式不謀而合。
“云是大模型最好的承載方式,也是訓(xùn)練和應(yīng)用大模型的最佳平臺(tái)。”宋丹丹指出,一方面,云上具備領(lǐng)先的軟硬件架構(gòu)、面向未來(lái)的技術(shù)架構(gòu)和研發(fā)體系。對(duì)AI企業(yè)而言,從本地搭建服務(wù)器架構(gòu)可能不是一個(gè)合適的選擇。借助云上豐富的能力和產(chǎn)品,如云上的算力、網(wǎng)絡(luò)、向量數(shù)據(jù)庫(kù),企業(yè)可以聚焦于大模型研發(fā)本身,業(yè)務(wù)開(kāi)發(fā)的敏捷度也能進(jìn)一步提升。另一方面,打造大模型需要的算力規(guī)模,對(duì)企業(yè)現(xiàn)金流的挑戰(zhàn)很大。云上的算力形式,可以根據(jù)用戶需求靈活分配計(jì)算資源,同時(shí)也提升了大模型的訓(xùn)練和推理效率。
孫思清認(rèn)為,公有云集約化的特點(diǎn)有助于算力共享模式的實(shí)現(xiàn)。大模型的訓(xùn)練并不是一直滿負(fù)荷進(jìn)行的,空閑的時(shí)候,可以利用云的模式將算力池化,與其他有算力需求的企業(yè)共享。但同時(shí)他也指出,現(xiàn)實(shí)操作起來(lái)存在困難,數(shù)據(jù)歸屬、隱私保護(hù)、合規(guī)性等問(wèn)題都需要考慮。
他表示,算力可以當(dāng)作“水電”來(lái)用,但數(shù)據(jù)不可以。“水電”能動(dòng),但“水廠”“電廠”不能動(dòng),分布式算力并不能適用所有場(chǎng)景。此外,算力互聯(lián)還需建立標(biāo)準(zhǔn)化的運(yùn)營(yíng)體系,算力如何計(jì)量、如何付費(fèi)、如何結(jié)算都需要探討。
張?jiān)迫硎荆唧w問(wèn)題要具體分析,不能一概而論。幾十億參數(shù)規(guī)模的大模型放在云上可以,幾百億、上千億規(guī)模的大模型肯定不行。中等規(guī)模以下的智算中心可以部署在公有云上,但大規(guī)模的智算中心如果部署在公有云上,網(wǎng)絡(luò)延遲會(huì)很大,難以支撐高端計(jì)算。另外,運(yùn)營(yíng)商也會(huì)考慮到用云成本以及上云后是否會(huì)被云廠商“鎖定”等問(wèn)題。
他認(rèn)為,優(yōu)化算力調(diào)度不能光靠算力網(wǎng)絡(luò)的互聯(lián)互通來(lái)解決問(wèn)題。首先要盡快推進(jìn)接口協(xié)議,定義標(biāo)準(zhǔn)、建立標(biāo)準(zhǔn);其次要優(yōu)化算力調(diào)度管理軟件,同時(shí)建設(shè)安全體系;此外,要選擇成熟芯片和生態(tài)完善的技術(shù)路線,這樣智算中心用起來(lái)效率才能達(dá)到比較高的水平。建議組建生態(tài)聯(lián)合體,共同打造1~2個(gè)大規(guī)模的智算中心,協(xié)同訓(xùn)練少數(shù)幾個(gè)通用大模型,共享算力資源。”
“未來(lái),大模型將走向相對(duì)開(kāi)放的生態(tài),開(kāi)源是一個(gè)重要趨勢(shì)。”孫思清說(shuō)道。他建議,政府層面應(yīng)做好算力資源的統(tǒng)籌,重點(diǎn)聚焦合規(guī)性管控和集約化建設(shè),把握好節(jié)奏,避免“一窩蜂”導(dǎo)致大量算力的浪費(fèi)。企業(yè)層面應(yīng)持續(xù)加打技術(shù)創(chuàng)新與場(chǎng)景實(shí)踐力度,分工合作,協(xié)同發(fā)展。
作者:宋婧 來(lái)源:中國(guó)電子報(bào)、電子信息產(chǎn)業(yè)網(wǎng)
本文為本網(wǎng)轉(zhuǎn)載,出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,如涉及侵權(quán),請(qǐng)權(quán)利人與本站聯(lián)系,本站經(jīng)核實(shí)后予以修改或刪除。
請(qǐng)完善以下信息,我們的顧問(wèn)會(huì)在1個(gè)工作日內(nèi)與您聯(lián)系,為您安排產(chǎn)品定制服務(wù)
評(píng)論