【資料圖】
AIGC(AI-Generated Content 人工智能生成內(nèi)容)一經(jīng)推出火爆全網(wǎng),各種畫風(fēng)和產(chǎn)品形態(tài)頻頻出現(xiàn)且快速演進。以Stable Diffusion模型為例,一次完整的預(yù)訓(xùn)練大約需要在128張A100計算卡上運行25天,用戶付費上百萬,高額的研發(fā)費用是用戶的痛點之一。同時,AIGC產(chǎn)品演進快速,對性能和資源提出更高要求。
火山引擎云服務(wù),為此類問題提供了解決方案,推動AIGC產(chǎn)業(yè)的發(fā)展?;鹕揭娲蛟焱瑫r支持訓(xùn)練加速與推理加速的自主研發(fā)高性能算子庫,在全面提升AI計算性能的基礎(chǔ)上,不斷追求節(jié)省顯存、簡單適配,同時支持多款GPU卡,為客戶帶來更多低成本、便捷的部署方案。
在推理場景下,基于Stable Diffusion模型的端到端推理速度達到66.14 it/s,是PyTorch推理速度的3.47倍,運行時GPU顯存占用量降低60%。在客戶AI視頻創(chuàng)作的AIGC推理業(yè)務(wù)實踐中,火山引擎高性能算子庫搭載客戶的推理模型幫助其推理性能提升一倍,GPU資源使用量減少一半,可為客戶節(jié)省50%成本。
在訓(xùn)練場景下,使用該高性能算子庫可將上文Stable Diffusion模型在128張A100的訓(xùn)練時間從25天減少到15天,訓(xùn)練性能提升40%。同時,由于AIGC模型在訓(xùn)練時占用GPU顯存容量非常大,未經(jīng)優(yōu)化時的模型只能運行在最高端的A100 80GB GPU卡上?;鹕揭娓咝阅芩阕訋焱ㄟ^大量消減中間操作,將運行時GPU顯存占用量降低50%,使得大多數(shù)模型可從A100遷移到成本更低的V100或A30等GPU卡上運行,擺脫特定計算卡的限制,而且不需要做額外的模型轉(zhuǎn)換工作。
以此,以AIGC場景為代表,無論是迭代速度,還是單次的訓(xùn)練成本,都有了顯著的性能提升和成本節(jié)省。未來,火山引擎云服務(wù)將持續(xù)在機器學(xué)習(xí)、科學(xué)計算、圖形處理等領(lǐng)域深耕,不斷追求極致性能。(作者:宋齊鴻)