然而,隨著生成式 AI 模型使用量和復(fù)雜性的不斷增長(zhǎng),僅在云端進(jìn)行推理并“不劃算”,因?yàn)榘ㄓ布?chǎng)地、能耗、運(yùn)營(yíng)、額外帶寬和網(wǎng)絡(luò)傳輸在內(nèi)的數(shù)據(jù)中心基礎(chǔ)設(shè)施成本也將持續(xù)增加。而將一些處理從云端轉(zhuǎn)移到邊緣終端,則可以減輕云基礎(chǔ)設(shè)施的壓力并減少開支。這也是為何混合 AI 對(duì)生成式 AI 的規(guī)?;瘧?yīng)用至關(guān)重要。
例如,在成本方面,生成式 AI 搜索可以提供更加出色的用戶體驗(yàn)和搜索結(jié)果,但每一次搜索查詢 ,其成本是傳統(tǒng)搜索方法的10倍。所以,當(dāng)前面向大語言模型推理的云計(jì)算架構(gòu),將導(dǎo)致搜索引擎企業(yè)的運(yùn)營(yíng)成本升高。但混合AI能夠利用現(xiàn)已部署的、具備 AI 能力的數(shù)十億邊緣終端,以及未來還將具備更高處理能力的數(shù)十億終端,在一定程度上減輕運(yùn)營(yíng)成本壓力。
在能耗方面,邊緣終端能夠以很低的能耗運(yùn)行生成式AI模型,尤其是將處理和數(shù)據(jù)傳輸相結(jié)合時(shí)。而在時(shí)延方面,當(dāng)生成式 AI 查詢對(duì)于云的需求達(dá)到高峰期時(shí),會(huì)產(chǎn)生大量排隊(duì)等待和高時(shí)延,甚至可能出現(xiàn)拒絕服務(wù)的情況,向邊緣終端轉(zhuǎn)移計(jì)算負(fù)載可防止這一現(xiàn)象發(fā)生。
其實(shí),早在2022年6月,高通就推出了專門面向邊緣側(cè)AI的領(lǐng)先軟件棧產(chǎn)品——高通AI軟件棧,將其所有相關(guān)的 AI 軟件產(chǎn)品集成在統(tǒng)一的解決方案中。OEM 廠商和開發(fā)者可在其產(chǎn)品上創(chuàng)建、優(yōu)化和部署 AI 應(yīng)用,充分利用高通 AI 引擎性能,讓 AI 開發(fā)者創(chuàng)建一次 AI模型,即可跨高通所有硬件運(yùn)行 AI 負(fù)載。談及高通AI軟件棧的核心優(yōu)勢(shì),Ziad Asghar表示,基于高通AI軟件棧的模型一旦開發(fā)出來,就可以在不同地方使用,再與混合AI部署相結(jié)合,形成殺手級(jí)的組合,將幫助生成式AI在不同終端上進(jìn)行規(guī)?;瘮U(kuò)展,實(shí)現(xiàn)生成式AI的普及。