AIGC浪潮的襲來,人們真正意識到AI給生產(chǎn)力帶來的巨大飛躍,AI大模型成為行業(yè)用戶重點關(guān)注的對象。
但ChatGPT的成功,除了整合Transformer等多種人工智能技術(shù)之外,基礎(chǔ)設(shè)施的高效支撐也功不可沒:如何高效存儲與處理海量多元數(shù)據(jù),如何實現(xiàn)數(shù)據(jù)全生命周期的高效管理,如何為AI大模型選取合適的數(shù)據(jù)精度…
AI工作的負載不同于以往任何處理過的IT負載,具有全新的特點,它面對的是海量的非結(jié)構(gòu)化數(shù)據(jù)集,需要極高的隨機訪問性能,極低延時以及大規(guī)模存儲容量。
盡管AI時刻在推動存儲發(fā)展,但是想要進一步激活存儲潛力,仍需要解決AI場景下,存儲容易面臨的挑戰(zhàn)。
那么AI對存儲提出了怎樣的挑戰(zhàn)?
海量非結(jié)構(gòu)化數(shù)據(jù)存儲
AI業(yè)務(wù)中除了個別業(yè)務(wù)場景主要針對結(jié)構(gòu)化數(shù)據(jù)進行分析外(例如消費記錄、交易記錄等風險控制、趨勢預(yù)測場景),大多數(shù)場景需要處理的是非結(jié)構(gòu)化數(shù)據(jù),例如圖像識別、語音識別、自動駕駛等,這些場景通常使用的是深度學(xué)習的算法,必須依賴海量圖片、語音、視頻的輸入。
數(shù)據(jù)共享訪問,對數(shù)據(jù)訪問接口有一定要求
多個AI計算節(jié)點需要共享訪問數(shù)據(jù)。由于AI架構(gòu)需要使用到大規(guī)模的計算集群(GPU服務(wù)器),集群中的服務(wù)器訪問的數(shù)據(jù)來自一個統(tǒng)一的數(shù)據(jù)源,即一個共享的存儲空間。能實現(xiàn)共享訪問的通常有對象存儲和文件存儲。從AI應(yīng)用框架的角度看,文件接口是最友好的存儲訪問方式。
讀多寫少
AI數(shù)據(jù)特點是讀多寫少,要求高吞吐、低延時。深度學(xué)習過程訓(xùn)練中,需要對數(shù)據(jù)進行訓(xùn)練,以視覺識別為例,它需要加載數(shù)千萬張,甚至上億張圖片,針對圖片使用卷積神經(jīng)網(wǎng)絡(luò)、ResNet 等算法,生成識別的模型。
完成一輪訓(xùn)練后,為了減少圖片輸入順序的相關(guān)性對訓(xùn)練結(jié)果帶來的影響,會將文件次序打亂之后,重新加載,訓(xùn)練多個輪次(每個輪次稱之為epoch)。這就意味著每個 epoch 都需要根據(jù)新的順序加載數(shù)千萬、上億張圖片。圖片的讀取速度,即延時,對完成訓(xùn)練過程的時間長短會造成很大影響。
“工欲善其事,必先利其器”,要想發(fā)揮出AI人工智能技術(shù)的最大威力,解決存儲挑戰(zhàn)就成為企業(yè)構(gòu)建強有力的IT基礎(chǔ)設(shè)施的重要一環(huán)。
有哪些數(shù)據(jù)存儲解決方案,能滿足以上AI大規(guī)模應(yīng)用的需求呢?
百代OSS國產(chǎn)新一代可信存儲系統(tǒng)——AI浪潮下的國產(chǎn)自主數(shù)據(jù)存儲解決方案
百代公司的OSS可信存儲系統(tǒng)是一款具備完整知識產(chǎn)權(quán)且自主可控的國產(chǎn)數(shù)據(jù)存儲系統(tǒng),實現(xiàn)存儲+應(yīng)用的生態(tài)體系,包含存儲OS、移動端、客戶端及服務(wù)。
百代OSS所具備的幾大特性非常契合AI應(yīng)用的綜合需求。
首先百代OSS采用大型系統(tǒng)小型化搭建思路,支持分布式融合存儲,且具備高擴展能力、高可靠性等優(yōu)勢,可以完美應(yīng)對AI海量數(shù)據(jù)帶來的種種挑戰(zhàn)。
第一大特征多元融合
百代OSS分布式融合存儲第一個重要的特征就是多元融合,融入大數(shù)據(jù)協(xié)議,利用協(xié)議融合免去數(shù)據(jù)復(fù)制,讓數(shù)據(jù)處理的效率大幅提升,滿足AI應(yīng)用的處理需求。
第二大特征智能敏捷
雖然當前數(shù)據(jù)量爆炸性的增長,但是被用來分析的數(shù)據(jù)量依然很小。相關(guān)數(shù)據(jù)顯示,已獲取數(shù)據(jù)的平均留存率僅為2%,大量數(shù)據(jù)從未被分析和利用,百代OSS分布式融合存儲能夠?qū)崟r、智能地處理數(shù)據(jù),滿足各種AI應(yīng)用帶來的性能需求。
第三大特征數(shù)據(jù)安全
隨著AI應(yīng)用走向普及,各種安全問題也隨之暴露,作為數(shù)據(jù)最后一道防線,百代OSS數(shù)據(jù)保護能力強大,多個備份目的地 包括本地或異地 NAS、服務(wù)器、公有云、私有云等。
靈活排程,將備份任務(wù)計劃為每天或每周自動啟動;適用云存儲,選擇云存儲或云對象存儲作為備份目的地。
支持多系統(tǒng)平臺的備份尤其針對 Windows;不僅支持文件備份及一鍵恢復(fù),還支持操作系統(tǒng)的備份與恢復(fù),且可靈活對每個備份節(jié)點進行恢復(fù);私有云數(shù)據(jù)保護平臺通過連續(xù)主動的數(shù)據(jù)備份,將重要數(shù)據(jù)備份至存儲。
第四大特征高性能、高規(guī)格、高性價比
采用更好的硬件配置和工業(yè)設(shè)計,保證系統(tǒng)擁有良好抗震動、散熱和設(shè)備穩(wěn)定性。從小核 CPU 到大核到分布式,為用戶不同的業(yè)務(wù)提供多樣化的硬件選擇。
合理的價格,高端的用料和做工,保證產(chǎn)品的高性價比。
完善、易用的 虛擬化工具,既有輕量的容器化應(yīng)用,也有完整的虛擬機體系,極大節(jié)約了用戶的硬件成本。充分利用百代OSS完善的存儲和網(wǎng)絡(luò)體系,存儲系統(tǒng)虛擬化輕松實現(xiàn)容器、host、本地網(wǎng)絡(luò)里設(shè)備和外網(wǎng)對內(nèi)網(wǎng)的訪問和互聯(lián)互通。
寫在最后
或許很難預(yù)測未來的存儲技術(shù)究竟是怎么樣的,但是我們可以肯定的是,未來AI將持續(xù)驅(qū)動存儲發(fā)展。
我們希望百代OSS能夠提供關(guān)于AI業(yè)務(wù)對存儲實際需求的觀察和洞見,幫助客戶落地AI業(yè)務(wù),提供AI存儲產(chǎn)品的優(yōu)化方案。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: