A mesterséges intelligencián alapuló rendszerek nagyon rövid idő alatt jelentős mennyiségű adatot dolgoznak fel. Ez működésük egyik fontos jellemzője, hiszen ahhoz, hogy pontos algoritmusokat szállítsanak, nagy adatkészletre van szükségük. A hatalmas adatmennyiség azonban komoly követelményeket támaszt a tárolással szemben. A következőkben ezeket a követelményeket foglaljuk össze.
8 dolog, amit egy modern adattárolónak tudnia kell
1. Skálázhatóság
A nagy mennyiségű adat rövid idő alatti eltárolása komoly kihívást jelent a rendszerek számára.
- A Microsoft például 5 évnyi folyamatos beszéd-adatot igényel ahhoz, hogy a számítógépeket beszélni tanítsa.
- Ahhoz, hogy a Tesla autói vezető nélkül működhessenek, több, mint 2 milliárd kilométernyi vezetési adatra van szükségük.
Ezeknek az adatkészleteknek a tárolásához egy olyan tárolórendszerre van szükség, ami korlátok nélkül skálázható.
2. Költséghatékonyság
A nagy skálázhatóság általában magasabb árral jár együtt. Fontos tehát megtalálni azt a területet, ahol mindkét feltétel teljesül. Ha valaki nem rendelkezik a tároláshoz szükséges büdzsével, le kell hogy mondjon a nagy AI adatkészleteket igénylő tevékenységekről.
3. Szoftver által meghatározott tárolási opciók
Az óriási adatkészletek néha hiperskálázhatók, ezért a feladatnak megfelelő szerver-architektúrával felépített adatközpontokat követelnek meg. Más összeállítások éppen az előre konfigurált eszközök egyszerűségén alapulnak.
4. Hibrid architektúra
A különböző adattípusok eltérő teljesítményt igényelnek, amihez a hardvernek is alkalmazkodnia kell. A homogén rendszerek itt nem életképesek. A rendszernek megfelelő tárolási technológiákat kell kínálnia, hogy azok egyidejűleg megfeleljenek a skálázhatóság és a teljesítmény követelményeinek.
5. Parallel architektúra
A korlátok nélküli növekedő adatkészletek számára a parallel-hozzáférésű architektúra alapvető fontosságúak. Egyébként a rendszerben „fojtó pontok” alakulnak ki, melyek korlátozzák a növekedést.
6. Az adatok időtállósága
1:1 arányú biztonsági másolat készítése egy sok petabyte méretű adatkészletről nehezen megvalósítható feladat, mivel az sok időbe, pénzbe kerülne. Védelemre persze szükség van, így fontos, hogy a tároló képes legyen önmagát megvédeni – emellett rendelkezzen olyan backup optimalizációs funkciókkal, melyekkel a szükséges tárhely csökkenthető.
7. Adatlokalitás
Bár egyes mesterséges intelligencia (AI) és mélytanulással (DL) kapcsolatos adatok a felhőben helyezkednek el, nagyobb részük az adatközpontokban marad. Ennek három oka a több a teljesítmény, a költség, és a szabályozásnak való megfelelés. A versenyképesség érdekében a helyszíni tárolásnak legalább ugyanolyan kedvező költségeket és skálázhatóságot kell nyújtania, mint a felhős megoldásnak.
8. Felhős integráció
Függetlenül attól, hogy az adat hol lakik, a nyilvános felhővel való integráció két okból is fontos.
Először is, sok AI / DL innováció a felhőben bukkan fel. A felhővel integráltan működő helyszíni tárolás nyújtja a legnagyobb rugalmasságot, mivel kihasználja a felhős eszközöket. Másodszor, az adatok előállítása és elemzése során valószínűleg folyamatos adatáramlást látunk a felhőbe és onnan vissza. A helyszíni tárolásnak egyszerűsítenie, nem pedig korlátoznia kell ezt az áramlást.
A Dell megoldást kínál valamennyi adattárolási területen
A DataFirst megközelítést alkalmazó Dell EMC PowerScale adattároló mindazt nyújtja, amit a nagy teljesítményű machine learning és deep learning rendszerek megkövetelnek.
Az alacsony késleltetésnek, a nagy áteresztésnek, a masszív párhuzamos I/O-nak köszönhetően a Dell EMC PowerScale ideális tárolási komponense az AI rendszereknek.