Az adatvezérelten működő szervezetek
A TC2 olyan AWS szolgáltatásokkal támogatja ügyfeleit, amelyekkel megvalósítható az ún. adat-alapú tervezés és üzletmenet, majd végső soron egy folyamatosan fejlődő, ún. data driven, azaz adatvezérelt szolgáltatási modell alakítható ki.
Az AWS olyan szolgáltatásokkal támogatja ügyfeleit, amelyekkel megvalósítható az ún. adat-alapú tervezés és üzletmenet, majd végső soron egy folyamatosan fejlődő, ún. data driven, azaz adatvezérelt szolgáltatási modell alakítható ki.
Ennek azonban számos feltétele van.
1.1 Az adatok begyűjtése
Ne csak azokat, amelyeket úgymond ismerünk, vagy amelyeknek a felhasználásáról van ismeretünk, hanem minden elképzelhető adatot, ami rendelkezésünkre állhat. Üzleti folyamatainkat úgy alakíthatjuk ki, hogy rengeteg adatot termeljünk. Mondhatjuk, hogy ez a „big data” lényege, és mivel a felhő a maga végtelenségével és hatékonyságával áll a rendelkezésünkre, ezek tárolása se horribilis költség.
1.2 Az adatok tárolása
Korábban leginkább strukturált adatokkal találkoztunk, melyeket ún. adatsilókban tároltunk. Manapság ezen adatok mellett rengeteg egyéb adatot kapunk a folyamatokból, melyek egyszerűen abban a formában kerülnek tárolásra, ahogyan azok az adatok előálltak. Az a rugalmas adattárolási környezet, mely minden adatot a keletkezése szerint tárol, az az ún. Data Lake (adattó). A Data Lake ereje abban az apparátusban, eszközkészletben van, mely lehetővé teszi ezen nagy mennyiségű, gyorsan változó, legkülönfélébb adatok gyors előkészítését, az adatok kombinálását, az elemzésre használatos eszközök, mint a gépi tanulás és a statisztikai analízis egyidejű használatát.
1.3 Az adatok rendelkezésre állása
Itt a rendelkezésre állás más értelmezést kap. Az a fontos, hogy az adatok agilis áramlását tegyük lehetővé. Az elemzők és az üzleti döntéshozók számára minden adat, vagy bármely adat bármikor, akár valós időben álljon rendelkezésre. Ez a szabadság lehetővé teszi, hogy a gyors üzleti döntéseket, a folyamatok gyors megváltoztatását, az innováció nagyon gyors „implementálását” semmi se akadályozza.
1.4 A felhasználható eszközök
Azt a szabadságot, amelyet a rugalmas tárolás és a rendelkezésre állás biztosít a legkülönfélébb lekérdezéseket, elemzéseket, modellezéseket, gépi tanulást, stb. lehetővé tevő eszközpark csak tovább növeli. A régi típusú SQL lekérdezésektől az adatvirtualizáción, a modellező eszközökön át, az analitikai forradalmat jelentő mesterséges intelligenciáig, gépi tanulásig hihetetlen eszközparkot tudunk használni, akár „kész termékeket”, pl. előre betanított modelleket (AWS Forecast, AWS Rekognition,…) használunk, vagy praktikus keretrendszerekkel (AWS SageMaker) magunk készítjük el az általunk használandó modelleket.
1.5 Az adatkezelők
Bár a rengeteg eszköz nagyban megkönnyíti a területen dolgozók munkáját, ahhoz, hogy az adat az értékláncban valóban értékteremtővé váljon, megfelelő szaktudás szükséges. Nem véletlen, hogy a Data Scientist-ek ma egyre keresettebbek. Fontos, hogy az adatvezérelt döntések bemutatásakor olyan szakemberek segítsék a munkát, akik általánosságban jártasok a statisztikában, értelmező és prezentációs tudásuk is kellően magas színvonalú, nem beszélve az üzleti terület ismeretéről. Hiszen az adatokat az üzleti célokkal, az innovációval kell összekötni (bridging).
1.6 Szabályozottság
Az a szabadság, adatbőség, ami itt előáll bizony fokozott szabályozottságot igényel. A személyes adatok védelme és a bizalmas, titkos adatkezelés ma már kiemelt terület. Annál könnyebb ezeket a kötelmeket betartani, minél korábban kezdünk neki a szabályozott kialakításnak. Ez pedig nem lehet máskor, mint a tervezéskor (Compliance by Design).
Idejekorán el kell dönteni, hogy mik a védendő adatok, információk, kik és milyen esetben férhetnek hozzá ezekhez az adatokhoz. A rendszerekbe pedig olyan automatizmusokat kell beépíteni, illetve olyan szolgáltatásokat kell alkalmazni, melyek automatizált módon ellenőrzik e védelem helyes működést. Ilyen pl. az AWS Macie, mely a gépi tanulás lehetőségeit felhasználva segíti az érzékeny adatok behatárolását és védelmét.
Az adatvagyon használata
2.1 A tradicionális használat
Mindezek mellett Magyarországon gyakran felvetődik az a kérdés, hogy az adatvagyont egyáltalán használják-e, használnak-e legalább hagyományos technológiai alapú megoldásokat az adatok felhasználására.
Egyáltalán visszanézik-e a történéseket, a hagyományos relációs adatbázisokban tárolt adatok alapján. Készítenek-e lekérdezéseket, „listákat”, hogy megnézzék mi történt (descriptive analytics).
Az előbbi adatokat elemzik-e, hogy ami történt, miért történt. Használnak-e adattárházat, készülnek-e elemzések a vezetői információs rendszerek döntéstámogató funkcióihoz, mindezekhez használnak-e iparági modelleket (diagnostic analytics).
Az előbb említett adatállományokat tovább hasznosíthatjuk, ha különféle statisztikai technológiákkal (adatbányászat, gépi tanulás) megpróbálunk a historikus adatokon mintázatokat keresni, melyek alapján igyekszünk a jövőt felvázolni. Az egyes eseményekhez, adatokhoz valószínűséget rendelve, adott biztonsággal próbáljuk megmondani, hogy a múlt és a jelen történései alapján mi az, ami nagy valószínűséggel történni fog (predictive analytics).
Nem nagyon tévedünk, ha azt mondjuk, az eddigi lehetőségek se voltak, és most sincsenek “kimaxolva”.
Ennek számos oka van.
A descriptive analytics (leíró elemzés) munka szakterületén nagy tapasztalattal rendelkező dolgozókat tételez fel, akik az adatsorokat látva következtetéseket tudnak levonni, melyek döntések alapjául szolgálhatnak. Ez ma már alapvetően két ok miatt nem teljesül. Számos iparágban egyre inkább kikopnak a profi szakemberek, nincs utánpótlás. Másrészt az áttekintendő adatmennyiség is nagymértékben megnövekedett, ágazattól függően, a termékválaszték, a tranzakciók száma, a forgalom volumene, stb., mind azt eredményezik, hogy az ember, még ha jó szakember is, hagyományosan egyre nehezebben tudja áttekinteni az adatokat, idősorokat, a feladat egyre több időt igényel, amire az agilitást elváró üzletnek nincs ideje.
Az előző problémán segítenénk, ha „előfeldolgoznánk” az adatokat és úgymond „csak” a végeredményt, a riportokat, a vizualizációkat kellene áttekintenünk. A diagnostic analytics (vizsgálati elemzés), az adattárházak és a „rajtuk futtatott” modellek végeredménye lenne ez. Ezek minősége viszont nagyon függ a modellek minőségétől. A jó modellek elkészítése komoly szakértelmet, iparági tapasztalatot igényel. A legjobbak késztermékké válnak, viszont az áruk is borsos. Magyarországon leginkább a banki és a telekommunikációs szektor engedhette meg magának, hogy szinte a tökéletességre „kireszelt” modelleket használjon. Az ágazatok többsége – azért, mert eleve non-profit vagy az ágazat profitabilitásánál, potenciáljánál fogva – vélhetően ilyen iparági modelleket nem nagyon engedhetett meg magának. Egyedi fejlesztések terjedtek el, már amennyiben elterjedtek. A költségek és a szerényebb iparági kompetencia pedig gyakran tükrözte a minőséget és így a várt eredményt is, hiszen a döntéshozók csak ritkán tudták levonni azokat a következtetéseket, melyek alapján hatékony intézkedésekre kerülhetett sor.
Olcsóbb, hatékonyabb módszerekre volt szükség. A predictive analytics (előrejelző analitika) már nem csak előfeldolgozza az adatokat, hanem a jövőre nézve kész megállapításokat terjeszt a felhasználók elé. A látszólag hatékony megoldás is sok sebből vérzik. Nagyon nagy mennyiségű és jó minőségű adatra van szükség, ami gyakran nem áll rendelkezésre. A különféle statisztikai, matematikai megoldások rendkívül erőforrásigényesek, melyeket a felhő előtti időszakban csak igen drágán tudtak kiszolgálni, így itt ismét beleütközünk az iparágak anyagi lehetőségeibe. A megfelelő algoritmusok hangolása jelentős informatikai tudást igényel, miközben a tudás gyakran az üzletet ismerő szakembernél van. Így a legtöbb esetben a végeredmény ezúttal se hozta az elvárásokat.
2.2 A jelen és a jövő lehetőségei
Ilyen „történelmi háttérrel” érkezünk a jelenbe. Az előzőek alapján a cél világos:
- a megoldás ne igényeljen csillagászati összegeket, adott esetben egy kevésbé „fizetőképes” iparág is megengedhesse magának
- a megoldás próbálja az adatminőségből adódó hibákat is figyelembe venni, kiküszöbölni
- a rendelkezésre álló apparátust az iparági szakemberek közvetlenül is tudják használni (hangolni)
- nagy mennyiségű adat feldolgozása elvárható idő alatt fusson le, illetve folyamatos futtatásra is legyen költséghatékony lehetőség
- emberi munka nélkül is kapjak használható javaslatokat, melyeket „megfogadva” a rendszer hatékonysága jelentősen javul
A felhőalapú számítástechnika pillanatok alatt közel hozta a lehetőségeket és reális költségszinten, reális időfelhasználással tudja biztosítani azokat a szolgáltatásokat, melyek az ún. prescriptive analytics (előíró elemzés) igényeit elégítik ki. A mai technológiával valóban befolyásolni tudjuk a jövőt. A múlt és a jelen adataira épülve, a jövő „adatait” úgy módosítjuk, úgy írjuk elő, hogy az „eredményadatok” az elvárásokhoz, tervekhez közelítsenek, adott esetben azokat érjék el, vagy haladják meg.
Az alábbiakban látható a Gartner jól ismert értéklánca. Alsó két szinten található az adat, az érték, a felsőbb szintek feldolgozása pedig a lehetőség.
Ezek a gyors fejlődési lehetőségek visszacsatolásként az érintett szakterületeket is nagyon fellendítették és így maga az AI/ML terület is ugrásszerűen fejlődik. Számos komplex környezet használata már nem igényel data analyst specialistákat, a magasfokú integráltság egyszerű használattal segíti az AI/ML teljes életciklusa (adatbetöltés, -tisztítás, tanítás, hiperparaméter optimizálás, model deployment) alatt a feladatmegoldást.
Nem meglepő, hogy az iparágak erre felfigyeltek, így a „szegényebbek” is. Ezek alapján előrevetíthető az egyes iparágakban bekövetkező, nagy mértékű technológiai robbanás, hiszen így a résztvevőknek a meglévő versenytársaikkal szembeni, illetve az újonnan piacra lépő – akár más üzleti modell alapján működő – szereplőkkel szemben viszonylag olcsó, hatékony eszköz állhat a rendelkezésükre, hogy biztosítsák versenyképességüket.
A fejlettebb világban ez már látványosan el is kezdődött. A felhőtechnológia révén ma már egy fejlettségben elmaradottabb területnek is rendelkezésre állnak ezek a korszerű technológiák és szolgáltatások, a globális elterjedtség révén pedig az anyagilag szerényebb felhasználók számára is megfelelő árszint biztosítható. Így például semmi akadálya nincs, hogy Kelet-Európában, Magyarországon is piacra kerüljenek ezen megoldások.
Az Amazon technológia
A korábbi részben már kitértünk rá, hogy a hagyományos technológiák, technikák által generált adatok és az újabb megoldások adatai egységesen, ún. Data Lake-ekben kezelendők, mely valójában nem más, mint egy architektúra.
A Data Lake egy központosított adattár, amely lehetővé teszi az összes strukturált és strukturálatlan adat tárolását, bármilyen nagyságrendben. Az eredeti, nyers állapotban is tárolhatjuk az adatokat anélkül, hogy az azokat először strukturálni kellene. Így is különféle típusú elemzéseket futtathatunk egyszerűen egy dashboard-ról, gyorsan készíthetünk vizualizációkat, de indíthatunk Big Data feldolgozásokat, végezhetünk valós idejű elemzéseket és a gépi tanulás számára is megfelelő adatok állhatnak rendelkezésünkre.
3.1 Data Lake core architektúra
Erre az architektúrára épülnek rá az egyes megoldások.
3.2 Adatelőkészítés
3.3 Cloud BI
Mindezek után jutunk el a gépi tanulás komplex feladatához. Az AWS fejlesztéseit látva az AWS ezt valóban az egyik kulcsterületnek tekinti.
Egyedülálló portfolió segíti a fejlesztőket.
A következő ábrán az alap ML folyamatot láthatjuk arról, hogy milyen feladatokat kell megoldanunk.
Ezen az ábrán pedig az látható, hogy minden egyes ML „munkafázishoz” az AWS megfelelő termékkel, szolgáltatással rendelkezik. Az AWS SageMaker keretrendszer az összes elemet, mint egy jó orchestrator, megfelelő könnyedséggel tudja vezényelni.
A TC2 helye és szerepe
Mint az AWS egyetlen hazai Advanced Partnere, a TC2 természetesen az AWS lehető legszélesebb termék- és szolgáltatás portfólióját igyekszik a piacra vinni, a legkülönfélébb felhasználók – vállalatok, intézmények, fejlesztők, startupper-ek, innovátorok, stb. – részére. Ebben természetesen az AWS alapokon kialakítandó adatvezérelt környezet is szerepel. Különös tekintettel az előbbi gondolatmenet alapján korszakokat átugrani képes ML alapú ún. előíró analitika implementálására.
A TC2 az üzleti konzultációt követően, amely során az üzleti probléma tisztázása és a szükséges adatok behatárolása a legfontosabb feladat, többnyire PoC-kkal, akár többel is teszteli a feltanított modelleket, hogy végül a legjobb megoldás álljon az adott iparági ügyfél rendelkezésére.