Rólunk

A Szentágothai János Kutatóközpont a PTE korszerű, nemzetközi tudományszervezési és menedzsment normák szerint kialakított új intézménye, amely az élettudományi, élettelen természettudományi, valamint környezettudományi oktatás...

Tovább

Bejelentkezés

CAPTCHA
Ez a kérdés teszteli, hogy vajon ember-e a látogató, valamint megelőzi az automatikus kéretlen üzenetek beküldését.

Bejelentkezés egyetemi azonosítóval


Big Data kutatócsoport

  • Kutatási koncepció
  • Munkatársak
  • Szolgáltatások
  • Galériák
  • Dokumentumok

Missziónk, Célkitűzéseink

"Az egész több, mint a részek összege."

 

A PTE SZKK Big Data kutatócsoport deklarált küldetése, hogy az adattudomány területén az oktatás és kutatás és ipari együttműködés fontos, regionális hídfője legyen a PTE Innovációs Lánc részeként. Célunk, hogy a PTE különböző szervezeti egységei és egyetemünk partnerei hozzáférhessenek a legújabb és feladataikhoz leginkább illeszkedő adatfeldolgozási megoldásokhoz, illetve előnyt biztosítsunk nekik naprakész tudásunkra épülő aktív támogatásunkkal. Képzéseinkkel szeretnénk az adatközpontú megközelítési módokat megismertetni az egyetemi polgárokkal és aktívan bevonni őket tevékenységeinkbe a kutatástól a partnercégekkel való együttműködésig. Csoportunk szerkezete akadémiai és ipari réteggel rendelkezik, amely egyszerre lát el kutatási feladatokat és szolgál ki, illetve vezet ipari projekteket is. A két réteg eltérő projektszemlélettel rendelkezik, az akadémiai réteg követi egy klasszikus, multidiszciplináris kutatócsoport szerkezeti felépítését, míg az ipari réteg projektcentrikus, delegált szakértőkkel, projektgazdákkal, az ipari projektmenedzsment elvei mentén működik, igazodva az iparág piaci résztvevőinek projektszemléletéhez. Ez a szemlélet, mint interfész az, melyen keresztül a hatékony együttműködés megvalósulhat ipari szereplőkkel. Kiemelt helyen kezeljük a PTE Big Data partnerprogramban résztvevő Cégeket, amelyek számára közvetlen hozzáférést biztosítunk saját fejlesztésű eljárásainkhoz és algoritmusainkhoz, illetve magas prioritást kapnak az általuk felvetett megoldandó problémák. A CRISP-DM minőségbiztosítás irányelvei mentén saját CRISP-BD irányelveket dolgoztunk ki, amely mind az egyetemi, mind pedig az ipari partnereink számára szavatolják a minőséget. További céluk az egész több, mint a részek összegének elve mentén, hogy olyan virtuális csomópontként legyünk jelen, ahol egy-egy nagyobb K+F projekthez partnercégeinkkel közösen tudjunk dolgozni, amelyre külön-külön sem az egyetem, sem pedig partnereink nem lennének képesek. Ezek a célok és feladatok erősítik az egyetemünk és a régió iparának egymásbaágyazottságát és elősegítik a naprakész tudás többoldalú áramlását, valamint mind közvetett, mind pedig közvetlen módon vesznek részt a régió önaktualizásában.

Big Data projekt útmutató

 

A PTE Big Data kutatócsoportja többféle adatelemzési szolgáltatást is végez: egyéni kutatások szakszerű statisztikai elemzésétől kezdve, a numerikus, szöveges és egyéb formátumú adatok bányászatán át, egészen a nagy mennyiségű adatokra épülő intelligens modellek megvalósításáig. Feladatainkat a méretükhöz legjobban illeszkedő módszertan használatával menedzseljük, melyeknek alapját egy speciális, nagy méretű adatokra kifejlesztett, saját módszertan képezi. Szakterületi szakértőink csak gondos adatgyűjtés és előkészítés után tudnak a megrendelő számára is hasznos adatalapú terméket előállítani a megrendelőink számára. Nagy és strukturálatlan adatforrások esetén a különböző helyekről származó nyers adatok minőségi előfeldolgozása alapvető követelmény a Big Data elemzések sikerességéhez. Meggyőződésünk, hogy a jól kialakított módszertan segítségével a feladatok pontosan behatárolhatóak, jól követhetőek és gyorsan validálhatóak.

 

A Big Data életciklus modell

 

Szolgáltatási csomagjaink az alábbi lépésekből tevődnek össze:

  • Üzleti vagy kutatási probléma definiálása

  • Problémakört feltáró kutatása, minőségi és hatékonysági paraméterek meghatározása

  • Területi szakértői csoport összeállítása

  • Adatforrás felderítése és adatgyűjtés

  • Adatok integrálása, előkészítése és tisztítása

  • Adatmodell és adattárolási és -elérési technológia kiválasztása és kialakítása

  • Adatok megismerése, statisztikai vizsgálata és követelményelemzés

  • Adatok transzformálása és a modellkövetelményekhez való illesztése

  • Modellezés, a modellek finomhangolása és modell-kiválasztás

  • Modellek tesztelése és kiértékelése

  • Üzleti megvalósítás és üzemeltetés

A legtöbb esetben a kezdeti és végső lépéseket nem az adatelemző, hanem a megrendelő szokta elvégezni, például saját adattárházának felhasználásával illetve továbbfejlesztésével. Fontos azonban, hogy a modell mellett az adatminőség is megfelelő legyen, lévén ez képezi az elemzés magját. Természetesen ebben is számíthatnak szakértőink tanácsaira. Arra is érdemes felhívni a figyelmet, hogy ha a modell implementálását a megrendelő maga kívánja elvégezni, akkor is szükség lehet olyan szakértői segítségre, mint például a modell hatékonyságának nyomkövetése vagy annak működését befolyásoló külső tényezők kezelése.

Az életciklus modell két nagyobb részből tevődik össze. Az egyik egy szabványos, iparág független adatbányászati (Data Mining) módszertan1, melyet nagyméretű adathalmazok esetén szükségszerűen megelőz egy kiegészítő adatkezelési (Data Management) módszertan. Az életciklus lépései a probléma fókuszát üzleti oldalról vezetik át a technológiai oldalra, majd pedig a modellek implementálásával ismét vissza az üzleti területre. Bár a megrendelők számára az eredményhez vezető utolsó lépések a legfontosabbak, annak eléréséhez jelentős előkészületekre van szükség. Noha mindez a modellezéshez képest akár 5-6-szoros idő- és költségráfordítással jár, a folyamatos kapcsolattartás és együttműködés során, a saját adatait és a felhasznált technológiát megismerve az üzleti megrendelőink már menet közben hasznos információkhoz juthatnak. Ezért az életciklus modellünket követve röviden bemutatjuk az egyes fázisok során várhatóan elvégzendő feladatokat és tipikus tevékenységeket.

1CRISP-DM: Cross-industry standard process for data mining: https://www.the-modeling-agency.com/crisp-dm.pdf

Üzleti probléma definiálása

Ez valójában a CRISP-DM legelső lépése, melynek során üzleti szempontból kijelölésre kerülnek a projekt céljai és követelményei. Ennek alapján definiálásra kerülnek az elvégzendő adatelemzési és -bányászati feladatok típusai. Valamint kialakításra kerül egy közös döntési modell és jelölés­rendszer. A hagyományos adatelemzésekhez képest, Big Data projektek esetén közel sem triviális előre látni, hogy a projekt eredménye mekkora és milyen hasznot jelent a szervezet számára. Ennek ellenére az elérendő célok és ráfordítások meghatározása elengedhetetlen.

 

Kutatás és minőségbiztosítás

A célok és a problémakör ismeretében érdemes megvizsgálni, hogy mások hogyan oldották a feladatot. Ez történhet a probléma típushoz tartozó korábbi és legújabb tudományos eredmények feltárásával, de felhasználhatóak korábbi projektek tapasztalatai is. A projekt további lépéseinek meghatározása előtt mindenképpen szükséges az igényelt modellek hatékonyságának mérési módszereit kiválasztani, és az elvárt szinteket rögzíteni.

 

Szakértői csoport kialakítása

Egy projekt során nemcsak az üzleti területnek van szüksége adatelemzési erőforrásokra, hanem az adatelemzőknek is támaszkodniuk kell az üzleti terület szakismeretire. A legjobb modell kiválasztásakor is nagyon fontos, hogy a tudományos szempontok mellett az üzleti igényeket is figyelembe kell venni. A projekt felgyorsításához és sikerességéhez nagyban hozzájárul, ha a kétféle szakterület között a kommunikáció megfelelő, folyamatos. Az üzleti folyamatok és legjobb gyakorlatok alapos ismerete a modellezésig tartó lépések mindegyikében nagyon hasznos. A probléma összetettségétől függően előfordulhat, hogy a projekt csapat nem tud minden fázisban optimális megoldást előállítani. Ezért akár az üzleti területről, akár az elemzői területről szükség lehet további szakemberek bevonására. Big Data esetén a komplexitásból kifolyólag szükség lehet további technológiai ismeretek bevonására is. Az egyetemi környezetben ez rugalmasan megoldható, és akár olyan határterületek vizsgálata is megoldható, mint például a jogi és adatvédelmi háttér.

 

Adatok gyűjtése

Erre a lépésre még akkor is szükség van, ha amúgy az adatok teljes körűen a rendelkezésre állnak, például a megrendelő adattárházában. Ez a lépés ugyanis kulcsfontosságú Big Data projektek esetén, hiszen ez határozza meg, hogy milyen profilok mentén érhető el a kívánt eredmény. A különféle adatforrások feltérképezése után az adatokat elérhetővé kell tenni. Ez történhet a hozzáférés biztosításával, adat-áttöltéssel, vagy külső források strukturálatlan adatainak letöltésével. Ezt a fajta adatgazdagítási lehetőséget még saját adatok rendelkezésre állása mellett is érdemes megfontolni, hiszen ezzel az üzleti környezet befolyásoló hatása is modellezhető. Az adatok összegyűjtésének bonyolultságát és költségét könnyű alulbecsülni, és sokszor csak manuális úton vagy időben korlátozott módon végezhető el. Így nem is mindig lehet teljes körű és megismételhető.

 

Adatok tisztítása és integrálása

Ha az adatok különböző forrásokból származnak, akkor azok elnevezéseit és kódolásait egységesíteni kell. Ha az adat látszólag teljesen normalizált forrásból származik, akkor is tartalmazhat kiugró vagy hibás értékeket, időbeli töréseket, vagy strukturális változásokat. Fontos, hogy az adattisztítás, ha lehet, ne manuálisan történjen, hiszen a modell használatakor is tudni kell majd kezelni a formailag vagy tartalmilag nem illeszkedő adatokat. A közös reprezentációs forma megtalálása szintén sok időt vehet igénybe, és külső források esetén ki van téve annak, hogy azok bármikor megváltozhatnak.

 

Tárolási technológia kiválasztása

Miután a probléma megoldásához feltehetően nélkülözhetetlen adatok köre körvonalazódott, a tisztított adatokat valahol tárolni is kell. Viszonylag ritka az, hogy a tisztítást helyben, az eredeti adatokon lehet elvégezni. De még ha van is mód rá, az adatelemzéshez eltérő lekérdezési és adatfeldolgozási műveletekre van szükség, melyek esetleg az adatok eredeti környezetében nem elérhetőek. Erre a különféle Big Data technológiák adják meg a választ. Az adatok típusa, strukturáltsági foka, mennyisége és kapcsolati rendszerük csak az egyik tényező, ami meghatározza, hogy milyen fajta adattárolási elvet érdemes használni a létező adatmodellek (pl. relációs, oszlop-orientált, dokumentum alapú, gráf reprezentatív stb.) közül. De a modellezési igények és a feladat párhuzamosíthatósága is befolyásolja, hogy végül melyik technológiára esik a választás. Nagy méretű adathalmazok esetén akkor is szükség van a megfelelő tárolási koncepció kialakítására, ha a modellnek valós időben (azaz tárolás és korábbi adatok elérése nélkül) kell majd működnie.

 

Adatok megértése

Az adatok megértésének fázisa olyan tevékenységeket foglal magába, melyek során megismerkedhetünk az adatokkal, beazonosíthatjuk azok kapcsolatait, minőségi problémáit és hiányosságait, betekintést nyerhetünk azok mélyebb értelmezésébe, és/vagy olyan érdekes részekre lelhetünk, melyekben rejlő rejtett információ segíthet a hipotéziseink megfogalmazásában. Mindebben nagy segítséget nyújtanak a hatékony lekérdező nyelvek és adatvizualizációs megoldások. A statisztikai elemzések eredményeként lényegében itt dől el, hogy esély van-e az eredetileg kitűzött cél megvalósítására, és hogy azt mennyire támasztják alá a rendelkezésre álló adatok.

 

Adatok előkészítése

Az adat-előkészítési fázis tartalmazza az összes olyan tevékenységet, ami ahhoz szükséges, hogy a kezdeti adatokból előállíthassuk azt a végső adatstruktúrát és adathalmazt, ami a modellező eszköz bemenetét fogja képezni. Az adat-előkészítési lépéseket általában többször, előre nem meghatározható sorrendben is végre kell hajtani, az egyes modelltípusok előfeltételeinek megfelelően. Ezek a lépések általában a modellezési eszköz számára alkalmas adattáblák, rekordok és attribútumok kiválasztásán túl ezek transzformációját illetve mintavételezést és aggregálását foglalják magukba. Ugyanitt kerül sor a hatékony modell megépítését akadályozó irreguláris adatok kiszűrésére is.

 

Modellek építése

Ebben a legérdekesebb fázisban többféle modellezési technikát választunk ki és alkalmazunk, illetve paramétereik optimális megválasztásával kalibráljuk őket. Tipikusan egy-egy adatbányászati feladat típusra többféle módszer is alkalmazható. Ezek közül némelyeknek speciális követelményeik lehetnek az adatok típusára és formátumára nézve. Ezért aztán igen gyakran kell vissza-visszatérnünk az adat-előkészítési fázishoz. Fontos, hogy az adatokból generált, szakterületi tudást leíró nyelv megfeleljen a megrendelő elvárásainak, és annak megértése az üzleti területen történő alkalmazhatóságba is betekintést nyújtson.

 

Modellek kiértékelése

A projektnek ebben a fázisában választjuk ki a korábban elkészült modellek közül a felhasználhatóság szempontjából elfogadható illetve optimális változatok. Mielőtt megtörténne ezek alkalmazásának végső bevezetése, fontos, hogy megvizsgáljuk őket, és áttekintsük a létrehozásuk menetét is. Meg kell bizonyosodnunk arról, hogy a modell teljes egészében megfelel az üzleti céloknak. Be kell azonosítani azokat az üzleti vonatkozásokat amelyek nem lettek megfelelően figyelembe véve és kezelve. A fázis végére meg döntést kell hozni az adatbányászati eredmények hasznosítási módjáról.

 

Alkalmazás

A modell elkészítése általában még nem jelenti a projekt végét. Még akkor sem, ha a célunk mindössze az adatok jobb megértése. Ezt a tudást ugyanis a szervezet számára úgy kell leírni és prezentálni, hogy az a megrendelő által is használható legyen. Gyakoribb viszont, hogy a modellt „élesre” kell beüzemelni a szervezet döntéshozatali folyamatába (például weblapok valós idejű elemzése vagy marketing adatbázisok naprakész újrapontozása). A követelmények függvényében az alkalmazási fázis állhat egyszerűen csak az elvégzett munkáról szóló összefoglaló jelentésből, vagy egy összetett, vállalaton belül is megismételhető adatbányászati folyamat kialakításából. Sok esetben nem is az elemző, hanem maga a megrendelő végzi el a bevezetés lépéseit, ezért fontos, hogy értse melyek azok a kritikus tevékenységek és feltételek, amelyek a létrehozott modellek működtetéséhez nélkülözhetetlenek.

Az adat-alapú termék bevezetése után is akad még dolog bőven, amiben további támogatásra lehet szükség. Ha a kifejlesztett modellt sikerült beilleszteni a vállalati adatfolyamokba, akkor nyomon kell követni ennek hatékonyságát és elavulási mértékét. Egy-egy gazdasági szabályozás, szervezeti vagy piaci változás jelentősen befolyásolhatja a szereplők viselkedését, ami főleg előrejelző modelleknél kritikus. Big Data problémák esetében itt egy újabb fontos szempont jelenik meg a hagyományos statisztikai megközelítési módokhoz képest. Az elemzési folyamatot ugyanis az adatok generálják, amiből a modell egy választ állít elő. A célunk tehát az, hogy az üzleti folyamat egyes elemeit előre jelezhessük, vagy megérthessük a jelenség kiváltó okait. Általában tehát hiányzik a statisztikai módszerek kezdő lépése: a kísérlet megtervezése. Ennek hiányában nem állíthatunk biztosat a függetlenségről, normalitásról vagy eloszlásról. A Big Data esetében a tudásunk maga az adat, és nem több. Ezért az adatok megfelelő előkészítése kulcsfontosságú, és a tapasztalatok alapján a munkálatok közel 80%-át teszi ki. Ráadásul erre nem létezik egységes eljárás, ami az adatok méretének növekedtével is jól skálázódna.

 

A Big Data feladatok zöme az alábbi, úgynevezett Big4 típusok valamelyikébe sorolható be:

  • Gépi tanulás: ide soroljuk az összes osztályozási, regressziós és szegmentációs problémát.

  • Ajánló rendszer: ahol a cél a felhasználók viselkedésének modellezése alapján a lehetséges jövőbeli döntéseinek szűkítése, választási opcióinak testreszabása

  • Műszerfal: esetén az adatok magasan aggregált és professzionális megjelenítése a feladat, mellyel az emberi döntéshozatal tehető gyorsabbá és pontosabbá.

  • Ad-hoc elemzés: minden olyan esetben, amikor az üzleti partner konkrét hipotéziseit vagy mítoszait kell adatokkal igazolni vagy cáfolni.

 

Az életciklus modell mindegyik fázisa önmagában is több tudományterületet ölel fel, így további részlépésekre tagolódik. Bármelyik fázisról is legyen szó, keressen minket bizalommal!

 

Big Data Konferencia