Ez a szócikk vagy szakasz lektorálásra, tartalmi javításokra szorul. A felmerült kifogásokat a szócikk vitalapja részletezi (vagy extrém esetben a szócikk szövegében elhelyezett, kikommentelt szövegrészek). Ha nincs indoklás a vitalapon (vagy szerkesztési módban a szövegközben), bátran távolítsd el a sablont! Csak akkor tedd a lap tetejére ezt a sablont, ha az egész cikk megszövegezése hibás. Ha nem, az adott szakaszba tedd, így segítve a lektorok munkáját!(2005 májusából)
Az adatbányászat a nagy mennyiségű adatokban rejlő információk félautomatikus feltárása különféle algoritmusok alkalmazásával. Több definíciója is ismert és elfogadott. Magyarországon leggyakrabban adatbányászat alatt újszerű, érvényes, nem triviális, vélhetően hasznos és magyarázható összefüggések keresését értik nagy adathalmazban.[1]
Az újszerűség azt foglalja magában, hogy jelenleg a területi szakértők által még nem ismert összefüggések feltárására törekszünk, meglévő tudás kinyerése, bizonyítása ugyan lehet mellékhatás, de sosem cél. Érvényesnek kell lennie a felmérésnek, azaz vizsgálni kell azt a kérdést is, hogy a kinyert összefüggés a valósággal összhangban van-e, más jelenségek is alátámasztják az összefüggést, nem csak az adatok valamilyen sajátos rendezése folytán jutottunk-e az adott következtetésre. Végezetül magyarázhatónak kell lenni az összefüggésnek, azaz fel kell tárni azt, hogy miért és hogyan jutottunk egy következtetésre.
Az adatbányászat egy olyan tudományos szakterület, amely a valós életben jól megfigyelhető (értsd egzakt, zárt alakban, egyértelműen leírható) jelenségek és a jól mérhető, numerikus adatok és adathalmazok közötti összefüggéseket keresi és elemzi. Fontos kiemelni, hogy az adatbányászat e megfogalmazásban (az összefüggések keresésével) eleve kizárja a statisztikai jellemzést, hiszen az lényegében csak egy állapot leírására szolgál. Statisztikai jellemzések sokaságát, illetve az abból levonható általánosabb következtetések sokaságát ugyanakkor nem zárja ki (nagyon helyesen). A megfigyelhetőség kritériuma a definícióban azért fontos, mert egyértelműen el kell tudnunk dönteni, illetve ellenőrizni kell tudnunk, hogy a következtetés adott esetben helytálló-e. Szubjektív vagy nem egyértelműen eldönthető, esetleg vitatható dolgokat az adatbányászati módszerek legfeljebb közelítéssel tudnak megoldani, de a közelítés pontossága, jósága sosem tárható fel; azaz használhatatlan eredményeket kapnánk. A megfogalmazás másik erőssége, hogy ebbe az adatbányászat számos ága belefér, így pl. szövegbányászat és a génkutatás is. Szűk értelemben azonban adatbányászat alatt a strukturált, adatbázisokban tárolható adatokon értelmezett összefüggés-kereső tevékenységeket értjük.
Az adatbányászat egyes elemeit több szempont alapján szokás osztályozni. Adattípusok alapján beszélhetünk:
Strukturált adatok esetében
strukturált adatbányászatról
folyamjellegű (strukturált) adatbányászatáról (web kattintások, idősorok, gének, gráfok és hang – ami egy speciális idősor – tartozik jellemzően ide)
Nem strukturált adatok esetében
szövegbányászatról
képanalízisről (kép alapú adatbányászatról)
videó analitikáról (videó alapú adatbányászatról)
Éppennyire gyakori azonban a cél szerinti osztályozás is, amely értelemszerűen valamely adattípushoz inkább kötődik, de a sajátos feladat határozza meg az alkalmazható eljárások körét. Ilyen például – a teljesség igénye nélkül:
A tárolókapacitás növekedésével egyre több területen kezdték el adatbázisokban tárolni az adatokat, főként a pénzügyi, telekommunikációs és kereskedelmi szektorban. A gépi tanuló algoritmusok fejlődésével lehetőség nyílt arra, hogy a nagy adathalmazokat elemezzék, ezzel támogatva a döntéshozást, értékesítést, vagy akár optimalizálják az egyéb üzleti folyamatokat. Az adatbányászat mint önálló tudományterület az 1980-as években jött létre.
Az adatbányászati piacnak két fő szereplőtípusa van Magyarországon: szoftvergyártó cégek, mint a SAS, IBM, Oracle és az adatbányászati fejlesztő/tanácsadó cégek. Ezen túlmenően megjelentek az nyílt forráskódú adatbányászati eszközök is, mint például a RapidMiner, a Konstanz Information Miner (KNIME), az Orange Canvas vagy az R programozási nyelv.
Magyarországon az első adatbányászati tanácsadó cégek a 90-es évek végén alakultak.
Az adatbányászat mint folyamat
Az adatbányászati folyamatnak több kidolgozott eljárása is létezik, amely többnyire valamilyen termékhez kapcsolódik. A legismertebbek Magyarországon az SPSS (ma IBM) 5A (Assess, Access, Analyze, Act, Automate), a SAS SEMMA[2] (Sample, Explore, Modify, Model, Assess) eljárása, a KDD Process[3] és a CRISP-DM[4] (CRoss Industry Standard Process for Data Mining), ami egy ipari szabvány; de a legtöbben saját módszertant használnak. Bár ezek a módszertanok különböző részelemekre fókuszálnak attól függően, hogy milyen termék vagy a létrehozását támogató kör támogatta, összességében nagyon hasonló eljárásokról beszélünk. Az 5A és a SEMMA elsősorban magára az elemzésre fókuszál, a CRISP-DM pedig az üzleti környezetbe való beágyazást tekinti a kiindulási állapotnak.
Egy sikeres adatbányászati projekt legfontosabb lépcsői:
Üzleti környezet, kiindulási állapotok megismerése, a célok pontos megfogalmazása és finomítása.
Általános etikai kérdések tisztázása: a rendelkezésre álló adatok üzleti és személyi érzékenységének felmérése, szükség esetén anonimizálása.
Adatok felmérése: az adatbázisban tárolt adatok, a keletkezésük, változásuk, értékük, eltérésük, pontosságuk, valamint az adatokban kódolt információk megértése.
Tesztelési környezet kialakítása: meg kell határozni, hogy mely adatokon lehet/szabad a modelleket felépíteni és melyeken kell, illetve hogyan kell az ellenőrzést elvégezni.
Adatok módosítása, értékelése, előkészítése (módszertanonként eltérő névvel illetik ezt a szakaszt): számos származtatott, normalizált, vagy másképpen módosított adatokra van szükség egy ideális modell kialakításához; esetlegesen pedig szükség lehet jellemzők (attribútumok) elhagyására is.
Modellezés: a megfelelő algoritmus (hipotézis) kiválasztása és a modell paramétereinek kiszámítása, a létrehozott modellek hangolása
Értékelés: a modell jóságát, helyességét ellenőrizni kell, meg kell vizsgálni, hogy a meghatározott célokkal mennyiben van összhangban, hol biztos és bizonytalan a modell, és fel kell mérni, hogy alkalmazható-e a modell (bonyolultság, megtérülés)
Alkalmazás (Hadrendbe állítás): integrálás az üzleti folyamatokba, kommunikáció (a működés hátoldalainak és előnyeinek tárgyalása, az eredmények terjesztése), oktatás.
Az egyes lépéseken sorban haladnak végig a projektek során, alkalmazásuk azonban több iterációban történik. Minden szakaszban új ismeretre lehet szert tenni – ha másért nem, hát azért, mert látjuk, hogy helyes-e egy-egy hipotézis vagy sem -, amelyet a megelőző szakaszokba integrálva új optimumpont keresését és kiválasztását teszi lehetővé.
Algoritmuscsaládok, modellezési technikák
Előrejelzés: jelenleg még nem ismert / nem létező érték becslése, közelítése múltbéli tapasztalatok alapján.
Osztályozás: felügyelt tanulás – a rendelkezésre álló elemek előre meghatározott osztályokba való sorolása, amelynek során azt tanulja meg az algoritmus folyamatos pozitív és negatív megerősítések segítségével, hogy mi alapján lehet az egyes elemeket a megfelelő csoportba, osztályba tenni. Tipikusan felismerési feladatok tartoznak ide.
Regresszió: általában létező, megismerhető, de hiányzó értékek becslése más paraméterek segítségével (pl. valakinek a korát becsüljük egyéb jellemzőiből)
Szegmentálás/klaszterezés: felügyelet nélküli tanulás – a rendelkezésre álló elemek csoportosítása valamilyen tulajdonság alapján. Az osztályozással szemben itt nincs megerősítés, az algoritmus maga keres kohéziót az adatok között, illetve közvetlenül nem befolyásolható, hogy milyen tulajdonság alapján alakuljon ki a csoport. Tipikusan az ügyfélkör pontosabb megismerésére használt eljárási technika.
Idősorelemzés: sorrendfüggő, vagy egymást követő adatsorok elemzése, pl. EKG görbék, hangok, tőzsdei árfolyamok, génszekvenciák tartoznak ide. Kevésbé nyilvánvaló, de pl. az aláírás-felismerés egyes esetei is ide sorolhatóak.
Gráfmintázok keresése vagy gráfbányászat: hálózatok- és azokban szereplő személyek viselkedésének elemzése, pl. véleményvezérek, kulcsoldalak (webkeresés) azonosítására.
Gyakori mintázatok és asszociációs szabályok kinyerése: előre nem ismert, de jellemző összefüggések vagy viselkedési minta feltárása a feladat.
Alkalmazási területek
Az adatbányászati eszköztárat és módszertant mindenhol lehet alkalmazni, ahol adatok keletkeznek. Az alkalmazási technikák terjedése a legjobban fizetett területektől terjed a kevéssé tőkeképes területek felé; éppen ezért megfigyelhető, hogy a banki és gyógyszerészeti alkalmazásoktól az autógyártáson át vezet az út a mezőgazdaság és az oktatás felé. Példák alkalmazási területekre:
Az adatbányászat rengeteg etikai gondot vet fel lényegéből adódóan. Az adatok tárolásához az ügyfelek hozzájárulnak általában, mert enélkül sok helyen nem is kaphatnak szolgáltatást (pl. telekommunikációs vagy pénzügyi szektorban a számlázás, tranzakciók követése az ügyfél számára is elengedhetetlen).
Azonban azt is tudatni kell velük, hogy mire lesz pontosan felhasználva a tárolt adat. Ez az adatbányászat esetében csak ritkán teljesíthető, mivel a folyamat során talált minták alapján derül ki a felhasználási terület.
A másik lehetséges út, hogy ha az illető nem járul hozzá, hogy adatait adatbányászatra felhasználják, ekkor azonban amíg sok ember fog hozzájárulni adatai általános, adatbányászati célú felhasználásához, úgy mindig elég adat lesz, hogy az egyén adatait a tanító adatbázisból kihagyva rá is érvényes modellt kapjunk, amit aztán az üzleti logikába implementáljunk.
Jegyzetek
↑Frawley, W. J., Piatetsky-Shapiro, G., & Matheus, C. J. (1992). „Knowledge Discovery in Databases: An Overview”. AI Magazine13 (3), 57-70. o.