SST36 Adatbányászat

(survey statisztikusoknak)

 

Számítógépes adatelemzés, amikor nem ismerünk olyan statisztikai modellt, melynek feltételei legalább közelítőleg teljesülnének vagy a feladat méretei vagy explorativ jellege miatt a statisztikai módszerek nem használhatók megfelelő eredménnyel. Előnyök és hátrányok.

 

Tematika:

- adatbányászat és statisztikai elemzés nagy adathalmazon: társítási szabályok (adatelemzés)

- minta kiselőadás: hosszú idősorok szegmentálása   ( ESLII 5.9)  ( minta kiselőadás)

- a statisztikai modell iteratív használata: regressziós fa (adatelemzés)

- a statisztikai modell iteratív használata: döntési fa ( Han: 7.3.)    ( VR: 13.1.)

- információelméleti eszközök (összefoglaló)  (MDL histogram becslés)

- a sűrűségfüggvény becslése ( ESLII 6.6.)      (MDL research)    (példák)

- klaszteranalízis  (ESLII 14.3.)   (adatelemzés)

- térbeli klaszterek keresése   (adatelemzés)   Hand     Loh

- support vector machine diszkrimináció (Crammer-Singer multiclass svm) (Reuters adatok) (R script)

- hosszú idősor, spektrum, wavelet felbontás (adatelemzés)  (letölthető ábra: EUR/HUF idősor)

- hosszú idősor, spektrum, reguláris grid, mintavételi gyakoriság (adatelemzés)  (R script)

- hosszú idősor, spektrum, reguláris és random grid, mintavételi gyakoriság (adatelemzés)  (R script)

- nagyfelbontású kép, wavelet simítás (adatelemzés) (letölthető ábra: w simítás) (letölthető ábra: w simítás és korreláció)

- multiscale correlation analysis (adatelemzés)

- modell komplexitási mutatók    Ripley 2.6.    Cui

 

Irodalom:

Bodon Ferenc: Adatbányászati algoritmusok pdf a szerző honlapjáról

Guidici, P.- Figini, S. (2009): Applied Data Mining for Business and Industry, Wiley   (itt)

 

Ajánlott irodalom:

Hastie, Trevor –Robert Tibshirani – Jerome Friedman: The Elements of Statistical Learning: Data Mining, Inference and Prediction. (second ed.) 2008, Springer pdf a szerző honlapjáról

Han, Jiawei - Kamber, Micheline: Adatbányászat, Koncepciók és technikák PANEM, 2004

Tikk Domokos (szerk): Szövegbányászat Typotex, 2007

Venables, W. N.- Ripley, B.D.: Modern Applied Statistics with S. Fourth Edition Springer. 2002.

Ripley, B.D.: Pattern Recognition and Neural Networks. Cambridge. 1996.

Hand, D. J. -  Bolton, R. J. (2004). Pattern discovery and detection: a unified statistical methodology. Journal of Applied Statistics, Vol. 31, No. 8, 885–924.

Cui, G. - Wong, M. L. - Lui, H. K. (2006). Machine learning for direct marketing response models: Bayesian networks with evolutionary programming.Management Science52(4), 597-612.

 

Kiselőadás: az  időbeosztási táblázat letölthető a Coospace-ről, itt lehet az előadást valamelyik üres zöld mezőbe regisztrálni. Egy előadás 15 perces, adatbányászati esettanulmány koncepció (=megoldási javaslat egy szabadon választott elemzési feladatra, mely a klasszikus statisztikai eszközökkel nem kezelhető). A hallgatóság meggyőzése céljából használható eszközök: statisztikai érvek, adatelemzési példák és ellenpéldák. Egy előadásnak max. 2 szerzője lehet.  

 

Értékelés:  a kiselőadás alapján

feltéve, hogy az alapszintű ZH sikeres

 

Alapszintű ZH:   mintaZH