SST36 Adatbányászat
(survey statisztikusoknak)
Számítógépes adatelemzés, amikor nem ismerünk olyan statisztikai modellt, melynek feltételei legalább közelítőleg teljesülnének vagy a feladat méretei vagy explorativ jellege miatt a statisztikai módszerek nem használhatók megfelelő eredménnyel. Előnyök és hátrányok.
Tematika:
- adatbányászat és statisztikai elemzés nagy adathalmazon: társítási szabályok (adatelemzés)
- minta kiselőadás: hosszú idősorok szegmentálása ( ESLII 5.9) ( minta kiselőadás)
- a statisztikai modell iteratív használata: regressziós fa (adatelemzés)
- a statisztikai modell iteratív használata: döntési fa ( Han: 7.3.) ( VR: 13.1.)
- információelméleti eszközök (összefoglaló) (MDL histogram becslés)
- a sűrűségfüggvény becslése ( ESLII 6.6.) (MDL research) (példák)
- klaszteranalízis (ESLII 14.3.) (adatelemzés)
- térbeli klaszterek keresése (adatelemzés) Hand Loh
- support vector machine diszkrimináció (Crammer-Singer multiclass svm) (Reuters adatok) (R script)
- hosszú idősor, spektrum, wavelet felbontás (adatelemzés) (letölthető ábra: EUR/HUF idősor)
- hosszú idősor, spektrum, reguláris grid, mintavételi gyakoriság (adatelemzés) (R script)
- hosszú idősor, spektrum, reguláris és random grid, mintavételi gyakoriság (adatelemzés) (R script)
- nagyfelbontású kép, wavelet simítás (adatelemzés) (letölthető ábra: w simítás) (letölthető ábra: w simítás és korreláció)
- multiscale correlation analysis (adatelemzés)
- modell komplexitási mutatók Ripley 2.6. Cui
Irodalom:
Bodon Ferenc: Adatbányászati algoritmusok pdf a szerző honlapjáról
Guidici, P.- Figini, S. (2009): Applied Data Mining for Business and Industry, Wiley (itt)
Ajánlott irodalom:
Hastie, Trevor –Robert Tibshirani – Jerome Friedman: The Elements of Statistical Learning: Data Mining, Inference and Prediction. (second ed.) 2008, Springer pdf a szerző honlapjáról
Han, Jiawei - Kamber, Micheline: Adatbányászat, Koncepciók és technikák PANEM, 2004
Tikk Domokos (szerk): Szövegbányászat Typotex, 2007
Venables, W. N.- Ripley, B.D.: Modern Applied Statistics with S. Fourth Edition Springer. 2002.
Ripley, B.D.: Pattern Recognition and Neural Networks. Cambridge. 1996.
Hand, D. J. - Bolton, R. J. (2004). Pattern discovery and detection: a unified statistical methodology. Journal of Applied Statistics, Vol. 31, No. 8, 885–924.
Cui, G. - Wong, M. L. - Lui, H. K. (2006). Machine learning for direct marketing response models: Bayesian networks with evolutionary programming.Management Science, 52(4), 597-612.
Kiselőadás: az időbeosztási táblázat letölthető a Coospace-ről, itt lehet az előadást valamelyik üres zöld mezőbe regisztrálni. Egy előadás 15 perces, adatbányászati esettanulmány koncepció (=megoldási javaslat egy szabadon választott elemzési feladatra, mely a klasszikus statisztikai eszközökkel nem kezelhető). A hallgatóság meggyőzése céljából használható eszközök: statisztikai érvek, adatelemzési példák és ellenpéldák. Egy előadásnak max. 2 szerzője lehet.
Értékelés: a kiselőadás alapján
feltéve, hogy az alapszintű ZH sikeres
Alapszintű ZH: mintaZH