|
Vorname |
Name |
Thema |
|
Dustin |
Eversmann |
fund-1 |
|
Christoph |
Schemmel |
fund-2 |
|
Jan |
Schreiber |
fund-4 |
|
Jules Bruno Simo |
Souop |
fund-6 |
|
Stephan |
Hagendorf |
fund-8 |
|
Edna |
Rosen |
anw-1 |
|
Marie |
Hoffmann |
anw-6 |
·
Dieses
populärwissenschaftliche Buch sollte zusammengefasst werden, mit Betonung
von interessanten Data Mining Studien/Beispielen
·
Ian
Ayres, Bantam Books, ISBN-13: 9780553805406 (pdf auf Anfrage)
·
Die
folgende Seite zum Buch enthält Vorhersagentools: http://islandia.law.yale.edu/ayres/predictionTools.htm
. Einige davon sollen als
„Demo“ vorgestellt werden.
·
Im
1. (kürzeren) Teil sollen die Gebiete / Aufgaben von Data Mining
erläutert werden (freie Wahl der Quellen, z.B. u.a. Wikipedia)
·
Im
2. Teil sollen folgende Artikel vorgestellt werden (mit Vertiefung der Probleme
eigener Wahl):
·
QIANG YANG, XINDONG WU, 10 CHALLENGING PROBLEMS IN
DATA MINING RESEARCH, International Journal of Information Technology &
Decision Making, Vol. 5, No. 4 (2006) 597–604
·
Gregory Piatetsky-Shapiro et.
al., What Are The Grand Challenges for Data Mining?,
KDD-2006 Panel Report, SIGKDD Explorations, Volume 8, Issue 2, 2006.
·
Folgende
Tutorials sollten “in eigenen Worten und Bildern” (ggf. unter Hinzunahme
weiterer Literatur) vorgestellt werden:
·
Andrew Moore, Gaussians, aus Statistical Data Mining
Tutorials, http://www.autonlab.org/tutorials/gaussian.html
·
Andrew Moore, Maximum Likelihood Estimation, aus
Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/mle.html
·
Folgende
Tutorials sollten “in eigenen Worten und Bildern” (ggf. unter
Hinzunahme weiterer Literatur) vorgestellt werden (der Stoff beider Tutorials
überlappt sich). Es müssen nicht alle Regressionsalgorithmen
vorgestellt werden (wichtiger ist die Verständlichkeit), aber es sollen
einige vertieft vorgestellt werden:
·
Andrew Moore, Predicting Real-valued Outputs: An
introduction to regression, aus Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/introreg.html
·
Andrew Moore, Eight Regression Algorithms, aus
Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/bestregress.html
·
Folgende
Tutorials sollten “in eigenen Worten und Bildern” (ggf. unter
Hinzunahme weiterer Literatur) vorgestellt werden. Ggf. müssen wegen des
Umfangs Teile ausgelassen werden (bitten auf Abhängigkeiten achten):
·
Andrew Moore, Bayesian Networks, aus Statistical Data
Mining Tutorials, http://www.autonlab.org/tutorials/bayesnet.html
·
Andrew Moore, Learning Bayesian Networks, aus
Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/bayesstruct.html
·
Weitere
Quellen zu diesem Thema: Artur Andrzejak, Vorlesung “Data Mining mit
Matlab”, Vorlesungen 12 und 13, http://www.zib.de/andrzejak/lehre/dm08/
·
Folgendes
Tutorial und Teile des folgenden Artikels sollten “in eigenen Worten und
Bildern” (ggf. unter Hinzunahme weiterer Literatur) vorgestellt werden:
·
Andrew Moore, Markov Decision Processes, aus
Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/mdp.html
·
Leslie Pack Kaelbling, Michael Littman, Andrew Moore,
Reinforcement Learning: A Survey (1996), Journal of Artificial Intelligence Research,
Vol. 4, Year 1996, pages 237-285, http://www.autonlab.org/autonweb/14686
·
Folgende
Artikel sollen vorgestellt werden (teilweise überlapender Inhalt):
·
Lin, J., Keogh, E., Lonardi, S. & Chiu, B., A
Symbolic Representation of Time Series, with Implications for Streaming
Algorithms, proc. of the 8th ACM
SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, San
Diego, CA, June 13. http://www.cs.ucr.edu/~eamonn/SAX.htm (dort Artikel Nr. 7, pdf + Folien)
·
Jin Shieh and Eamonn Keogh, iSAX: Indexing and Mining Terabyte Sized
Time Series, SIGKDD 2008, http://www.cs.ucr.edu/~eamonn/iSAX/iSAX.html
·
Folgendes
Tutorial und Teile des folgenden Artikels sollten “in eigenen Worten und
Bildern” (ggf. unter Hinzunahme weiterer Literatur) vorgestellt werden:
·
Andrew Moore, Neural Networks, aus Statistical Data
Mining Tutorials, http://www.autonlab.org/tutorials/neural.html
·
Kapitel 2.4 aus: Paul D. McNelis, Neural Networks in Finance: Gaining Predictive
Edge in the Market, Academic Press 2004, ISBN-13: 978-0124859678 (Buch auf
Anfrage)
·
Im
1. Teil soll der Begriff der Überanpassung definiert und erläutert werden
(freie Wahl der Quellen, z.B. Wikipedia; A. Andrzejak, Vorlesung “Data
Mining mit Matlab”, u.a. Vorlesungen 7 und 11, http://www.zib.de/andrzejak/lehre/dm08/ )
·
Im 2. Teil soll folgendes Paper vorgestellt werden,
insbesondere in Hinblick auf Überanpassung: Keogh, E., Lonardi, S. and
Ratanamahatana, C., Towards
Parameter-Free Data Mining, proc.
of the tenth ACM SIGKDD International Conference on Knowledge Discovery and
Data Mining, Seattle, WA, Aug 22-25, 2004, http://www.cs.ucr.edu/~eamonn/SAX.htm
(dort Artikel Nr. 5, pdf + Folien)
·
Folgende
Artikel sollen vorgestellt werden (teilweise überlapender Inhalt):
·
Keogh, J. Lin, and W. Truppel, Clustering of Time
Series Subsequences is Meaningless: Implications for Past and Future Research, proc. of the
3rd IEEE International Conference on Data Mining, Melbourne, FL. Nov 19-22, pp 115-122. http://www.cs.ucr.edu/~eamonn/SAX.htm (dort Artikel Nr. 10)
·
Chiu, B. Keogh, E., & Lonardi, S. (2003), Probabilistic Discovery of Time Series
Motifs, In the 9th ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining, August 24 - 27, 2003, Washington, DC,
USA, pp 493-498. http://www.cs.ucr.edu/~eamonn/SAX.htm (dort Artikel Nr. 8)
·
Im
1. (kürzeren) Teil soll der Begriff „Feature Extraction“
vorgestellt werden (freie Wahl der Quellen, z.B. Wikipedia; A. Andrzejak,
Vorlesung “Data Mining mit Matlab”, u.a. Vorlesungen 2-5, http://www.zib.de/andrzejak/lehre/dm08/ )
·
Im
2. Teil soll der folgende Artikel vorgestellt werden (ggf. Teile auslassen,
dafür weitere Literatur hinzuziehen, um die Verständlichkeit zu
erhöhen):
·
Isabelle Guyon and Andre Elisseeff, An Introduction to
Feature Extraction, in: Guyon Isabelle, Feature Extraction Foundations and
Applications, Springer 2006, http://clopinet.com/fextract-book/
·
Der
folgende Artikel soll vorgestellt werden (ggf. weitere Literatur hinzuziehen,
um die Verständlichkeit zu erhöhen):
·
Gerard Dreyfus and Isabelle Guyon, Assessment Methods,
Kapitel 2 in: Guyon Isabelle, Feature Extraction Foundations and Applications,
Springer 2006, http://clopinet.com/fextract-book/
(pdf auf Anfrage)
·
Im
1. (kürzeren) Teil soll der Begriff „statistische
Signifikanz“, „Null Hypothese“ und verwandte Begriffe
vorgestellt werden (freie Wahl der Quellen, z.B. Wikipedia )
·
Im
2. Teil soll der folgende Artikel vorgestellt werden (ggf. weitere Literatur hinzuziehen, um die
Verständlichkeit zu erhöhen):
·
Forman, George; Cohen, Ira, Beware the Null Hypothesis: Critical
Value Tables for Evaluating Classifiers, HP Labs technical report, HPL-2005-70,
http://www.hpl.hp.com/techreports/2005/HPL-2005-70.html
·
Folgendes
Tutorial und folgender Artikel sollten “in eigenen Worten und
Bildern” (ggf. unter Hinzunahme weiterer Literatur) vorgestellt werden:
·
Andrew Moore, Introductory overview of
time-series-based anomaly detection algorithms, aus Statistical Data Mining
Tutorials, http://www.autonlab.org/tutorials/biosurv.html
·
Weng-Keen Wong, Andrew Moore, Gregory Cooper, Michael
Wagner, Bayesian Network Anomaly Pattern Detection for Disease Outbreaks,
Proceedings of the Twentieth International Conference on Machine Learning,
2003, 808-815, http://www.autonlab.org/autonweb/papers/y2003/14642.html
·
Folgende
Artikel sollen vorgestellt werden:
·
Yu Suzuki, Kyoji Kawagoe (2006) Extended SAX,
Extension of Symbolic Aggregate Approximation, for Financial Time Series Data
Representation, http://www.ieice.org/~de/DEWS/DEWS2006/doc/4A-i8.pdf
·
T.C. Fu, F.L. Chung, R. Luk and C.M. Ng, Financial
Time Series Indexing Based on Low Resolution Clustering, in 4th IEEE International Conference on
Data Mining (ICDM 2004) Workshop on Temporal Data Mining: Algorithms, Theory
and Applications, pp. 5-14, Brighton, UK, 1 November, 2004, www.cs.rochester.edu/~taoli/workshop/program/tdm04_fu.pdf
·
Der
folgenden Modelle zur Datengenerierung und die jeweiliten Vorhersagestudien
sollen vorgestellt werden: stochastic volatility/jump diffusion (SVJD) model,
Markov regime switching (MRS) model,
distorted long-memory (DLM) model, Black-Scholes options pricing (BSOP)
Model. Um die Methoden und Evaluierungskriterien zu erläutern soll ggf.
weitere Literatur / Kapitel des Buches hinzugenomen werden:
·
Kapitel 5 aus: Paul D. McNelis, Neural Networks in Finance: Gaining
Predictive Edge in the Market, Academic Press 2004, ISBN-13: 978-0124859678,
(Buch auf Anfrage)
·
Der
folgenden Vorhersagestudien sollen vorgestellt werden: Zahlungsverzug von
Kreditkarten; Bankpleiten; Vorhersage von implied Volatility. Um die Methoden
und Evaluierungskriterien zu erläutern soll ggf. weitere Literatur /
Kapitel des Buches hinzugenomen werden:
·
Kapitel 8 und 9 aus: Paul D. McNelis, Neural Networks in Finance: Gaining
Predictive Edge in the Market, Academic Press 2004, ISBN-13: 978-0124859678,
(Buch auf Anfrage)
·
Bemerkung:
dieses Thema hat mehr mit dem Gebiet der Optimierung zu tun als mit Data
Mining. Bei entsprechenden Kenntnissen sind Demos in Matlab willkommen.
·
Kapitel 2.4 aus Paolo Brandimarte, Numerical Methods
in Finance and Economics: A MATLAB-Based Introduction, 2nd Edition, Wiley 2006,
ISBN: 978-0-471-74503-7, (Buch auf Anfrage)
·
Folgende
Artikel sollen vorgestellt werden (ggf. nur Teile, dafür weitere Literatur
hinzuziehen, um die Verständlichkeit zu erhöhen):
·
Piotr Kokoszka, Greqam Core, Change--point detection
in GARCH models: asymptotic and bootstrap tests, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.7.353
·
Kyong Joo Oh, Kyoung-Jae Kim and Ingoo Han, Two-Stage
Forecasting Using Change-Point Detection and Artificial Neural Networks for
Stock Price Index, http://afis.kaist.ac.kr/download/inner_con072.pdf
·
Bemerkung:
dieses Thema hat einen praktischen Anteil. Es soll in Matlab anhand von realen
Daten evaluiert werden, inwieweit man solche Geschäfte durch
Klassifikationsalgorithmen tatsächlich erkennen kann. Aufgrund des
Programmieraufwandes wird bei diesem Thema die Ausarbeitung erlassen.
·
Im
1. (kürzeren) Teil sollen die Grundlagen von Optionen (Calls und Puts)
erläutern werden (freie Wahl der Quellen, z.B. u.a. Wikipedia)
·
Im
2. Teil soll die Erkennungsmethode, Code und Evaluation der Ergebnisse vorgestellt
werden (Erläuterung und Daten auf Anfrage)