Data Mining mit Anwendungen in der Finanzwirtschaft

Seminar 19626, WS 08/09, FU Berlin


Organisatorisches

Das Seminar findet als Blockveranstaltung am Sonntag, den 18. Januar 2009, von 11:00 (s.t.) bis maximal 19:00 Uhr statt.
Ort: ZIB, Takustr. 7, 14195, Raum 2006 (Seminarraum, Rundbau, Eingang links von der Bibliothek).

KVV Seite der Veranstaltung: https://www.mi.fu-berlin.de/kvv/course.htm?sid=15&cid=7752&iid=1

Die eingereichten Folien

Die eingereichten Ausarbeitungen

Ausgewählte Quellen

 

Vorträge und Ausarbeitungen:

·       Spätestens eine Woche vor dem Vortrag sollen mir die fertigen Folien der Präsentation zugeschickt werden.

·         Die Vorträge können wahlweise auf deutsch oder auf englisch vorbereitet und durchgeführt werden. Die Länge eines Vortrages soll zwischen 45 und 60 Minuten betragen.

·         Bei der Vorbereitung können folgende Tipps für Vorträge nützlich sein.

·         Bitte die Folien (pdf oder ppt) mir direkt nach dem Vortrag zuschicken (nach evtl. Korrekturen), diese werden ins Web eingebunden (Links sind oben).

·         Die Ausarbeitung kann bis zum 1. April 2009 nachgereicht werden (mind. 8 Seiten bei einer Person, mind. 12 Seiten bei zwei Personen).

 

Gegenseitige Bewertung:

·         Die Vorträge werden gegenseitig beurteilt, und die Gewinner erwartet der erwähnte Sonderpreis.

·         Die Bewertungen bitte spätestens eine Woche nach dem jeweiligen Termin hier eintragen (die Geheimtokens werden während der Veranstaltung ausgeteilt).

·         Die Abgabe der Bewertung ist ein Teil der Scheinanforderungen (d.h. jeder Teilnehmer muss andere bewerten).

·         Die Tabelle mit allen Bewertungen findet man hier (comma separated values, anonymisiert): Tabelle.

·         Der Vortrag zum Thema *** von *** wurde in der gegenseitigen Bewertung zu dem besten Vortrag gewählt. Herzlichen Glückwünsch!


Referenten und Termine:

Vorname

Name

Thema

Dustin

Eversmann

fund-1

Christoph

Schemmel

fund-2

Jan

Schreiber

fund-4

Jules Bruno Simo

Souop

fund-6

Stephan

Hagendorf

fund-8

Edna

Rosen

anw-1

Marie

Hoffmann

anw-6


Themen

Motivation und Grundlagen (fund)

1. Super Crunchers: How Thinking by Numbers Is the New Way to Be Smart

·         Dieses populärwissenschaftliche Buch sollte zusammengefasst werden, mit Betonung von interessanten Data Mining Studien/Beispielen

·         Ian Ayres, Bantam Books, ISBN-13: 9780553805406 (pdf auf Anfrage)

·         Die folgende Seite zum Buch enthält Vorhersagentools: http://islandia.law.yale.edu/ayres/predictionTools.htm .  Einige davon sollen als „Demo“ vorgestellt werden.

2. Was ist Data Mining sowie ihre größten Herausforderungen

·         Im 1. (kürzeren) Teil sollen die Gebiete / Aufgaben von Data Mining erläutert werden (freie Wahl der Quellen, z.B. u.a. Wikipedia)

·         Im 2. Teil sollen folgende Artikel vorgestellt werden (mit Vertiefung der Probleme eigener Wahl):

·         QIANG YANG, XINDONG WU, 10 CHALLENGING PROBLEMS IN DATA MINING RESEARCH, International Journal of Information Technology & Decision Making, Vol. 5, No. 4 (2006) 597–604

·         Gregory Piatetsky-Shapiro et. al., What Are The Grand Challenges for Data Mining?, KDD-2006 Panel Report, SIGKDD Explorations, Volume 8, Issue 2, 2006.

3. Gaußsche Verteilungen und Maximum  Likelihood Estimation

·         Folgende Tutorials sollten “in eigenen Worten und Bildern” (ggf. unter Hinzunahme weiterer Literatur) vorgestellt werden:

·         Andrew Moore, Gaussians, aus Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/gaussian.html

·         Andrew Moore, Maximum Likelihood Estimation, aus Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/mle.html

4. Regression: Vorhersagen von reelwertigen Größen

·         Folgende Tutorials sollten “in eigenen Worten und Bildern” (ggf. unter Hinzunahme weiterer Literatur) vorgestellt werden (der Stoff beider Tutorials überlappt sich). Es müssen nicht alle Regressionsalgorithmen vorgestellt werden (wichtiger ist die Verständlichkeit), aber es sollen einige vertieft vorgestellt werden:

·         Andrew Moore, Predicting Real-valued Outputs: An introduction to regression, aus Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/introreg.html

·         Andrew Moore, Eight Regression Algorithms, aus Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/bestregress.html 

5. Bayessche Netze

·         Folgende Tutorials sollten “in eigenen Worten und Bildern” (ggf. unter Hinzunahme weiterer Literatur) vorgestellt werden. Ggf. müssen wegen des Umfangs Teile ausgelassen werden (bitten auf Abhängigkeiten achten):

·         Andrew Moore, Bayesian Networks, aus Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/bayesnet.html

·         Andrew Moore, Learning Bayesian Networks, aus Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/bayesstruct.html

·         Weitere Quellen zu diesem Thema: Artur Andrzejak, Vorlesung “Data Mining mit Matlab”, Vorlesungen 12 und 13, http://www.zib.de/andrzejak/lehre/dm08/ 

6. Markovsche Entscheidungsprozesse

·         Folgendes Tutorial und Teile des folgenden Artikels sollten “in eigenen Worten und Bildern” (ggf. unter Hinzunahme weiterer Literatur) vorgestellt werden:

·         Andrew Moore, Markov Decision Processes, aus Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/mdp.html 

·         Leslie Pack Kaelbling, Michael Littman, Andrew Moore, Reinforcement Learning: A Survey (1996), Journal of Artificial Intelligence Research, Vol. 4, Year 1996, pages 237-285, http://www.autonlab.org/autonweb/14686 

7. SAX/iSAX – Symbolic Representation of Time Series

·         Folgende Artikel sollen vorgestellt werden (teilweise überlapender Inhalt):

·         Lin, J., Keogh, E., Lonardi, S. & Chiu, B., A Symbolic Representation of Time Series, with Implications for Streaming Algorithms,  proc. of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, San Diego, CA, June 13.  http://www.cs.ucr.edu/~eamonn/SAX.htm (dort Artikel Nr. 7, pdf  + Folien)

·         Jin Shieh and Eamonn Keogh,  iSAX: Indexing and Mining Terabyte Sized Time Series, SIGKDD 2008, http://www.cs.ucr.edu/~eamonn/iSAX/iSAX.html

8. Neuronale Netze

·         Folgendes Tutorial und Teile des folgenden Artikels sollten “in eigenen Worten und Bildern” (ggf. unter Hinzunahme weiterer Literatur) vorgestellt werden:

·         Andrew Moore, Neural Networks, aus Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/neural.html

·         Kapitel 2.4 aus: Paul D. McNelis,  Neural Networks in Finance: Gaining Predictive Edge in the Market, Academic Press 2004, ISBN-13: 978-0124859678 (Buch auf Anfrage)

Spezielle Techniken und Probleme (spez)

1. Das Phänomen der Überanpassung (Overfitting)

·         Im 1. Teil soll der Begriff der Überanpassung definiert und erläutert werden (freie Wahl der Quellen, z.B. Wikipedia; A. Andrzejak, Vorlesung “Data Mining mit Matlab”, u.a. Vorlesungen 7 und 11, http://www.zib.de/andrzejak/lehre/dm08/  )

·         Im 2. Teil soll folgendes Paper vorgestellt werden, insbesondere in Hinblick auf Überanpassung: Keogh, E., Lonardi, S. and Ratanamahatana, C.,  Towards Parameter-Free Data Mining,  proc. of the tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Seattle, WA, Aug 22-25, 2004, http://www.cs.ucr.edu/~eamonn/SAX.htm (dort Artikel Nr. 5, pdf  + Folien)

2. Finden von Motiven in Zeitreihen und Stolperfallen

·         Folgende Artikel sollen vorgestellt werden (teilweise überlapender Inhalt):

·         Keogh, J. Lin, and W. Truppel, Clustering of Time Series Subsequences is Meaningless: Implications for Past and Future Research,  proc. of the 3rd IEEE International Conference on Data Mining, Melbourne, FL. Nov 19-22, pp 115-122. http://www.cs.ucr.edu/~eamonn/SAX.htm (dort Artikel Nr. 10)

·         Chiu, B. Keogh, E., & Lonardi, S. (2003),  Probabilistic Discovery of Time Series Motifs,  In the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,  August 24 - 27, 2003, Washington, DC, USA, pp 493-498.  http://www.cs.ucr.edu/~eamonn/SAX.htm (dort Artikel Nr. 8)

3. Einführung in Feature Extraction

·         Im 1. (kürzeren) Teil soll der Begriff „Feature Extraction“ vorgestellt werden (freie Wahl der Quellen, z.B. Wikipedia; A. Andrzejak, Vorlesung “Data Mining mit Matlab”, u.a. Vorlesungen 2-5, http://www.zib.de/andrzejak/lehre/dm08/  )

·         Im 2. Teil soll der folgende Artikel vorgestellt werden (ggf. Teile auslassen, dafür weitere Literatur hinzuziehen, um die Verständlichkeit zu erhöhen):

·         Isabelle Guyon and Andre Elisseeff, An Introduction to Feature Extraction, in: Guyon Isabelle, Feature Extraction Foundations and Applications, Springer 2006, http://clopinet.com/fextract-book/

4. Abschätzen der Qualität von Features

·         Der folgende Artikel soll vorgestellt werden (ggf. weitere Literatur hinzuziehen, um die Verständlichkeit zu erhöhen):

·         Gerard Dreyfus and Isabelle Guyon, Assessment Methods, Kapitel 2 in: Guyon Isabelle, Feature Extraction Foundations and Applications, Springer 2006, http://clopinet.com/fextract-book/ (pdf auf Anfrage)

 

5. Statistische Evaluierung von Klassifikationsalgorithmen

·         Im 1. (kürzeren) Teil soll der Begriff „statistische Signifikanz“, „Null Hypothese“ und verwandte Begriffe vorgestellt werden (freie Wahl der Quellen, z.B. Wikipedia )

·         Im 2. Teil soll der folgende Artikel vorgestellt werden (ggf.  weitere Literatur hinzuziehen, um die Verständlichkeit zu erhöhen):

·         Forman, George; Cohen, Ira,  Beware the Null Hypothesis: Critical Value Tables for Evaluating Classifiers, HP Labs technical report, HPL-2005-70, http://www.hpl.hp.com/techreports/2005/HPL-2005-70.html

6. Erkennen von Anomalien in Zeitreihen

·         Folgendes Tutorial und folgender Artikel sollten “in eigenen Worten und Bildern” (ggf. unter Hinzunahme weiterer Literatur) vorgestellt werden:

·         Andrew Moore, Introductory overview of time-series-based anomaly detection algorithms, aus Statistical Data Mining Tutorials, http://www.autonlab.org/tutorials/biosurv.html  

·         Weng-Keen Wong, Andrew Moore, Gregory Cooper, Michael Wagner, Bayesian Network Anomaly Pattern Detection for Disease Outbreaks, Proceedings of the Twentieth International Conference on Machine Learning, 2003, 808-815, http://www.autonlab.org/autonweb/papers/y2003/14642.html  

Anwendungen (anw)

1.    Repräsentation und Indexieren von Zeitreihen in Finanzwesen

·         Folgende Artikel sollen vorgestellt werden:

·         Yu Suzuki, Kyoji Kawagoe (2006) Extended SAX, Extension of Symbolic Aggregate Approximation, for Financial Time Series Data Representation, http://www.ieice.org/~de/DEWS/DEWS2006/doc/4A-i8.pdf

·         T.C. Fu, F.L. Chung, R. Luk and C.M. Ng, Financial Time Series Indexing Based on Low Resolution Clustering,  in 4th IEEE International Conference on Data Mining (ICDM 2004) Workshop on Temporal Data Mining: Algorithms, Theory and Applications, pp. 5-14, Brighton, UK, 1 November, 2004, www.cs.rochester.edu/~taoli/workshop/program/tdm04_fu.pdf

2.    Vorhersagen auf künstlichen Daten mit Hilfe von Neuronalen Netzen

·         Der folgenden Modelle zur Datengenerierung und die jeweiliten Vorhersagestudien sollen vorgestellt werden: stochastic volatility/jump diffusion (SVJD) model, Markov regime switching (MRS) model,  distorted long-memory (DLM) model, Black-Scholes options pricing (BSOP) Model. Um die Methoden und Evaluierungskriterien zu erläutern soll ggf. weitere Literatur / Kapitel des Buches hinzugenomen werden:

·         Kapitel 5 aus: Paul D. McNelis,  Neural Networks in Finance: Gaining Predictive Edge in the Market, Academic Press 2004, ISBN-13: 978-0124859678, (Buch auf Anfrage)

3.    Vorhersagen auf realen Daten mit Hilfe von Neuronalen Netzen

·         Der folgenden Vorhersagestudien sollen vorgestellt werden: Zahlungsverzug von Kreditkarten; Bankpleiten; Vorhersage von implied Volatility. Um die Methoden und Evaluierungskriterien zu erläutern soll ggf. weitere Literatur / Kapitel des Buches hinzugenomen werden:

·         Kapitel 8 und 9 aus: Paul D. McNelis,  Neural Networks in Finance: Gaining Predictive Edge in the Market, Academic Press 2004, ISBN-13: 978-0124859678, (Buch auf Anfrage)

4.    Optimierung eines Aktienportfolios mit Matlab

·         Bemerkung: dieses Thema hat mehr mit dem Gebiet der Optimierung zu tun als mit Data Mining. Bei entsprechenden Kenntnissen sind Demos in Matlab willkommen.

·         Kapitel 2.4 aus Paolo Brandimarte, Numerical Methods in Finance and Economics: A MATLAB-Based Introduction, 2nd Edition, Wiley 2006, ISBN: 978-0-471-74503-7, (Buch auf Anfrage)

5.    Erkennen von Wendepunkten in Finanzmärkten

·         Folgende Artikel sollen vorgestellt werden (ggf. nur Teile, dafür weitere Literatur hinzuziehen, um die Verständlichkeit zu erhöhen):

·         Piotr Kokoszka, Greqam Core, Change--point detection in GARCH models: asymptotic and bootstrap tests, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.7.353

·         Kyong Joo Oh, Kyoung-Jae Kim and Ingoo Han, Two-Stage Forecasting Using Change-Point Detection and Artificial Neural Networks for Stock Price Index, http://afis.kaist.ac.kr/download/inner_con072.pdf

6.    Erkennen von Insidergeschäften anhand von Änderungen der Optionspreise mit Matlab

·         Bemerkung: dieses Thema hat einen praktischen Anteil. Es soll in Matlab anhand von realen Daten evaluiert werden, inwieweit man solche Geschäfte durch Klassifikationsalgorithmen tatsächlich erkennen kann. Aufgrund des Programmieraufwandes wird bei diesem Thema die Ausarbeitung erlassen.

·         Im 1. (kürzeren) Teil sollen die Grundlagen von Optionen (Calls und Puts) erläutern werden (freie Wahl der Quellen, z.B. u.a. Wikipedia)

·         Im 2. Teil soll die Erkennungsmethode, Code und Evaluation der Ergebnisse vorgestellt werden (Erläuterung und Daten auf Anfrage)