Seminar 32 253: "Self-Management and Reliability"
Artur Andrzejak (ZIB)
HU Berlin, Sommersemester 2007
Inhalte:
Wir behandeln Themen aus dem Bereich
des Selbstmanagements von
Computersystemen mit Betonung der Aspekte der Zuverlässigkeit.
Typische Beispiele sind Anomalienerkennung, Software Rejuvenation oder
Kapazitätsvorhersage. Dabei werden u.a. Methoden des Machine
Learnings / KI eingeführt, die für Analyse und Kontrolle der
Systeme einsetzbar sind. Gleichzeitig schauen wir uns auch
Lösungen in realen Systemen an, z.B. dem Google File System (GFS).
Achtung:
- Eine Woche vor dem Vortrag
sollen die fertigen Folien der Präsentation mir zugeschickt werden.
- Der Veranstaltungsort
ist:
- ZIB, Takustr.7, 14195
Berlin-Dahlem, Seminarraum 2006 (Eingang Rundbau) - Anfahrt.
- Die Termine sind:
- A. Freitag, 4.05.07 von 10.30 s.t.
bis ca. 17.30
- B. Samstag, 23.06.07 von 10.30
s.t. bis ca. 17.30
- Die endgültigen Folien der
Präsentation (pdf oder PowerPoint) sollten direkt nach dem Vortrag
mir zugeschickt werden, und werden hier reingestellt.
- Die Ausarbeitung kann bis Semesterende
nachgereicht werden (mindestens 6 Seiten an Länge).
- Die Unterlagen, die nicht im WWW
verfügbar sind, können bei Artur Andrzejak abgeholt werden:
ZIB, Raum 3152.
Referenten und Termine:
| Referent |
Vortrag |
Termin |
Präsentation |
Ausarbeitung |
Martin Herzog
|
1 |
A
|
P1
|
A1
|
Eric Redlin
|
2 |
A
|
P2
|
A2
|
Irina Kacarska
|
3 |
A
|
P3
|
A3
|
|
4 |
|
P4
|
A4
|
|
5 |
|
P5
|
A5
|
|
6 |
|
P6
|
A6
|
|
7 |
|
P7
|
A7
|
Mathias Müller
|
8 |
B
|
P8
|
bester Vortrag
|
Christoph Sawade
|
9 |
B
|
P9
|
bester Vortrag
|
| Glenn Schütze |
10 |
B
|
P10
|
A10
|
Daniel Stoye
|
11 |
B
|
P11
|
A11
|
|
12 |
|
P12
|
A12
|
|
13 |
|
P13
|
A13
|
Motivation: Reale Systeme
1. Probleme in großen Systemen
- Architecture, operation, and dependability of large-scale
Internet services: three case studies (2002)
- David Oppenheimer, David A. Patterson
- http://citeseer.ist.psu.edu/oppenheimer02architecture.html
- ls1a
- Google File System (preferably part on reliability)
- Sanjay Ghemawat, Howard Gobioff, and Shun-Tak
Leung
- http://labs.google.com/papers/gfs.html
- ls1b
2. Finden von Fehlerursachen in großen Systemen
- Path-Based Failure and Evolution Management
(2004)
- Mike Y. Chen, Anthony Accardi, Emre Kcman, Jim Lloyd, Dave
Patterson, Armando Fox
- http://citeseer.ist.psu.edu/653735.html
- ls2a
- Pinpoint: Problem Determination in Large, Dynamic Internet
Services (2002)
- Mike Y. Chen, Emre Kiciman, Eugene Fratkin, Armando Fox, Eric
Brewer
- http://citeseer.ist.psu.edu/chen02pinpoint.html
- ls2b
Erkennen von Anomalien
3. Grundlagen der Anomalieerkennung
- An Introduction to Intrusion Detection
- Aurobindo Sundaram
- http://www.acm.org/crossroads/xrds2-4/intrus.html
- ad1a
- Anomaly Detection (Slides - Chapter 10 of Introduction to data
mining)
- Pang-Ning Tan, Michael Steinbach, Vipin Kumar
- http://www-users.cs.umn.edu/~kumar/dmbook/index.php
- ad1b
4. Anwendungen der Anomalieerkennung
- Application of Anomaly Detection Algorithms for Detecting SYN
Flooding Attacks
- Vasilios A. Siris and Fotini Papagalou
- www.ist-scampi.org/publications/papers/siris-globecom2004.pdf
- ad2a
- Design and Implementation of an Anomaly Detection System: an
Empirical Approach
- Luca Deri, Stefano Suin, Gaia Maselli
- ad2b
Software Aging (Softwarealterung)
5. Grundlagen der Softwarealterung
- Modeling and Analysis of Software Aging and
Rejuvenation
- Kishor S. Trivedi, Kalyanaraman Vaidyanathan and Katerina
Goˇseva-Popstojanova
- http://citeseer.ist.psu.edu/497329.html
- sa1a
- An Approach for Estimation of Software Aging in a Web
Server
- Lei Li, Kalyanaraman Vaidyanathan and Kishor S. Trivedi
- sa1b
6. Softwarealterung und Verjungung (rejuvenation)
- A Performability-Oriented Software Rejuvenation Framework for
Distributed Applications
- Ann T. Tai IA Tech, Inc. Kam S. Tso
- sa2a
7. Adaptive Softwareverjungung
- Optimal Software Rejuvenation for Tolerating Soft
Failures
- András Pfening, Sachin Garg, Antonio Puliafito,
Miklós Telek, Kishor S. Trivedi
- http://citeseer.ist.psu.edu/422360.html
- sa3a
Datenanalyse und Vorhersagen
8. Datenanalyse in großen Systemen (Google)
- Interpreting the Data: Parallel Analysis with
Sawzall
- Rob Pike, Sean Dorward, Robert Griesemer, Sean
Quinlan
- http://labs.google.com/papers/sawzall.html
- da1a
9. Vorhersagetechniken für das Management der Computersysteme
- Predictive algorithms in the management of computer
systems
- R. Vilalta, C. V. Apte, J. L. Hellerstein, S. Ma, and S. M.
Weiss
- http://www.research.ibm.com/journal/sj/413/vilalta.html
- da2a
10. Vorhersagen von kritischen Ereignissen
- Critical Event Prediction for
Proactive Management in Largescale Computer Clusters
- R. K. Sahoo, A. J. Oliner , I. Rish, M. Gupta, J.E.
Moreira, S. Ma
- www.research.ibm.com/people/r/rish/papers/I37.sahoo.pdf
- da3a
- Prediction-Based Software
Availability Enhancement
- Salfner, F. Hoffmann, G. Malek, M.
11. Vorhersagetechniken für Debugging (off-topic, aber
interessant)
- Scalable Statistical Bug
Isolation
- Ben Liblit, Mayur Naik, Alice X.
Zheng, Alex Aiken, Michael I. Jordan
- www.cs.berkeley.edu/~alicez/pldi-2005.pdf
- da4a
Change Point Detection
12. Grundlagen der Change Point Detection
- Detection of Abrupt Changes - Theory and Application - parts of
Section 2
- Michèle Basseville and Igor V.
Nikiforov
- http://www.irisa.fr/sisthem/kniga/
- cp1a
13. Bayesian Methoden in Change Point Detection
- Bayesian Online Changepoint Detection
- Ryan Prescott Adams, David J.C. MacKay
- www.inference.phy.cam.ac.uk/rpa23/papers/rpa-changepoint.pdf
- cp2a
- Bayesian Methods for Change-point Detection in Long-range
Dependent Processes
- Bonnie K. Ray, Ruey S. Tsay
- www.research.ibm.com/people/b/bonnier/bchgptlrd.pdf
- cp2b