Seminar 32253: "Proactive Management of Computer Systems

Artur Andrzejak (ZIB)

HU Berlin, Wintersemester 2007 / 2008

 

Inhalte:

Proaktives Management der Computersysteme beschäftigt sich mit den Methoden der frühzeitigen Erkennung und Beseitigung von Ausfällen, Anomalien, Leistungsabfällen, Intrusionen, Angriffen und weiteren unerwünschten Situationen. Neben den traditionellen Ansätzen der Anomalienerkennung werden wir in dem Seminar Methoden für Vorhersage von Ereignissen und ihre Einsatzszenarien behandeln. Weitere Themen beinhalten Diagnose (root cause analysis), schnelle Beseitigung von Fehlern (Recovery Oriented Computing).

 

Organisatorisches:

·        Die Besprechung fand am 17.10.2007 um 13:00 in RUD 26, 1'306 statt.

·        Das Seminar fand in zwei Blöcken am ZIB in Dahlem (Anfahrt) statt:

T1: Freitag, 14.12.07 ab 10:15 (s.t) am ZIB, „Roter Salon“, Raumnummer 4027. 

T2: Samstag, 12.01.08 ab 10:15 (s.t) am ZIB, Seminarraum 2006 (Eingang Rundbau).

·        Spätestens eine Woche vor dem Vortrag sollen die fertigen Folien der Präsentation zugeschickt werden.

·        Die Vorträge können wahlweise auf deutsch oder auf englisch vorbereitet und durchgeführt werden. Die Länge eines Vortrages soll ca. 40 Minuten (1 Person) bzw. ca. 75 Minuten (2 Personen) betragen.

·        Bitte die Folien (pdf oder ppt) direkt nach dem Vortrag zuschicken, diese werden ins Web eingebunden. Die Ausarbeitung kann bis zum 15.03.2008 nachgereicht werden (1-Personen Vorträge: mind. 8 Seiten, 2-Personen Vorträge: mind. 12 Seiten).

·        Die Vorträge werden gegenseitig beurteilt (die „Gewinner“ erwartet der erwähnte Sonderpreis). Als Bewertungskriterien wird u.a. die Checkliste der folgenden Präsentation verwendet: Tipps für Vorträge.

·        Hier finden Sie den Bewertungsbogen. Falls nicht bereits geschehen, füllen Sie bitte diesen bis Mittwochabend, den 16.01.08 aus, und schicken mir per Email. Auch wenn das noch ein bisschen Arbeit kostet, kann ein ehrliches Feedback Ihren Kommilitonen sehr helfen, insbesondere in Form von (ausführlichen) Bemerkungen. Deshalb würde ich mich freuen, möglichst viele dieser Bögen zu bekommen.

 

Hier sind die Links zu den eingereichten Folien und zu den Ausarbeitungen.

 

Referenten und Termine:

Referent A

Referent Series

Vortrag

Termin

Benjamin Gehrels

Real-1

1

Frank Ewert

Robert Schumann

Real-3

1

Michael Kreikenbaum

 

Anomaly-1

1

Rainer Rehak

 

Anomaly-5

1

Matthias Bindernagel

Root-1

1

Michael Schieschke

 

Root-3

1

 

Mathias Müller

Erik Neumann

Soft-2

2

Matthias Höschel

 

Soft-3

2

Stefan Keidel

Michael Rinck

Aging-1

2

Anita Liske

Anne-Kathrin Albrecht

Nicht erschienen

2

Thomas Krause

Alexandra Danilkina

Aging-3

2

Fabian Fier

 

Tech-2

2


Themen

 

Motivation: Real Cases and Problems (Real)

1. Self-Healing in modern operating systems

·         Vortrag für 1 Person

·         Michael W. Shapiro
Self-healing in modern operating systems
ACM Queue, 2(9), pp. 66-75, 2004.

·         http://www.acmqueue.org/modules.php?name=Content&pa=showpage&pid=242

2. Cheap recovery: A Key to Self-Managing State

·         Ohne Abschnitt 4.2, aber auf jedem Fall mit Abschnitt 7

·         ANDREW C. HUANG and ARMANDO FOX
Cheap Recovery: A Key to Self-Managing State

·         http://swig.stanford.edu/~ach/Current/pubs/dstore-tos2005.pdf

3. Combining Visualization and Statistical Analysis to Improve Operator Confidence

·         Peter Bodik et al.
Combining Visualization and Statistical Analysis to Improve Operator Confidence and Efficiency for Failure Detection and Localization

·         http://swig.stanford.edu/~candea/papers/visualization/analysis.pdf

4. Cost of Downtime and Recovery Oriented Computing (ROC)

·         Dave Patterson
A Simple Way to Estimate the Cost of Downtime

·         http://roc.cs.berkeley.edu/talks/LISA.ppt

·         http://roc.cs.berkeley.edu/papers/Cost_Downtime_LISA.pdf

UND

·         Dave Patterson et al.
Recovery Oriented Computing (ROC): Motivation, Definition, Techniques, and Case Studies

·         http://research.microsoft.com/~emrek/pubs/ROC_TR02-1175.pdf

 

Anomaly and Intrusion Detection (Anomaly)

1. An Intrusion detection Model

·         Dorothy E. Denning
An Intrusion detection Model

·         www.cs.ucsb.edu/~ckrintz/racelab/sec/papers/ids-model.rtf

2. Combining Filtering and Statistical Methods for Anomaly Detection

·         Augustin Soule et al.

Combining Filtering and Statistical Methods for Anomaly Detection

·         http://www.usenix.org/events/imc05/tech/full_papers/soule/soule.pdf

3. In-Network PCA and Anomaly Detection

·         Mit einer Einführung in die PCA aus der Vorlesung 3 von http://www.zib.de/andrzejak/lehre/dm0506/

·         Ling Huang et al.:
In-Network PCA and Anomaly Detection

·         http://www.eecs.berkeley.edu/Pubs/TechRpts/2007/EECS-2007-10.html

4. A statistical approach to predictive detection

·         Joseph L. Hellerstein et al.
A statistical approach to predictive detection

·         Bitte das File bei Artur Andrzejak anfordern

5. Fundamentals of Change Point Detection and the CUSUM-Algorithm

·         Teile des Abschnitts 2

·         Michèle Basseville and Igor V. Nikiforov
Detection of Abrupt Changes - Theory and Application

·         http://www.irisa.fr/sisthem/kniga/

6. Bayesian Methods in Change Point Detection

·         Ryan Prescott Adams, David J.C. MacKay
Bayesian Online Changepoint Detection

·         www.inference.phy.cam.ac.uk/rpa23/papers/rpa-changepoint.pdf

UND

·         Bonnie K. Ray, Ruey S. Tsay
Bayesian Methods for Change-point Detection in Long-range Dependent Processes

·         www.research.ibm.com/people/b/bonnier/bchgptlrd.pdf

 

 

Root Cause Analysis (Root)

1. Performance Debugging for Distributed Systems of Black Boxes

·         Marcos K. Aguilera et al.
Performance Debugging for Distributed Systems of Black Boxes

·         http://pdos.csail.mit.edu/~athicha/papers/blackboxes:sosp03.pdf

 

2. An Active Approach to Characterizing Dynamic Dependencies for Problem Determination

·         A. Brown et al.

An Active Approach to Characterizing Dynamic Dependencies for Problem Determination in a Distributed Environment

·         http://roc.cs.berkeley.edu/papers/im01.pdf

3. Event correlation

·         Ein Vortrag zur „freien Gestaltung“: es sollte Literatur zu diesem Thema selbständig erarbeitet werden und der Vortrag vorbereitet werden

 

 

Software and Debugging (Soft)

1. LeakBot 

·         Nick Mitchell and Gary Sevitsky
LeakBot - An Automated and Lightweight Tool for Diagnosing Memory Leaks in Large Java Applications

·         http://citeseer.ist.psu.edu/731453.html

2. Bug isolation via remote program sampling

·         Ben Liblit, Alex Aiken, Alice X. Zheng, and Michael I. Jordan

Bug isolation via remote program sampling

·         http://pages.cs.wisc.edu/~liblit/bug-isolation/

 

3. Memory leaks in Java and loitering objects

·         Maayan Goldstein,  Onn Shehory, Yaron Weinsberg
Can Self-Healing Software Cope With Loitering?

·         http://maayan.goldstein.googlepages.com/p9_goldstein.pdf

 

4. Essays on Software

·         Richard P. Gabriel and Ron Goldman

Conscientious Software

·         www.dreamsongs.com/Files/ConscientiousSoftwareCC.pdf

UND

·         Daniel Jackson and Martin Rinard
Software analysis: a roadmap

·         www.cag.lcs.mit.edu/~rinard/paper/icse00.pdf

 

5. Aspect-Oriented Programming

·         Ein Vortrag zur „freien Gestaltung“: es sollte Literatur zu diesem Thema selbständig erarbeitet werden und der Vortrag vorbereitet werden

 

 

Software Aging (Aging)

1. Basics of software aging

·           Kishor S. Trivedi, Kalyanaraman Vaidyanathan and Katerina Goˇseva-Popstojanova

·           Modeling and Analysis of Software Aging and Rejuvenation   

·           http://citeseer.ist.psu.edu/497329.html

UND

·           Lei Li, Kalyanaraman Vaidyanathan and Kishor S. Trivedi

·           An Approach for Estimation of Software Aging in a Web Server   

·           File bitte bei Artur Andrzejak anfordern

2. Software Rejuvenation

·         Ann T. Tai  IA Tech, Inc. Kam S. Tso
A Performability-Oriented Software Rejuvenation Framework for Distributed Applications

·         File bitte bei Artur Andrzejak anfordern

3. Adaptive Software Rejuvenation

·         András Pfening, Sachin Garg, Antonio Puliafito, Miklós Telek, Kishor S. Trivedi
Optimal Software Rejuvenation for Tolerating Soft Failures

·         http://citeseer.ist.psu.edu/422360.html

 

Selected Techniques (Tech)

1. Markov Chains (Markoffsche Ketten)

·         Ein Vortrag zur „freien Gestaltung“: es sollte Literatur zu diesem Thema selbständig erarbeitet werden und der Vortrag vorbereitet werden

 

Es können aber Teile aus dem Paper benutzt werden:

·         Xianping Ge, Padhraic Smyth
Segmental Semi-Markov Models for Change-Point Detection with Applications to Semiconductor Manufacturing

·         http://citeseer.ist.psu.edu/315397.html

 

2. Support Vector Machines and Prediction

·         Ein Vortrag zur „freien Gestaltung“: es sollte Literatur zu diesem Thema selbständig erarbeitet werden und der Vortrag vorbereitet werden

 

Es können aber Teile aus dem Paper benutzt werden:

·         K.-R. Müller, A.J. Smola, G. Rätsch, B. Schölkopf, J. Kohlmorgen, V. Vapnik
Using Support Vector Machines for Time Series Prediction

·         http://citeseer.ist.psu.edu/316526.html