@phdthesis{Wiesendahl2018,
  type      = {Master Thesis},
  author    = {Sebastian Wiesendahl},
  title     = {Event-Log Analyse mittels Clustering und Mustererkennung},
  url       = {https://nbn-resolving.org/urn:nbn:de:hbz:832-epub4-12994},
  year      = {2018},
  abstract  = {Die Analyse von Log-Dateien als Spezialfall des Text Mining dient in der Regel dazu Laufzeitfehler oder Angriffe auf ein Systems nachzuvollziehen. Gegen erkannte Fehlerzust{\"a}nde k{\"o}nnen Ma{\"s}nahmen ergriffen werden, um diese zu vermeiden. Muster in semi-strukturierten Log-Dateien aus dynamischen Umgebungen zu erkennen ist komplex und erfordert einen mehrstufigen Prozess. Zur Analyse werden die Log-Dateien in einen strukturierten Event-Log (event log) {\"u}berf{\"u}hrt. Diese Arbeit bietet dem Anwender ein Werkzeug, um h{\"a}ufige (frequent) oder seltene (rare) Ereignisse (events), sowie temporale Muster (temporal patterns) in den Daten zu erkennen. Dazu werden verschiedene Techniken des Data-Minig miteinander verbunden. Zentrales Element ist dieser Arbeit das Clustering. Es wird untersucht, ob durch Neuronale Netze mittels un{\"u}berwachtem Lernen (Autoencoder) geeignete Repr{\"a}sentationen (embeddings) von Ereignissen erstellt werden k{\"o}nnen, um syntaktisch und semantisch {\"a}hnliche Instanzen zusammenzufassen. Dies dient zur Klassifikation von Ereignissen, Erkennung von Ausrei{\"s}ern (outlier detection), sowie zur Inferenz einer nachvollziehbaren visuellen Repr{\"a}sentation (Regular Expressions; Pattern Expressions). Um verborgene Muster in den Daten zu finden werden diese mittels sequenzieller Mustererkennung (Sequential Pattern Mining) und dem auffinden von Episoden (Episode Mining) in einem zweiten Analyseschritt untersucht. Durch das Pattern Mining k{\"o}nnen alle enthaltenen Muster im einem Event-Log gefunden werden. Der enorme Suchraum erfordert effiziente Algorithmen, um in angemessener Zeit Ergebnisse zu erzielen. Das Clustering dient daher ebenfalls zur Reduktion (pruning) des Suchraums f{\"u}r das Pattern Mining. Um die Menge der Ergebnisse einzuschr{\"a}nken werden verschiedene Strategien auf ihre praktische Tauglichkeit hin untersucht, um neue Erkenntnisse zu erlangen. Zum einen die Mustererkennung mittels verschiedener Kriterien (Constrained Pattern Mining) und zum anderen durch die N{\"u}tzlichkeit (High Utility Pattern Mining) von Mustern. Interessante temporale Muster k{\"o}nnen auf anderen Log-Dateien angewendet werden, um diese auf das Vorkommen dieser Muster zu untersuchen.},
  language  = {de}
}