Event-Log Analyse mittels Clustering und Mustererkennung
- Die Analyse von Log-Dateien als Spezialfall des Text Mining dient in der Regel dazu Laufzeitfehler oder Angriffe auf ein Systems nachzuvollziehen. Gegen erkannte Fehlerzustände können Maßnahmen ergriffen werden, um diese zu vermeiden. Muster in semi-strukturierten Log-Dateien aus dynamischen Umgebungen zu erkennen ist komplex und erfordert einen mehrstufigen Prozess. Zur Analyse werden die Log-Dateien in einen strukturierten Event-Log (event log) überführt. Diese Arbeit bietet dem Anwender ein Werkzeug, um häufige (frequent) oder seltene (rare) Ereignisse (events), sowie temporale Muster (temporal patterns) in den Daten zu erkennen. Dazu werden verschiedene Techniken des Data-Minig miteinander verbunden. Zentrales Element ist dieser Arbeit das Clustering. Es wird untersucht, ob durch Neuronale Netze mittels unüberwachtem Lernen (Autoencoder) geeignete Repräsentationen (embeddings) von Ereignissen erstellt werden können, um syntaktisch und semantisch ähnliche Instanzen zusammenzufassen. Dies dient zur Klassifikation von Ereignissen, Erkennung von Ausreißern (outlier detection), sowie zur Inferenz einer nachvollziehbaren visuellen Repräsentation (Regular Expressions; Pattern Expressions). Um verborgene Muster in den Daten zu finden werden diese mittels sequenzieller Mustererkennung (Sequential Pattern Mining) und dem auffinden von Episoden (Episode Mining) in einem zweiten Analyseschritt untersucht. Durch das Pattern Mining können alle enthaltenen Muster im einem Event-Log gefunden werden. Der enorme Suchraum erfordert effiziente Algorithmen, um in angemessener Zeit Ergebnisse zu erzielen. Das Clustering dient daher ebenfalls zur Reduktion (pruning) des Suchraums für das Pattern Mining. Um die Menge der Ergebnisse einzuschränken werden verschiedene Strategien auf ihre praktische Tauglichkeit hin untersucht, um neue Erkenntnisse zu erlangen. Zum einen die Mustererkennung mittels verschiedener Kriterien (Constrained Pattern Mining) und zum anderen durch die Nützlichkeit (High Utility Pattern Mining) von Mustern. Interessante temporale Muster können auf anderen Log-Dateien angewendet werden, um diese auf das Vorkommen dieser Muster zu untersuchen.
Author: | Sebastian Wiesendahl |
---|---|
URN: | urn:nbn:de:hbz:832-epub4-12994 |
Referee: | Heide Faeskorn-Woyke |
Document Type: | Master's Thesis |
Language: | German |
Publishing Institution: | Hochschulbibliothek der Technischen Hochschule Köln |
Granting Institution: | Technische Hochschule Köln |
Date of Publication (online): | 2019/01/04 |
GND-Keyword: | Data Mining; Text Mining |
Tag: | Log -Daten-Analyse |
Institutes: | Informatik und Ingenieurwissenschaften (F10) / Fakultät 10 / Institut für Informatik |
CCS-Classification: | H. Information Systems |
Dewey Decimal Classification: | 000 Allgemeines, Informatik, Informationswissenschaft |
JEL-Classification: | Z Other Special Topics |
Open Access: | Open Access |
Licence (German): | ![]() |