Refine
Document Type
- Bachelor Thesis (2)
- Master's Thesis (1)
Language
- German (3) (remove)
Has Fulltext
- yes (3)
Keywords
- Data Mining (3) (remove)
Faculty
- Fakultät 10 / Institut für Informatik (3) (remove)
Die vorliegende Bachelorarbeit in Kooperation mit der Deutsche Sporthochschule Köln hat die Konzeption und Entwicklung eine Software, mit der Daten aus der Fußball-Bundeliga 2011–2012 mit Hilfe einer Heatmap erzeugt werden, zum Inhalt. Die Software soll die Torpositionen vor einem Offensivspiel zu verschiedenen Zeitpunkten des Spieles veranschaulichen.
Bei der Arbeit wurden zwei Cluster-Methoden betrachtet, nämlich die Density-Based Spatial Clustering of Applications with Noise (DBSCAN) und der Kerndichtschätzer (kernel density estimation). DBSCAN ist ein bekannter Cluster-Algorithmus und wurde mit dem Software-Tool WEKA untersucht. Es zeigte sich, dass dieses Verfahren nicht so gut für diese Aufgabenstellung geeignet ist, da einzelnen Cluster nicht so gut unterschieden werden konnten. Der Kerndichtschätzer ist dagegen ein statistisches Verfahren zur Schätzung einer Dichte, der auch in Geoinformationssystemen verwendet wird. Dieses Verfahren ist besser für die Aufgabenstellung geeignet.
Nach der Analyse der Daten im XML-Format wurde der Algorithmus Kerndichtschätzer für die Deutsche Sporthochschule Köln in detr Programmiersprache Java implementiert. Die Software untersucht die Bildung von Clustern bzw. die Torschussdichte mit der Absicht, ein Verhalten oder Muster vor einem Offensivspiel zu erkennen. Sie enthält eine sehr gute Visulisierung der verschiedenen Situationen, die zum Torschuss führten, anhand eines Fußballfeldes
Die Analyse von Log-Dateien als Spezialfall des Text Mining dient in der Regel dazu Laufzeitfehler oder Angriffe auf ein Systems nachzuvollziehen. Gegen erkannte Fehlerzustände können Maßnahmen ergriffen werden, um diese zu vermeiden. Muster in semi-strukturierten Log-Dateien aus dynamischen Umgebungen zu erkennen ist komplex und erfordert einen mehrstufigen Prozess. Zur Analyse werden die Log-Dateien in einen strukturierten Event-Log (event log) überführt. Diese Arbeit bietet dem Anwender ein Werkzeug, um häufige (frequent) oder seltene (rare) Ereignisse (events), sowie temporale Muster (temporal patterns) in den Daten zu erkennen. Dazu werden verschiedene Techniken des Data-Minig miteinander verbunden. Zentrales Element ist dieser Arbeit das Clustering. Es wird untersucht, ob durch Neuronale Netze mittels unüberwachtem Lernen (Autoencoder) geeignete Repräsentationen (embeddings) von Ereignissen erstellt werden können, um syntaktisch und semantisch ähnliche Instanzen zusammenzufassen. Dies dient zur Klassifikation von Ereignissen, Erkennung von Ausreißern (outlier detection), sowie zur Inferenz einer nachvollziehbaren visuellen Repräsentation (Regular Expressions; Pattern Expressions). Um verborgene Muster in den Daten zu finden werden diese mittels sequenzieller Mustererkennung (Sequential Pattern Mining) und dem auffinden von Episoden (Episode Mining) in einem zweiten Analyseschritt untersucht. Durch das Pattern Mining können alle enthaltenen Muster im einem Event-Log gefunden werden. Der enorme Suchraum erfordert effiziente Algorithmen, um in angemessener Zeit Ergebnisse zu erzielen. Das Clustering dient daher ebenfalls zur Reduktion (pruning) des Suchraums für das Pattern Mining. Um die Menge der Ergebnisse einzuschränken werden verschiedene Strategien auf ihre praktische Tauglichkeit hin untersucht, um neue Erkenntnisse zu erlangen. Zum einen die Mustererkennung mittels verschiedener Kriterien (Constrained Pattern Mining) und zum anderen durch die Nützlichkeit (High Utility Pattern Mining) von Mustern. Interessante temporale Muster können auf anderen Log-Dateien angewendet werden, um diese auf das Vorkommen dieser Muster zu untersuchen.
Aufbauend auf einer vorherigen Arbeit, die sich mit der Implementierung einer Komponentezum Auslesen mdizinischer Sensordaten mithilfe eines Arduino und eines Raspberry Pi befasst hat, beschäftigt sich diese Arbeit mit der Visualisierung sowie Auswertung der durch das System gesammelten Daten. Das Ziel dieser Arbeit ist es, über einen Zeitraum von etwa drei Monaten mithilfe der Komponente Daten zu sammeln und diese Daten in einem sinnvollen Kontext visuell darzustellen. Zudem sollen diese Daten mithilfe unterschiedlicher Algorithmen des Maschinellen Lernens ausgewertet werden,
um mögliche Muster und Zusammenhänge erkennen zu können. In diesem Kontext konnte die Hypothese aufgestellt werden, dass ein Zusammenhang zwischen der Körpertemperatur und der Sauerstoffsättigung im Blut besteht.