Refine
Year of publication
Document Type
- Master's Thesis (21)
- Bachelor Thesis (13)
Has Fulltext
- yes (34)
Keywords
- Data Mining (4)
- Big Data (3)
- Datenbank (3)
- Hadoop (3)
- NoSQL-Datenbanksystem (3)
- Agile Softwareentwicklung (2)
- Data Ware House (2)
- Data-Warehouse-Konzept (2)
- E-Learning (2)
- FHIR (2)
Faculty
Machbarkeitsanalyse über den Aufbau eines Enterprise Data Warehouse auf Basis von Apache Hadoop
(2016)
Die vorliegende Masterthesis liefert eine Einführung in die Themen Data Warehouse, Big Data und Apache Hadoop. Sie präsentiert grundlegende Data-Warehouse-Kon-zepte und überprüft, inwieweit diese mit dem Apache Hadoop Software Framework zu realisieren sind. Hierbei wird sowohl eine technische Überprüfung vorgenommen als auch verschiedene Szenarien veranschaulicht, wie Hadoop inhaltlich sinnvoll in bestehende Systeme integriert werden kann. Inhaltlich wird über das Thema Big Data an die Notwendigkeit einer solchen Überprüfung herangeführt.
Die Menge an Informationen steigt seit Jahren immer weiter an. Dies lässt sich auch leicht an der Entwicklung der Speichermedien feststellen. So bot die erste 5,25-Zoll Festplatte, eine Seagate ST- 506, lediglich 5 MB Speicherkapazität. Heutige 3,5-Zoll Festplatten verfügen hingegen über bis zu 8 TB Speicherkapazität und werden ebenso ausgenutzt wie ihre Vorgänger aus der Anfangszeit der Magnet-festplatten. Zusätzlich geht die Tendenz dorthin, alle Daten jederzeit zur Verfügung zu haben. Sei es daheim am Rechner, auf der Arbeit oder per Tablet oder Smartphone unterwegs, dank der immer mehr verbreiteten Cloud-Speicher stehen die Daten jederzeit zur Verfügung. Mit dem enormen Zuwachs an Dateien und auch an Dateiformaten wird es jedoch immer schwieriger, diese Masse zu überblicken und bestimmte Inhalte in annehmbarer Zeit wiederzufinden. Beispiels- weise hostet der Internetdienst Flikr die schier unüberschaubare Menge von über 6 Milliarden Bilder. Doch nicht nur die großen Servicedienstleister besitzen große Datenmengen, auch Einzelpersonen haben derweil große Musik- und Bildsammlungen, zumal jedes aktuelle Smartphone über eine Kamera verfügt. Jeder ist somit praktisch zu jeder Zeit in der Lage, ein Foto in hochauflösender Qualität zu schießen und direkt in seine Cloud hochzuladen. Diese Datenmengen manuell zu ordnen, erfordert einen sehr hohen Aufwand, den nicht alle Menschen gewillt sind zu leisten. Vor allem am Smartphone geht dieses Benennen und Einsortieren aufgrund der vorhandenen Technik nicht so leicht von der Hand. In der Praxis sammeln sich die Aufnahmen mit der Zeit immer weiter an und letztlich befinden sich mehrere hundert wenn nicht gar tausend Bilder in einem Ordner, welche sich namentlich meist nur durch eine fort- laufende Nummer unterscheiden. Diesen Umstand Rechnung tragend, treten Metainfor-mationen immer mehr in den Vordergrund. So speichern die zuvor genannten mobilen Alleskönner meist viele informative Daten mit in den Bilddateien ab. Beispielsweise kann dank der eingebauten GPS-Module der Ort der Aufnahme aus den Bildern ausgelesen werden. Die Dienstleister für Cloud-speicher nutzen diese Informationen jedoch nur marginal aus und bieten dem Endanwender kaum Unterstützung bei der Suche nach be- stimmten Inhalten, wie etwa beim OX Drive, der Cloudlösung der Firma Open-Xchange.
Die vorliegende Master Thesis zeigt, wie dieser Cloud-Speicher, welcher in die Hauseigene OX App Suite integriert ist, um sogenannte Smartfeatures erweitert werden kann. Diese Smartfeatures sollen dem Endan-wender helfen, die Daten einfacher – wenn nicht gar automatisch – zu ordnen und somit leichter bestimmte Inhalte wiederzufinden. Kernthema dieser Arbeit ist daher die auto- matische Extraktion von unterschiedlichen Metadaten aus diversen Dateiformaten. Des Weiteren wird gezeigt, wie diese Daten effizient gespeichert und abgefragt werden können. Die Thesis stellt hierzu den Document Store Elasticsearch vor und vergleicht diesen mit seinem Konkurrenten Apache Solr.
Das Ziel der vorliegenden Bachelorarbeit war es, das In-Memory-Konzept innerhalb einer Oracle Datenbank auf neue Mechanismen, Funktionen und Methoden zu untersuchen. Dazu wurde eine Datenbank erstellt und mit Beispieldaten bestückt. Diese Beispieldaten sind Aktienwerte der DAX-30 Unternehmen, welche durch eine Reihe von Indikatoren aus der technischen Analyse eine komplexe Möglichkeit der Analyse bieten. Die Ergebnisse bestätigen, dass das In-Memory-Konzept neben dem bekannten Spaltenformat eine Reihe von Techniken und Funktionen bietet, welche sich positiv bei der Verarbeitung von Daten durch Data Query Language-Befehle auswirken. Es kommen auch Nachteile, wie der flüchtige Speicher zum Vorschein, dennoch überwiegen die Vorteile stark. Nach einer Reihe von Tests wird deutlich, dass Objekte, die in den In-Memory-Column-Store geladen werden, nur 30 % der Zeit benötigen, um gelesen zu werden. Dies ist für die Verarbeitung von großen und komplexen Daten eine deutliche Verbesserung. Die Bachelorarbeit richtet sich an Studierende der Fachbereiche Informatik und BWL sowie an Interessierte im Bereich Datenbanken.
Das Ziel der vorliegenden Masterthesis ist es, einen Überblick der verschiedenen Datenbanktypen und Leistungsanalysen zu geben. Die vergleichende Literaturstudie beschäftigt sich mit einem jungen Forschungsfeld und betrachtet insbesondere nichtrelationale NoSQL-Datenbanken, welche in den letzten Jahren immer beliebter geworden sind und einige Vorteile gegenüber relationalen Datenbanken aufweisen. Doch was können die konkreten Datenbankimplementierungen bei unterschiedliche Datenmodellen leisten und welcher Testaufbau bietet sich bei welchen Einsatzanforderungen an? Zu Anfang definiert diese Arbeit Kriterien zur Bewertung von Leistung und untersucht experimentelle Vorgehensweise verschiedener Forscher. Ein wichtiger Fokus liegt darauf, die Vergleichbarkeit der Messmethoden und Ergebnisse einzuschätzen und zu gewährleisten. Neben dem methodischen Vorgehen wird mit dem YCSB-Framework ein wichtiges Werkzeug besprochen, mit dem Leistungsmessungen in NoSQL-Datenbanken implementiert werden können.
Cloud Computing ist der zentrale Faktor zur Beschleunigung der Digitalisierung in Deutschland und wird in den kommenden Jahren eine wichtige Rolle in jedem deutschen Unternehmen spielen. Für Unternehmen wird es dabei um die Umsetzung von
Cloud-Strategien und die praktische Einbindung in die täglichen Betriebsprozesse gehen. Zusätzlich müssen Unternehmen ihre bestehende Datenlandschaft in moderne Architekturen zum Datenmanagement in die Cloud migrieren. Dabei können Unternehmen auf eine Vielzahl an unterschiedlichen unternehmensweiten Datenarchitekturen
zurückgreifen. Die vorliegende Masterarbeit gibt eine Einführung in die aktuelle Entwicklung von Cloud Computing und erläutert, mit Data Fabric, Data Lakehouse und Data Mesh, drei unternehmensweite Datenarchitekturen für die Cloud. Data Fabric, Data Lakehouse und Data Mesh bilden dabei aktuell die modernsten Konzepte für unternehmensweite Datenarchitekturen. Zusätzlich werden ein Data Lakehouse und ein Data Mesh in einer ausgewählten Cloud-Umgebungen entworfen, prototypisch aufgebaut und praktisch analysiert. Ziel der Masterarbeit ist es, die unternehmensweiten Datenarchitekturen in der Cloud zu erläutern, konkrete technologische Architekturen zu entwerfen und entsprechende Hinweise zu Aufwandstreibern in Unternehmen zu identifizieren.
Ziel dieser Diplomarbeit ist es zu evaluieren, ob eine effiziente Implementierung von responsiven Webapplikationen zum Zeitpunkt der Erstellung der Arbeit möglich ist. Als technische Grundlage wird hierzu die HTML5-Spezifikation mit dem darin enthaltenen CSS3 und den JavaScript-Programmierschnittstellen herangezogen.
Es wird erläutert, dass unter responsivem Design die Reaktionsfähigkeit des Designs auf die Abrufumgebung, wie zum Beispiel die Größe der Anzeigefläche, zu verstehen ist und mit Hilfe welcher Techniken ein solches Design für Webapplikationen realisiert werden kann. Des Weiteren werden Möglichkeiten zur Performance-Optimierung aufgeführt, wobei festgestellt wird, dass für die Nutzung einer Webanwendung auf mobilen Geräten die Anzahl der Dateien das größte Potenzial zur Optimierung besitzt. Die Möglichkeiten der JavaScript-Programmierschnittstellen in HTML5 zur Umsetzung von Funktionalitäten für Webapplikationen, wie sie bei lokal installierten Anwendungen gebräuchlich sind, werden ebenso erläutert.
Das Fazit dieser Arbeit ist, dass ausreichend Techniken zur Erstellung von responsiven Webapplikationen in HTML5 definiert sind. Lediglich die zum Teil ausstehende Umsetzung dieser Techniken in den einzelnen Browsern verursacht Einschränkungen. Dies wirkt sich gegebenenfalls negativ auf die Effizienz des Umsetzungsprozesses aus. Ebenso kann die übermäßige Optimierung des Layouts und der Performance zu unverhältnismäßigem Aufwand führen.
Architektur für ein Qualitätsmanagementsystem zur Verbesserung der Relevanz von Suchergebnissen
(2023)
Die Suchfunktion ist in vielen Softwareprodukten eine wichtige Komponente, die häufig zur Navigation in der Anwendung dient. Gerade, wenn große Datenmengen bereitgestellt werden, wie es bei Streamingdiensten (Netflix, Spotify) oder bei E-Commerce-Plattformen (Amazon, Zalando) der Fall ist, ist es wichtig, dass die Suchergebnisse für den Nutzer relevant sind. Eine für den Nutzer effektive Navigation mit der Suchfunktion ist nur möglich, wenn die Suchergebnisse eine ausreichend große Relevanz für den Nutzer bieten. Die Organisationen, welche die oben genannten Dienste betreiben, versuchen daher, die Relevanz ihrer Suchergebnisse zu optimieren. Eine Optimierung auf Relevanz ist zwar für eine spezielle Suche einfach, jedoch können dabei häufig Seiteneffekte auftreten, welche die Relevanz über alle Suchen verschlechtern. In einem E-Commerce-Shop kann das Einfiihren des Synonyms „Birne -> Glühbirne" dafür sorgen, dass Nutzer, die Gliihbirnen kaufen wollen und nach „Birne" suchen nun auch Gliihbirnen finden. Falls Nutzer aber das Obst Birne kaufen möchten, sind die Ergebnisse für diese Gruppe irrelevant. Bei einer Optimierung der Relevanz über alle Suchen können Qualitätsmanagementsysteme unterstützen. Ein Qualitätsmanagementsystem fiir die Relevanz von Suchergebnissen muss nicht nur fachliche und technische, sondern auch organisatorische Anforderungen beachten, um die Optimierungspotenziale vollständig auszuschöpfen. Diese Arbeit erläutert diese Anforderungen und stellt eine Architektur für ein Qualitätsmanagementsystem vor. Die Architektur wird hinsichtlich der Erfüllung der erläuterten Anforderungen analysiert. Desweiteren werden die Vor- und Nachteile fiir die jeweiligen Architekturentscheidungen unter Betrachtung der Anforderungen diskutiert. Das Ziel der Arbeit ist es, die Architektur entsprechend zu erläutern, sodass eine Organisation diese für sich angepasst implementieren kann.
Der erste Teil dieser Arbeit gibt einen Überblick über die Themenfelder der modellgetriebenen Softwareentwicklung und der objektrelationalen Abbildung. Durch eine Kombination dieser beiden Themen wird schließlich der Begriff der modellgetriebenen O/R-Mapping-Frameworks definiert und näher erläutert. Im zweiten Teil bestätigt ein Vergleich von drei dieser Frameworks (Bold for Delphi, MDriven sowie Texo mit EclipseLink) die Vor- und Nachteile des modellgetriebenen Ansatzes auch in Bezug auf die Persistenz. Der Vergleich macht außerdem deutlich, was aktuell in der Praxis möglich ist (und was nicht) und in welchem Umfang Standards genutzt werden (insbesondere MDA und UML). Daneben werden auch die Schwächen in diesem Bereich aufgezeigt. Abschließend gibt es eine kurze Bewertung der Frameworks, auch im Hinblick auf mögliche Anwendungsszenarien.
Aufbauend auf einer vorherigen Arbeit, die sich mit der Implementierung einer Komponentezum Auslesen mdizinischer Sensordaten mithilfe eines Arduino und eines Raspberry Pi befasst hat, beschäftigt sich diese Arbeit mit der Visualisierung sowie Auswertung der durch das System gesammelten Daten. Das Ziel dieser Arbeit ist es, über einen Zeitraum von etwa drei Monaten mithilfe der Komponente Daten zu sammeln und diese Daten in einem sinnvollen Kontext visuell darzustellen. Zudem sollen diese Daten mithilfe unterschiedlicher Algorithmen des Maschinellen Lernens ausgewertet werden,
um mögliche Muster und Zusammenhänge erkennen zu können. In diesem Kontext konnte die Hypothese aufgestellt werden, dass ein Zusammenhang zwischen der Körpertemperatur und der Sauerstoffsättigung im Blut besteht.