E. Data
Refine
Year of publication
Document Type
- Bachelor Thesis (12)
- Master's Thesis (6)
- Article (2)
- Working Paper (2)
Has Fulltext
- yes (22)
Keywords
- Datenschutz (4)
- Big Data (3)
- Barrierefreiheit (2)
- DSGVO (2)
- Digitalisierung (2)
- E-Learning (2)
- Hadoop (2)
- Messenger (2)
- NoSQL-Datenbanksystem (2)
- Oracle 12c (2)
Faculty
- Fakultät 10 / Institut für Informatik (11)
- Fakultät 01 / Institut für Medienforschung und Medienpädagogik (2)
- Fakultät 09 / Cologne Institute for Renewable Energy (2)
- Fakultät 09 / Institut für Rettungsingenieurwesen und Gefahrenabwehr (2)
- Fakultät 10 / Advanced Media Institute (2)
- Fakultät 07 / Institut für Nachrichtentechnik (1)
- Fakultät 10 / Cologne Institute for Digital Ecosystems (1)
- Fakultät 12 / Institut für Technologie und Ressourcenmanagement in den Tropen und Subtropen (1)
Das Suchen ist eine der, wenn nicht die am häufigsten durchgeführte Tätigkeit im Internet. Täglich werden Suchmaschinen mit Problemen aus aller Welt und aller Domänen befragt, in der Hoffnung, dass das Internet eine Lösung bereitstellt. Neben dem Web der Dokumente, welches überwiegend die großen Suchmaschinenhersteller wie Google und Microsoft durchsuchen, existiert auch das weniger bekannte Web der Daten. In diesem Teil des Internets werden Daten, keine Dokumente, in einem festen Format kodiert.
Dadurch soll die Möglichkeit geschaffen werden, dass nicht nur Menschen, sondern auch Maschinen, diese Daten verarbeiten können. Die Daten enthalten untereinander Verlinkungen, weswegen man auch von Linked Data spricht. Mit der vom W3C standardisierten Abfragesprache SPARQL ist es möglich, diese Daten nach selbst definierten Kriterien abzufragen.
Diese Arbeit befasst sich mit der Entwicklung einer SPARQL Abfrage zur Ermittlung von Sehenswürdigkeiten in Köln. Anhand dieses Anwendungsbeispiels soll beschrieben werden, inwieweit Linked Data in der Lage ist, mit Problemen und Fragestellungen des Alltags umzugehen. Es wird sich zeigen, dass es grundsätzlich möglich ist, derartige Anwendungsszenarien mit Linked Data zu lösen. Ein umfassendes Suchergebnis, welches beispielsweise Reiseführer geben, konnte jedoch nicht erzielt werden. Grund dafür sind hauptsächlich, wie in dieser Arbeit dargelegt wird, inkonsistente Daten. Um diese Beobachtung aufstellen zu können, wurden präzisere Suchkriterien für Sehenswürdigkeiten spezifiziert.Weitere Auffälligkeiten, die während der Entwicklung bemerkt wurden, wurden entsprechend dokumentiert.
Cloud Computing hat sich hinsichtlich der Digitalisierung zu einer Basistechnologie entwickelt. Das Marktvolumen der Cloud-Technologie ist in den vergangenen Jahren kontinuierlich gestiegen. Hybride IT-Umgebungen mit Cloud- und On-Premise Anwendungen werden von den Unternehmen zunehmend bevorzugt. Eines der größten Hürden von hybriden Architekturen ist derzeit die Integration von heterogenen Umgebungen, die immer mehr und mehr an Bedeutung gewinnt. Zudem wird mit dem vermehrten Einsatz von Cloud-Services die IT-Infrastruktur der Unternehmen immer komplexer. Mithilfe von hybriden Integrationsplattformen kann diese Herausforderung erfolgreich bewältigt werden. Die vorliegende Ausarbeitung gibt den Unternehmen einen Leitfaden, welche die hybride Integration mithilfe von cloudbasierten Integrationsplattformen meistern können.
Ziel dieser Arbeit ist die Entwicklung eines Leitfadens für die Anpassung von Webseiten und unternehmensinternen Prozessen an die Vorgaben der neuen Datenschutz-Grund-verordnung. Die Zielgruppen dieses Leitfadens sind in erster Linie Einzelpersonen und Kleinunternehmen, die keine eigene Rechtsabteilung oder Arbeitsgemeinschaften ha-ben, die sich mit der Umsetzung der Datenschutz-Grundverordnung befassen können. Die erarbeiteten Erkenntnisse sind jedoch auch für mittelständische Unternehmen, Ver-eine und gemeinnützige Institutionen interessant.
Nach einer Erläuterung der technischen und rechtlichen Grundlagen, werden die wich-tigsten Neuerungen durch die Verordnung zusammengefasst. Anschließend werden die wesentlichen Probleme der Zielgruppen erläutert, leitfadenartig verschiedene Lösungs-ansätze vorgestellt und ein Fazit zur aktuellen Situation gezogen
Vergleich von verteilten Datenbanksystemen hinsichtlich ihrer Clusterbildung und Skalierbarkeit
(2017)
Die vorliegende Ausarbeitung geht der Frage nach, wie sich die Datenbankmanagementsysteme MariaDB, MongoDB und Cassandra hinsichtlich ihres Clusteraufbaus,
sowie den damit verbundenen Möglichkeiten der Skalierbarkeit unterscheiden. Dazu werden zunächst Grundlagen zum Aufbau von verteilten Datenbanksystemen, zu den verschiedenen Transaktionskonzepten, sowie zu den möglicherweise auftretenden Probleme vermittelt. Anschließend werden die drei Systeme im Detail untersucht und herausgearbeitet, wie sie genau funktionieren und in welchen Punkten sie sich von einander unterscheiden. Als Abschluss wird ein Fazit gezogen, welches System in verteilten Computerumgebungen
am geeignetsten ist, insofern ein klarer Sieger hervorgeht.
Das Ziel der vorliegenden Bachelorarbeit war es, das In-Memory-Konzept innerhalb einer Oracle Datenbank auf neue Mechanismen, Funktionen und Methoden zu untersuchen. Dazu wurde eine Datenbank erstellt und mit Beispieldaten bestückt. Diese Beispieldaten sind Aktienwerte der DAX-30 Unternehmen, welche durch eine Reihe von Indikatoren aus der technischen Analyse eine komplexe Möglichkeit der Analyse bieten. Die Ergebnisse bestätigen, dass das In-Memory-Konzept neben dem bekannten Spaltenformat eine Reihe von Techniken und Funktionen bietet, welche sich positiv bei der Verarbeitung von Daten durch Data Query Language-Befehle auswirken. Es kommen auch Nachteile, wie der flüchtige Speicher zum Vorschein, dennoch überwiegen die Vorteile stark. Nach einer Reihe von Tests wird deutlich, dass Objekte, die in den In-Memory-Column-Store geladen werden, nur 30 % der Zeit benötigen, um gelesen zu werden. Dies ist für die Verarbeitung von großen und komplexen Daten eine deutliche Verbesserung. Die Bachelorarbeit richtet sich an Studierende der Fachbereiche Informatik und BWL sowie an Interessierte im Bereich Datenbanken.
Der digitale Schwarzmarkt mit gestohlenen Daten floriert. Alleine im Jahr 2015 wurden über eine halbe Milliarde Datensätze aus Datenbanksystemen entwendet. Viele Unternehmen bemerken den Sicherheitsvorfall selbst nicht oder geben aus Angst vor einem Imageschaden den Vorfall nicht bekannt. Sind die Datenbestände nicht durch effektive Sicherheitsmechanismen vor Datendiebstahl geschützt, können Cyberkriminelle leicht aus den gestohlenen Daten Kapital schlagen. Die Softwarehersteller von Datenbanksystemen bieten für ihre Produkte unterschiedliche Schutzvorkehrungen an. Ziel dieser Ausarbeitung ist es, die Bedrohungen und die Sicherheitsrisiken von Datenbanksystemen aufzuzeigen und daraus die Aspekte der Datenbanksicherheit abzuleiten. Die ausgearbeiteten Sicherheitsaspekte bilden die Grundlage für den Vergleich der Datenbanksicherheit von relationalen Datenbanklösungen. Die anschließende Bewertung dient dem Nachweis und der Überprüfbarkeit der Datenbanksicherheit relationaler Datenbanksysteme.
The topic for the thesis originated from the CAP4ACCESS project run by the European Commission and its partners, which deals towards the sensiti-zation of people and development of tools for awareness about people with movement disabilities. The explorative analysis is never ending and to explore and find interest-ing patterns and the results is a tedious task. Therefore, a scientific approach was very important. To start with, familiarizing the domain and the data sources were done. Thereafter, selection of methodology for data analysis was done which resulted in the use of CRISP-DM methodology. The data sources are the source of blood to the analysis methodology, and as there were two sources of data that is MICROM and OSM Wheelchair History(OWH), it was important to integrate them together to extract relevant datasets. Therefore a functional and technically impure data warehouse was created, from which the datasets are extracted and analysed.The next task was to select appropriate tools for analysis. This task was very important as the data set although was not big data but con-tained a large number of rows. After careful analysis, Apache spark and its machine learning library were utilized for building and testing supervised models. DataFrame API for Python, Pandas, the machine learning library Sci-kit learn provided unsupervised algorithms for analysis, the association rule analysis was performed using WEKA. Tableau[21] and Matplotlib[24] provide attractive visualizations for representation and analysis.
Die Bachelorarbeit befasst sich mit der Verwendung der NoSQL Datenbank Apache Cassandra. Dabei werden auf der einen Seite die Unterschiede bei Verwendung und Betrieb von Apache Cassandra im Vergleich mit relationalen SQL Datenbanken und auf der anderen Seite die Aspekte Geschwindigkeit, Ausfallsicherheit und Wiederverwendbarkeit untersucht. Die Verwendung und der Betrieb wird dabei durch die Umsetzung eines Datenimports, damit verbunden ist die Erstellung von entsprechenden Datenmodellen, und der Bereitstellung der Daten für die Darstellung von mobilen Statistiken in Form einer Android App untersucht. Für die Untersuchung der Geschwindigkeit, Ausfallsicherheit und Wiederverwendbarkeit werden zusätzlich zu den durch bereits durch die Umsetzung erhaltenen Ergebnissen noch an den jeweiligen Aspekt angepasste Belastungstest durchgeführt.
Im Zusammenhang mit dem Begriff Big Data können nicht nur immer größere Datenmengen verarbeitet werden, sondern auch neue Arten von Datenquellen genutzt werden. Insbesondere Web 2.0-Inhalte bieten dabei vielfältige Potenziale.
So können beispielsweise mit Hilfe einer Sentiment-Analyse Meinungen und Stimmungen zu Produkten und Unternehmen in sozialen Netzwerken beobachtet werden. Diese Infor-mationen sind für sich gesehen bereits wertvoll für viele Unternehmen. Jedoch ist eine effiziente Analyse und Auswertung der Informationen nur in Kombination mit weiteren Unternehmensdaten möglich, die typischerweise in einem Data Warehouse liegen. Diese Arbeit diskutiert die Unter-schiede, Möglichkeiten und Herausforde-rungen diese Kombination zu realisieren. Veranschaulicht wird dies durch einen Show-Case, der eine Ende-zu-Ende-Umsetzung
am Beispiel der Fernsehsendung Tatort zeigt. Dabei werden Zuschauerkommentare
aus Twitter extrahiert, mit einer Sentiment-Analyse bewertet und schließlich in einem Data Warehouse ausgewertet. Dabei können klassische BI-Kennzahlen, wie beispiels- weise Einschaltquoten, Folgen pro Ermittler etc. den Ergebnissen der Sentiment-Analyse gegenübergestellt werden.