E. Data
Refine
Year of publication
Document Type
- Bachelor Thesis (14)
- Master's Thesis (6)
- Article (2)
- Working Paper (2)
Has Fulltext
- yes (24)
Keywords
- Datenschutz (4)
- Big Data (3)
- Barrierefreiheit (2)
- DSGVO (2)
- Datenbank (2)
- Digitalisierung (2)
- E-Learning (2)
- Hadoop (2)
- Messenger (2)
- NoSQL-Datenbanksystem (2)
Faculty
- Fakultät 10 / Institut für Informatik (13)
- Fakultät 01 / Institut für Medienforschung und Medienpädagogik (2)
- Fakultät 09 / Cologne Institute for Renewable Energy (2)
- Fakultät 09 / Institut für Rettungsingenieurwesen und Gefahrenabwehr (2)
- Fakultät 10 / Advanced Media Institute (2)
- Fakultät 07 / Institut für Nachrichtentechnik (1)
- Fakultät 10 / Cologne Institute for Digital Ecosystems (1)
- Fakultät 12 / Institut für Technologie und Ressourcenmanagement in den Tropen und Subtropen (1)
In the contemporary era, many organizations and companies are confronted with a signif-icant surge in data volumes. This has led to the challenge of capturing, storing, managing, and analyzing terabytes of data, which are stored in diverse formats and originate from numerous internal and external sources. Furthermore, the emergence of novel applica-tions, such as trading, and artificial intelligence, has made the processing of vast amounts of data in real time an absolute necessity. These requirements exceed the processing ca-pacity of traditional on-disk database management systems, which are ill-equipped to manage this data and to provide real-time results. Therefore, data management requires new solutions to cope with the challenges of data volumes and processing data in real time. An in-memory database system (IMDB- or IMD system) is a database management system that is emerging as a solution to these challenges, with the support of other tech-nologies. IMDBs are capable of processing massive data distinctly faster than traditional database management systems. This work examines the approach of IMDBs, with a par-ticular focus on SAP HANA, and compares it with other IMDBs.
Diese Arbeit befasst sich mit der immer vorhandenen Gefahr durch Cyberkriminelle auf Anwendungen und Informationssysteme. Die Informationssicherheit ist ein sehr umfangreiches Thema und sieht sich in der heutigen Zeit besonders starken Gefahren ausgesetzt, die durch die voranschreitende Digitalisierung immer gängiger werden. Durch ein gut eingerichtetes Datenbanksystem und einer gut entwickelten Datenbankanwendung soll es Anwendern ermöglicht werden, die Sicherheit dieser zu bewahren. Hierbei spielen Themen wie Authentifizierung, Zugriffskontrolle, PL/SQL Best Practices und Audits sowie Backups eine zentrale Rolle. Das Einrichten interner und externer Schutzmaßnah-men, explizit auch der Schutz vor SQL-Injektionen, sind die in dieser Arbeit zu behan-delnden Themen. Durch den korrekten Einsatz der prozeduralen Erweiterung von SQL sollen Schutzmechanismen erforscht und demonstriert werden, die eine Umfangreiche Bandbreite von potenziellen Angriffen abdecken können. Das Verständnis für den Einsatz der korrekten Verfahren soll über eine Methode, genannt Systematisches Risikomanagement, erörtert werden. In diesem Kontext werden Risiken identifiziert, um passende Lösungsvorschläge zu erforschen und zu präsentieren, um im Nachhinein ihren genauen Einsatz zu diskutieren. Durch den Einsatz der vorgestellten Methoden, Konzepte und Modelle soll die Sicherheitslandschaft im Bereich Informations- und Kommunikationstechnik optimiert werden, um einen soliden Schutz gegen präsente Gefahren zu leisten.
Diese Arbeit wertet Leistellendaten von zwei Landkreisen aus und untersucht dabei, welche Veränderung hinsichtlich der mittleren Anzahl und Dauer von Rettungsdiensteinsätzen im Zeitraum der COVID-19-Pandemie aufgeteilt nach Stunden- und Tageskategorien besteht. Anschließend werden die Veränderungen von Anzahl und Dauer beider Landkreise verglichen, um diese auf Unterschiede zu prüfen. Da in der aktuellen Literatur unzureichend dargelegt ist, wie Veränderungen des Einsatzanzahl oder -dauer im Rettungsdienst zwischen Kreisen sowie über die Tage und Tagesstunden verteilt sind, trägt diese Untersuchung dazu bei diese Forschungslücke zu schließen. Die statistische Auswertung der Leitstellendaten umfasst mehrere Schritte, sodass zuerst eine Aufbereitung durchgeführt wird, bevor die mittlere Einsatzanzahl und -dauer für vier Zeiträume sowie die prozentuale Veränderung zwischen einem Zeitraum vor und drei Zeiträumen während der Pandemie ermittelt werden. Im Anschluss wird die Veränderung mittels Kruskal-Wallis-Test beziehungsweise Varianzanalyse nach Welch auf Signifikanz überprüft. Abschließend erfolgt ein qualitativer Vergleich zwischen den Kreisen. Die Untersuchung zeigt, dass hinsichtlich Einsatzanzahl und -dauer zu allen drei Zeitraumen in der Pandemie Zu- und Abnahmen auftreten. Die Anzahl nimmt zum ersten Zeitraum in beiden Kreisen überwiegend ab, sowie zum vierten Zeitraum mehrheitlich zu, während zum zweiten Zeitraum im Lahn-Dill-Kreis eine häufigere Abnahme und im Main-Taunus-Kreis eine geringfügig überwiegende Zunahme vorliegt. Die Einsatzdauer unterliegt zum zweiten Zeitraum im Lahn-Dill-Kreis einer überwiegenden Zunahme und im Main-Taunus-Kreis einer überwiegenden Abnahme, während zum dritten sowie vierten Zeitraum in beiden Kreisen einer Steigerung stattfindet. Im Vergleich beider Gebietskörperschaften zeigen bei der Einsatzanzahl die Veränderungen zum zweiten und vierten Zeitraum und bei der Dauer die Veränderungen zum dritten und vierten Zeitraum mit der Mehrheit der Stundenkategorien Gemeinsamkeiten. Das Pandemiegeschehens sowie die nichtpharmazeutischen Interventionen sowie deren Folgen stellen Faktoren für die Veränderung von Einsatzanzahl und -dauer dar. Die geografische Lage sowie die lokale Ausgestaltung von Rettungsdienst und Krankentransport begründen, zusätzlich zu den oben genannten Aspekten, Unterschiede zwischen den Kreisen.
A bifacial Photovoltaic (PV) simulation model is created by combining the optical View Factor matrix with electrical output simulation in python to analyse the energy density of bifacial systems. A discretization of the rear side of the bifacial modules allows a further investigation of mismatching and losses due to inhomogeneous radiation distribution. The model is validated, showing a deviation of -1.25 % to previous simulation models and giving hourly resolvedoutput data with a higher accuracy than existing software for bifacial PV systems.
In this study the link between renewable energies and employment in Senegal is analyzed.
The Sustainable Livelihood Approach is used to understand the investigated situation in a holistic view. To successfully implement renewable energies in Senegal and to have a significant impact on the employment market, the governmental framework and the technical education has to improve, to match the needs of the labor market.
Rural communities do not have all the assets to lift themselves out of poverty and disadvantages by the usage of renewable energy. Solar irrigation, off-grid systems and solar devices impact the level of education and the labor force in rural areas in Senegal.
Moreover, access to a reliable energy source improves people’s livelihood in terms
of health, education, income and employment.
The resulting employment effect of adding 20 MW with the solar power plant Senergy 2 can be estimated with 28.686 created jobs (0,54 % of total employment).
Upcoming power projects offer employment opportunities for graduates of the master study renewable energies. Furthermore, the demand of specialized engineers and
technicians in the distribution and project planning sector will rise.
Ziel ist die Analyse und die Implementierung eines Datenschutzmanagements, gemäß den geltenden EU-Datenschutzvorschriften, am Beispiel eines mittelständischen Unternehmens. Nach einer Zusammenfassung der wichtigsten theoretischen und rechtlichen Grundlagen, werden geeignete Methoden zur Umsetzung vorgestellt. Anschließend wird der Aufbau des Datenschutzmanagements analysiert und an einem Beispielunternehmen implementiert. Zielgruppe sind in erster Linie Unternehmen, Selbstständige oder Beschäftigte mit Datenschutzaufgaben.
Bildungseinrichtungen haben zunehmende Bedarfe für professionelle digitale Kommunikation. Bei der Auswahl geeigneter Kommunikationstools besteht Bedarf für geeignete Informationen als Entscheidungsgrundlage. Insbesondere Messenger-Kommunikation ist stark im privaten Alltag der Personen integriert. Während Bedarfe für umfangreiche datensichere Kommunikation in bildungsrelevanten Kontexten steigen, mangelt es an Konzepten für datengeschützte (Karaboga et al. 2014; Digitalcourage e.V. o.J.) und Privatsphäre wahrende Unterstützung von Bildungsprozessen durch Software, an verpflichtender Ausbildung für Fachkräfte (Zorn, Tillmann und Kaminski 2014; Imort und Niesyto 2014), sowie an verlässlicher Information für praktikable Software-Alternativen. Der Beitrag skizziert die besonderen Anforderungen von Bildungseinrichtungen bei der Auswahl geeigneter Software am Beispiel von Messenger-Kommunikation. Aus diesen Anforderungen werden Kriterien für benötigte Informationen als Entscheidungsgrundlage für die Softwareauswahl in drei Kategorien vorgestellt: Datenschutz/Privatsphäre, Barrierefreiheit/Barrierearmut, Praktikabilität.
Da bislang keine Kriterien und Good-Practice-Vorschläge vorlagen, wurde eine Studie zur Eruierung der Eigenschaften potenziell geeigneter Messenger-Software erstellt. Hierfür wurden zunächst notwendige Kriterien zu den drei genannten Kategorien definiert und im Anschluss deutsche und bekannte internationale Messenger auf die Datenschutz-Kriterien hin geprüft. Aufgrund der Ergebnisse zur Konformität mit der Datenschutz-Grundverordnung der EU (DSGVO) als Einschlusskriterium wurden die in Frage kommenden Messenger einem Praxistest unterzogen. Dabei wurden teilweise iterativ weitere praxisrelevante Kriterien der Praktikabilität entwickelt.
Neben institutionsinternen Messengern konnten unter den frei erhältlichen anbieterabhängigen Messengern sechs Dienste identifiziert werden, die zumindest bei Nutzenden über 16 Jahren DSGVO-konform genutzt werden können. Zum Zeitpunkt der Veröffentlichung sind dies nur noch fünf: Threema, Wire, SID, Ginlo,Chiffry. Des Weiteren erscheinen anbieterunabhängige Messenger-Systeme, die den internationalen Standard für den Austausch von Chatnachrichten (XMPP) einhalten, als eine sinnvolle Möglichkeit für Bildungseinrichtungen. Hier kann ein eigenes oder beauftragtes Server-Hosting (im Verbund) möglich werden und es lässt sich bei einem IT-Dienstleister eine ntsprechende Vereinbarung zur Auftragsdatenverarbeitung abschließen.
Für den Projektkontext IDiT – nämlich die berufliche Bildung für angehende Kaufleute für Büromanagement an Berufsschulen und an Berufsförderungswerken – werden die Entscheidungen für die Nutzung von „Wire“ und „Threema Work“ erläutert und begründet. Die zugrundeliegenden Überlegungen sind zwar auf den Projektkontext (Anwendung im Berufsförderungswerk Köln) zugeschnitten, aber verallgemeinerbar.
Educational institutions have increasing needs for professional digital communication. When selecting suitable communication tools, there is a need for appropriate information as a basis for decision-making. Messenger communication in particular is strongly integrated into people's private everyday lives. While needs for extensive data-secure communication in educational contexts are increasing, there is a lack of concepts for data-protected and privacy-preserving support of educational processes through software (Karaboga et al 2014; Digitalcourage e.V. n.d.) , as well as for mandatory training for professionals (Zorn, Tillmann, and Kaminski 2014; Imort and Niesyto 2014), and reliable information for viable software alternatives. This paper outlines the specific requirements of educational institutions when selecting suitable software, using messenger communication as an example. From these requirements, criteria for needed information are presented as a basis for software selection decisions in three categories: data protection/privacy, accessibility/low-barrier, practicability. Since no criteria and good practice suggestions were available so far, a study was conducted to elicit the characteristics of potentially suitable messenger software. To this end, the necessary criteria for the three categories mentioned were first defined and then German and well-known international messengers were tested for data protection criteria. Based on the results for conformity with the EU's General Data Protection Regulation (GDPR) as an inclusion criterion, the messengers in question were subjected to a practical test. In the process, additional practicality criteria were developed, in part iteratively.
In addition to institution-internal messengers, six services were identified among the freely available provider-dependent messengers that can be used in a GDPR-compliant manner, at least for users over the age of 16. At the time of publication, this leaves only five: Threema, Wire, SID, Ginlo, Chiffry. Furthermore, provider-independent messenger systems that adhere to the international standard protocol for the exchange of chat messages (XMPP) appear to be a viable option for educational institutions. In-house or commissioned server hosting would then be possible and a corresponding agreement for commissioned data processing can be concluded with an IT service provider.
The decisions to use "Wire" and "Threema Work" in the IDiT project context are explained and justified. The context was vocational training for prospective office management clerks at vocational schools and vocational training centers. Although the underlying considerations are tailored to the project context (application in the Berufsförderungswerk Köln), they can be generalized.
A test tool for Langton's ant-based algorithms is created. Among other things, it can create test files for the NIST-Statistical-Test-Suite. The test tool is used to investigate the invertibility, ring formation and randomness of 7 created models which are extensions of Langton’s ant. The models are examined to possibly use them as pseudo-random generator (PRG) or block cipher. All models use memories which are based on tori. This property is central, because this is how rings are formed in the first place and in addition the behavior of all models at the physical boundaries of the memory is clearly defined in this way. The different models have special properties which are also investigated. These include variable color sets, discrete convolution, multidimensionality, and the use of multiple ants, which are arranged fractal hierarchically and influence each other. The extensions convolution, multidimensional scalable and multidimensional scalable fractal ant colony are presented here for the first time. It is shown that well-chosen color sets and high-dimensional tori are particularly well suited as a basis for Langton's ant based PRGs. In addition, it is shown that a block cipher can be generated on this basis.
In nahezu jedem Rettungsdienstbereich lässt sich ein Anstieg an Notfalleinsätzen und damit einhergehend ein höherer Bedarf an Rettungsmitteln beobachten. Daraus resultieren Einsatzspitzen, die durch den Regelrettungsdienst nicht abgedeckt werden können, und es entsteht eine Unterdeckung. Dies wird auch als Risikofall bezeichnet und birgt die Gefahr, dass ein Rettungsmittel nicht innerhalb der vorgeschriebenen Hilfsfrist am Notfallort eintreffen kann. Um einen potenziellen Risikofall im Vorfeld absehen und einsatztaktische Ausgleichsmaßnahmen innerhalb eines Rettungsdienstbereiches ergreifen zu können, soll deshalb die Einsatznachfrage in stündlicher Auflösung prognostiziert werden. Dazu wurde die Einsatz-Zeit-Reihe 2017 der hochfrequentierten Feuer- und Rettungswache 1 in der Kölner Innenstadt analysiert und ein saisonales ARIMA-Modell sowie ein Erwartungswert-Modell auf die Einsatz-Zeit-Reihe des Folgejahres 2018 angewandt. Gezeigt werden konnte, dass sich die Einsatz-Zeit-Reihe mit einer mittleren absoluten Abweichung von etwas mehr als einem Einsatz prognostizieren lässt. Außerdem konnte mit einer Skalierung der Prognose über die Anzahl einsatzbereiter Rettungs-wagen jeder Risikofall in einem einwöchigen Anwendungstest vorhergesagt werden. Dabei zeigte sich, dass nicht die Prognosegüte in der Stunde der Einsatzspitze relevant ist, sondern die Prognosegüte in der Folgestunde. Die Prognosen haben somit, wenn sie skaliert werden, eine hohe einsatztaktische Relevanz und ermöglichen kurz-fristige Ausgleichsmaßnahmen im Tagesgang.
Habitat loss due to land use and land cover change (LUCC) has been identified as the main cause of global environmental change, responsible for biodiversity decline and the deterioration of ecological processes. Habitat loss and fragmentation have been driven by
processes of LUCC such as deforestation, agricultural expansion and intensification, urbanization, and globalization. The objective of this research was to determine the effects of LUCC on the process of habitat loss and the patterns of fragmentation in the surrounding landscape of the Pacuare Reserve (PR) in the Caribbean lowlands of Costa Rica. The PR is a protected area of 800 ha surrounded by an agricultural landscape with a history of over 150 years of bananas monocultures. Landsat satellite images from 1978 to 2020 were used to conduct a temporal analysis of LUCC around the PR. Patterns of change were explored using landscape metrics from the land classification images. To explore potential connectivity routes, the least cost path analysis was used to connect the PR to other protected areas. Overall, forest cover decreased in the study area at a rate of -4.8% per year during the period of 1992-1997. In the year 2001 it reached its lowest cover and then increased at a mean annual rate of 1.6%. A mean overall accuracy of 92% was obtained for the land classification process. A clear fragmentation process was observed, as shown by a decreased in forest mean patch area and largest patch index and by the increase in patch density. Although forest cover increased in the last decade, fragmentation metrics suggest this recover happened in a spatially scattered manner, due to agricultural land abandonment. Connectivity maps showed the importance of forest fragments and of the already established biological corridors for the movement of species to and from the PR, however it also evidenced the lack of connectivity between the coastal forest fragments and further inside the country located protected areas, as well as the need to promote reforestation projects, particularly between fragments of the corridors identified.
Eine gängige Form der Qualitätskontrolle von Quellcode sind Code Reviews. Der Fokus von Code Reviews liegt allerdings oft auf syntaktischer Analyse, wodurch weniger Zeit für eine semantische Überprüfung bleibt und zusätzliche Kosten verursacht werden. Code Reviews lassen sich zwar teilweise durch "Linter" automatisieren, dennoch können sie nur syntaktische Fehlermuster identifizieren, welche vorher definiert wurden. Zudem kann ein Linter nur darauf hinweisen, dass möglicherweise ein Fehler vorliegt, da die Fehler nicht durch logische Inferenz ermittelt werden. Die vorliegende Arbeit prüft, ob ein Deep Learning Modell den regelbasierten Ansatz von Lintern ablösen und die semantische Ebene erschließen kann. Dazu wurde eine Stichprobe von Java Methoden zusammengestellt und im Anschluss mit einem Supervised Learning Ansatz binär klassifiziert. Da die Analyse von Quellcode der Textanalyse stark ähnelt wird ein gängiger Ansatz für Textklassifikation verwendet. Dadurch kann gezeigt werden, dass eine Präzision von 85% bei der Erkennung von Quellcodeproblemen durch Deep Learning möglich ist.
Das Suchen ist eine der, wenn nicht die am häufigsten durchgeführte Tätigkeit im Internet. Täglich werden Suchmaschinen mit Problemen aus aller Welt und aller Domänen befragt, in der Hoffnung, dass das Internet eine Lösung bereitstellt. Neben dem Web der Dokumente, welches überwiegend die großen Suchmaschinenhersteller wie Google und Microsoft durchsuchen, existiert auch das weniger bekannte Web der Daten. In diesem Teil des Internets werden Daten, keine Dokumente, in einem festen Format kodiert.
Dadurch soll die Möglichkeit geschaffen werden, dass nicht nur Menschen, sondern auch Maschinen, diese Daten verarbeiten können. Die Daten enthalten untereinander Verlinkungen, weswegen man auch von Linked Data spricht. Mit der vom W3C standardisierten Abfragesprache SPARQL ist es möglich, diese Daten nach selbst definierten Kriterien abzufragen.
Diese Arbeit befasst sich mit der Entwicklung einer SPARQL Abfrage zur Ermittlung von Sehenswürdigkeiten in Köln. Anhand dieses Anwendungsbeispiels soll beschrieben werden, inwieweit Linked Data in der Lage ist, mit Problemen und Fragestellungen des Alltags umzugehen. Es wird sich zeigen, dass es grundsätzlich möglich ist, derartige Anwendungsszenarien mit Linked Data zu lösen. Ein umfassendes Suchergebnis, welches beispielsweise Reiseführer geben, konnte jedoch nicht erzielt werden. Grund dafür sind hauptsächlich, wie in dieser Arbeit dargelegt wird, inkonsistente Daten. Um diese Beobachtung aufstellen zu können, wurden präzisere Suchkriterien für Sehenswürdigkeiten spezifiziert.Weitere Auffälligkeiten, die während der Entwicklung bemerkt wurden, wurden entsprechend dokumentiert.
Cloud Computing hat sich hinsichtlich der Digitalisierung zu einer Basistechnologie entwickelt. Das Marktvolumen der Cloud-Technologie ist in den vergangenen Jahren kontinuierlich gestiegen. Hybride IT-Umgebungen mit Cloud- und On-Premise Anwendungen werden von den Unternehmen zunehmend bevorzugt. Eines der größten Hürden von hybriden Architekturen ist derzeit die Integration von heterogenen Umgebungen, die immer mehr und mehr an Bedeutung gewinnt. Zudem wird mit dem vermehrten Einsatz von Cloud-Services die IT-Infrastruktur der Unternehmen immer komplexer. Mithilfe von hybriden Integrationsplattformen kann diese Herausforderung erfolgreich bewältigt werden. Die vorliegende Ausarbeitung gibt den Unternehmen einen Leitfaden, welche die hybride Integration mithilfe von cloudbasierten Integrationsplattformen meistern können.
Ziel dieser Arbeit ist die Entwicklung eines Leitfadens für die Anpassung von Webseiten und unternehmensinternen Prozessen an die Vorgaben der neuen Datenschutz-Grund-verordnung. Die Zielgruppen dieses Leitfadens sind in erster Linie Einzelpersonen und Kleinunternehmen, die keine eigene Rechtsabteilung oder Arbeitsgemeinschaften ha-ben, die sich mit der Umsetzung der Datenschutz-Grundverordnung befassen können. Die erarbeiteten Erkenntnisse sind jedoch auch für mittelständische Unternehmen, Ver-eine und gemeinnützige Institutionen interessant.
Nach einer Erläuterung der technischen und rechtlichen Grundlagen, werden die wich-tigsten Neuerungen durch die Verordnung zusammengefasst. Anschließend werden die wesentlichen Probleme der Zielgruppen erläutert, leitfadenartig verschiedene Lösungs-ansätze vorgestellt und ein Fazit zur aktuellen Situation gezogen
Vergleich von verteilten Datenbanksystemen hinsichtlich ihrer Clusterbildung und Skalierbarkeit
(2017)
Die vorliegende Ausarbeitung geht der Frage nach, wie sich die Datenbankmanagementsysteme MariaDB, MongoDB und Cassandra hinsichtlich ihres Clusteraufbaus,
sowie den damit verbundenen Möglichkeiten der Skalierbarkeit unterscheiden. Dazu werden zunächst Grundlagen zum Aufbau von verteilten Datenbanksystemen, zu den verschiedenen Transaktionskonzepten, sowie zu den möglicherweise auftretenden Probleme vermittelt. Anschließend werden die drei Systeme im Detail untersucht und herausgearbeitet, wie sie genau funktionieren und in welchen Punkten sie sich von einander unterscheiden. Als Abschluss wird ein Fazit gezogen, welches System in verteilten Computerumgebungen
am geeignetsten ist, insofern ein klarer Sieger hervorgeht.
Das Ziel der vorliegenden Bachelorarbeit war es, das In-Memory-Konzept innerhalb einer Oracle Datenbank auf neue Mechanismen, Funktionen und Methoden zu untersuchen. Dazu wurde eine Datenbank erstellt und mit Beispieldaten bestückt. Diese Beispieldaten sind Aktienwerte der DAX-30 Unternehmen, welche durch eine Reihe von Indikatoren aus der technischen Analyse eine komplexe Möglichkeit der Analyse bieten. Die Ergebnisse bestätigen, dass das In-Memory-Konzept neben dem bekannten Spaltenformat eine Reihe von Techniken und Funktionen bietet, welche sich positiv bei der Verarbeitung von Daten durch Data Query Language-Befehle auswirken. Es kommen auch Nachteile, wie der flüchtige Speicher zum Vorschein, dennoch überwiegen die Vorteile stark. Nach einer Reihe von Tests wird deutlich, dass Objekte, die in den In-Memory-Column-Store geladen werden, nur 30 % der Zeit benötigen, um gelesen zu werden. Dies ist für die Verarbeitung von großen und komplexen Daten eine deutliche Verbesserung. Die Bachelorarbeit richtet sich an Studierende der Fachbereiche Informatik und BWL sowie an Interessierte im Bereich Datenbanken.
Der digitale Schwarzmarkt mit gestohlenen Daten floriert. Alleine im Jahr 2015 wurden über eine halbe Milliarde Datensätze aus Datenbanksystemen entwendet. Viele Unternehmen bemerken den Sicherheitsvorfall selbst nicht oder geben aus Angst vor einem Imageschaden den Vorfall nicht bekannt. Sind die Datenbestände nicht durch effektive Sicherheitsmechanismen vor Datendiebstahl geschützt, können Cyberkriminelle leicht aus den gestohlenen Daten Kapital schlagen. Die Softwarehersteller von Datenbanksystemen bieten für ihre Produkte unterschiedliche Schutzvorkehrungen an. Ziel dieser Ausarbeitung ist es, die Bedrohungen und die Sicherheitsrisiken von Datenbanksystemen aufzuzeigen und daraus die Aspekte der Datenbanksicherheit abzuleiten. Die ausgearbeiteten Sicherheitsaspekte bilden die Grundlage für den Vergleich der Datenbanksicherheit von relationalen Datenbanklösungen. Die anschließende Bewertung dient dem Nachweis und der Überprüfbarkeit der Datenbanksicherheit relationaler Datenbanksysteme.
The topic for the thesis originated from the CAP4ACCESS project run by the European Commission and its partners, which deals towards the sensiti-zation of people and development of tools for awareness about people with movement disabilities. The explorative analysis is never ending and to explore and find interest-ing patterns and the results is a tedious task. Therefore, a scientific approach was very important. To start with, familiarizing the domain and the data sources were done. Thereafter, selection of methodology for data analysis was done which resulted in the use of CRISP-DM methodology. The data sources are the source of blood to the analysis methodology, and as there were two sources of data that is MICROM and OSM Wheelchair History(OWH), it was important to integrate them together to extract relevant datasets. Therefore a functional and technically impure data warehouse was created, from which the datasets are extracted and analysed.The next task was to select appropriate tools for analysis. This task was very important as the data set although was not big data but con-tained a large number of rows. After careful analysis, Apache spark and its machine learning library were utilized for building and testing supervised models. DataFrame API for Python, Pandas, the machine learning library Sci-kit learn provided unsupervised algorithms for analysis, the association rule analysis was performed using WEKA. Tableau[21] and Matplotlib[24] provide attractive visualizations for representation and analysis.
Die Bachelorarbeit befasst sich mit der Verwendung der NoSQL Datenbank Apache Cassandra. Dabei werden auf der einen Seite die Unterschiede bei Verwendung und Betrieb von Apache Cassandra im Vergleich mit relationalen SQL Datenbanken und auf der anderen Seite die Aspekte Geschwindigkeit, Ausfallsicherheit und Wiederverwendbarkeit untersucht. Die Verwendung und der Betrieb wird dabei durch die Umsetzung eines Datenimports, damit verbunden ist die Erstellung von entsprechenden Datenmodellen, und der Bereitstellung der Daten für die Darstellung von mobilen Statistiken in Form einer Android App untersucht. Für die Untersuchung der Geschwindigkeit, Ausfallsicherheit und Wiederverwendbarkeit werden zusätzlich zu den durch bereits durch die Umsetzung erhaltenen Ergebnissen noch an den jeweiligen Aspekt angepasste Belastungstest durchgeführt.