Volltext-Downloads (blau) und Frontdoor-Views (grau)
  • Treffer 36 von 93
Zurück zur Trefferliste

Entwurf und Implementierung einer effizienten Dublettenerkennung für große Adressbestände

  • Dublettenerkennung bezeichnet einen Prozess zur Ermittlung ähnlicher oder identischer Datensätze, die sich auf das gleiche Objekt der realen Welt beziehen. Eine besondere Bedeutung hat diese im Rahmen einer Datenbereinigung zum Beispiel nach dem Zusammenführen verschiedener Datenbestände mit möglichen Überlappungen. In diesem Zusammenhang haben sich in den letzten Jahren einige interessante Entwicklungen ergeben. Zum einen steigen die erfassten Datenmengen immer weiter an, so dass Algorithmen an Bedeutung gewinnen, die auch in solchen großen Datenbeständen effizient arbeiten. Zum anderen steigt durch die stärkere Verbreitung von Mehrkernprozessoren und die zunehmende Zentralisierung von IT-Diensten (vgl. Cloud Computing) auch der Bedarf an Lösungen, die in solchen Umgebungen optimal arbeiten und sich gut skalieren lassen. Der hier vorgestellte Lösungsansatz zur Dublettenerkennung kombiniert einen modernen und effizienten Algorithmus mit den Vorzügen einer zentralen und dienstorientierten Architektur.
  • Duplicate detection is the process to identify similar or identical records, that represent the same real world entity. This has special importance in the data cleansing process; e.g. after merging different data sets which may overlap. Related to this there have been some interesting developments in recent years. On one hand the typical data sets continue to grow which requires efficient detection algorithms, which can support these large data sets. On the other hand the distribution of multi-core processors and the continued centralization of IT services demand solutions that can work optimally in these environments and are scalable. The solution to duplicate detection presented in this paper combines a modern and efficient algorithm with the advantages of a centralized and service-oriented architecture.

Volltext Dateien herunterladen

Metadaten exportieren

Weitere Dienste

Teilen auf Twitter Suche bei Google Scholar

Statistik

frontdoor_oas
Metadaten
Verfasserangaben:Thomas Krause
URN:urn:nbn:de:hbz:832-epub-3667
Jahr der Fertigstellung:2012
Dokumentart:Masterarbeit/Diplomarbeit
Sprache:Deutsch
Veröffentlichende Institution:Hochschulbibliothek der Technischen Hochschule Köln
Datum des Hochladens:08.05.2012
GND-Schlagwort:Informationsintegration
Freies Schlagwort / Tag:Dubletten; Dublettensuche
Fakultäten und Zentrale Einrichtungen:Informatik und Ingenieurwissenschaften (F10) / Fakultät 10 / Institut für Informatik
DDC-Sachgruppen:000 Allgemeines, Informatik, Informationswissenschaft / 000 Allgemeines, Wissenschaft / 004 Informatik
Open Access:Open Access