@phdthesis{Krause2012, type = {Master Thesis}, author = {Thomas Krause}, title = {Entwurf und Implementierung einer effizienten Dublettenerkennung f{\"u}r gro{\"s}e Adressbest{\"a}nde}, url = {https://nbn-resolving.org/urn:nbn:de:hbz:832-epub-3667}, year = {2012}, abstract = {Dublettenerkennung bezeichnet einen Prozess zur Ermittlung {\"a}hnlicher oder identischer Datens{\"a}tze, die sich auf das gleiche Objekt der realen Welt beziehen. Eine besondere Bedeutung hat diese im Rahmen einer Datenbereinigung zum Beispiel nach dem Zusammenf{\"u}hren verschiedener Datenbest{\"a}nde mit m{\"o}glichen {\"U}berlappungen. In diesem Zusammenhang haben sich in den letzten Jahren einige interessante Entwicklungen ergeben. Zum einen steigen die erfassten Datenmengen immer weiter an, so dass Algorithmen an Bedeutung gewinnen, die auch in solchen gro{\"s}en Datenbest{\"a}nden effizient arbeiten. Zum anderen steigt durch die st{\"a}rkere Verbreitung von Mehrkernprozessoren und die zunehmende Zentralisierung von IT-Diensten (vgl. Cloud Computing) auch der Bedarf an L{\"o}sungen, die in solchen Umgebungen optimal arbeiten und sich gut skalieren lassen. Der hier vorgestellte L{\"o}sungsansatz zur Dublettenerkennung kombiniert einen modernen und effizienten Algorithmus mit den Vorz{\"u}gen einer zentralen und dienstorientierten Architektur.}, language = {de} }