Refine
Year of publication
- 2010 (1)
Document Type
- Master's Thesis (1)
Language
- German (1)
Has Fulltext
- yes (1)
Keywords
Faculty
- Fakultät 10 / Institut für Informatik (1) (remove)
Das Erstellen von Textzusammenfassungen ist bei Recherchearbeiten die gängigste Praxis, um einem Text seine Kernaussage zu entnehmen. Aus einer Zusammenfassung leitet man die essenzielle Information ab, mit dem Ziel, einen Text einem Themengebiet zuzuordnen. Dem Benutzer hilft hierbei ein software-gestütztes System zur Textzusammenfassung. Texte beinhalten aus Sicht eines Computersystems eine Aneinanderreihung von Wörtern bzw. Sätzen und besitzen demnach keine feste Struktur. Aus den unstrukturierten Daten im Text müssen Wörter extrahiert werden, die den Kerninhalt eines Textes widerspiegeln. Auf Basis der extrahierten Wörter erfolgt die endgültige Zusammenfassung und anschließend die semantische Auszeichnung des Gesamttextes, was der Themengebietszuordnung entspricht. Bewährte Methoden für die Textzusammenfassung sind das statistische Verfahren und das sogenannte Signalwort-Verfahren. Grundlage dafür sind die theoretischen Arbeiten von H. P. Luhn und Edmundson. Als weitere Hilfsmittel dienen statistische Methoden aus dem Text Mining. Für die Zuordnung des Textes zu einem Themengebiet eignen sich die Semantic Web Standards des W3C. Der auf Basis dieser Theorien entwickelte Lösungsweg dient als Standardverfahren für eine software-gestützte Textzusammenfassung. Durch die definierten Standards ist die Software in der Lage, jegliche Textarten aus beliebiger Quelle einzulesen, zusammenzufassen und semantisch auszuzeichnen. Benutzer, deren Aufgabe im Unternehmen darin besteht, Recherchearbeiten zu betreiben, verwenden diese software-gestützte Textzusammenfassung. Durch diese Unterstützung spart der Benutzer bei einer Zusammenfassung von mehreren Textdaten Zeit und Aufwand, da der Vorgang durch die Software automatisch abläuft. Aus Sicht eines Unternehmens liegt das Hauptaugenmerk auf der schnellen Informationsgewinnung aus Texten, was essenziell für eine Weiterverarbeitung der Textdaten ist.