@phdthesis{Ridwan2010, type = {Master Thesis}, author = {Egy Rizky Utama Ridwan}, title = {Text Extraction und Semantic Web am Beispiel von Marktstudien}, url = {https://nbn-resolving.org/urn:nbn:de:101:1-201011123151}, year = {2010}, abstract = {Das Erstellen von Textzusammenfassungen ist bei Recherchearbeiten die g{\"a}ngigste Praxis, um einem Text seine Kernaussage zu entnehmen. Aus einer Zusammenfassung leitet man die essenzielle Information ab, mit dem Ziel, einen Text einem Themengebiet zuzuordnen. Dem Benutzer hilft hierbei ein software-gest{\"u}tztes System zur Textzusammenfassung. Texte beinhalten aus Sicht eines Computersystems eine Aneinanderreihung von W{\"o}rtern bzw. S{\"a}tzen und besitzen demnach keine feste Struktur. Aus den unstrukturierten Daten im Text m{\"u}ssen W{\"o}rter extrahiert werden, die den Kerninhalt eines Textes widerspiegeln. Auf Basis der extrahierten W{\"o}rter erfolgt die endg{\"u}ltige Zusammenfassung und anschlie{\"s}end die semantische Auszeichnung des Gesamttextes, was der Themengebietszuordnung entspricht. Bew{\"a}hrte Methoden f{\"u}r die Textzusammenfassung sind das statistische Verfahren und das sogenannte Signalwort-Verfahren. Grundlage daf{\"u}r sind die theoretischen Arbeiten von H. P. Luhn und Edmundson. Als weitere Hilfsmittel dienen statistische Methoden aus dem Text Mining. F{\"u}r die Zuordnung des Textes zu einem Themengebiet eignen sich die Semantic Web Standards des W3C. Der auf Basis dieser Theorien entwickelte L{\"o}sungsweg dient als Standardverfahren f{\"u}r eine software-gest{\"u}tzte Textzusammenfassung. Durch die definierten Standards ist die Software in der Lage, jegliche Textarten aus beliebiger Quelle einzulesen, zusammenzufassen und semantisch auszuzeichnen. Benutzer, deren Aufgabe im Unternehmen darin besteht, Recherchearbeiten zu betreiben, verwenden diese software-gest{\"u}tzte Textzusammenfassung. Durch diese Unterst{\"u}tzung spart der Benutzer bei einer Zusammenfassung von mehreren Textdaten Zeit und Aufwand, da der Vorgang durch die Software automatisch abl{\"a}uft. Aus Sicht eines Unternehmens liegt das Hauptaugenmerk auf der schnellen Informationsgewinnung aus Texten, was essenziell f{\"u}r eine Weiterverarbeitung der Textdaten ist.}, language = {de} }