Giessener Elektronische Bibliothek

GEB - Giessener Elektronische Bibliothek

Hinweis zum Urheberrecht

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:hebis:26-opus-26887
URL: http://geb.uni-giessen.de/geb/volltexte/2006/2688/


Hypertextsorten : Definition, Struktur, Klassifikation

Hypertext Types : definition, structure, classification

Rehm, Georg


pdf-Format: Dokument 1.pdf (24.081 KB)

Bookmark bei Connotea Bookmark bei del.icio.us
Freie Schlagwörter (Deutsch): Computerlinguistik , Linguistik , Hypertext , Semantic Web
Freie Schlagwörter (Englisch): Computational Linguistics , Hypertext , Web Genre , Semantic Web
Universität Justus-Liebig-Universität Gießen
Institut: Institut für Germanistik - Fachgebiet Angewandte Sprachwissenschaft und Computerlinguistik
Fachgebiet: Germanistik
DDC-Sachgruppe: Sprachwissenschaft, Linguistik
Dokumentart: Dissertation
Sprache: Deutsch
Tag der mündlichen Prüfung: 23.01.2006
Erstellungsjahr: 2005
Publikationsdatum: 26.01.2006
Kurzfassung auf Deutsch: Suchmaschinen im WWW indexieren und durchsuchen Dokumente in großer Geschwindigkeit. Trotz der quantitativ beeindruckenden Ergebnisse lässt die
Qualität der Treffer jedoch oft zu wünschen übrig. Die vorliegende Arbeit
zielt darauf ab, die theoretischen und praktischen Grundlagen für strukturelle Verbesserungen der Funktionsweise von Suchmaschinen zu liefern. Der Schlüssel hierfür liegt in der maschinellen Identifikation von Hypertextsorten. Dieser Begriff bezeichnet den generellen Typ eines WWW-basierten Hypertextes im Sinne eines funktional-thematisch markierten Kommunikats. Hypertextsorten sind -- ebenso wie traditionelle Textsorten -- auf verschiedenen Ebenen von Konventionen gekennzeichnet, die rekurrent in zugehörigen Text- bzw. Hypertextexemplaren beobachtet werden können. Eine Komponente zur maschinellen Erkennung von Hypertextsorten könnte unter anderem im Rahmen einer Suchmaschine Verwendung finden. Ihren Anwendern stünde hierdurch eine weitere Ebene des Zugriffs auf Dokumente zur Verfügung, so dass nach Dokumenten recherchiert werden kann, die die angegebenen Stichwörter enthalten und darüber hinaus den vom Benutzer spezifizierten Hypertextsorten zugehörig sind, z.B. persönliche Homepage, Produktkatalog oder Kochrezept (Kap. 1).


Die Arbeit behandelt zunächst die für die Charakterisierung des Begriffs Hypertextsorte benötigten Grundlagen (Teil I), die sich auf die Textlinguistik (Kap. 2) und die linguistischen Spezifika des Konzepts Hypertext stützen (Kap. 3). Anschließend werden die Kerneigenschaften von Hypertextsorten dargestellt (Kap. 4). Teil II erläutert den Rahmenansatz und die Methodologie. In Kap. 5 wird ein Hypertextsortenmodell entwickelt, das sowohl für textlinguistische Analysen als auch für texttechnologische Anwendungen ausgelegt ist und zwischen den drei konzeptionellen Ebenen Hypertextsorte, Hypertextknotensorte und Hypertextsortenmodul differenziert. Kap. 6 stellt die Untersuchungsdomäne der universitären Webangebote vor, für die ein Korpus von etwa vier Millionen HTML-Dokumenten angefertigt wurde, die sich in einer Korpusdatenbank befinden und sowohl manuell -- über eine Web-Oberfläche -- als auch automatisch analysiert werden können (Kap. 7). Teil III umfasst fünf empirische Analysen als exemplarische Anwendungen des Hypertextsortenmodells. Die ersten drei Analysen betreffen die quantitative Auswertung persönlicher Homepages (Kap. 8) und Untersuchungen von Exemplaren der Hypertextsorten private Homepage eines Studierenden (Kap. 9) sowie persönliche Homepage eines Wissenschaftlers (Kap. 10). In Kap. 11 wird die Hypertextknotensorte Einstiegsseite eines universitären Webauftritts anhand von 35 Einstiegsseiten analysiert; es schließt sich eine Untersuchung der 692 Dokumente an, die mittels Hyperlinks referenziert werden. In der fünften Analyse werden 750 zufällig ausgewählte Dokumente ausgewertet (Kap. 12). Mit den beiden abschließenden Untersuchungen wird das Ziel der Sammlung und Identifizierung von Hypertextknotensorten und Hypertextsorten verfolgt. Die Analysen weisen eine Vielzahl von Konventionen nach und belegen die Existenz zahlreicher Hypertextsorten, die nicht nur dem universitären Bereich zuzurechnen sind. Teil IV geht auf die technologische
Umsetzung ein. Kap. 13 präsentiert die Hypertextsortenontologie, die auf der Web Ontology Language basiert und von einem Domänenmodell sowie einer
Ontologie wissenschaftlicher Themen und Fachgebiete flankiert wird. In diese Ontologie werden die Ergebnisse der empirischen Analysen integriert, wobei auch die Frage der Typologisierung aufgegriffen wird. Die maschinelle
Identifizierung von Hypertextsorten als Grundlage sprachtechnologischer
Anwendungen ist Gegenstand von Kap. 14. Ausgehend von einer kritischen
Betrachtung der vorliegenden Arbeiten zur automatischen Identifizierung von
Web-Genres wird eine Architektur mit Komponenten entwickelt, die für die
maschinelle Erkennung von Hypertextsorten benötigt werden, um die im WWW
existenten realen Gegebenheiten der Kommunikation erfassen zu können. Die
Hypertextsortenontologie fungiert hierbei als Wissensbasis, die die
Zusammenhänge zwischen Hypertextsorten, Hypertextknotensorten und
Hypertextsortenmodulen beinhaltet. Es wird die prototypische Implementierung eines Textparsers für arbiträre HTML-Dokumente vorgestellt, der innerhalb dieser Architektur einen zentralen Stellenwert einnimmt, um die Komponenten der Textoberfläche auf Hypertextsortenmodule abzubilden.