Giessener Elektronische Bibliothek

GEB - Giessener Elektronische Bibliothek

Hinweis zum Urheberrecht

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:hebis:26-opus-35896
URL: http://geb.uni-giessen.de/geb/volltexte/2006/3589/


Classification of Natural Scenes

Klassifikation Natürlicher Szenen

Drewes, Jan


pdf-Format: Dokument 1.pdf (10.104 KB)

Bookmark bei Connotea Bookmark bei del.icio.us
Freie Schlagwörter (Deutsch): Bildklassifikation , natürliche Szenen
Universität Justus-Liebig-Universität Gießen
Institut: Institut für Allgemeine Psychologie
Fachgebiet: Psychologie
DDC-Sachgruppe: Psychologie
Dokumentart: Dissertation
Sprache: Englisch
Tag der mündlichen Prüfung: 22.09.2006
Erstellungsjahr: 2006
Publikationsdatum: 25.09.2006
Kurzfassung auf Deutsch: Seit einiger Zeit ist bekannt, dass das menschliche visuelle System zu einer erstaunlich schnellen
Verarbeitung natürlicher Szenen in der Lage ist. Wenn man einem Beobachter zwei Bilder präsentiert,
sei es auch nur für sehr kurze Zeit (z. B. 30ms), so das auf genau einem der Bilder ein Objekt einer
bestimmten Objektklasse (z. B. „Tiere“) zu sehen ist, so können Menschen dies nicht nur überaus
zuverlässig (im Allgemeinen über 90% richtig), sondern auch extrem schnell erkennen – schon ab
150ms entscheiden manche Versuchspersonen über-zufällig richtig. Eine solch schnelle Entscheidung
lässt nicht sehr viel Zeit für kognitive Abläufe. Es ist wahrscheinlich, dass diese Fähigkeit zur
schnellen Entscheidung nicht etwa auf einem Abgleich mit einem im Gedächtnis gespeicherten
Katalog von Tierbildern beruht, sondern aufgrund von sehr grundlegenden Bildeigenschaften
geschieht. Eine mögliche Informationsquelle, die zu solch schneller Klassifikation beitragen könnte,
ist das globale Amplitudenspektrum. Es ist das Ziel dieser Dissertation, zu untersuchen in wie weit
das globale Amplitudenspektrum zur Klassifikation von Bildern beitragen kann, und ob dieses
tatsächlich auch im menschlichen visuellen System geschieht. Durchgeführt wird dies am Beispiel
der Bildklassen „Tier“ und „kein Tier“.
Dazu wurde zunächst eine knapp 11000 Bilder umfassende Datenbank geschaffen, die zu jeweils
50% aus „Tier“- und „nicht Tier“-Bildern besteht. Im folgenden wird zunächst ein Computer-
Algorithmus ausführlich vorgestellt, der mit einer Trefferquote von ca. 75% in der Lage ist, „Tier“-
von „nicht Tier“-Bilder zu unterscheiden, und zwar ausschließlich anhand des globalen
Amplitudenspektrums.
Anschließend werden drei Hauptmerkmale des Klassifikationsverhaltens dieses Computer-
Algorithmus mit dem Verhalten menschlicher Versuchspersonen verglichen, um Gemeinsamkeiten
und Unterschiede herauszuarbeiten.
Im ersten Experiment wird die Anfälligkeit des Computer-Algorithmus auf Rotierten der Bildern mit
der Anfälligkeit menschlicher Versuchspersonen verglichen. Aufgrund der Rotationsinvarianz des
Computer-Algorithmus wird ein angenommenes Klassifikationsprofil mit den tatsächlich
experimentell gemessenen Ergebnissen der Versuchspersonen verglichen. Eingesetzt wurde ein
2AFC-Paradigma, bei dem die Augenbewegungen der Versuchspersonen zur Ermittlung der
relevanten Messgrößen werden. Es stellt sich heraus, das Menschen in der Tat eine ähnliches, wenn
auch schwächer ausgeprägtes Profil aufzeigen. Bilder in kardinalen Rotationswinkeln (0°, 90°, 180°)
werden dabei besser klassifiziert als Bilder in anderen Winkeln (45°, 135°).
Das zweite Experiment behandelt die individuelle „Schwierigkeit“ von Bildern. Der Computer-
Algorithmus vergibt aufgrund des Abstandes von der Klassifikationsebene eine Wertung der
„Tier“-haftigkeit bzw. „nicht Tier“-haftigkeit jedes Bildes. Je höher die „Tier“-haftigkeit eines Bildes
ausfällt, desto leichter sollte es einer Versuchsperson fallen, dieses korrekt zu klassifizieren.
Hier wurde ein Go/NoGo-Paradigma eingesetzt, bei dem die Versuchspersonen einen Knopf immer
dann schnellstmöglich loslassen sollten, wenn ein „Tier“-Bild gezeigt wurde. Anhand von
Reaktionszeit und Trefferquote konnte auch in diesem Experiment ein hohes Maß an Ähnlichkeit
zwischen menschlichem Verhalten und Computer-Algorithmus festgestellt werden.
Im dritten Experiment wird die Reaktion auf den Wegfall des globalen Amplitudenspektrums
betrachtet. Dazu wurde das individuelle Amplitudenspektrum der Bilder ersetzt durch das gemittelte
Amplitudenspektrum ihrer jeweiligen Bildklasse. Eingesetzt wurden sowohl 2AFC- als auch
Go/NoGo-Paradigma. Während der Computer-Algorithmus durch das Fehlen des einzigen
Klassifikationsmerkmals auf Zufallsniveau abfällt, verringern sich die Leistungen der menschlichen
Versuchspersonen nur geringfügig (übereinstimmend in beiden Paradigmen).
Im zweiten Teil dieser Dissertation wird untersucht, welche Datengrundlage zur Klassifikation
herangezogen werden könnte, wenn das globale Amplitudenspektrum nicht in Frage kommt. Als
Konsequenz wird ein neuer Computer-Algorithmus vorgestellt, der nicht nur Frequenz, Orientierung
und Amplitude, sondern auch die Lokalisation der Information berücksichtigt. Als Datengrundlage
dient eine Bildpyramide, die mehrere Frequenz- und Orientierungsbänder an jeder Stelle des Bildes
beinhaltet. Mit diesem neuen Algorithmus wird eine Klassifikationsleistung von annähernd 78%
erreicht. Durch eine genauere Analyse der Verteilung der relevanten Information über die Fläche
eines Bildes wird dabei ein zuvor unentdecktes Artefakt aufgezeigt, welches bereits durch den
Aufnahmeprozess der Bilder entstanden ist. Dieses Artefakt ist in der Lage, einem Computer-
Algorithmus zu einer recht hohen Klassifikationsleistung (ca 74-75%) zu verhelfen, auch wenn das
eigentlich relevante Bildzentrum ausgeblendet wird und somit das Objekt der Szenerie nicht mehr
vorhanden ist. Dies ist von Bedeutung, da die Bilddatenbank, welche als Quelle sämtlicher Bilder
dieser Arbeit dient, im Bereich der Wissenschaft weite Verbreitung genießt.
In einem vierten Experiment wird getestet, ob menschliche Versuchspersonen ebenfalls auf dieses
Artefakt zurückgreifen können. Eingesetzt wird das bewährte 2AFC-Paradigma, bei dem selektiv
verschiedene Bildausschnitte gezeigt werden. Ein Effekt des Artefaktes auf menschliche
Versuchspersonen konnte nicht festgestellt werden.
Abschließend werden die Resultate aller 4 Experimente, sowie der Computer-Algorithmen diskutiert
und geschlussfolgert, dass das globale Amplitudenspektrum aller Wahrscheinlichkeit nach keine
dominante Rolle für schnelle Bildklassifikation im Menschen dient. Es wird eine Empfehlung
ausgesprochen, dies bei zukünftiger Forschung im Bereich menschlicher Klassifikationsleistung zu
berücksichtigen.
Kurzfassung auf Englisch: Humans are capable of rapidly classifying scenes by content, even when they are presented only very
briefly. Classification accuracy can exceed 90%, while above-chance performance can be achieved in
about 150ms. The global amplitude spectrum of an image has repeatedly been suggested to be a
possible source of information for such fast classification. The aim of this thesis was to analyze the
way in which humans classify images, specifically for the case of scenes which contain an animal or
not. Indeed it was found that the information contained in the global amplitude spectrum, even at a
rather coarse scale, is quite adequate for successful computer classification. In the first part of this
thesis, a computer classifier was developed, capable of correctly classifying 75% of the images in our
database. Then, 3 main characteristics of this classifier are identified and then tested against human
subjects in 3 experiments:
First, the sensitivity to image rotation is tested. Using a 2AFC paradigm, human subjects were asked
to decide which of two displayed images contained an animal. Eye movements were recorded to
measure response time and classification accuracy. A high degree of similarity to the behavior of our
computer classifier was found, with better performance on cardinal image rotations (0°, 90°, 180°).
Second, the order of the images in terms of classification difficulty is analyzed. We employed both a
2AFC paradigm and a Go/NoGo paradigm. In the latter subjects were asked to release a button as
quickly as possible only when an animal image was shown. Here too a high degree of similarity
between the results of the human visual system and those of our computer classifier was found.
Third, classification without the amplitude spectrum as a primary clue is tested. We modified our
images, replacing the individual amplitude spectrum of each image with the mean amplitude
spectrum of its image class. The individual phase spectrum was retained, unaltered. In this case, the
computer classifier was “blinded” and would not exceed chance performance, while our human
subjects still achieved high classification performance. This clearly contradicts the global amplitude
spectrum hypothesis.
In the second part of this thesis, a different approach to computer classification is presented. The
images were filtered in a way that allowed to analyze image content for different frequencies and
orientations at discrete locations (as opposed to the global amplitude spectrum). The new computer
classifier was able to achieve almost 78% correct classification. Also, a previously unreported artifact
of the image capturing process was discovered within the image database used. This is remarkable
because of the widespread scientific acceptance of the Corel Stock Photo Library used in this thesis.
Finally, the results obtained during all 4 experiments and the computational analysis are integrated
and the possible use of the global amplitude spectrum in human visual classification is discussed. The
main conclusion of this work is that the global amplitude spectrum is in all likelihood not a dominant
factor in human visual classification. This finding should be considered in future research.