Suchmaschinen

Dr. Jakob Voß

2014-03-31

Eingangsfrage: Wie funktioniert Google?

Modul Information Retrieval aus dem Internet (2. Semester)

Eingangsfrage: Wie funktioniert Google?

Eingangsfrage: Wie funktioniert Google?

http://research.google.com/

Kernbestandteile einer Suchmaschine

Beispiel: GBV-Zentral Index

http://www.gbv.de/wikis/cls/findex.gbv.de

Beispiel: Google-Anfragesyntax

https://support.google.com/websearch/answer/136861

Funktionsweise eine Suche (indexbasiert)

  1. Interpretation der Anfrage
  2. Ermittlung & Ranking oder Ergebnisse
  3. Darstellung der Ergebnisse

Ermittlung & Ranking der Ergebnisse

Zwei verschiedene Suchparadigmen

Paradigma

Menschliche Sichtweisen ändern sich langsam. Sehr langsam.

Zwei verschiedene Suchparadigmen

Achtung: Suche  ≠  Datenbestand!

Zwei verschiedene Suchparadigmen

Boolesche Anfrage Ranking
präzise Suchanfrage
in spezieller Syntax
beliebige, einfache Suchanfragen
Erlernen notwendig intuitiv benutzbar
exakte Treffer möglichst passende Treffer
geringe Fehlertoleranz
(“0 Treffer”)
fehlertolerant aber falsch-positive
Treffer unsortiert oder
nach klarem Kriterium
Sortiert nach “Relevanz”
Szenario: “bekannte” Dokumente finden Szenario: Dokumente “entdecken”
Mathematik sichtbar
(Boolesche Algebra)
Mathematik versteht (Vektorraum)

Kernbestandteile einer Suchmaschine

Siehe dazu auch die Einheiten zur Aggregation von Metadaten und zu Crawling & Scraping.

Arten von Suchmaschinen (nach Datenbestand & Index)

Kernbestandteile einer Suchmaschine

Index

Indexarten

Volltextindex
Verarbeitung natürlicher Sprache
Feldbasierter Index
vorhandene Daten (z.B. Jahreszahl)
Objekt-Index
Datenmodell (z.B. Bilder, Koordinaten…)

Ein gesamter Suchindex enthält meist verschiedene Teilindizes.

Beispiel Volltextindexierung

Aufbau eines Index

Beispiel: GBV-Zentral Index

http://www.gbv.de/wikis/cls/findex.gbv.de

Übung

Datensatz an der HS Hannover (ISIL DE-960), z.B. Thomas S. Kuhn’s “Die Struktur wissenschaftlicher Revolutionen”

Rankingverfahren

Möglichkeiten zur Beeinflussung des Rankings

Möglichkeiten zur Beinflussing des Rankings

Google bezieht nach eigenen Angaben mehr als 200 Faktoren ins Ranking ein 2

Kernbestandteile einer Suchmaschine

Anfragesprache

Kombinationen möglich!

Boolesche Anfragen: Beispiele

Beispiel eine Booleschen Anfragesprache: WikiData-Query

Beispiel: Solr-Suchsyntax

Publikationen von Thomas S. Kuhn seit 1980
author:[Thomas S. Kuhn] AND publishDate:[1980 TO *]

Kernbestandteile einer Suchmaschine

Suchoberfläche

Suchoberfläche

Suchoberfläche: Facettierung/Drill-Down

Beispiel: VuFind-Prototyp der UB Magdeburg
http://ubfind.ovgu.de/

Suchmaschinen-Software

Suchmaschinen-Software

Lucene
Suchindex
Solr
Server und HTTP-API für Lucene
ElasticSearch
Alternativer Server für Lucene, etwas einfacher
VuFind
Solr-Index-Suchoberfläche für Bibliotheken
Blacklight
Alternatives Solr-Discovery-Interface für Bibliotheken
YaCy
P2P-Suchmaschine
Beispielanwendung http://sciencenet.kit.edu/

Literatur & Quellen

Vergleich der Suchparadigmen frei nach Till Kinstler.

Dirk Lewandowski (Hrsg.): Handbuch Internetsuchmaschinen (bisher drei Ausgaben)


  1. vgl. @Christensen2012 zu bibliothekarischen mentalen Modellen (OPAC) vs. Nutzer-Modellen (Discovery-Interface)

  2. Siehe “So funktioniert die Suche” http://www.google.de/insidesearch/howsearchworks/thestory/