Suchansätze – In die Tiefen des Internets

New York (pte/23.02.2009/11:11) – Die Google-Suche erfasst inzwischen über eine Bio. Webadressen, doch das ist nur ein Bruchteil des gesamten Internets. In Datenbanken liegen gewaltige Informationsmengen von Einkaufskatalogen über Flugpläne bis hin zu wissenschaftlichen Forschungsergebnissen verborgen, die mit aktuellen Methoden kaum erfasst werden können. Neue Technologien beginnen nun, diese Tiefen des Internets zu erforschen, um die Qualität der Online-Suche zu verbessern, berichtet die New York Times. Ein Zugang ist dabei, mittels Testanfragen herauszufinden, mit welchen Begriffen Datenbanken ihre Geheimnisse entlockt werden können.

Suchmaschinen setzen zur Indizierung auf Crawler, die Links auf Webseiten folgen und so Informationen sammeln können, bei Datenbanken aber relativ schnell an ihre Grenzen stoßen. Das wollen Forscher mit neuen Technologien ändern. Das Projekt DeepPeep http://www.deeppeep.org der University of Utah strebt an, sowohl Durchschnitts-Usern als auch Anwendungsentwicklern besseren Zugang zu den Inhalten öffentlicher Web-Datenbanken zu bieten. Um diese Quellen zu indizieren setzt man darauf, zunächst mit einigen Begriffen Testanfragen an die Datenbanken zu stellen und die Ergebnisse zu analysieren. „So können wir ein Verständnis der Datenbanken entwickeln und ermitteln, nach welchen Worten wir gezielt suchen sollen“, sagt Projektleiterin Juliana Freire. Insgesamt können dann mit gezielten Anfragen mehr als 90 Prozent der Datenbank-Inhalte erfasst werden, so Freire.

deeppeep-logo
mit deeppeep.org verstecktes Web indizieren?

Erforschen von Datenbanken als wichtiger Schritt

Ein Grundproblem dabei, die verborgenen Inhalte der vielen Mio. Datenbanken im Web sinnvoll zugänglich zu machen, ist, dass Suchmaschinen wissen müssen, welche Datenbanken am ehesten zu einer Anfrage passende Informationen enthalten. Außerdem muss klar sein, wie Fragen an die Datenbank gestellt werden müssen, um ihr auch tatsächlich Inhalte zu entlocken. „Das ist das interessanteste vorstellbare Problem in Sachen Datenintegration“, so Alon Halevy, Computerwissenschaftler und Leiter eines Google-Teams, das sich mit dem Problem auseinandersetzt. Googles Zugang zur Datenbank-Indizierung nutzt dabei ein Analyseprogramm. Ähnlich wie

DeepPeep setzt man darauf, mithilfe von Testanfragen ein Modell zur Vorhersage von Datenbank-Inhalten zu erstellen.

Wenn Inhalte aus den Tiefen des Webs in Suchergebnisse integriert werden sollen, stellt sich auch die Frage der Präsentation. Das Start-up Kosmix http://www.kosmix.com setzt darauf, eine Art themenspezifische Web-Startseite zu generieren. „Die meisten Suchmaschinen versuchen, die Nadel im Heuhaufen zu finden. Aber wir versuchen dabei zu helfen, den Heuhaufen zu erforschen“, sagt Kosmix-Mitgründer Anand Rajaraman. Eine echte Herausforderung könnte die Integration der zusätzlichen Inhalte in die Ergebnisse der Google-Suche werden. Das Unternehmen hat gröbere Änderungen am Format der Suchergebnisse bislang eher vermieden. „Sie wollen ein besseres Nutzererlebnis schaffen, müssen aber sehr vorsichtig mit Änderungen sein, um nicht die User zu verstimmen“, meint Chris Sherman von der Suchmaschinen- und Suchmarketingplattform Search Engine Land.