Die neue WiWo App Jetzt kostenlos testen
Download Download

Semantische Suche Wie Forscher Suchmaschinen intelligent machen wollen

Noch ist Google unbestrittener Marktführer bei den Websuchmaschinen. Doch Wissenschaftler arbeiten ein einer neuen Generation intelligenter Suchsysteme, die dem Giganten gefährlich werden könnten.

  • Teilen per:
  • Teilen per:
Der IBM-Rechner

Düsseldorf Google ist heute bei der Websuche allgegenwärtig. Dabei ist die Suchtechnologie, die der Internet-Riese einsetzt, vom Prinzip her sehr simpel: Gefunden werden Websites dann, wenn Wörter oder Satzteile aus der Suchanfrage darin vorkommen. Was Google groß machte, ist die Einschätzung der Relevanz von Suchergebnissen.

Was die Suchmaschine dabei aber nicht erfasst, ist der Sinn der Texte, die sie indiziert. Scannt sie beispielsweise den Satz: „Die USA importieren viele Seltene Erden aus China“, ist Google nicht klar, dass dies automatisch bedeutet, dass China viele Seltene Erden in die USA exportieren. Daher würde ein Nutzer den Text mit der Suchanfrage „Was exportiert China in die USA?“ nicht finden.

In solche Bedeutungsdimensionen der menschlichen Sprache dringen heutige Websuchmaschinen noch nicht vor. So kann das Wort „studieren“ je nach Zusammenhang ganz verschiedene Bedeutungen haben. Man kann einen Fahrplan ebenso studieren wie ein Studienfach – in beiden Fällen hat das Wort eine gänzlich andere Bedeutung. Auch das Wort „Fasching“ bezeichnet nicht nur den Brauch, sondern kann auch ein Nachname sein. Google und alle anderen populären Websuchmaschinen bleiben für solche Feinheiten blind.

Dass Google-Nutzer im Web dennoch so häufig fündig werden, liegt vor allem an der schieren Fülle der Webinhalte. Allein die Menge an Informationen im Web sorgt dafür, dass in vielen Fällen eine Formulierung gefunden wird, die der des Suchenden ähnelt. Doch bei speziellen Informationen und kleineren Datenbeständen funktioniert das nicht mehr.

Suchmaschinen lernen verstehen

Semantische Suchmaschinen sind angetreten, genau solche Feinheiten auseinanderzuhalten. Seit der IBM-Computer „Watson“ seine menschlichen Mitspieler beim US-Quiz „Joepardy“ haushoch besiegte, sind semantische Technologien einer breiteren Öffentlichkeit bekannt.

Doch nicht nur IT-Riesen wie IBM sind auf dem Markt aktiv, auch kleine Anbieter entwickeln Suchtechnologien auf semantischer Basis. Die bekannteste öffentliche semantische Suche ist Wolfram Alpha, die sich auf statistische und mathematisch-naturwissenschaftliche Inhalte spezialisiert hat. Ein „Google-Killer“, wie häufig kolportiert, ist die Suchmaschine aber nicht – sondern ein Werkzeug für einen streng abgegrenzten Bereich. Vor allem, wer an statistischen Daten interessiert ist, wird bei der „Wissensmaschine“ fündig.

Etwas Ähnliches bietet auch die Suchmaschine Sempria Search, die aus einem Forschungsprojekt der Fernuniversität Hagen entstanden ist – allerdings für klassische Textinhalte. Die Suchmaschine steht laut dem Leiter der Arbeitsgruppe "Intelligente Informations- und Kommunikations-Systeme", Hermann Helbig, kurz vor der Markteinführung. Sie soll vor allem bei Online-Nachrichtenangeboten genutzt werden.

Sempria ist laut Helbig in der Lage, den Sinn von Worten, Synonymen, Komposita und viele andere Feinheiten der Sprache automatisch zu erfassen und bei Suchanfragen entsprechend zu berücksichtigen. Wer nach Blumen sucht, findet auch Rosen, wer nach Pflanzen sucht, sollte auch Textfundstellen angezeigt bekommen, in denen es um Blumen geht. Auch Metonymien seien erfasst – also die rhetorische Kunstfigur, bei der Begriffe nicht in ihrer eigentlichen Wortbedeutung genutzt würden: Wer schreibt, „Berlin sagt Hilfen für Japan  zu“, meint normalerweise nicht die Stadt, sondern die Bundesregierung als handelndes Subjekt.

Den Sinn der Worte erfasst die Sempria-Suchtechnologie durch Automatismen. Das funktioniert beispielsweise durch semantische Einschränkungen, erklärt der Experte. So wisse die Technik, dass derjenige, der etwas exportiert, entweder eine natürliche oder juristische Person sein muss – niemals aber ein unbelebtes Objekt wie ein Stein. Aus derartigem Kontext kann die Technik die Bedeutung von Worten ableiten.

Letztlich könne Sempria auf diese Weise auch die Lesbarkeit eines Textes beurteilen, indem beispielsweise geprüft würde, inwiefern der Autor Personalpronomen doppeldeutig verwendet. Auch eine Plagiatsüberprüfung sei damit möglich, die nicht nur stumpf abgeschriebene Teile eines Textes entdeckt, sondern auch inhaltliche Übernahmen ohne entsprechende Kennzeichnung.

Sempria soll auch Orte, Daten, handelnde Personen erfassen und verknüpfen – und damit beispielsweise in der Lage sein, bei entsprechenden Informationen in Texten die Frage zu beantworten, wer deutscher Außenminister war, als die Mauer fiel. Dazu reicht es, wenn an einer Stelle der erfassten Texte die Information enthalten ist, wann die Mauer fiel und an anderer, dass Hans-Dietrich Genscher 1989 deutscher Außenminister war.

In einem Praxistest von Handelsblatt Online klappte das allerdings nur bedingt. Datengrundlage war die deutschsprachige Wikipedia von 2009. Die Frage nach dem höchsten Berg der Welt beantwortete die Suchmaschine noch korrekt mit „Mount Everest“. Die Frage, wer diesen als erster bestieg, konnte sie allerdings nicht aus den Wikipedia-Informationen herausfiltern, obwohl diese Information dort enthalten ist. Auch bei der Frage, wer die Eigentümer des AKW Brokdorf sind, musste Sempria passen.

Auch Google forscht an semantischer Suche

Auch Google forscht an semantischen Technologien und wählt dazu nach eigenen Angaben einen „pragmatischen Weg“. Statt die indizierten Informationen komplett semantisch zu erfassen, nutzt der Konzern heute bereits verschiedene Informationen wie Sprach-, Zeit- und Ortsmuster, um herauszufinden, was der Nutzer wahrscheinlich sucht. Deshalb ist auch keine Google-Anfrage wie die andere: Schon die Stadt, aus der die Anfrage stammt, kann Einfluss auf das Ergebnis haben.

In Zukunft sollen Webmaster ihre Websites durch sogenannte Rich Snippets aufwerten können, sagte ein Unternehmenssprecher im Gespräch mit Handelsblatt Online. Damit können Webmaster der Suchmaschine zusätzliche standardisierte Informationen bereitstellen, die helfen den Inhalt einzuordnen. Zu den Details künftiger Pläne hält sich der Marktführer aber sehr bedeckt. „Google tritt auf keiner wissenschaftlichen Veranstaltung zum Thema auf“, sagte Helbig. Nur durch Werbung zeige der Konzern Präsenz, nicht aber durch Vorträge.

Microsoft hatte bereits 2008 die semantische Websuchmaschine Powerset für einen geheimen Kaufpreis übernommen. Die Expertise der Powerset-Macher fließe seit 2009 in Microsofts Websuche Bing, wie das Unternehmen in einem Blog-Eintrag erklärte.

Sempria hat derzeit keine Ambitionen, den Schritt in das Websuchmaschinengeschäft zu wagen. Für einen derart großen Datenbestand wie bei Google fehle bisher die Rechenkraft. Dennoch glaubt Helbig, dass die heute unantastbar scheinende Marktführerschaft von Google noch einmal ins Wanken geraten könnte. Ehemalige Suchmaschinen-Riesen wie Altavista seien schließlich auch durch Googles Prinzip des Pageranks überrollt worden und heute kaum noch bekannt.

© Handelsblatt GmbH – Alle Rechte vorbehalten. Nutzungsrechte erwerben?
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%