Fraunhofer IAIS stellt intelligente Suchtechnologie vor

Analyse unstrukturierter Daten mit Smart Semantics

04.05.2009 | Redakteur: Florian Karlstetter

Smart Semantics – Fraunhofer IAIS stellt intelligente Suchmethoden für unstrukturierte Daten vor.

Forscher des Fraunhofer-Instituts für intelligente Analyse und Informationssysteme IAIS haben mit Smart Semantics eine intelligente Suchtechnologie zur Analyse unstrukturierter Daten vorgestellt. Diese basiert auf der Unstructured Information Management Architecture (UIMA) von IBM.

Bei Smart Semantics handelt es sich um intelligente Softwarekomponenten, die die Bedeutung aus unstrukturierten Daten, beispielsweise von Webseiten oder Dokumenten durch modellbasierte Inhaltsanalysen erkennen. Im Gegensatz zu stichwort- oder regelbasierten Verfahren, wie sie die gängigen Suchmaschinen im Internet nutzen, verwendet Smart Semantics lernende und mustererkennende Verfahren. Ein aufwändiges Filtern von Suchergebnissen soll damit der Vergangenheit angehören.

Smart Semantics sollen ab Herbst 2009 für UIMA verfügbar sein. UIMA steht für „Unstructured Information Management Architecture“ und bezeichnet ein von IBM entwickeltes Framework, das als offener OASIS Standard und als Open Source-Implementierung auf Apache erhältlich ist. Nach Angaben von IBM können damit beispielsweise Anwendungen zur Verarbeitung unstrukturierter Informationen erstellt werden, insbesondere natürlicher Sprache (Natural Language Processing, NLP).

Verfügbar sind bereits drei Smart Semantic Komponenten: „Site-Classifier“, „Named-Entity-Recognizer“ sowie der „Keyword-Extractor“. Der Site-Classifier erlaubt die maschinelle Klassifikation ganzer Dokumente. Nach einer Trainingsphase sind auf diese Weise beispielsweise Projekt-, Mitarbeiter- oder Produktseiten automatisch als solche erkennbar und für eine effizientere Suche nutzbar. Gegenüber konventionellen Verfahren haben lernende Verfahren den Vorteil, dass auch unbekannte Dokumente mit alternativen Begrifflichkeiten aufgrund ihrer Ähnlichkeit zu einem gelernten Modell klassifizierbar sind.

Der Named-Entity-Recognizer identifiziert benannte Entitäten wie Personen, Organisationen, Orte und ermöglicht dadurch die Filterung von Dokumenten nach bestimmten Entitäten. Im Gegensatz zu herkömmlichen Verfahren erkennt die Smart Semantic-Komponente Bedeutungsunterschiede gleichlautender Begriffe, wie etwa die den Unterschied zwischen „Vogel“ als Tier und „Vogel“ als Personenname, in dem der inhaltliche Kontext des Begriffs berücksichtigt wird.

Der Keyword-Extractor ist eine Komponente, die statistisch signifikante Wörter aus Dokumenten extrahiert und diese beispielsweise für Tagclouds, für Wortvorschläge bei Suchanfragen oder als Zusatzinformationen in der Suchergebnisdarstellung bereitstellt.

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)



Spamschutz 

Bitte geben Sie das Resultat dieser Rechenaufgabe (Addition) ein:
Kommentar abschicken

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 2021663)

Kostenrechnung für Cloud-Services
Was der CIO bei der Kostenrechnung zu beachten hat:

  • Erste Schritte
  • Verschiedene Assetzuordnungen
  • Verdeckte Kostenarten
  • u.v.m.


>> Jetzt Leitfaden lesen!



IT-Infrastrukturen
Vereinfachte und effizientere IT-Infrastrukturen dank  Standardisierung auf eine einzige Datenbankplattform!



>> Jetzt mehr erfahren