Text Mining – Der nächste Trend bei BI-Lösungen

Strukturierte Daten haben die Organisationen heutzutage ganz gut im Griff. Was jedoch bis jetzt völlig ausser Acht gelassen wurde sind unstrukturierte Daten wie zum Beispiel schriftliche Notizen zu Einträgen im der CRM Datenbank oder zu Voice- oder E-Mails.
In diesen Notizen stehen wichtige Informationen über den Kontext und die Historie dieser Daten. Leider gingen diese Metadaten bis heute verloren.
Das neue Zauberwort heisst „Text Mining“. Es handelt sich hierbei um eine zielorientierte Form der Textanalyse die eine effektive und effiziente Nutzung verfügbarer Textarchive ermöglichen soll.
Dazu wird in den verfügbaren Texten und Textfragmenten nach wirtschaftlich verwertbarem Wissen gesucht.
Um diese wirtschaftlich verwertbaren Informationen zu finden, werden komplexe Regelwerke definiert, die den allgemeinen Text Mining Algorhytmus präzisieren soll.
Da heutzutage Unstrukturierte Daten nicht oder kaum erfasst werden ist der Datenverlust für diese wertvollen Daten enorm. Zu viele wichtige Informationen für die Entscheidungsfindung gehen der Organisation dadurch ungenutzt verloren.
Die Problematik heutzutage, solche Daten zu erfassen oder zu extrahieren, liegt darin, dass sich Text-Analyse-Technologien lange gesondert entwickelt haben und keine standardisierte Text Mining Software zur Verfügung steht.
Dies hat sich in den letzten ein bis zwei Jahren jedoch geändert. Ein Vorreiter in Text Mining Software Erstellung ist der französische BI-Anbieter Business Objects. BO hat Anfangs Juni den US-Anbieter Inxight Software zu einem nicht öffentlich bekannt gegebenen Preis übernommen.
Neben der Best-of-Breed-Engine zur Textanalyse bringt Inxight mit Federated Search den Zugang zu unstrukturierten Informationen ebenso mit wie die Möglichkeit, Daten visuell darzustellen.
Weitere seit längerem mit Text Mining Lösungen im Markt vertretene Anbieter sind SPSS, ORACLE und SAS. Diese drei Unternehmen besetzen in den Analysen der meisten Marktforscher eine Leaderposition.

Manuell vs Maschinell

Grundsätzlich existieren zwei Arten von Text Mining. Es lässt sich hierbei zwischen Manuellem und Maschinellem Text Mining unterscheiden. In der manuellen Variante lesen Menschen die Texte, machen Notizen und überlegen sich, welche Metadaten diesen Texten zugeordnet werden muss. Menschen sind durch ihre Intelligenz sehr gut in der Lage Texte inhaltlich zu verstehen. Allerdings ist dieser Prozess zeitaufwändig, arbeitsintensiv und bei grossen Datenvolumina und wechselnder Sprachen unpraktisch und teuer, denn Zeit ist Geld.
Maschinelle Text Mining Systeme basieren auf Statistiken und neuronalen Netzwerken. Die sind sehr schnell jedoch nicht so genau wie der Manuelle Ansatz. Viele statistikbasierte Systeme zählen schlicht, wie häufig bestimmte Ausdrücke vorkommen und errechnen dann deren statistische Nähe zu verwandten Begriffen. Auf diese weise werden viele Resultate erzeugt, die jedoch keine wirkliche Relevanz zum Kontext besitzen können.
Um dieses Manko zu minimieren greifen die Systeme auf komplexe Regeln zurück, um zwischen relevanten und irrelevanten Daten zu unterscheiden. Solche Regelwerke müssen allerdings erstellt und kontinuierlich aktualisiert werden was die Komplexität des Systems erhöht.

Persönliches Fazit

Die Möglichkeit Unstrukturierte Daten in eine Struktur zu bringen und diese als Metainformationen für wirtschaftlich relevante Daten zu verwenden ist in meinen Augen für die Zukunft enorm wichtig.
Die Informationsflut die uns Tag für Tag viel Rechenzeit im Hirn kostet, könnte durch dieses System reduziert werden. Wenn Texte klassifiziert, kategorisiert und extrahiert werden können, müssen wir uns nur um die Informationen kümmern, die uns interessieren.
Stundenlanges durchsuchen des Mailpostkorbes, File Systems oder CRM Datenbank würde so immer mehr von unserer Täglichen Arbeit verschwinden, damit wir uns wieder auf das Wesentliche konzentrieren können, nämlich unsere Tägliche Arbeit als Info Worker. Ich werde auf jeden Fall das Thema Text Mining und Handhabung von unstrukturierten Daten weiterverfolgen.

Kommentar abgeben