Insaas Sum – Training für künstliche Intelligenz

Wie lernt die künstliche Intelligenz, den Kontext richtig zu erkennen?

Durch künstliche Intelligenz (KI) lassen sich aufwendige manuelle Arbeiten durch Automatisierung erledigen. Dies gilt besonders für die Zusammenfassung von Texten. Eine Zusammenfassung der Texte ist nur sinnvoll, wenn sie eine sehr hohe Validität der Ergebnisse liefert. Dies bedeutet, dass die KI in der Lage ist, den jeweiligen sprachlichen Kontext richtig zu erkennen.

An dieser Stelle unterscheiden wir grundsätzlich zwischen “unsupervised” und “supervised learning” der KI. Im ersten Fall erkennt die KI ohne Beeinflussung mögliche Muster, im zweiten Fall wird sie mit richtigen Ergebnissen trainiert. Im Fall der automatisierten Klassifizierung und Kategorisierung von Textinhalten (supervised learning) ist das Training der KI anhand von individuellen Trainingssets von essentieller Bedeutung für den Erfolg.

Warum? Die größte Herausforderung sind (im Vergleich zur Bilderkennung) nicht nur die verschiedene Sprachen und Dialekte, sondern auch die unterschiedlichen Kontexte (z.B. unterschiedliche Branchen mit verschiedenen Produkten) und Textformen (z.B. Blogs, E Mails, Tickets). “Supervised learning” liefert für die Klassifizierung von umgangssprachlichen, heterogenen Inhalten die besten Ergebnisse. 

Aus diesem Grund ist das Training von Kontexten in einer jeweiligen Sprache entscheidend, um gute Ergebnisse zu erzielen. Doch genau dieser Schritt ist sehr aufwendig, denn es müssen Texte in ausreichend hoher Anzahl trainiert werden. Erst, wenn die Maschine in der Lage ist, den Kontext richtig zu erkennen, lassen sich bestimmte Phrasen und Tonalitäten erkennen. Die Trainingssets, also die Vorlage mit richtigen und falschen Ergebnissen, sind der Schlüssel für die Ergebnisqualität und sehr wertvoll, wenn sie in entsprechender Qualität vorliegen. Beispielsweise lässt sich erkennen, wie viele Kunden sich über die Servicequalität beschweren, da alle zugehörigen Phrasen und Worte richtig zugeordnet und aggregiert werden können.

Die KI ist deshalb erst dann intelligent, wenn sie selbstständig und skalierend richtige Entscheidungen treffen kann.

Insaas Sum

Mit Insaas Sum lassen sich einfach und gezielt Trainingsdaten für die künstliche Intelligenz erzeugen, die sogenannten Annotationen. Insaas Sum ist mandantenfähig und erlaubt, den einzelnen menschlichen Trainern (auch Ratern genannt) bestimmte Mengen an Texten zu zuweisen. Die Rater können die Texte nicht nur nach Tonalität ordnen, sondern auch nach beliebigen anderen Dimensionen.

Damit lassen sich schnell individuelle Trainingssets in hoher Qualität erzeugen. Im Anschluss lassen sich die Ergebnisse einfach auswerten und sehen, wie groß die Übereinstimmung der Rater im Bezug auf die Texte war. Damit werden mögliche Fehlinterpretationen der KI minimiert.

Welchen Mehrwert bietet Insaas Sum?

Das Training der KI kann unnötig viel Zeit und Aufwand verursachen. Für das Training der Textdateien werden häufig cloud basierte Tools oder Crowd Sourcing verwendet, im schlimmsten Fall sogar Excel. Alle diese Varianten haben folgende Nachteile: 

  • Die Open Source Tools sind nicht flexibel
  • Es besteht keine Möglichkeit, die gleiche Phrase mehrfach zu annotieren auf einem Screen
  • Crowd Sourcing birgt das Risiko, dass die Rater eine sehr unterschiedliche Performance zeigen und so deutlich mehr Datensätze trainiert werden müssen
  • Es besteht in der Regel keine Möglichkeit, die Reihenfolge der Annotation zu beeinflussen
  • Eine automatisierte Auswertung und Visualisierung, z.B. Inter Rater Korrelation & Deviation, gibt es meist nicht

Der Mehrwert von Insaas SUM besteht in einem übersichtlichen Workflow für den Redakteur, der als Admin für die Rater die Annotationen aufsetzt. Das Setup der Projekte kann individuell gestaltet werden, je nachdem, wie viele Rater gebraucht werden. Im ersten Schritt werden automatisiert die Texte und die jeweiligen Keywords und Phrasen vorgeschlagen. Damit haben die Rater bereits eine Vorlage für die Annotation, die jeweils aus Text und Keywords besteht.

Auf diese Weise lassen sich nicht nur die Dimensionen positiv, negativ und neutral trainieren, sondern frei Dimensionen definieren, die den Kontext der Texte erfassen. Damit lässt sich auch die Relevanz von Phrasen trainieren. Es ist sehr einfach, Textstellen zu markieren und zusätzliche Keywords hinzufügen. Die Rater haben damit die Freiheit, Texte im Hinblick auf Relevanz und Kontext zu trainieren. 

Zuletzt kann der Redakteur in einem Dashboard das Ergebnis auswerten und nur die Ergebnisse mit hoher Übereinstimmung (Fleiss Kappa > 0.5, Substantial Agreement) für das weitere Training der KI verwenden.

Wie Unternehmen mit Insaas Sum arbeiten

Annotationen können sehr aufwendig sein, wenn man in Betracht zieht, dass Tausende von Datenpunkten trainiert werden müssen. Deshalb ist es entscheidend, dass dieser Prozess sauber und reibungslos abläuft.

Die Einrichtung von Projekten erfolgt über das Portal von Insaas Sum. Dort werden die Texte über das Zufallsprinzip mit den jeweiligen Keywords für unsere Kunden angelegt. Wie bereits beschrieben lassen sich die Texte dann automatisch (und randomisiert) den einzelnen Trainern zuordnen und die Dimensionen bestimmen. Der Redakteur hat die volle Kontrolle über die Ergebnisse und sieht, wie gut die einzelnen Rater ihre Arbeit geleistet haben. Er sieht auch, ob das Trainingsset ausreichend balanciert ist, und für alle relevanten Dimensionen ausreichend Datenpunkte gesammelt wurden.

Die externe Trainer können sich einfach anmelden und bekommen Zugang zu einem browser-basierten Interface. Dort sind bereits alle Aufgaben für den jeweiligen Trainer angelegt, der nur die einzelnen Bewertungen vornehmen muss. Die Ergebnisse der Arbeit werden automatisch gespeichert. 

Mit Insaas Sum können Data Science Teams und Machine Learning Engineering Teams ihre Trainingssets in hoher Qualität erstellen und damit die KI trainieren. Sie können die Ergebnisse messen und haben die Voraussetzung geschaffen, die besten Ergebnisse der automatisierten Analyse sicherzustellen. Damit sorgt Insaas Sum für eine hohe Qualität der Klassifizierung der Texte.

Jetzt Demo für Insaas Vector vereinbaren!

Wir freuen uns, Ihnen Insaas Vector in einer persönlichen und unverbindlichen Demo vorzustellen!