Wissenswertes zum Data Labeling

Was bedeutet Data Labeling für das
maschinelle Lernen?

Data Labeling ist der Prozess der Erstellung von Datensätzen für das Training von Modellen des maschinellen Lernens.

Was ist Data Labeling?

Beim maschinellen Lernen (ml) ist Data Labeling der Prozess, bei dem Rohdaten (Bilder, Textdateien, Videos usw.) identifiziert werden. Um Kontext für ein maschinelles Lernmodell zu schaffen, werden diese dabei mit einer oder mehreren aussagekräftigen und informativen Beschriftungen versehen. Diese Beschriftungen (Label) können beispielsweise angeben, ob ein Foto eine Katze oder ein Auto enthält, welche Wörter in einer Audioaufnahme gesprochen wurden oder ob ein Produkt-Prototyp einen Bau-Fehler enthält, Welche Wörter oder Zahlen ein Text enthält. Das Annotieren und Labeln von Daten ist für eine Vielzahl von Anwendungsfällen erforderlich, z. B. für Computer Vision sowie natürliche Sprachverarbeitung (NLP) und Spracherkennung.

Das Data Labeling, wie es in der Fachsprache heißt Annotation kann selber gemacht werden, wobei man hierbei neben einen Data annotation tool auch viele Daten und Zeit benötigt, da sich die Daten alle einzeln angesehen müssen und bearbeiten werden müssen. Eine andere Option ist, man holt sich eine Data Annotation Service, damit der Programmierer mehr zeit für das anpassen der Modelle hat.

Wie funktioniert Data Labeling?

Beim maschinellen Lernen wird ein korrekt beschrifteter Datensatz, den Sie als objektiven Standard zum Trainieren und Bewerten eines bestimmten Modells verwenden, oft als „Ground Truth“ bezeichnet. Die Genauigkeit des trainierten Modells hängt von der Genauigkeit der Basisdaten ab. Daher ist es wichtig, dass Sie Zeit und Ressourcen aufwenden, um eine äußerst genaue Annotation/Data Labeling zu gewährleisten. Beim erstellen von diesen Labeling Datensätzen müssen viele Daten richtig gelabelt werden, was heißt, dass jede Datei mit Bild, Text oder Video, einzeln angesehen werden muss und die betreffende Bereiche markiert werden. Im falle von Bild-Dateien werden die gesuchten Objekte gelabelt/annotiert, dass heißt die Objekte werden in den Dateien mit Hilfe von Labeling Tools markiert. Bei dem Labeling/Annotieren, ist es wichtig, dass die annotierten Bereiche richtig zugeordnet werden können, dazu müssen die annotierten Bereiche benannt werden. Der Prozess des Labeling/Annotieren ist sehr zeitaufwändig und kann noch länger gehen, wenn viele verschiedene Objekte in einer Datei Gelabelt/annotiert werde müssen oder wenn in der zum Annotierenden Datei die Qualität schlecht ist. Man kann sich dies aber auch sparen, indem man einen Data Annotation Service bucht, der das für einen übernimmt. Das hat den Vorteil, dass es die Programmiere beim ml Training zu entlasten und die so mehr zeit haben, um die ml Modell anzupassen.

Die meisten praktischen Modelle für maschinelles Lernen verwenden heute das überwachte Lernen (Supervised Learning), bei dem ein Algorithmus eine Eingabe einer Ausgabe zuordnet und so automatisch eine Labeling Service darstellt. Damit das überwachte Lernen funktioniert, benötigen Sie einen markierten Datensatz, aus dem das Modell lernen kann, um korrekte Entscheidungen zu treffen. Das Annotieren und Labeln von Daten beginnt in der Regel damit, dass man Menschen bittet, Urteile über einen bestimmten Teil der nicht gekennzeichneten Daten abzugeben. Zum Beispiel können die Labeler gebeten werden, alle Bilder in einem Datensatz zu markieren, auf die die Frage „Enthält das Foto eine Katze“ zutrifft. Das Labeln kann so grob sein wie ein einfaches Ja/Nein oder so detailliert wie die Identifizierung der spezifischen Pixel im Bild, die mit dem Vogel verbunden sind. Das maschinelle Lernmodell verwendet die vom Menschen bereitgestellten Label, um die zugrunde liegenden Muster in einem Prozess zu lernen, der als „Modelltraining“ bezeichnet wird. Das Ergebnis ist ein trainiertes Modell, das dazu verwendet werden kann, Vorhersagen für das Labeln von neuen Daten zu treffen.

Welche Arten des Data Labeling gibt es?

Computer Vision

Beim Aufbau eines Computer-Vision-Systems müssen Sie zunächst Bilder, Pixel oder Schlüsselpunkte beschriften oder einen Rahmen erstellen, der das zum  digitales Bild vollständig umschließt, eine sogenannte Bounding Box, um Ihren gelabelten KI Trainingsdatensatz zu erzeugen. Sie können Bilder beispielsweise nach Qualität (z. B. Produkt- oder Lifestyle-Bilder) oder nach Inhalt (was sich tatsächlich auf dem Bild befindet) klassifizieren oder ein Bild auf Pixelebene segmentieren. Anhand dieser Trainingsdaten können Sie dann ein Computer-Vision-Modell erstellen, das zur automatischen Kategorisierung von Bildern, zur Erkennung der Position von Objekten, zur Identifizierung von Schlüsselpunkten in einem Bild oder zur Segmentierung eines Bildes verwendet werden kann.

Verarbeitung natürlicher Sprache (NLP)

Bei der Verarbeitung natürlicher Sprache (NLP) müssen Sie zunächst manuell wichtige Textabschnitte identifizieren (entities) oder den Text mit bestimmten Etiketten versehen, um Ihren Trainingsdatensatz zu erstellen. So können Sie beispielsweise die Stimmung oder die Absicht eines Textes erkennen, Teile der Sprache identifizieren, Eigennamen wie Orte und Personen klassifizieren und Text in Bildern, PDFs oder anderen Dateien identifizieren (intent). Zu diesem Zweck können Sie Bounding Boxes um den Text zeichnen und den Text in Ihrem Trainingsdatensatz dann manuell transkribieren. Modelle für die Verarbeitung natürlicher Sprache werden für die Stimmungsanalyse, die Erkennung von Entitätsnamen und die optische Zeichenerkennung verwendet.

Audioverarbeitung

Bei der Audioverarbeitung werden alle Arten von Geräuschen wie Sprache, Tiergeräusche. Bei der Audioverarbeitung ist es oft erforderlich, die Audiodaten zunächst manuell in schriftlichen Text zu transkribieren. Anschließend können Sie tiefere Informationen über die Audiodaten aufdecken, indem Sie Tags hinzufügen und die Audiodaten kategorisieren. Diese kategorisierten Audiodaten werden zu Ihrem Trainingsdatensatz.

Welche bewährten Verfahren gibt es für Data Labeling?

Es gibt viele Techniken, um die Effizienz und Genauigkeit die Annotation und das Data Labeling zu verbessern. Einige dieser Techniken umfassen:

Intuitive und optimierte Benutzeroberflächen zur Minimierung der kognitiven Belastung und des Kontextwechsels für menschliche Labeler.

Konsens der Labeler, um den Fehlern/Voreingenommenheiten der einzelnen Labeler entgegenzuwirken. Der Konsens der Labeler beinhaltet, dass jedes Datensatzobjekt an mehrere Labeler gesendet wird und deren Antworten (die sogenannten „Annotationen“) zu einer einzigen Beschriftung konsolidiert werden.

Überprüfung der Data Labeling, um die Genauigkeit der Data Labeling zu überprüfen und sie bei Bedarf zu aktualisieren.

Aktives Lernen, um die Datenbeschriftung effizienter zu gestalten, indem maschinelles Lernen eingesetzt wird, um die nützlichsten Daten zu identifizieren, die von Menschen beschriftet werden sollen. 

Wie kann Data Labeling effizient durchgeführt werden?

Erfolgreiche Modelle für maschinelles Lernen beruhen auf großen Mengen hochwertiger annotierter Trainingsdaten. Der Prozess zur Erstellung der Trainingsdaten, die für die Entwicklung dieser Modelle erforderlich sind, ist jedoch oft teuer, kompliziert und zeitaufwändig. Bei den meisten ml Modellen, die heute erstellt werden, muss ein Mensch die Daten manuell so annotierten, dass das Modell lernen kann, die richtigen Entscheidungen zu treffen. Um diese Herausforderung zu überwinden, kann das Labeln effizienter gestaltet werden, indem ein maschinelles Lernmodell zur automatischen annotieren von Daten eingesetzt wird, dazu wird Allerding ein bereits Annotierter Daten benötigt, der bereits ein ein ML oder KI Training absolviert hat.

Bei diesem Verfahren wird ein maschinelles Lernmodell für das Data Labeling von Daten zunächst auf einer Teilmenge Ihrer ungelabelter Rohdaten trainiert, die von Menschen Annotiert wurden. Wenn das Data Labeling Modell auf der Grundlage des bisher gelernten ein hohes Vertrauen in seine Ergebnisse hat, wendet es automatisch Data Labeling auf die Rohdaten an. In Fällen, in denen das Labeling Modell ein geringeres Vertrauen in seine Ergebnisse hat, übergibt es die Daten an Menschen, die das Data Labeling händisch vornehmen. Die von Menschen erstellten gelabelten Daten werden dann an das Annotation-, Labelingmodel zurückgegeben, damit es daraus lernen und seine Fähigkeit zur automatischen Data Labeling des nächsten Rohdatensatzes verbessern kann. Mit der Zeit kann das Modell immer mehr Daten automatisch Annotieren und die Erstellung von Trainingsdatensätzen erheblich beschleunigen. 

Gelabelte Daten vs. ungelabelte Daten

Computer verwenden gelabelte Daten und nicht gelabelte Daten, um ML-Modelle zu trainieren, aber was ist der Unterschied?

Gelabelte Daten werden beim supervised learning verwendet, während ungelabelte Daten beim unsupervised learning eingesetzt werden.
Gelabelte Daten sind schwieriger zu beschaffen und zu speichern (d. h. zeitaufwändig und teuer), während nicht gelabelte Daten einfacher zu beschaffen und zu speichern sind.
Mit gelabelten Daten lassen sich verwertbare Erkenntnisse gewinnen (z. B. für Vorhersagen), während nicht gelabelte Daten in ihrer Nützlichkeit eingeschränkt sind. Unüberwachte Lernmethoden können dazu beitragen, neue Datencluster zu entdecken, die bei der Data Labeling neue Kategorisierungen ermöglichen.
Computer können auch kombinierte Daten für halbüberwachtes Lernen verwenden, wodurch der Bedarf an manuell gelabelter Daten verringert wird und gleichzeitig ein großer kommentierter Datensatz zur Verfügung steht.