In der industriellen Fertigung kann die Auswertung von bildgebenden Systemen zu deutlichen Verbesserungen der Überwachung führen und die Identifikation von Defekten optimieren.
In der Fertigung entstehen Bilder meist nach einem streng standardisierten Ablauf und unter genau definierten Rahmenbedingungen. Außerdem steht meist (wenigstens teilweise) eine externe Bewertung der Bilder durch Expert:innen zu Verfügung.
Strenge Rahmenbedingungen und ausreichend klassifizierte Daten vereinfachen die Fragestellung. Unter diesen Umständen kann die Kamera als weiterer Sensor mit einem sehr “breiten” (datenreichen) Informationsstrom betrachtet werden. Dieser Strom ist in sich hochkomplex und muss durch ein ML oder AI Modell verdichtet werden, bevor eine “einfache” Reaktion auf das Sensorsignal möglich wird.
Bilderkennung mit klassischem Machine Learning
Ist der Prozess der Bilderstellung stark standardisiert, lässt sich ein ML-Modell verwenden, um den Signalstrom auf einfach zu interpretierende Signale zu reduzieren.
Standardisierung kann hierbei bedeuten:
- Immer dieselbe Zahl Werkstücke wird gleichzeitig betrachtet (bspw. nur eines)
- Die Lage und Orientierung der Werkstücke ist immer gleich
- Es wird dieselbe Kamera bzw. Nur Kameras desselben Typs und gleicher Konfiguration eingesetzt
- Beleuchtungssituation ist durch die Nutzung von Kunstlicht vereinheitlicht
Der Zusammenhang zwischen einzelnen Pixeln und Ausgabe ist in jedem Fall hochkomplex.
Das Modell (ML und AI) verwendet die Bildpixel, interpretiert sie als Signale und lernt im Trainingsprozess einen Zusammenhang dieser Signale mit einer (im Training bekannten) Zielgröße. Ein “klassisches” künstliches neuronales Netzwerk sammelt beispielsweise – leicht vereinfacht formuliert – alle Signale, die an den Eingängen anliegen, und verarbeitet sie durch geschickte Summierung und nichtlineare Transformation zu einem Ausgangssignal (im Wertebereich der Zielgröße).
Das kann in einfachen Szenarien leicht nachvollziehbar sein: So ließe sich der Backgrad eines Kuchens über die Summe der Brauntöne in einem Bild bestimmen, keine simple aber auch keine hochkomplexe Schlussfolgerung.
Komplexere Fragestellungen
Die klassischen künstlichen neuronalen Netze und andere ML-Modelltypen kommen bei komplexeren Fragestellungen schnell an ihre Grenzen oder bräuchten unverhältnismäßig viele Trainingsdaten.
Was hieße denn nun eigentlich “komplexere Fragestellung”? Das kann vielfältige Ausprägungen haben, aber nehmen wir einfach mal folgendes Beispiel an:
Einfach: standardisiert fixiertes und ausgerichtetes Werkstück
Komplex: Werkstück liegt so, wie es gefallen ist (beispielsweise auf einem Fließband)
Kann im ersten Fall noch ein ML-Modell zum Einsatz kommen, würde dies im zweiten Fall nur unter dem Umstand möglich sein, dass wir die Trainingsmenge um ein Vielfaches vergrößern und wesentlich mehr Werkstück-Kandidaten betrachten (quasi das Problem pro Winkel und pro Position multiplizieren). Das ist vermutlich unrealistisch. (Die Alternative, dass wir die Bilder hinterher ausrichten oder anderweitig anpassen, ist möglich aber ebenfalls hoch komplex).
In diesem Fall sollten AI-Modelle zum Einsatz kommen, die wesentlich näher von den Fähigkeiten des menschlichen Sehapparates inspiriert sind (für Menschen ist die Interpretation einer Bildsituation mit bspw. unterschiedlichen Lagewinkeln meist trivial: eine Katze von links oder rechts macht für uns – abgesehen vom Aberglauben – keinen Unterschied).
Moderne AI-basierte Ansätze
Solche AI-Modelle zur Bilderkennung verarbeiten die Bilddaten durch eine große Menge an unterschiedlichen und spezifisch gestalteten Schichten. Man nennt diese Netze deswegen auch Convolutional Neural Network (CNN, etwa zu verstehen als “gefaltetes” neuronales Netz).
Die einzelnen Schichten bzw. Layer sind dabei nicht (wie bei klassischen ML-Modellen) weitestgehend gleichartig aufgebaut, sondern sind auf bestimmte Aufgaben spezialisiert (z.B. Erkennung von Kanten, oder anderen Objekten/Formen, oder die Zusammenführung dieser Extrakte usw.). Die vielen Schichten erfordern, dass spezielle Trainingsmechanismen (Deep Learning) eingesetzt werden.
Diese Struktur macht es möglich Bilder sehr viel generischer auszuwerten und auf dem Niveau zu verarbeiten, so dass es dem menschlichen Gehirn nahekommt.
Off-the-Shelf Modelle
Das Training solcher Modelle ist trotz optimierter moderner Algorithmen ein ressourcenintensiver (Zeit, Performance, Strom) Prozess und erfordert eine große Menge Trainingsmaterial.
Zum Glück kann man sich einer “Abkürzung” bedienen. Es gibt generische, vortrainierte Modelle, die man auf eigene Probleme adaptieren kann. Das ist ein sehr cleveres und effizientes Vorgehen. Interessanterweise bedient sich der Mensch dabei Konzepten, die wir schon seit Anbeginn der Zeit nutzen: etwas Neues hinzuzulernen, fällt uns viel leichter, als bei den Anfängen zu starten. Als Neugeborenes sehen (und verstehen) zu lernen dauert viele Jahre. Als Erwachsener einen neuen visuellen Eindruck vorgelegt zu bekommen und diesen zu verinnerlichen, dauert unter Umständen nur wenige “Augenblicke”.
Man kann sich diese off-the-shelf Modelle im Prinzip so vorstellen: wir bekommen ein generisch auf visuelles Verständnis ausgebildetes Modell, das mit einer großen Vielzahl von Bildern trainiert wurde und so die “visuellen Konzepte” unserer Umwelt gelernt hat. Anschließend müssen nur noch die projekt-spezifischen Aspekte hinzutrainiert werden (anhand unserer eigenen spezifischen Bilder). Vereinfacht gesagt, werden dafür nur die äußeren Schichten “abgeschnitten” und durch eigene – dem Problem angepasste Schichten – ersetzt. Nur noch diese Schichten werden dann trainiert und der innere Teil des Netzes belassen, wie er ist.
Diese Vorgehensweise macht es möglich, mit vergleichsweise geringem Aufwand und relativ wenig Trainingsmaterial (d.h. eigenen Bildern) zu guten Ergebnissen zu kommen und hohe Prognosegüte zu erreichen.