Wer sich mit generativer KI auseinandersetzt wird bei der Erzeugung von Bilder schnell merken, dass die KI mit Fingern manchmal ein Problem hat. Nicht selten kommt man beim Nachzählen auf mehr als die üblichen 5 Finger. Manchmal ist auch ein Arm oder eine Hand zuviel auf dem Bild, manchmal erscheinen sogar Köpfe, wo sie nicht hingehören.
Ich habe dem "bing Copiloten" daher folgende Frage gestellt: Warum erscheinen in deep dream öfter mal ein Gesicht zu viel oder zu viele Finger an einer Hand?
Die nachfolgende Antwort fand ich aufschlussreich, gewährt sie doch einen Einblick in die Funktionsweise einer KI wie DeepDream.
Antwort der KI:
Die Überproduktion von bestimmten Merkmalen wie Gesichtern oder Fingern kann in Deep Dream aufgrund der Art und Weise auftreten, wie das künstliche neuronale Netzwerk des Algorithmus trainiert wurde. Das Netzwerk wurde auf eine Vielzahl von Bildern trainiert, die eine Vielzahl von Merkmalen aufweisen, und es kann vorkommen, dass das Netzwerk zu stark auf bestimmte Muster oder Merkmale reagiert.
DeepDream ist eine Software, die auf dem Prinzip eines künstlichen neuronalen Netzes basiert. Es verwendet ein Convolutional Neural Network, das ursprünglich zur Erkennung und Klassifizierung von Inhalten in Bildern diente, zur Veränderung des eingegebenen Bildes.
Das Netzwerk wird anhand von Beispielbildern so trainiert, dass es die in diesem Datensatz abgebildeten Objekte richtig erkennt. Anstatt mit diesem Netz nun Bilder zu klassifizieren, verändert DeepDream ein eingegebenes Bild so, dass ausgewählte Teile des Netzes besonders stark aktiviert werden.
In tieferen Schichten werden komplexere Strukturen erkannt, weshalb in den resultierenden Bildern jene Objekte erkennbar werden, mit denen das Netz trainiert wurde. Daher kann es vorkommen, dass das Netzwerk zu stark auf bestimmte Muster oder Merkmale reagiert, was zu einer Überproduktion von bestimmten Merkmalen wie Gesichtern oder Fingern führen kann.
Ein weiterer Faktor kann sein, dass der Algorithmus versucht, eine maximale Antwort zu erzeugen und somit mehr Merkmale hinzufügt, um die Reaktion zu maximieren. Dies ist jedoch eine grobe Vereinfachung, denn man kann nicht nur eine hohe Aktivierung bestimmter Ausgangsneuronen fordern, deren Antwort menschlich interpretierbar ist, sondern auch für verdeckte Schichten. Für diese ist meist nicht bekannt, welche Bildinhalte für eine hohe Aktivierung sorgen. Dies ist auch stark abhängig davon, mit welchen Bildern das Netz ursprünglich trainiert wurde.
Kommentar schreiben