Die Möglichkeiten von Künstlicher Intelligenz sind bei VECTED schon seit vielen Jahren Gegenstand der Entwicklungsarbeit. In einer mehrteiligen Blog-Reihe möchten wir einmal den Prinzipien von KI auf den Grund gehen und dazu vorstellen, welche KI-Modelle es gibt, wie sie trainiert werden, welche Herausforderungen die KI-Entwicklung birgt und wo die Reise in Sachen KI einmal hingehen könnte. Beginnen möchten wir mit den Grundprinzipien von generativer KI in Abgrenzung zu prädiktiver KI.
In Zeiten von ChatGPT für die Erstellung von Texten oder Midjourney/DALL-E als KI-Bildgenerator lohnt es sich, einmal die zugrunde liegenden Mechanismen zu beleuchten. Bei beiden Tools handelt es sich um generative KI. Der Nutzer gibt einen Input – der mehr oder weniger detailliert sein kann – und die KI soll daraus selbstständig einen neuen Content kreieren. Die Aufgabenstellung ist ein sogenannter Prompt, z. B. „Erstelle mir ein Bild von einem Mädchen auf einem Fahrrad, das bei Sonnenschein über eine Blumenwiese fährt“.
Im Unterschied zu generativer KI produziert prädiktive KI keine neuen Inhalte, sondern trifft eine Vorhersage anhand gelernter Erfahrungen aus einer zugrundeliegenden Datenbasis. Die Objekterkennung, die wir in unsere Wärmebildgeräte integriert haben, ist ein Beispiel für prädiktive KI. Hier wird durch den Input eines Bildes eine bestimmte Anzahl an möglichen, im Bild vorhandenen Objekten durch die KI detektiert. Ein anderes Beispiel sind Modelle zur Wettervorhersage, die einen zeitlichen Verlauf anhand von Statusdaten vorhersagen. Generative KI erstellt Objekte, die vorher noch nicht vorhanden waren.
Beiden gemein ist, dass sie mit großen Datenmengen „gefüttert“ werden müssen, um Ergebnisse zu erzielen, wobei der Dateninput für generative KI ungleich größer ist. Ein solcher einzelner Input wird als Token bezeichnet. Bei der KI für unsere Wärmebildgeräte besteht ein Token aus einem einzelnen Bild. Wenn die KI Panzer detektieren soll, muss sie mit einer großen Anzahl unterschiedlicher Panzerabbildungen trainiert werden. Bei einem KI-Tool wie ChatGPT ist der Token-Begriff komplexer: Um der KI Satzverständnis beizubringen, lassen sich nicht einzelne Buchstaben als Input verwenden, sondern es werden Sätze in bestimmte einzelne Satzbausteine kodiert. Eine solche Kodierung entspricht einem Token. Um die ChatGPT-Version 3 zu trainieren, wurden 499 Milliarden Tokens eingespeist. Zur Einordnung: Eine einzelne, sehr gute Grafikkarte würde 355 Jahre benötigen, um ChatGPT 3 zu trainieren. Auf welcher Infrastruktur das Training basiert, wurde jedoch seitens des Anbieters nicht veröffentlicht.
Welche Datensätze dem KI-Training zugrunde liegen, wie KIs genau trainiert werden und welche Herausforderungen sich daraus ergeben, stellen wir im nächsten Teil unserer KI-Blog-Reihe vor.