Wenn sich die Künstliche Intelligenz selbst verdaut

Kultur

Vor 30 Jahren ging kurier.at online. Grund zu feiern und für diesen Beitrag von Futurezone-Chefredakteur Thomas Prenner. Weitere Texte zum Jubiläum, mit Ein- und Ausblicken zu kurier.at finden Sie an dieser Stelle. 

Im Web kommt man heute an Künstlicher Intelligenz (KI) kaum vorbei. Nicht nur auf Google, wo KI prominent als Alternative zu den klassischen Suchergebnissen platziert wird. Auch Webseiten sind immer öfter KI-generiert. Eine Studie von Forschern des Imperial College London, der Stanford University und des Internet Archive stellte fest, dass Mitte 2025 rund jede sechste neu veröffentlichte Webseite rein KI-generiert war, Tendenz steigend.

Problematisch

Dass KI-Inhalte im Web mehr werden, ist zuallererst für die Nutzerinnen und Nutzer ein Problem. Auch wenn KI-generierter Content nicht automatisch minderwertige Qualität aufweist, neigen die Modelle nach wie vor zum Halluzinieren. Zwar können moderne Modelle auch den Kontext erkennen, zu dem sie etwas generieren, dennoch basiert das Ergebnis am Ende des Tages auf Wahrscheinlichkeiten. Logisches Verständnis, wie sie ein menschlicher Verfasser aufweisen würde, fehlt einfach. Dazu kommt ein gewisser „Erfolgsdruck“ der KI. Das System ist von den Machern dazu angehalten, möglichst alles umfassend zu beantworten. Denn sonst würde man (zahlende) Anwender unzufrieden machen. Das ist das letzte, was die Unternehmen wollen, denn dann würde man irgendwann aufhören, die KI zu verwenden. Also sagen sie lieber etwas Falsches als gar nichts.

Training

Abseits der Faktentreue tritt ein weiteres großes Problem zu Tage, wenn das Internet zunehmend KI-generierte Texte aufweist. Um zu verstehen, wieso, muss man zuallererst verstehen, wie Sprachmodelle überhaupt funktionieren. An erster Stelle steht bei ihnen Training. Dabei erhält das Modell eine möglichst große Masse an Informationen in der Form von Text. Beim Lesen versucht das Modell anschließend, Strukturen zu identifizieren. Also zum Beispiel, dass rund um den Begriff „Österreich“ oft auch Wörter wie „Berge“, „Wien“ oder „Musik“ vorkommen. Fragt man die KI später, wofür Österreich bekannt ist, kann sie aufgrund dieser Häufigkeitsanalyse genau diese Begriffe ausspucken.

  Die KI greift um sich: Es geht um das gesamte World Wide Web

Die mit Abstand größte Quelle für das Training von KI-Modellen ist die umfangreichste Informationssammlung der Menschheitsgeschichte: das Internet. Und hier fängt das Problem an.

Es kollabiert

Wir stehen nun vor einem Zukunftsszenario, in dem immer weitere Teile des Webs KI-generiert sind. Gleichzeitig ist aber das Web selbst die größte und wichtigste Quelle, um künftige Modelle zu trainieren. Neue KI speist sich also aus den Ergebnissen alter KI. Es kommt zu einer Art von digitalem Inzest.

Dass das problematisch ist, wurde bereits wissenschaftlich nachgewiesen. Eine Studie, die 2024 im Fachmagazin Nature veröffentlicht wurde, kam zum Schluss, dass dieser Kreislauf KI-Modelle früher oder später kollabieren lässt, es ist vom „Model Collapse“ die Rede. Für ihre Untersuchung haben die Forscherinnen und Forscher immer neue Modelle auf den Daten der alten trainiert. Der Zusammenbruch erfolgt dabei schrittweise. In einem ersten Stadium verliert das Modell die Fähigkeit, Informationen abseits des statistischen Mittelmaßes zu generieren. Führt man das „Inzest-Training“ weiter, bricht die KI komplett zusammen und spuckt irgendwann nur mehr Kauderwelsch aus.

Wertvolle Informationen

Unternehmen wie OpenAI, Google und Anthropic haben diese Gefahr bereits erkannt und versuchen gegenzusteuern. So gibt es bereits Abkommen mit dem riesigen Online-Forum Reddit, wo es viel „echten“ Text …read more

Source:: Kurier.at – Kultur

      

(Visited 2 times, 2 visits today)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.