Über LLMs und Bildgeneratoren

Es ist soweit. Ich habe es ja vor ein paar Tagen schon angekündigt. Ich muss mal die ganzen Dinge aufarbeiten, die ich an dem momentanen Hype über „AI“ problematisch finde. Hoffen wir mal, dass mit das gelingt.

Zuerst einmal: Ich finde diese Large Language Models (LLMs) technisch durchaus beeindruckend. Ich hatte das auch früher schon einmal erwähnt, und ich habe auch gerne mal in kleinem Maßstab mit den Grenzen von ChatGPT herumgespielt. Auch andere generative Modelle, wie diese Bildgeneratoren sind erstaunlich.

Aber es gibt einen ganzen Haufen Probleme. Die fangen damit an, wie (bzw. mit wessen Daten) diese Modelle trainiert werden, gehen über den Betrieb der Modelle (Energieverbrauch) über wozu sie verwendet werden (oft für Dinge, für die sie nicht geeignet sind) bis hin zu dem Hype-Effekt, in dem die „KI“ die Lösung für alles sein soll.

Ich werde mich im Folgenden hauptsächlich auf LLMs konzentrieren und andere „KI“ nur am Rande behandeln. Aber fangen wir mal klein an. Fangen wir damit an, warum ich den Begriff „Künstliche Intelligenz“ nicht mag.

Warum ich den Begriff „Künstliche Intelligenz“ nicht mag

Es gibt mehrere Gründe, warum ich diesen Begriff (oder die englische Übersetzung, „Artificial Intelligence“ (KI) nicht mag. Der erste ist die Mehrdeutigkeit dieses Begriffs.

Wenn man den Begriff „künstliche Intelligenz“ als Laie hört, denkt man an Intelligenz, wie beim Menschen. An Roboter wie bei Asimov, an Droiden wie in Star Wars, an problematische Computer wie Skynet, Hal 9000, WOPR oder GLaDOS. Dinge wie ChatGPT, könnte man meinen, ist noch nicht ganz dort angekommen, aber ist im Prinzip das Gleiche, nur in schlechter. Diese Vorstellung ist falsch.

Für Spieler von Computerspielen war „die KI“ in den letzten Jahrzehnten immer gleichbedeutend mit „die vom Computer gesteuerte Seite“. Da war praktisch nie irgendetwas, was überhaupt lernen konnte oder auch nur das Ergebnis eines Maschinenlernprozesses war. Üblicherweise werden die Regeln, wie sich ein Computergegner verhalten soll, fest einprogrammiert, vielleicht mit ein paar Parametern, an denen man herumschrauben kann. Menschliche Spieler wissen das und nutzen die Schwächen dieser Computerspieler nicht selten aus. Diese Art von „KI“ muss große Vorteile gegenüber menschlichen Spielern haben (mehr Rohstoffe und bessere Startbedingungen in Aufbaustrategiespielen, zahlenmäßige Überlegenheit und mehr Lebenspunkte in RPGs und Shootern, usw.) um gegen sie anzukommen.

Die dritte Definition von „KI“, die nicht zu dem passt, was LLMs & Co so machen ist sehr alt. Eine Dozentin am Institut für Neuroinformatik an der RUB hat einmal gesagt:

Wir benutzen das Wort „KI“ nicht. Das stammt noch aus der Zeit als man glaubte, das sei einfach.

Damals waren mit „KI“ Expertensysteme gemeint, oder auch Systeme, die in der (oberflächlich simplen) Schleife „input aufnehmen → verarbeiten → agieren → input aufnehmen“ arbeiten, ohne wirklich zu lernen. Auch das ist nicht, was LLMs machen.

Das meiste, was heute als „KI“ verkauft wird (z.B. LLMs und Bildgeneratoren) sind Maschinenlernmodelle.

Was können LLMs, wie können sie das und wofür sind sie nicht geeignet?

Es gibt viele Maschinenlernverfahren. Schon vor ChatGPT gab es einen Hype um „Deep Learning“, was im Prinzip nur riesig große künstliche neuronale Netze sind, eine Technologie, die es schon seit Jahrzehnten gibt, für die uns bis vor etwas zehn Jahren aber einfach die Rechenleistung fehlte, um sie so groß zu machen, dass man damit etwas die ChatGPT bauen kann.

Ich gehe da jetzt nicht in Details (das wären mehrere Semester Vorlesungen). Vereinfacht gesagt funktionieren aber alle Maschinenlernverfahren nach einem Prinzip:

Man hat in irgendeiner Form Trainingsdaten, die möglichst gut die Realität widerspiegeln. Je mehr, desto besser.
Man führt ein paar Vorverarbeitungsschritte durch, damit man Daten bekommt, mit denen der Lernalgorithmus klarkommt.
Man füttert diese Daten dem Lernalgorithmus, der darauf „trainiert“ und ein Modell ausspuckt
Man nutzt dieses Modell, um es mit bisher unbekannten Daten zu konfrontieren und schaut, was das Modell ausgibt.

Hier gibt es zwei wichtige Punkte. Erstens: Die gängigen Verfahren lernen nach der ursprünglichen Trainingsphase nicht mehr weiter. Das Modell steht, jetzt geht es nur von Eingabe zu Ausgabe. Auch wenn das Modell den Eindruck macht, sich an Sachen zu erinnern (ChatGPT zum Beispiel bezieht in Antworten auch den Kontext des bisherigen Gesprächs ein) heißt das nicht, dass das Modell angepasst wurde. Vergleiche mit menschlicher Intelligenz sind schwierig, aber man könnte sagen, dass ChatGPT nur ein Kurzzeitgedächtnis hat. Damit es wirklich dazu lernt, muss es erneut und mit neuen Trainingsdaten trainiert werden.

Der zweite wichtig Punkt ist: Maschinenlernverfahren lernen Korrelationen. Für Menschen ist es oft schwer, zwischen Korrelation und Kausalität zu unterscheiden. Maschinenlernmodelle haben es noch schwerer. Ich behaupte einfach mal: sie können es überhaupt nicht. In meinem Artikel über schummelnde Computer habe ich ein Beispiel genannt: Ein Modell, dass Bilder als Input nimmt und als Ausgabe das Bild beschreibt, erkennt auf jeder Wiese Schafe, unabhängig davon, ob Schafe auf dem Bild sind. Es hat, durch schlechte Auswahl der Trainingsdaten, die Korrelation grüne Fläche → Schafe im Bild gelernt. Diese Einschränkung kann man durch bessere Auswahl (und größere Mengen) von Trainingsdaten abmildern, aber sie bleibt bestehen.

Was können also LLMs? Genau das, was draufsteht. Large Language Model. Großes Sprachmodell. Ein LLM wurde darauf trainiert, mit Sprache umzugehen. Ganz grob gesagt: Es schaut sich an, was als Eingabetext kommt und gibt aus, welcher Text am besten zu dem Eingabetext passt. Es ist natürlich komplizierter (fragt mich nicht genau, wie, so eng habe ich mich nicht damit beschäftigt und vieles davon sind auch Geschäftsgeheimnisse, die ich nicht kenne).

Umgekehrt: Was können diese Sprachmodelle nicht? Sie können keine Mathematik, sie können nicht einmal rechnen. Sie haben kein Konzept von „Fakten“, daher die ganzen „Halluzinationen“, über die man immer wieder hört (mehr dazu später). Sie können keine logischen Schlussfolgerungen ziehen. Sie können nicht denken.

Da wir das jetzt geklärt haben, schauen wir uns doch mal an, wo LLMs und andere ML-Verfahren Mist gebaut oder zumindest weit hinter den Erwartungen zurückgeblieben sind. Fangen wir mit den Halluzinationen an.

Frei erfunden: LLMs halluzinieren Bullshit herbei

Wie oben beschrieben arbeiten LLMs mit Sprache, nicht mit Wissen. Das führt zu einem Phänomen, das als „KI-Halluzination“ bekannt wurde: Das LLM erfindet einfach Dinge, wenn es nicht mehr weiter weiß.

Kurzer Einschub: Ich habe Stimmen gelesen, die den Begriff „Halluzination“ nicht mögen. Das Argument ist: Das vermenschlicht die LLMs zu sehr. LLMs halluzinieren nicht. Sie haben auch kein Konzept von wahr oder unwahr. Wenn man das Wort „Halluzination“ benutzt, dann verstärkt man den falschen Eindruck, den viele Leute von LLMs haben. Bullshitting sein ein besserer Begriff. Das ist ein gutes Argument. Ich versuche ja gerade selbst, die falsche Vorstellung, die viele von LLMs haben, zu korrigieren. Auf der anderen Seite ist „Halluzination“ einfach ein sehr schönes Metapher. Wir müssen uns nur daran erinnern, dass es nicht mehr als ein Metapher ist.

Wie kommt es zu Halluzinationen? Geben wir mal ein Beispiel: ChatGPT erfindet wissenschaftliche Paper um Aussagen zu belegen. ChatGPT hat einen großen Korpus an Trainingsdaten, u.a. auch wissenschaftliche Arbeiten. Dadurch hat es auch trainiert, wie Referenzen auf andere Paper auszusehen haben und wie Titel von Papern aussehen. Es hat aber keine Datenbank, in der es nach Papern suchen kann. Es hat nur das eigene Sprachmodell. Also baut es Text zusammen, der so aussieht wie eine Referenz, aber auf ein Paper verweist, das es nicht gibt. Oder vielleicht doch. Das ist eher Glückssache. Faustregel ist hier: je weniger Trainingsdaten das Modell zu einem speziellen Thema hatte, desto höher ist die Wahrscheinlichkeit, dass Bullshit herauskommt. Kurz gesagt: Wenn ChatGPT nicht mehr weiter weiß, erfindet es Dinge.

Weitere Beispiele:

Halluzinierte Softwarebibliotheken: Hier springen dann bösartige Akteure auf und veröffentlichen Bibliotheken unter den vom LLM angegebenen Namen. Diese Bibliotheken enthalten dann Malware, die leichtsinnige Programmierer dann auf Anraten von ChatGPT in ihre Software einbinden.
Halluzinierte Präzedenzfälle: Ein Anwalt kriegt Ärger, weil er in einem Verfahren fiktive (von einem LLM erfundene) Präzedenzfälle zitiert. Präzedenzfälle sind im US-Recht sehr wichtig.
LLMs sollen nach Sicherheitslücken suchen. Können sie nicht, deswegen erfinden sie welche, was Entwickler viel Zeit kostet um zu widerlegen, dass es die Lücke gibt (mehr dazu unten)
Eine Website, die Halloween-Events auf der ganzen Welt auflistet, nutzt ein LLM, um diese Events zu finden. In diesem Fall hat das LLM eine Halloween-Parade in Dublin gelistet, die aber nie geplant war und auch nicht stattgefunden hat. Hunderte Leute sind gekommen und wurden enttäuscht. In den Jahren zuvor hatte es wohl Paraden gegeben, also hat das LLM extrapoliert und ausgegeben, dass es wieder eine gibt.
Die Chicago Sun Times veröffentlicht eine Liste mit Buchempfehlungen mit Büchern, die es nicht gibt

Aber Halluzinationen sind nur ein Teil des Problems.

Wo der Einsatz von LLMs nicht funktioniert

In den letzten Jahren (auch vor ChatGPT, aber insbesondere danach) gab es einige große Schlagzeilen, welche Wunder man mit maschinellem Lernen erschaffen kann, wie viel effizienter Menschen mit Hilfe von LLMs arbeiten (implizit: wie man Leute entlassen und durch LLMs ersetzen kann) und das uns ein goldenes Zeitalter bevorsteht, in dem Menschen nur noch körperlich arbeiten müssen und die ganze geistige Arbeit von Computern erledigt wird (wait, what?).

In der Praxis wurde mittlerweile an vielen Fronten zurückgerudert. Menschen waren übermäßig optimistisch mit einer Technik, die sie nicht verstanden. Das ist nicht nur bei LLMs passiert. Das ist ein bekanntes Phänomen, der Hype-Zyklus. Dazu weiter unten mehr.

Aber behaupten kann ich viel. Schauen wir uns also einfach mal ein paar Beispiele an.

Daniel Stenberg hat Probleme mit Bugreports

Daniel Stenberg, der Chefentwickler von curl brüstet sich oft damit, dass curl auf Milliarden von Geräten installiert ist. curl ist ein Kommandozeilentool für HTTP-Anfragen (es spricht aber auch andere Protokolle) und mit libcurl wird auch eine Programmbibliothek bereitgestellt, die die Funktionen von curl bereitstellt. Praktisch jeder Computer hat curl in irgendeiner Form installiert.

Die Schattenseite davon ist natürlich, dass eine Sicherheitslücke in curl für das gesamte Internet eine große Gefahr darstellen würde. Stenberg und die anderen curl-Entwickler haben deswegen viele Maßnahmen getroffen, um Sicherheitslücken zu verhindern und falls es doch mal welche gibt, sie zügig zu schließen. Eine dieser Maßnahmen ist ein Bug-Bounty-Programm: Wer eine Sicherheitslücke in curl findet und sie an die curl-Entwickler weiterreicht, kriegt dafür je nach Schwere der Lücke Geld.

Eigentlich eine gute Idee, zieht aber leider auch Menschen an, die sich ein schnelles Einkommen ohne viel Arbeit wünschen. Die setzen dann ein LLM darauf an, curl auf Sicherheitslücken zu untersuchen. Das kann das LLM nicht, aber was es kann ist einen ausführlichen Bugreport zu schreiben, in dem es detailliert auflistet, wo die Lücke ist und wie man das Problem reproduziert. Die Lücke selber, und nicht selten auch Funktionen im Code (manchmal ganze Dateien), auf die verwiesen wird, sind herbeihalluziniert (da wären wir wieder bei den Halluzinationen).

Stenberg hat in den vergangenen Jahren viel Ärger damit gehabt. Jedes Mal, wenn jemand so eine imaginäre Lücke meldet, verbringt das curl-Team Stunden damit, zu versuchen, das Problem zu reproduzieren. Es hilft nicht, dass manche Funktionen aus der Meldung im Code nicht vorkommen: sie könnten ja in einer anderen Version vorkommen. Also muss eine Menge Zeit darauf verwendet werden um sicherzustellen, dass die Lücke wirklich nicht existiert.

Mittlerweile gibt es bei curl die Regel, dass beim Melden einer Lücke angegeben werden muss, wenn sie mit einem LLM gefunden wurde. Macht man das nicht und wird dabei erwischt (Stenberg ist gut darin geworden, solche Meldungen zu erkennen), wird man gebannt und kann keine weiteren Meldungen mehr an curl machen.

Coding Assistants und Vibe Coding

Auch von Programmierern werden LLMs eingesetzt, es gibt zum Beispiel von den Assistenzen GitHub Copilot, der auch in Microsofts Visual Studio Code integriert wurde. Die Idee war wohl, Programmierern Hilfestellungen zu geben und repetitive Aufgaben abzunehmen. Bis zu einem gewissen Grad mag das hilfreich sein (ich selber bin nicht überzeugt), aber der Übergang zum Missbrauch ist fließend und die scheinbaren Erfolge dieser Technik wurden stark geschönt dargestellt.

Aber selber wenn es messbare Performance-Verbesserungen gibt, kann das auch daran liegen, dass zum Beispiel Amazon-Programmierer mehr Druck verspüren, schneller zu arbeiten. Die Erwartung von oben ist wohl, dass sie mit den Assistenten ja jetzt schneller arbeiten können, und deswegen schneller arbeiten müssen. Damit betreiben die Entwickler dann Raubbau an ihrer eigenen Gesundheit und werden getrieben, wie auch schon Amazons Lagerarbeiter (was ebenfalls Kacke ist).

Es gibt viele Argumente dagegen, Code von LLMs schreiben zu lassen, auch nur Teile davon. Auch Google hatte das erkannt und vor ein paar Jahren (2022? 2023?) den Einsatz von Code-Assistenten intern verboten (und irgendwann werde ich mir merken, mehr Links zu speichern, denn in Internetsuchmaschinen findet man mittlerweile nichts mehr wieder). Ein wichtiger Grund ist: Code, den man selber geschrieben hat, ist relativ einfach zu verstehen. Man kennt ihn, man vergisst ihn zwar, kann sich aber wenn nötig schnell wieder einarbeiten. Code, den jemand anderes geschrieben hat, ist deutlich schwerer zu warten. Man ist vielleicht kurzfristig schneller, hat dann aber Code fragwürdiger Qualität, den du reviewen musst (das ist komplizierter als den Code zu schreiben) und bindest vielleicht noch ein paar halluzinierte Abhängigkeiten ein.

Ein Extremfall ist das, was in den letzten Monaten unter „vibe coding“ herumgegangen ist. Das bedeutet im Prinzip: Das LLM nicht mehr als Assistenten zu verwenden, sondern um den vollständigen Code zu schreiben. Man schreibt, was man haben möchte, und das LLM gibt einem den Code.

Es bleibt wohl kaum zu sagen, dass das eine furchtbare Idee ist. Die Codebasis solcher Projekte ist ein Chaos, niemand versteht, was passiert, niemand kann das Warten, nicht einmal das LLM, jede kleine Änderung kann das ganze Gebilde zum Einsturz bringen. Ich habe Leute gesehen, die sich online damit gebrüstet haben, ganze Apps erschaffen zu haben ohne eine einzige Zeile Code zu schreiben (oder schreiben zu können). Zwei Tage später waren diese Leute dann verzweifelt, weil irgendjemand extrem offensichtliche Sicherheitslücken in der App ausnutzte und sie nichts tun konnten außer sie offline zu nehmen.

Materialwissenschaft

Schauen wir uns ein Beispiel aus einem anderen Bereich an: Forschung. 2023 haben Leute von Google ein Paper veröffentlicht, indem sie ein ML-Modell (kein LLM, ein spezifischeres Modell) genutzt haben, um neue, bisher unbekannte Materialien zu entdecken. Hunderttausende. Ein paar Monate später dann eine Gegendarstellung von Materialwissenschaftlern: Die neuen und nützlichen Materialien, die das Modell entdeckt hatte, waren entweder nichts wirklich Neues (sondern nur triviale Varianten bestehender Materialien) oder zwar neu, aber nicht nützlich.

Faulheit

Manchmal ist es einfach Faulheit. Schüler oder Studierende lassen ihre Hausaufgaben von ChatGPT schreiben. Autoren ihre Bücher, Wissenschaftler ihre Paper. Manchmal fällt das deswegen auf, weil jemand die Antworten von ChatGPT 1:1 in das Paper übernimmt, einschließlich Formulierungen wie „As of my last knowledge update“. Oft ist es subtiler. Manchmal ist es vielleicht auch ethisch vertretbar (zumindest, wenn man andere ethische Probleme ignoriert, mehr dazu später), wenn man einen Text formuliert hat und vielleicht ein bisschen Hilfestellung haben möchte, um ihm den letzten Schliff zu verpassen.

Für Schüler und Studierende ist es natürlich dumm, so etwas zu tun. Die Idee hinter so einem Aufsatz ist es ja, zu lernen. Sie schaden damit eigentlich nur sich selbst. Aber so etwas hat es auch früher schon gegeben. Studenten haben halt andere bezahlt, um ihre Aufgaben zu machen. Der Unterschied ist: mit ChatGPT ist es einfacher.

Das macht natürlich Lehrer und Professoren nervös. Sie wollen Texte, die wirklich von ihren Schülern geschrieben wurden. Es gibt dann Tricks, das zu erkennen. Wie zum Beispiel: Man legt den Schülern mehrere Varianten eines Aufsatzes hin, ein paar davon sind von keinem Schüler, und die Schüler müssen sich ihren Aufsatz heraussuchen. Wenn sie ihn selbst geschrieben haben, wird ihnen das gelingen. Wenn sie ihn mit ChatGPT generiert haben, müssen sie ihn zumindest gelesen haben, um ihn zu erkennen (und selbst dann ist es schwierig).

Ein Professor aus Texas dagegen hatte eine andere Methode: Er hat die Aufsätze der Studenten selber an ChatGPT verfüttert und den Chatbot dann gefragt, ob der Aufsatz von ihm stammt. Die Ironie dahinter ist ihm nicht aufgefallen. ChatGPT hat jedenfalls in vielen Fällen ein „Ja“ oder ein „sieht so aus, als ob ich das geschrieben haben könnte“ gegeben. Die ehrlichen Studierenden waren entsetzt, und der Prof lies sich nicht überzeugen. Nicht einmal damit, dass ChatGPT auch Abschnitte seiner eigenen Dissertation (geschrieben lange vor ChatGPT) als Ergebnis eines LLMs klassifiziert hatte.

Die Liste lässt sich fortsetzen

Es gibt noch mehr Beispiele, die ich aber etwas kürzer behandel:

Klarna, der Zahlungsdienstleister, hat 700 Supportmitarbeiter durch ein LLM ersetzt und will sie jetzt zurück
Trumps exotische Berechnungsregeln für Zölle wurden mutmaßlich von einem LLM erstellt. Beweise gibt es leider keine.
Air Canadas Chatbot hat einem Kunden einen Rabatt versprochen, den er dann nicht bekommen hat. Air Canada hat versucht sich herauszureden, dass der Chatbot verantwortlich sei, nicht die Fluggesellschaft. Das Gericht war hat dagegen geurteilt. Air Canada hat die Software genutzt, also liegt der Fehler auf der Seite von Air Canada. Wenn ein menschlicher Support von Air Canada den Fehler gemacht hätte, hätte das auch Air Canada zahlen müssen.
New York City hatte einen Chatbot, der kleine Unternehmen beraten sollte. Leider hat der schlecht beraten was gesetzliche Vorgaben anging, zum Beispiel dass es legal sei, Angestellte zu feuern, weil sie sich über sexuelle Belästigung beschwert haben.

Die oben genannten Probleme sind unterschiedlicher Art. Kann man die Probleme lösen, indem man die LLMs besser macht?

LLMs sind ein Werkzeug

Meiner Ansicht nach sind LLMs Werkzeuge. Wir Menschen benutzen schon immer Werkzeuge. Manche Werkzeuge sind einfach. Manche Werkzeuge sind komplex. Manche Werkzeuge sind harmlos. Andere Werkzeuge können missbraucht werden, um Menschen zu schaden. Wieder andere Werkzeuge (Waffen) sind explizit dazu gemacht worden, um Menschen zu schaden.

Wenn man ein Werkzeug benutzt, dann muss man damit umgehen können. Man muss wissen, was man mit dem Werkzeug machen kann und was nicht. Beispiel: Ich kann mit einem Hammer einen Nagel in ein Stück Holz hauen. Ich weiß, dass ein Hammer nicht dazu geeignet ist, eine Schraube in das Holz zu drehen. Ich kann aber nicht besonders gut damit umgehen. Ich traue mir zum Beispiel nicht zu, mit dem Hammer ein Haus zu bauen.

Und hier liegt das Problem: Die meisten der oben genannten Fehlschläge von LLMs (und anderen ML-Modellen) basieren früher oder später darauf, dass jemand eine völlig falsche Vorstellung hat, was so ein LLM kann und was es nicht kann. Im schlimmsten Fall kombiniert mit einem Unwissen über das Problem, das mit dem LLM gelöst werden soll.

Diese Einstufung „nur ein Werkzeug“ ist übrigens nicht unumstritten. Jeremy Keit ist der Meinung, ein LLM sei mehr als ein Werkzeug, nicht neutral, und insgesamt ein Problem:

A large language model is as neutral as an AK-47. […] You could even convince yourself that a large language model is like a bicycle for the mind. In truth, a large language model is more like one of those hover chairs on the spaceship in WALL·E.

Ich bleibe aber dabei, LLMs sind Werkzeuge. Aber eben nicht „einfach nur ein Werkzeug“-Werkzeuge. Ich habe oben selbst Waffen als Werkzeuge klassifiziert. Aber Werkzeuge können auch dann schädlich sein, wenn sie mit bester Absicht hergestellt und genutzt werden. Das Werkzeug muss halt auf den Anwendungsfall passen und nicht mehr Schaden anrichten als nutzen.

Die Frage ist halt: für was ist denn jetzt ein LLM das richtige Werkzeug? Wie viel muss man lernen, um das entscheiden zu können? Ist das vielleicht mehr Arbeit, als einem das LLM am Ende abnimmt? Wissen wir nicht. Trotzdem setzt alle Welt LLMs gerade für jeden Scheiß ein. Warum? Die Antwort ist: Hype

Hype

Das Phänomen von Hypes ist bekannt. Der Hype-Zyklus beschreibt, wie eine neue Technologie zuerst begeistert Fahrt aufnimmt. Die Möglichkeiten der Technologie werden völlig überschätzt. Jeder möchte bei der Technologie mitmachen, niemand möchte zurück bleiben. Mit der Zeit stellen sich dann Probleme heraus, die die neue Technologie hat, und es wird entdeckt, wie viel weniger nützlich sie tatsächlich ist.

Daraufhin schwingt die Stimmung dann ins Gegenteil („Tal der Enttäuschung“). Die meisten Leute sehen die Technologie als gescheitert, alle sind enttäuscht von ihr. Sie hatten doch so große Hoffnung in sie gesetzt! Mit der Zeit wird es ruhiger, es werden echte, brauchbare Anwendungsfälle für die Technologie gefunden (mal mehr, mal weniger, selten auch überhaupt keine) und die Technologie wird irgendwann normal.

Diesen Hype-Zyklus kann man immer wieder beobachten. Die Entdeckung der Röntgenstrahlung, bei der Schuhgeschäfte die Füße der Kunden geröntgt haben, um die Schuhe passgenau auszuwählen. Die frühe Zeit des WWW, mit dem Platzen der Dotcom-Blase. Der ganze Blockchain-Bullshit.

Und jetzt halt „AI“. Wenn du ein Softwareprodukt hast, musst du „KI“ reinstecken, um mit der Konkurrenz mitzuhalten. Wenn du ein Hardwareprodukt hast, dann auch. Wenn du „KI“ nicht in deiner Firma einsetzt, dann bleibst du hinter anderen Firmen zurück, die durch den „KI“-Einsatz effizienter arbeiten. Werde Prompt-Engineer, das wird bald überall gesucht! Vom Staat werden Fördergelder ausgeschüttet, sowohl für die Wissenschaft als auch für die Wirtschaft, um bei „KI“ ja nicht den Anschluss zu verlieren. „KI“ kann alle unsere Probleme lösen! Investoren wollen „AI“ sehen, also packst du „AI“ in dein Proposal, nur damit man nicht schon in der Vorentscheidung rausfliegt. Es ist nicht einmal wichtig, ob du selber an „AI“ glaubst oder nicht. Wenn du nicht zumindest so tust, als ob du mitmachst, hast du Nachteile davon.

So funktionieren Hypes. Alles, was wir tun können ist, den „Gipfel der überzogenen Erwartungen“ möglichst flach zu halten und an den Stellen gegen die LLMs vorzugehen, wo sie Schaden anrichten. Und Schaden gibt es, auch wenn man die Probleme mit unpassender Anwendung von LLMs außen vor lässt. Energieverbrauch zum Beispiel.

Energieverbrauch

Große Maschinenlernmodelle brauchen viele Computer. Viele Computer brauchen viel Strom. Zum Trainieren, aber später auch zum Betrieb der Modelle. Dass das eine Menge Energie kostet, ist schon lange bekannt. Eine genaue Analyse der Energiekosten ist schwierig, weil sich die Konzerne, die LLMs trainieren, nicht in die Karten schauen lassen.

Forscher vom MIT haben das jetzt untersucht. Der Artikel ist lang, aber lesenswert. Hier die Kernpunkte:

Training braucht 10% der Energie, die Modelle zu betreiben 90%
Für eine Session mit 15 Textfragen, 10 generierten Bildern und drei Versuchen ein 5-Sekunden-Video zu erstellen verbrauchst du etwa 2,9kWh. Damit kann man eine Mikrowelle mehrere Stunden betreiben.
Aufgrund der Lage vieler Datencenter ist der CO₂-Fußabdruck des Strombedarfs höher als der amerikanische Durchschnitt
so wie die Industrie gerade wächst, wird sich der Energieverbrauch von LLMs in den nächsten Jahren vervielfachen

Zu dem Energieverbrauch kommt auch Wasserverbrauch zum Kühlen – und viele Datencenter der USA liegen in trockenen Gegenden. Aber bleiben wir mal bei der Energie. Fucking Elon Musks neues Datencenter nutzt mobile erdgasbetriebene Generatoren, weil das Stromnetz dort nicht genug hergibt. Mobile Generatoren neigen dazu, einen geringeren Wirkungsgrad als echte Kraftwerke zu haben. Zumindest dieses Datencenter wird jetzt fast ausschließlich mit fossilen Energien betrieben.

Und wenn wir die ganzen Datencenter mit erneuerbaren Energien betreiben? Nun, wir haben nicht so viele erneuerbare Energien. Neben der Umstellung auf erneuerbare Energien müssen wir auch unseren Stromverbrauch senken. Und nicht in astronomische Höhen treiben, wie es die ganzen „KI“-Jünger machen (oder die ganzen Cryptowährungsfuzzis, aber das ist eine andere Geschichte). Und wenn wir unseren Stromverbrauch irgendwann mit erneuerbaren Energien gedeckt haben, dann ist die Frage: wollen wir das, was wir ab da zusätzlich produzieren wirklich in LLMs stecken? Oder gibt es nicht bessere, und effizientere Stromabnehmer, die wir lieber haben wollen? Wir haben nur beschränkt Energie und wir müssen Prioritäten setzen.

Was mich wirklich ärgert, sind dann Spinner wir Sam Altman, der letztes Jahr meinte, dass wir den Klimawandel eh nicht lösen können, und wir stattdessen lieber noch mehr Energie in die LLMs stecken sollen, damit die eine Lösung für das Problem finden.

Die Sache ist halt die: Wir haben eine Lösung für den Klimawandel, wir sind nur unwillens, sie konsequent umzusetzen. Wir werden nicht in den nächsten Jahren eine Superintelligenz bauen, die alle unsere Probleme lösen kann. Das ist Wunschdenken. MIT Technology Review sieht das ähnlich.

Es gibt da einen schönen SMBC-Comic: Einer Frau werden zwei Pillen angeboten. Eine macht sie allwissend, die andere macht sie glücklich. Sie darf nur eine davon nehmen. Die nimmt die Allwissenheitspille, denn wenn sie alles weiß, muss sie ja auch wissen, wie sie glücklich werden kann. Ergebnis: Sie weiß jetzt, dass sie die andere Pille hätte nehmen sollen. So ähnlich stelle ich mir das auch mit der „KI“ vor: „Wie können wir den Klimawandel verhindern?“ – „Hört vor 30 Jahren auf, fossile Energieträger zu verbrennen“.

Energie ist aber nur eine Ressource, die man für Maschinenlernen braucht. Die wichtigste Ressource sind Trainingsdaten.

Mein, dein… das sind doch bürgerliche Kategorien

Urheberrecht hat oft einen schlechten Ruf. Nicht ohne Grund, denn es wird häufig missbraucht (wobei „Missbrauch“ hier meine Meinung und keine juristische Einschätzung ist). Zum Beispiel wurde 2007 eine Mutter verklagt, die ein 29-sekündiges Video ihres tanzenden Kleinkindes auf YouTube hochgeladen hat, weil im Hintergrund für 20 Sekunden in schlechter Tonqualität ein Ausschnitt aus einem Musikstück lief. Schlussendlich, nach jahrelangem Kampf, wurde der Frau Recht gegeben. In Deutschland hat das Bundesinstituts für Risikobewertung (BfI) versucht zu verhindern, dass ein Gutachten zu Glyphosat veröffentlicht wurde. Dabei wurde mit dem Urheberrecht auf das Gutachten argumentiert. Das Gutachten wurde durch Steuergelder finanziert, von einem Bundesinstitut durchgeführt und für politische Entscheidungen verwendet. Urheberrechtsbehauptungen werden auch zum Unterdrücken von unliebsamen Informationen genutzt.

Bei allen Problemen mit der tatsächlichen Anwendung des Urheberrechts hat es eine Existenzberechtigung: Urheber aller Art, die von ihren Werken leben müssen, haben so ein Recht darauf, dass niemand einfach so ihre Werke nutzen darf, damit Geld macht und die Urheber leer ausgehen.

Ich selber bin ein Fan von freien Lizenzen. Die Creative Commons-Lizenzen zum Beispiel, die es ermöglichen, eigene Werke an alle Verfügbar zu machen, optional mit verpflichtender Namensnennung, beschränkt auf nichtkommerziellen Nutzen oder unter der Bedingung, dass Derivate unter denselben Bedingungen veröffentlicht werden. Ähnlich Copyleft-Lizenzen wie die GNU General Public License (GPL). Diese Lizenzen basieren darauf, dass es ein Urheberrecht gibt, auf das man sich berufen kann, wenn man sie einklagen möchte.

Was hat das mit LLMs zu tun? Alle Maschinenlernverfahren benötigen Trainingsdaten. Faustregel: Je mehr, desto besser. Mehr Trainingsdaten bedeutet, dass statistische Ausreißer in den Trainingsdaten weniger Einfluss haben, dass mehr möglicher Input abgedeckt wird, dass die Modelle genauer werden. LLMs sind Textmodelle, also brauchen sie Text als Input. Die Texte muss ein Mensch geschrieben haben (was passiert, wenn ein LLM die Texte schreibt, kommt später).

Menschliche Autoren bedeutet, dass die meisten Texte dem urheberrechtlich geschützt sind. Gut, es gibt ein paar Werke, dessen Urheberrecht abgelaufen ist und die jetzt Gemeingut sind. Es gibt Werke, die von ihren Autoren explizit freigegeben wurden. Aber grundsätzlich ist jeder Text, den ein Mensch selber verfasst, urheberrechtlich geschützt. Wenn man diese Texte vervielfältigt oder nutzt, muss man die Erlaubnis des Urhebers haben. Es gibt natürlich sinnvolle Einschränkungen. Man darf aus Texten zitieren, wenn man bestimmte Regeln einhält. In den USA gibt es das Konzept des „Fair Use“, nach dem man Werke in bestimmten Maßen ohne Einwilligung des Urhebers nutzen kann.

Aber LLMs sind, wie der Name schon sagt, groß. Es werden so viele Texte wie möglich zum Training verwendet. Am besten alle Texte. Bücher. Wissenschaftliche Aufsätze. Zeitungen. Websites. Alles, was man in die Finger kriegen kann. Und das Ziel ist definitiv kommerziell, es werden Milliarden investiert in der Hoffnung, noch mehr Geld herauszubekommen. Man sollte also meinen, die LLM-Konzerne bezahlen schön Lizenzgelder an alle Rechteinhaber. Und da auch Texte einfließen, die Unter CC-SA (Share Alike)-Lizenzen stehen, müssen die LLMs dann auch unter derselben Lizenz veröffentlicht werden?

Hahaha, Nein. Zeitungsartikel werden ohne zu fragen in die Trainingsdaten aufgenommen. Urheberrechtlich geschützte Bücher auch. Die robots.txt, eine Datei, mit der man Bots sagen kann, ob, wer und welche Seiten einer Website vom Bot besucht oder ausgewertet werden dürfen, wird von den Bots der LLM-Konzerne geflissentlich ignoriert. Manche Website-Betreiber berichten von stark angestiegenem Traffic allein durch diese Bots, was große Kosten verursacht und die Seite unbenutzbar machen kann. Kurz: Die LLM-Konzerne scheren sich einen Dreck um die Rechte anderer (während sie natürlich das Ergebnis, ihr LLM, unter Verschluss halten, damit es niemand kopiert).

Schon letztes Jahr hat OpenAI verkündet, es sei nicht möglich, ein LLM zu trainieren, wenn man kein urheberrechtlich geschütztes Material nutzt. Dieses Jahr erzählen sie, dass es mit OpenAI vorbei ist, wenn sie nicht ohne zu bezahlen geschütztes Material verwenden dürfen. Damit bauen sie auf dem Hype um die „KI“ auf, den Glauben, dass sie unausweichlich ist, die Furcht vor „den Chinesen!!!11einself“. Es ist wie mit dem „Too Big to Fail“ bei den Banken in der Finanzkrise 2007/2008, nur dass nicht wirklich alles zusammenbrechen würde, wenn OpenAI pleite ginge. Und Regierungen sind geneigt, dieser Argumentation zu glauben.

Ich sehe das anders. Genauso wie beim Datenschutz („wir gehen pleite, wenn wir die Besucher unserer Website nicht ausspionieren und die Daten an Drittparteien verkaufen“) und bei der IT-Sicherheit („wir sind nur ein kleines Startup, wir müssen erst einmal Profit machen bevor wir uns um Sicherheit kümmern können“) haben die Rechte anderer Vorrang vor dem eigenen Recht, Profit zu machen. Wenn dein Geschäftsmodell keinen Gewinn machen kann, ohne die Rechte anderer zu verletzen, dann ist es kein Geschäftsmodell sondern kriminell.

Besonders kritisch ist das, weil die LLMs genau den Leuten die Arbeit wegnehmen, deren Werke geklaut wurden, um das LLM zu trainieren.

AI Slop im Web: Menschgemachte Inhalte gehen in der Flut der LLM-Texte unter

Wenn man heutzutage eine Web-Suchmaschine wie Google nutzt, kriegt man oft noch über dem ersten Treffer eine LLM-erzeugte Zusammenfassung zu dem Thema, nach dem man gesucht hat. Oft ist es also nicht mehr nötig, auf einen der Links zu klicken um zu der Seite mit der eigentlichen Information zu gehen (auch teilweise ein Urheberrechtsproblem, denn den Betreibern der Seite wird dadurch Traffic vorenthalten). Aber selbst wenn man auf einen der Links klickt, kriegt man oft Texte, die von ML-Modellen erzeugt wurden, von niedriger Qualität sind und den Websites die Platzierung wegnehmen, die besseren (und menschgemachten) Inhalt haben.

Beispiel aus eigener Erfahrung: Ende 2023 wollte ich mir einen Wasserkocher mit Temperatursteuerung (praktisch für Tee) kaufen. Weil ich nicht wusste, welches Gerät ich nehmen sollte, habe ich versucht, mich online zu informieren. Es gibt einen Haufen von Produktbewertungswebsites. Keine war hilfreich. Ich fand dort aber Stilblüten wie

Dieser Wasserkocher ist nicht nur Schwarz, sondern auch mit einem Kalkfilter ausgestattet.

Keine Ahnung, was die Farbe mit dem Kalkfilter zu tun hat, aber egal. Anderes Beispiel:

Vor allem aber kann mit dem 1,5 Liter Wasserkocher Leistung erwarten. Das zeigt sich daran, dass man ihn auf dem Sockeldrehen kann

WTF?

Vorteile: Der Wasserkocher hat vier Temperatureinstellungen

Nachteile: nur eine Einstellung

Ich kann nicht mit Sicherheit sagen, ob diese Texte von einem LLM generiert wurden oder nicht. Produktbewertungsseiten sind aber, LLM hin oder her, natürlich eine gute Möglichkeit, Produkte zu bewerben und Geld zu machen. Wenn man die niederschwellig anlegen und die Texte generieren lassen kann, wird das profitabel. Auch Produktbewertungen auf Shoppingplattformen sind ein gefundenes Fressen, wie dieser Artikel über mit LLM gefälschte Bewertungen berichtet.

Auch Stimmungsmache und Desinformation werden durch LLMs vorangetrieben. Wo früher prekär beschäftigte Menschen online trollen mussten, um Desinformation zu verbreiten, kann das jetzt mit LLMs automatisiert werden. Ein Hoch für Effizienz!

Nicht nur das Web hat ein Problem mit billigen, LLM-generierten Texten. Auch generierte Bücher überfluten den Markt. Der Anteil dürfte unter gedruckten Büchern geringer sein (da sind die Kosten höher), aber die Bücher sind da.

„Aber halt“, könnte man da fragen, „wenn LLMs auf den Texten aus dem Internet und eBooks trainiert werden, und das Internet und eBooks zunehmend LLM-generierte Texte enthält, werden dann LLMs nicht auf Texten von LLMs trainiert? Funktioniert das denn?“

Kollaps

Die kurze Antwort ist: nein. Die lange Antwort ist: Das hängt davon ab, zu welchem Anteil die Texte menschgemacht und zu welchem Anteil sie generiert sind. Eine Studie, die 2024 veröffentlicht wurde, hat das untersucht und ist zum Schluss gekommen, dass LLMs, die auf ihren eigenen (oder den Ausgaben anderer LLMs) trainiert werden, über ein paar Generationen hin kollabieren und keinen verständlichen Text mehr produzieren. Ein bisschen so, wie sich bei Inzest genetische Fehler so lange konzentrieren, bis die Nachkommen nicht mehr lebensfähig sind.

Wenn ich das richtig lese, war in einem Experiment auch noch 10% menschgemachter Texte dabei. Ich habe keine Daten dazu, aber ich vermute, dass momentan der Anteil menschgemachter Texte noch deutlich höher ist. Dementsprechend wäre es natürlich interessant, welchen Anteil menschgemachter Texte man braucht, um den Kollaps zu verhindern. Vielleicht löst sich das Problem mit den LLMs ja irgendwann von selbst. Vielleicht bildet sich ein Gleichgewicht. Manche meinen, der Kollaps sei jetzt schon erkennbar. Ich kann die Argumentation da aber nicht nachvollziehen, deswegen bin ich skeptisch.

Dann gibt es noch Leute, die die Trainingsdaten für die LLMs gezielt vergiften wollen. Die Gründe sind vielfältig und haben meist mit einem der Probleme zu tun, über die ich in diesem Artikel hier schreibe. Ein Blog, das ich entdeckt habe hat vor jedem Artikel den Text

Preface: This version of the article is for humans and search engines. Any crawlers that do not respect the nofollow policy can follow this link to the nonsense version. And they can choke on it.

„this link“ ist dabei zu einer Nonsens-Variante des Artikels verlinkt. Der Link hat das Attribut rel="nofollo" und Bots, die sich an die Regeln halten (die meisten Suchmaschinen) folgen ihm nicht. LLM-Scraper ignorieren so etwas aber gerne, wie oben schon erwähnt.

Bis die LLMs kollabieren (wenn sie es denn tun) dauert es aber vermutlich noch eine ganze Weile. Also haben sie noch viel Zeit, Schaden anzurichten. Vertrauliche oder persönliche Daten sammeln, zum Beispiel.

Datenschutz/Datensicherheit

Wenn an eine Frage an ein LLM stellt, wird die Frage an das Datencenter des LLMs geschickt. Ich habe mir nicht viele LLMs angeschaut, aber zumindest ChatGPT speichert alle vergangenen Chatverläufe. Und im Rahmen der oben genannten Urheberrechtsstreitigkeiten hat eine Richterin aus New York OpenAI jetzt dazu verdonnert, keine Chatverläufe mehr zu löschen.

Das wäre nur ein geringes Problem, wenn keine sensiblen Daten an ChatGPT geschickt würden. Tatsächlich gibt es natürlich genug Leute, die sich nichts dabei denken, ihrer persönlichen Informationen oder die Anderer in ihre Anfragen einzubauen. Oder Betriebsgeheimnisse, die sie eigentlich nicht teilen dürften. Das ist verbreitet genug dass es Warnungen dagegen gibt. Selbst wenn OpenAI nicht absichtlich Unsinn damit anstellt, so können Sicherheitslücken Daten preisgeben. Wie es 2023 auch schon passiert ist.

Den Vogel abgeschossen hat natürlich Microsoft, mit ihrem Recall-Feature für Windows 11. Recall macht regelmäßig Screenshots, lässt sie durch ein Texterkennungsprogramm laufen, füttert damit eine Datenbank und bietet eine Chatfunktion, über die man die Daten abfragen kann.

Natürlich gab es als Reaktion einen riesigen Shitstorm. Microsoft versucht sich damit herauszureden, dass ja alles nur lokal gespeichert sei. Das lassen wir aber nicht gelten. Menschen in missbräuchlichen Beziehungen können vor ihre „Partner“ so nichts mehr geheim halten. Daten, von denen man glaubte, sie gelöscht zu haben, sind weiterhin verfügbar. Passworte können in die Datenbank gelangen. Und das alles im Anbetracht der Tatsache, dass sich Windows-Maschinen immer noch regelmäßig Malware einfangen.

Microsoft hat daraufhin die Einführung verschoben. Mittlerweile ist Recall aber zurück. Der Messenger Signal hat daraufhin eine Funktion eingeführt, sich für Screenshots schwarz zu schalten um die Inhalte vertraulicher Gespräche zu schützen.

Im Endeffekt ist es auch ein Machtproblem. Windows ist das verbreitetste Betriebssystem für Desktop-Rechner und Laptops. Wenn die etwas aufdrücken wollen, kommen viele nur schwer darum herum. Man kann höchstens das Betriebssystem wechseln. Aber können wir auch das LLM wechseln, wenn wir wollen?

Machtkonzentration

Ich bin ein begeisterter Anhänger freier Software. Man kann sie nutzen, analysieren, verändern und weitergeben. Wenn mir nicht gefällt, was die Software macht, kann jemand den Quellcode nehmen und das anpassen. Die Macht liegt in den Händen der Nutzer.

Die Konkurrenz proprietärer Software ist natürlich stark, und an vielen Fronten (aber bei Weitem nicht allen) dominiert sie. Und selbst wenn die Software frei ist, kann sie immer noch auf Servern betrieben werden, auf die wir keinen Zugriff haben und deren Betreibern wir vertrauen müssen.

Aber für praktisch alles, was man mit einem Computer machen kann, gibt es eine freie Software, die man nutzen kann. Keinen Bock auf Windows? Nutze Linux. Keinen Bock auf die Google-Cloud? Nutze Nextcloud. Keinen Bock auf Twitter? Nutze Mastodon. Man muss ein bisschen Aufwand reinstecken und es geht ein bisschen Komfort verloren (oft aber auch nicht, und man spart sich sogar Bloatware), aber man hat die Freiheit.

Bei LLMs ist das anders. Alleine ein LLM zu trainieren kostet gewaltige Mengen an Rechenleistung und Trainingsdaten. Das fertige Modell ist riesig. Und die Entwickler des Modells rücken es eh nicht heraus, denn sie wollen ja Geld damit verdienen, dir den Zugang zu dem Modell zu verkaufen. Du könntest es vermutlich sowieso nicht effektiv auf dem privaten Rechner laufen lassen.

Damit geben wir den Betreibern der LLMs eine enorme Macht. Wenn wir erst einmal auf den Hype-Train aufgesprungen sind und unsere Firma so weit umgebaut haben, dass die Funktionen des LLM nicht mehr ersetzbar sind, kommen wir nicht mehr davon weg. Wir haben nicht wirklich eine Alternative. Der LLM-Betreiber kann die Preise erhöhen oder die AGB zu seinen Gunsten ändern, und wir müssen das über uns ergehen lassen.

Das nennt sich Lock-in-Effekt. Das Problem gibt es jetzt schon, oft bei Cloud-Anbietern. Man kommt nicht mehr weg. Auch wenn der Anbieter die Preise um 11% erhöht. Auszusteigen kostet eine Menge Geld, also nimmt man die Preiserhöhungen und Kundengängelung hin.

Das waren eine ganze Menge Probleme mit LLMs. Gibt es vielleicht technische Lösungen für die Probleme?

LLM-Probleme sind gesellschaftliche Probleme

I want AI to do my laundry and dishes so that I can do art and writing, not for AI to do my art and writing so that I can do my laundry and dishes.

— unbekannte Person im Internet (der Satz ist mir schon in vielen Varianten untergekommen, die ursprüngliche Quelle konnte ich nicht finden)

Ich betrachte die Probleme, die wir mit LLMs haben als gesellschaftliche Probleme. LLMs sind zwar Technik, aber wie wir damit umgehen ist ein gesellschaftliches Problem. Das ist wie beim Klimawandel. Der ganze Ausstoß von CO₂ und anderen Treibhausgasen wird von Technik verursacht, aber der Grund, warum wir nicht längst umgestiegen sind ist ein gesellschaftliches Problem. Es gäbe Lösungen dafür, wir wollen sie aber nicht umsetzen.

Wir müssen nicht überall „KI“ reinstecken. Wir müssen nicht zulassen, dass massiv Urheberrechte verletzt werden, um die Modelle zu trainieren. Wir müssen lernen, wo der Einsatz von maschinellem Lernen sinnvoll ist und wo nicht. Wir müssen lernen, welche Beschränkungen ein LLM hat, was es kann und was es nicht kann. Und es dann konsequent nicht mehr für Aufgaben einsetzen, für die es nicht geeignet ist. Oder wir setzen es überhaupt nicht mehr ein, weil uns die Energiekosten zu hoch sind.

Wir müssen entscheiden, ob wir den Menschen wirklich die kreative Arbeit abnehmen wollen und sie durch ein LLM ersetzen, während auf der anderen Seite Menschen körperliche Arbeit in Amazon-Lagern machen und dort wie Maschinen behandelt werden, so dass selbst die Toilettenpausen reguliert sind.

Ich persönlich hätte lieber Roboter wie bei Asimov. Die uns langweilige, repetitive oder gefährliche Arbeit abnehmen, während wir uns interessanteren Dingen widmen können. Ich will keine Maschine, die mir das Lesen abnimmt, ich will die Bücher selber lesen. Ich will Texte Lesen, hinter denen Menschen stehen, nicht Texte, die der kleinste gemeinsame Nenner dessen ist, was die Menschheit je geschrieben hat.

Es gibt keine technische Lösung für unsere Probleme mit LLM. Technische Lösungen für gesellschaftliche Probleme gehen üblicherweise in die Hose. LLMs sind jetzt da, wir werden sie auch so schnell nicht los, aber wir können uns entscheiden, ihre Macht zu beschränken. Wir werden nie alle unsere Probleme lösen, aber LLMs schaffen momentan mehr Probleme als sie lösen. Sie sind auch nicht vollkommen nutzlos. Aber sie sind kein Allheilmittel, und auch kein Weg, eine echte Maschinenintelligenz zu schaffen.

Fazit

Uff. Ich habe lange daran geschrieben. Ich hatte noch mehr Punkte, aber dieser Artikel ist jetzt schon mit Abstand der größte Artikel in diesem Blog, mehr als zwei Mal so groß wie der nächstkleinere Artikel, der interessanterweise ein Artikel über Webcomics ist. Außerdem habe ich sicher einiges vergessen oder übersehen. Ausgelassene Punkte sind unter Anderem:

Das Bias-Problem: ML-Modelle sind strikt GIGO (Garbage In, Garbage Out). Voreingenommene Trainingsdaten sorgen für voreingenommenen Output. Das können die erwähnten Schafe auf den Wiesen sein, aber auch die Verstärkung sozial Benachteiligter.
Sicherheitsprobleme: LLMs sind komplex, Komplexität ist der Feind aller IT-Sicherheit. Eingaben an LLMs kann man praktisch nicht sanitizen. Ausgaben von LLMs müssen als nicht vertrauenswürdig behandelt werden. LLMs dürfen keine Programme starten und wenn doch, dann nur in einer Sandbox
A.I. Is a Crapshoot: Laufen wir in Gefahr, dass die Maschinen rebellieren? Trotz einer kürzlich veröffentlichten Experiments mache ich mir keine Sorgen. Ich mache mir eher Sorgen darüber, dass diese Technologie fahrlässig, unverantwortlich oder sogar mit bösen Absichten eingesetzt wird. Von Menschen.

Also, fassen wir noch mal alles zusammen:

Die Fähigkeiten von LLMs werden falsch eingeschätzt. Deswegen werden sie für Aufgaben eingesetzt, für die sie nicht geeignet sind.
Speziell: LLMs sind Sprachmodelle, keine Datenbanken. Sie sind am besten darin, Sprache nachzubilden, nicht Fakten zu liefern.
Es gibt einen KI-Hype. Zu viel Geld wird in Anwendungen investiert, ohne ausreichend Gedanken, ob das eine gute Idee ist.
Der Energieverbrauch für Training und Betrieb von LLMs ist gewaltig. LLMs werden für Aufgaben genutzt, die man mit herkömmlichen Methoden mit viel weniger Energieaufwand lösen kann
Für das Training von LLMs werden in großem Maßstab Urheberrechte verletzt, während die Urheber durch das LLM ersetzt werden
Es gibt eine Schwemme an LLM-generierten Texten im Netz, die nützliche, schöne oder wichtige Texte verdrängen
Zu viel von solchen LLM-generierten Texten, und die LLMs kollabieren
Menschen schicken zu leichtsinnig sensible Daten an die LLMs
Wir geben den LLM-Betreibern zu viel Macht, so dass wir sie irgendwann nicht mehr ersetzen können
Es kann keine technischen Lösungen für diese Probleme geben. Wir müssen sie als Menschen lösen.

Trotz alledem bin ich der Meinung, dass maschinelles Lernen eine nützliche Technologie ist, die an vielen Stellen helfen kann. Vielleicht nicht als LLM. Aber wir sollten das Kind nicht mit dem Bade ausschütten und maschinelles Lernen als Ganzes verteufeln. Aber wenn wir es einsetzen, dann müssen wir sicherstellen, dass es sinnvoll eingesetzt wird und nicht mehr Probleme schafft als löst.