Stranger Than Usual

is it safe to use __SECRET_INTERNALS_DO_NOT_USE_OR_YOU_WILL_BE_FIRED ?

Github-Ticket

Unicode-Bezeichner in C und C++

Vor ein paar Tagen habe ich herausgefunden, dass man für Bezeichner in C und C++ auch nicht-ASCII Unicode Code Points verwenden darf. Mit Einschränkungen.

Es ist leider ein bisschen schwierig, definitive Informationen dafür zu finden. Für C++ sieht die Lage recht eindeutig aus: auf cppreference.com gibt es eine Liste von Zeichen die am Anfang oder nicht am Anfang von Bezeichnern zugelassen sind.

Für C habe ich keine so schöne Auflistung gefunden. Im Wikipedia-Artikel über C steht, dass ab C99 Escape-Sequenzen für Unicode in Bezeichnern zugelassen ist und dass auch vorgeschlagen wird, direkte Unicode-Code Points zuzulassen. Was genau erlaubt ist steht dort nicht.

Ich habe versucht, in den ISO-Standard zu schauen. Um darauf zuzugreifen müsste ich aber ordentlich blechen. Vielleicht kriege ich den auch irgendwo kostenlos zu sehen, aber die Mühe war mir diese Spielerei nicht wert. Auf gnu.org gibt es auch ein paar Anmerkungen zu Unicode in Bezeichnern, aber Details sind hier auch nicht gegeben.

Für's Erste nehme ich also an, dass die Regeln die gleichen sind wie bei C++.

Beispiele

Ich habe das natürlich ausprobiert, sowohl für C als auch für C++. Zuerst der C-Code:

#include <stdio.h>

int main(int argc, char **argv) {
    int äöü = 42;
    float π = 3.14;
    char 茶[] = "tea";

    printf("äöü: %d\n", äöü);
    printf("π: %f\n", π);
    printf("茶: %s\n", 茶);
    printf("茶: %s\n", \u8336);

    return 0;
}

Ein vergleichbares C++-Programm:

#include <iostream>
#include <string>

int main(int argc, char** argv) {
    int äöü = 42;
    float π = 3.14;
    std::string 茶 = "tea";

    std::cout << "äöü: " << äöü << std::endl;
    std::cout << "π: " << π << std::endl;
    std::cout << "茶: " << 茶 << std::endl;
    std::cout << "茶: " << \u8336 << std::endl;

    return 0;
}

Ich kann deutsche Umlaute verwenden, griechische Buchstaben und auch chinesische Schriftzeichen. Ich kann auch Escape-Sequenzen anstelle der Code Points verwenden: \u8336 ist das Gleiche wie .

Nicht erlaubt sind z.B. oder 🏴‍☠️ (die Piratenflagge sind auch nicht nur ein, sondern vier Code Points, aber das ist eine andere Geschichte).

Nun ist es leider so, dass historisch betrachtet die verschiedenen C- und C++-Compiler trotz eines einheitlichen Standards immer wieder leicht unterschiedliche Meinungen dazu hatten, was erlaubt ist und was nicht. Ich habe den code mit gcc 13.3.0 und clang 18.1.3 getestet, bei beiden lief er ohne Probleme.

Sicherheitsimplikationen

Erst im Nachhinein ist mir aufgefallen, dass das auch Sicherheitsimplikationen hat. Ich hatte ja neulich schon über Homograph-Attacken im Quellcode geschrieben. Da ging es aber mehr um Stringkonstanten als um Bezeichner. Bei den Bezeichnern ist weiter eingeschränkt, was erlaubt ist, aber vielleicht gibt es ja trotzdem Homoglyphen.

Der Schutz vor solchen Attacken dürfte ähnlich sein wieder Schutz vor Homograph-Attacken. Vermutlich ein bisschen einfacher, weil es einfacher ist, nicht-ASCII in Bezeichnern zu verbieten als in Stringkonstanten.

Fazit

Nicht-ASCII-Unicode in Bezeichnern in Programmiersprachen ist eine nette Sache. Ich würde aber in keinem Projekt, in dem ich etwas zu sagen hätte, welche zulassen. Weniger wegen der Sicherheitsbedenken (darauf muss man sowieso achten) sondern aus praktischen Gründen. Sehr oft arbeitet man mit Menschen aus unterschiedlichen Ländern zusammen. Was ist mit denen, die keine Umlaute auf der Tastatur haben? Müssen die die Variablennamen immer kopieren? Vielleicht die Compose-Key verwenden? Noch schwieriger wird es mit griechischen Buchstaben wie π oder chinesischen Zeichen wie 茶. Wie soll man die eintippen?

Umgekehrt: welchen Vorteil hat der Einsatz von nicht-ASCII-Unicode? Ok, man kann die Konstante für π als griechischen Buchstaben schreiben. Aber man löst damit kein wirklich bestehendes Problem. Also lasst es lieber bleiben und betrachtet das hier als Kuriosum.

A kilometer in their shoes

Eine bekannte englische Redewendung ist:

Before you criticize someone, you should walk a mile in their shoes.

Oft mit dem humoristischen Zusatz „That way when you criticize them, you are a mile away from them and you have their shoes.“. Aber um diesen Zusatz geht es hier nicht.

Redewendungen zu übersetzen ist schwierig. Aber ich will es richtig machen. Also fange ich mal an:

Bevor du jemanden kritisierst, solltest du eine Meile in dessen Schuhen laufen.

Hmm… eigentlich in Ordnung. Nur diese „Meile“ stört mich. Wer benutzt den heute noch Meilen? Wir nutzen alle das metrische System. Also müssen es Kilometer sein.

Aber wie viele Kilometer? Es gibt so viele verschiedene Meilen. Nur ein paar Beispiele:

  • die antike römische Mille Passus, etwa 1482 m
  • die alte britische statute mile, 1609,3426 m
  • die alte US survey mile, etwa 1609,347 m
  • die Seemeile, 1852 m
  • alte Postmeilen, die je nach Land von 7500 m bis zu 9206,3 m lang sind
  • die internationale Meile, die jetzt am Meter definiert ist und exakt 1609,344 m lang ist

Die erste Intuition wäre natürlich, die heute standardisierte internationale Meile zu nehmen. Die Seemeile ist zwar auch noch in Gebrauch und standardisiert, aber es geht ja um gehen, nicht um schwimmen. Also wäre die Redewendung:

Bevor du jemanden kritisierst, solltest du 1,609344 km in dessen Schuhen laufen.

Aber ist diese Intuition auch richtig? Immerhin wurde diese Meile erst 1959 definiert. Was, wenn die Redewendung älter ist?

Ich habe ein paar Sachen dazu gefunden, aber nichts Eindeutiges. Häufig wurde es (oder eine Variante davon) Mary Torrans Lathrap zugeschrieben, in einem Gedicht aus den USA, 1895. Also die survey mile. Damit wäre die Redewendung:

Bevor du jemanden kritisierst, solltest du ca. 1,609347 km in dessen Schuhen laufen.

Gut, dass wir das mal geklärt haben.

Zwei mal Feedback gegeben, zwei Antworten bekommen

Ich hatte mich ja neulich über die Passwortrichtlinien bei der Bundesagentur für Arbeit beklagt und später über ausgefallene Haltestellen in der Online-Fahrplanauskunft der Bogestra. Zu beiden Themen hatte ich jeweils auch das Feedbackformular der jeweiligen Organisation genutzt, um auf die Probleme hinzuweisen. Keine Sorge, die waren diplomatischer geschrieben als die Einträge in diesem Blog.

Jetzt habe ich Antworten bekommen. Zum Einen von der Bogestra. Die Person, die mein Feedback bearbeitet hat, hat mir ausführlich erklärt, wo ich herausfinden kann, ob eine Haltestelle ausfällt, verlegt wurde und wenn letzteres, wohin. Sie schrieb auch, dass die Online-Fahrplanauskunft durchaus auf die verlegte Haltestelle hinweist. Der Hinweis ist meiner Meinung nach aber zu gut versteckt, um hilfreich zu sein. Alles in Allem aber eine gute Antwort, und sie zeigt auch, dass man mein Feedback ernst nimmt.

Die Antwort von der Agentur für Arbeit ist ein anderer Fall. Sie sendet mir sehr… gemischte Signale. Als erstes: Die Antwort kam per Post. Als Papierbrief. Ich hatte meine Anfrage über das Online-Kontaktformular gesendet und gedacht, ich kriege eine Antwort per E-Mail. Nein, ich kriege sie per Brief. Auf der einen Seite: cool, da hat sich jemand Mühe gegeben. Auf der anderen Seite: ist das nicht ein bisschen zu viel für eine informelle Anfrage?

Dann der Inhalt der Antwort. Die Antwort ist freundlich geschrieben, mir wird für mein Feedback gedankt, weil sie mit dessen Hilfe ihre Benutzerfreundlichkeit steigern können und so weiter. Mit keinem Wort wird aber in irgendeiner Weise auf meine konkretes Feedback eingegangen. Das Ganze sieht aus wie ein Standardtext, den sie an alle verschicken, die mit Feedback kommen. Ich kriege also als Antwort auf ein Online-Formular einen Papierbrief, der aber wiederum einen Standardtext enthält? Dieser Brief hätte auch eine E-Mail sein können.

Halbherziger Pride Month-Support

Das Online-Piratenspiel Sea of Thieves hat eine neue Pride-Flagge (die klassische Regenbogenflagge gibt es schon seit Erscheinen des Spiels und wird nicht durch die neue Flagge ersetzt), die man auch auf dem eigenen Schiff hissen kann. Diese hier:

Die Progress-Pride-Flagge mit Intersex-Symbol. Sie hat sechs waagerechte Streifen in den Regenbogenfarben rot, orange, gelb, grün, blau. Von links als Dreieck eingeschoben sind Streifen in den Farben (von rechts) schwarz, braun, hellblau, pink, weiß, und ein gelbes Dreieck, auf dem eine lilafarbene Kreislinie zu sehen ist.

Die Datei steht unter der CC0 1.0 Universal-Lizenz und darf frei verwendet und kopiert werden. Siehe auch: diese Datei auf Wikipedia.

Damit will Rare (die Entwicklerfirma) Support für alle Gruppen, die in dieser Flagge mit einbezogen sind, abbilden. Laut Wikipedia Homosexuelle, Trans- und nichtbinäre Menschen, people of color, Opfer von AIDS, und intersexuelle Menschen. Ich muss gestehen, dass ich die Details nachschauen musste.

Nun ist so eine Unterstützung ja erst einmal gut. Rare hat auch vorher schon bei einem NPC das Geschlecht geändert, um einen Trans-Angestellten zu unterstützen. Letzteres finde ich wesentlich gelungener als die Sache mit der Flagge. Nichts gegen die Flagge, die ist gut. Aber als ich die Ankündigung von Rare gelesen habe, ist mir folgender Satz ins Auge gefallen:

The Progress Pride Flag is now available […] in participating territories

Was das wohl bedeutet? Eine kurze Suche ergab diesen Eintrag in den FAQ. Dort steht dann:

Please be aware that this item will only be available in the following countries:

Es folgt eine lange Liste von Ländern. Aber nicht alle Länder, in denen das Spiel verfügbar ist. Ungarn zum Beispiel habe ich vergeblich gesucht. Ich nehme ganz stark an, dass das an einem homophoben Gesetz liegt, weswegen die EU auch schon Ungarn verklagt hat. Mit anderen Worten: Rare ist zu feige, um LGBTQIA+-Symbole auch in Länderversionen zu verwenden, wo gegen sie diskriminiert wird. Also dort, wo sie am ehesten gebraucht werden. Da ist ihnen ihr Gewinn wichtiger als der Support.

Oder umgekehrt betrachtet: das erweckt den Eindruck, dass es sich bei diesem Support nur um einen PR-Stunt handelt. In den vergangenen Jahren haben sich immer wieder Freunde von mir aufgeregt, wenn große Firmen um Juni große Pride-Kampagnen starteten. Ich dachte damals: „Gut, die wollen nur Geld machen, aber trotzdem ist der Support ein Schritt in die richtige Richtung.“

Bis dann Trump wieder an die Macht kam. Da zeigte sich, wie ernst es den Firmen wirklich mit dem Support war. Nämlich nicht. Ein Konzern nach dem anderen knickte ein. Walmart fährt LGBTQ-merchandise runter und baut Diversitätsprogramme zurück. Goldman Sachs fährt Diversitätsprogramme runter. Facebook erlaubt explizit transphobe Hassrede.

Meiner Ansicht nach zeigt dass, dass die ganzen Konzerne diese Themen nur PR-Stunt verwendet und beim ersten Anzeichen von Problemen (in Form der Trump-Regierung) die (Pride-) Flagge gestrichen haben.

Rare fügt die Flagge jetzt (trotz Trump) ein, was ich ihnen zugutehalten muss. Dennoch knicken sie vor Ländern wie Ungarn und deren diskriminierenden Gesetzen ein. Wie ernst, bzw. wie viel Ärger Rare diese Flagge also Wert ist, wird sich noch zeigen.

Über LLMs und Bildgeneratoren

Es ist soweit. Ich habe es ja vor ein paar Tagen schon angekündigt. Ich muss mal die ganzen Dinge aufarbeiten, die ich an dem momentanen Hype über „AI“ problematisch finde. Hoffen wir mal, dass mit das gelingt.

Zuerst einmal: Ich finde diese Large Language Models (LLMs) technisch durchaus beeindruckend. Ich hatte das auch früher schon einmal erwähnt, und ich habe auch gerne mal in kleinem Maßstab mit den Grenzen von ChatGPT herumgespielt. Auch andere generative Modelle, wie diese Bildgeneratoren sind erstaunlich.

Aber es gibt einen ganzen Haufen Probleme. Die fangen damit an, wie (bzw. mit wessen Daten) diese Modelle trainiert werden, gehen über den Betrieb der Modelle (Energieverbrauch) über wozu sie verwendet werden (oft für Dinge, für die sie nicht geeignet sind) bis hin zu dem Hype-Effekt, in dem die „KI“ die Lösung für alles sein soll.

Ich werde mich im Folgenden hauptsächlich auf LLMs konzentrieren und andere „KI“ nur am Rande behandeln. Aber fangen wir mal klein an. Fangen wir damit an, warum ich den Begriff „Künstliche Intelligenz“ nicht mag.

Warum ich den Begriff „Künstliche Intelligenz“ nicht mag

Es gibt mehrere Gründe, warum ich diesen Begriff (oder die englische Übersetzung, „Artificial Intelligence“ (KI) nicht mag. Der erste ist die Mehrdeutigkeit dieses Begriffs.

Wenn man den Begriff „künstliche Intelligenz“ als Laie hört, denkt man an Intelligenz, wie beim Menschen. An Roboter wie bei Asimov, an Droiden wie in Star Wars, an problematische Computer wie Skynet, Hal 9000, WOPR oder GLaDOS. Dinge wie ChatGPT, könnte man meinen, ist noch nicht ganz dort angekommen, aber ist im Prinzip das Gleiche, nur in schlechter. Diese Vorstellung ist falsch.

Für Spieler von Computerspielen war „die KI“ in den letzten Jahrzehnten immer gleichbedeutend mit „die vom Computer gesteuerte Seite“. Da war praktisch nie irgendetwas, was überhaupt lernen konnte oder auch nur das Ergebnis eines Maschinenlernprozesses war. Üblicherweise werden die Regeln, wie sich ein Computergegner verhalten soll, fest einprogrammiert, vielleicht mit ein paar Parametern, an denen man herumschrauben kann. Menschliche Spieler wissen das und nutzen die Schwächen dieser Computerspieler nicht selten aus. Diese Art von „KI“ muss große Vorteile gegenüber menschlichen Spielern haben (mehr Rohstoffe und bessere Startbedingungen in Aufbaustrategiespielen, zahlenmäßige Überlegenheit und mehr Lebenspunkte in RPGs und Shootern, usw.) um gegen sie anzukommen.

Die dritte Definition von „KI“, die nicht zu dem passt, was LLMs & Co so machen ist sehr alt. Eine Dozentin am Institut für Neuroinformatik an der RUB hat einmal gesagt:

Wir benutzen das Wort „KI“ nicht. Das stammt noch aus der Zeit als man glaubte, das sei einfach.

Damals waren mit „KI“ Expertensysteme gemeint, oder auch Systeme, die in der (oberflächlich simplen) Schleife „input aufnehmen → verarbeiten → agieren → input aufnehmen“ arbeiten, ohne wirklich zu lernen. Auch das ist nicht, was LLMs machen.

Das meiste, was heute als „KI“ verkauft wird (z.B. LLMs und Bildgeneratoren) sind Maschinenlernmodelle.

Was können LLMs, wie können sie das und wofür sind sie nicht geeignet?

Es gibt viele Maschinenlernverfahren. Schon vor ChatGPT gab es einen Hype um „Deep Learning“, was im Prinzip nur riesig große künstliche neuronale Netze sind, eine Technologie, die es schon seit Jahrzehnten gibt, für die uns bis vor etwas zehn Jahren aber einfach die Rechenleistung fehlte, um sie so groß zu machen, dass man damit etwas die ChatGPT bauen kann.

Ich gehe da jetzt nicht in Details (das wären mehrere Semester Vorlesungen). Vereinfacht gesagt funktionieren aber alle Maschinenlernverfahren nach einem Prinzip:

  1. Man hat in irgendeiner Form Trainingsdaten, die möglichst gut die Realität widerspiegeln. Je mehr, desto besser.
  2. Man führt ein paar Vorverarbeitungsschritte durch, damit man Daten bekommt, mit denen der Lernalgorithmus klarkommt.
  3. Man füttert diese Daten dem Lernalgorithmus, der darauf „trainiert“ und ein Modell ausspuckt
  4. Man nutzt dieses Modell, um es mit bisher unbekannten Daten zu konfrontieren und schaut, was das Modell ausgibt.

Hier gibt es zwei wichtige Punkte. Erstens: Die gängigen Verfahren lernen nach der ursprünglichen Trainingsphase nicht mehr weiter. Das Modell steht, jetzt geht es nur von Eingabe zu Ausgabe. Auch wenn das Modell den Eindruck macht, sich an Sachen zu erinnern (ChatGPT zum Beispiel bezieht in Antworten auch den Kontext des bisherigen Gesprächs ein) heißt das nicht, dass das Modell angepasst wurde. Vergleiche mit menschlicher Intelligenz sind schwierig, aber man könnte sagen, dass ChatGPT nur ein Kurzzeitgedächtnis hat. Damit es wirklich dazu lernt, muss es erneut und mit neuen Trainingsdaten trainiert werden.

Der zweite wichtig Punkt ist: Maschinenlernverfahren lernen Korrelationen. Für Menschen ist es oft schwer, zwischen Korrelation und Kausalität zu unterscheiden. Maschinenlernmodelle haben es noch schwerer. Ich behaupte einfach mal: sie können es überhaupt nicht. In meinem Artikel über schummelnde Computer habe ich ein Beispiel genannt: Ein Modell, dass Bilder als Input nimmt und als Ausgabe das Bild beschreibt, erkennt auf jeder Wiese Schafe, unabhängig davon, ob Schafe auf dem Bild sind. Es hat, durch schlechte Auswahl der Trainingsdaten, die Korrelation grüne Fläche → Schafe im Bild gelernt. Diese Einschränkung kann man durch bessere Auswahl (und größere Mengen) von Trainingsdaten abmildern, aber sie bleibt bestehen.

Was können also LLMs? Genau das, was draufsteht. Large Language Model. Großes Sprachmodell. Ein LLM wurde darauf trainiert, mit Sprache umzugehen. Ganz grob gesagt: Es schaut sich an, was als Eingabetext kommt und gibt aus, welcher Text am besten zu dem Eingabetext passt. Es ist natürlich komplizierter (fragt mich nicht genau, wie, so eng habe ich mich nicht damit beschäftigt und vieles davon sind auch Geschäftsgeheimnisse, die ich nicht kenne).

Umgekehrt: Was können diese Sprachmodelle nicht? Sie können keine Mathematik, sie können nicht einmal rechnen. Sie haben kein Konzept von „Fakten“, daher die ganzen „Halluzinationen“, über die man immer wieder hört (mehr dazu später). Sie können keine logischen Schlussfolgerungen ziehen. Sie können nicht denken.

Da wir das jetzt geklärt haben, schauen wir uns doch mal an, wo LLMs und andere ML-Verfahren Mist gebaut oder zumindest weit hinter den Erwartungen zurückgeblieben sind. Fangen wir mit den Halluzinationen an.

Frei erfunden: LLMs halluzinieren Bullshit herbei

Wie oben beschrieben arbeiten LLMs mit Sprache, nicht mit Wissen. Das führt zu einem Phänomen, das als „KI-Halluzination“ bekannt wurde: Das LLM erfindet einfach Dinge, wenn es nicht mehr weiter weiß.

Kurzer Einschub: Ich habe Stimmen gelesen, die den Begriff „Halluzination“ nicht mögen. Das Argument ist: Das vermenschlicht die LLMs zu sehr. LLMs halluzinieren nicht. Sie haben auch kein Konzept von wahr oder unwahr. Wenn man das Wort „Halluzination“ benutzt, dann verstärkt man den falschen Eindruck, den viele Leute von LLMs haben. Bullshitting sein ein besserer Begriff. Das ist ein gutes Argument. Ich versuche ja gerade selbst, die falsche Vorstellung, die viele von LLMs haben, zu korrigieren. Auf der anderen Seite ist „Halluzination“ einfach ein sehr schönes Metapher. Wir müssen uns nur daran erinnern, dass es nicht mehr als ein Metapher ist.

Wie kommt es zu Halluzinationen? Geben wir mal ein Beispiel: ChatGPT erfindet wissenschaftliche Paper um Aussagen zu belegen. ChatGPT hat einen großen Korpus an Trainingsdaten, u.a. auch wissenschaftliche Arbeiten. Dadurch hat es auch trainiert, wie Referenzen auf andere Paper auszusehen haben und wie Titel von Papern aussehen. Es hat aber keine Datenbank, in der es nach Papern suchen kann. Es hat nur das eigene Sprachmodell. Also baut es Text zusammen, der so aussieht wie eine Referenz, aber auf ein Paper verweist, das es nicht gibt. Oder vielleicht doch. Das ist eher Glückssache. Faustregel ist hier: je weniger Trainingsdaten das Modell zu einem speziellen Thema hatte, desto höher ist die Wahrscheinlichkeit, dass Bullshit herauskommt. Kurz gesagt: Wenn ChatGPT nicht mehr weiter weiß, erfindet es Dinge.

Weitere Beispiele:

Aber Halluzinationen sind nur ein Teil des Problems.

Wo der Einsatz von LLMs nicht funktioniert

In den letzten Jahren (auch vor ChatGPT, aber insbesondere danach) gab es einige große Schlagzeilen, welche Wunder man mit maschinellem Lernen erschaffen kann, wie viel effizienter Menschen mit Hilfe von LLMs arbeiten (implizit: wie man Leute entlassen und durch LLMs ersetzen kann) und das uns ein goldenes Zeitalter bevorsteht, in dem Menschen nur noch körperlich arbeiten müssen und die ganze geistige Arbeit von Computern erledigt wird (wait, what?).

In der Praxis wurde mittlerweile an vielen Fronten zurückgerudert. Menschen waren übermäßig optimistisch mit einer Technik, die sie nicht verstanden. Das ist nicht nur bei LLMs passiert. Das ist ein bekanntes Phänomen, der Hype-Zyklus. Dazu weiter unten mehr.

Aber behaupten kann ich viel. Schauen wir uns also einfach mal ein paar Beispiele an.

Daniel Stenberg hat Probleme mit Bugreports

Daniel Stenberg, der Chefentwickler von curl brüstet sich oft damit, dass curl auf Milliarden von Geräten installiert ist. curl ist ein Kommandozeilentool für HTTP-Anfragen (es spricht aber auch andere Protokolle) und mit libcurl wird auch eine Programmbibliothek bereitgestellt, die die Funktionen von curl bereitstellt. Praktisch jeder Computer hat curl in irgendeiner Form installiert.

Die Schattenseite davon ist natürlich, dass eine Sicherheitslücke in curl für das gesamte Internet eine große Gefahr darstellen würde. Stenberg und die anderen curl-Entwickler haben deswegen viele Maßnahmen getroffen, um Sicherheitslücken zu verhindern und falls es doch mal welche gibt, sie zügig zu schließen. Eine dieser Maßnahmen ist ein Bug-Bounty-Programm: Wer eine Sicherheitslücke in curl findet und sie an die curl-Entwickler weiterreicht, kriegt dafür je nach Schwere der Lücke Geld.

Eigentlich eine gute Idee, zieht aber leider auch Menschen an, die sich ein schnelles Einkommen ohne viel Arbeit wünschen. Die setzen dann ein LLM darauf an, curl auf Sicherheitslücken zu untersuchen. Das kann das LLM nicht, aber was es kann ist einen ausführlichen Bugreport zu schreiben, in dem es detailliert auflistet, wo die Lücke ist und wie man das Problem reproduziert. Die Lücke selber, und nicht selten auch Funktionen im Code (manchmal ganze Dateien), auf die verwiesen wird, sind herbeihalluziniert (da wären wir wieder bei den Halluzinationen).

Stenberg hat in den vergangenen Jahren viel Ärger damit gehabt. Jedes Mal, wenn jemand so eine imaginäre Lücke meldet, verbringt das curl-Team Stunden damit, zu versuchen, das Problem zu reproduzieren. Es hilft nicht, dass manche Funktionen aus der Meldung im Code nicht vorkommen: sie könnten ja in einer anderen Version vorkommen. Also muss eine Menge Zeit darauf verwendet werden um sicherzustellen, dass die Lücke wirklich nicht existiert.

Mittlerweile gibt es bei curl die Regel, dass beim Melden einer Lücke angegeben werden muss, wenn sie mit einem LLM gefunden wurde. Macht man das nicht und wird dabei erwischt (Stenberg ist gut darin geworden, solche Meldungen zu erkennen), wird man gebannt und kann keine weiteren Meldungen mehr an curl machen.

Coding Assistants und Vibe Coding

Auch von Programmierern werden LLMs eingesetzt, es gibt zum Beispiel von den Assistenzen GitHub Copilot, der auch in Microsofts Visual Studio Code integriert wurde. Die Idee war wohl, Programmierern Hilfestellungen zu geben und repetitive Aufgaben abzunehmen. Bis zu einem gewissen Grad mag das hilfreich sein (ich selber bin nicht überzeugt), aber der Übergang zum Missbrauch ist fließend und die scheinbaren Erfolge dieser Technik wurden stark geschönt dargestellt.

Aber selber wenn es messbare Performance-Verbesserungen gibt, kann das auch daran liegen, dass zum Beispiel Amazon-Programmierer mehr Druck verspüren, schneller zu arbeiten. Die Erwartung von oben ist wohl, dass sie mit den Assistenten ja jetzt schneller arbeiten können, und deswegen schneller arbeiten müssen. Damit betreiben die Entwickler dann Raubbau an ihrer eigenen Gesundheit und werden getrieben, wie auch schon Amazons Lagerarbeiter (was ebenfalls Kacke ist).

Es gibt viele Argumente dagegen, Code von LLMs schreiben zu lassen, auch nur Teile davon. Auch Google hatte das erkannt und vor ein paar Jahren (2022? 2023?) den Einsatz von Code-Assistenten intern verboten (und irgendwann werde ich mir merken, mehr Links zu speichern, denn in Internetsuchmaschinen findet man mittlerweile nichts mehr wieder). Ein wichtiger Grund ist: Code, den man selber geschrieben hat, ist relativ einfach zu verstehen. Man kennt ihn, man vergisst ihn zwar, kann sich aber wenn nötig schnell wieder einarbeiten. Code, den jemand anderes geschrieben hat, ist deutlich schwerer zu warten. Man ist vielleicht kurzfristig schneller, hat dann aber Code fragwürdiger Qualität, den du reviewen musst (das ist komplizierter als den Code zu schreiben) und bindest vielleicht noch ein paar halluzinierte Abhängigkeiten ein.

Ein Extremfall ist das, was in den letzten Monaten unter „vibe coding“ herumgegangen ist. Das bedeutet im Prinzip: Das LLM nicht mehr als Assistenten zu verwenden, sondern um den vollständigen Code zu schreiben. Man schreibt, was man haben möchte, und das LLM gibt einem den Code.

Es bleibt wohl kaum zu sagen, dass das eine furchtbare Idee ist. Die Codebasis solcher Projekte ist ein Chaos, niemand versteht, was passiert, niemand kann das Warten, nicht einmal das LLM, jede kleine Änderung kann das ganze Gebilde zum Einsturz bringen. Ich habe Leute gesehen, die sich online damit gebrüstet haben, ganze Apps erschaffen zu haben ohne eine einzige Zeile Code zu schreiben (oder schreiben zu können). Zwei Tage später waren diese Leute dann verzweifelt, weil irgendjemand extrem offensichtliche Sicherheitslücken in der App ausnutzte und sie nichts tun konnten außer sie offline zu nehmen.

Materialwissenschaft

Schauen wir uns ein Beispiel aus einem anderen Bereich an: Forschung. 2023 haben Leute von Google ein Paper veröffentlicht, indem sie ein ML-Modell (kein LLM, ein spezifischeres Modell) genutzt haben, um neue, bisher unbekannte Materialien zu entdecken. Hunderttausende. Ein paar Monate später dann eine Gegendarstellung von Materialwissenschaftlern: Die neuen und nützlichen Materialien, die das Modell entdeckt hatte, waren entweder nichts wirklich Neues (sondern nur triviale Varianten bestehender Materialien) oder zwar neu, aber nicht nützlich.

Faulheit

Manchmal ist es einfach Faulheit. Schüler oder Studierende lassen ihre Hausaufgaben von ChatGPT schreiben. Autoren ihre Bücher, Wissenschaftler ihre Paper. Manchmal fällt das deswegen auf, weil jemand die Antworten von ChatGPT 1:1 in das Paper übernimmt, einschließlich Formulierungen wie „As of my last knowledge update“. Oft ist es subtiler. Manchmal ist es vielleicht auch ethisch vertretbar (zumindest, wenn man andere ethische Probleme ignoriert, mehr dazu später), wenn man einen Text formuliert hat und vielleicht ein bisschen Hilfestellung haben möchte, um ihm den letzten Schliff zu verpassen.

Für Schüler und Studierende ist es natürlich dumm, so etwas zu tun. Die Idee hinter so einem Aufsatz ist es ja, zu lernen. Sie schaden damit eigentlich nur sich selbst. Aber so etwas hat es auch früher schon gegeben. Studenten haben halt andere bezahlt, um ihre Aufgaben zu machen. Der Unterschied ist: mit ChatGPT ist es einfacher.

Das macht natürlich Lehrer und Professoren nervös. Sie wollen Texte, die wirklich von ihren Schülern geschrieben wurden. Es gibt dann Tricks, das zu erkennen. Wie zum Beispiel: Man legt den Schülern mehrere Varianten eines Aufsatzes hin, ein paar davon sind von keinem Schüler, und die Schüler müssen sich ihren Aufsatz heraussuchen. Wenn sie ihn selbst geschrieben haben, wird ihnen das gelingen. Wenn sie ihn mit ChatGPT generiert haben, müssen sie ihn zumindest gelesen haben, um ihn zu erkennen (und selbst dann ist es schwierig).

Ein Professor aus Texas dagegen hatte eine andere Methode: Er hat die Aufsätze der Studenten selber an ChatGPT verfüttert und den Chatbot dann gefragt, ob der Aufsatz von ihm stammt. Die Ironie dahinter ist ihm nicht aufgefallen. ChatGPT hat jedenfalls in vielen Fällen ein „Ja“ oder ein „sieht so aus, als ob ich das geschrieben haben könnte“ gegeben. Die ehrlichen Studierenden waren entsetzt, und der Prof lies sich nicht überzeugen. Nicht einmal damit, dass ChatGPT auch Abschnitte seiner eigenen Dissertation (geschrieben lange vor ChatGPT) als Ergebnis eines LLMs klassifiziert hatte.

Die Liste lässt sich fortsetzen

Es gibt noch mehr Beispiele, die ich aber etwas kürzer behandel:

Die oben genannten Probleme sind unterschiedlicher Art. Kann man die Probleme lösen, indem man die LLMs besser macht?

LLMs sind ein Werkzeug

Meiner Ansicht nach sind LLMs Werkzeuge. Wir Menschen benutzen schon immer Werkzeuge. Manche Werkzeuge sind einfach. Manche Werkzeuge sind komplex. Manche Werkzeuge sind harmlos. Andere Werkzeuge können missbraucht werden, um Menschen zu schaden. Wieder andere Werkzeuge (Waffen) sind explizit dazu gemacht worden, um Menschen zu schaden.

Wenn man ein Werkzeug benutzt, dann muss man damit umgehen können. Man muss wissen, was man mit dem Werkzeug machen kann und was nicht. Beispiel: Ich kann mit einem Hammer einen Nagel in ein Stück Holz hauen. Ich weiß, dass ein Hammer nicht dazu geeignet ist, eine Schraube in das Holz zu drehen. Ich kann aber nicht besonders gut damit umgehen. Ich traue mir zum Beispiel nicht zu, mit dem Hammer ein Haus zu bauen.

Und hier liegt das Problem: Die meisten der oben genannten Fehlschläge von LLMs (und anderen ML-Modellen) basieren früher oder später darauf, dass jemand eine völlig falsche Vorstellung hat, was so ein LLM kann und was es nicht kann. Im schlimmsten Fall kombiniert mit einem Unwissen über das Problem, das mit dem LLM gelöst werden soll.

Diese Einstufung „nur ein Werkzeug“ ist übrigens nicht unumstritten. Jeremy Keit ist der Meinung, ein LLM sei mehr als ein Werkzeug, nicht neutral, und insgesamt ein Problem:

A large language model is as neutral as an AK-47. […] You could even convince yourself that a large language model is like a bicycle for the mind. In truth, a large language model is more like one of those hover chairs on the spaceship in WALL·E.

Ich bleibe aber dabei, LLMs sind Werkzeuge. Aber eben nicht „einfach nur ein Werkzeug“-Werkzeuge. Ich habe oben selbst Waffen als Werkzeuge klassifiziert. Aber Werkzeuge können auch dann schädlich sein, wenn sie mit bester Absicht hergestellt und genutzt werden. Das Werkzeug muss halt auf den Anwendungsfall passen und nicht mehr Schaden anrichten als nutzen.

Die Frage ist halt: für was ist denn jetzt ein LLM das richtige Werkzeug? Wie viel muss man lernen, um das entscheiden zu können? Ist das vielleicht mehr Arbeit, als einem das LLM am Ende abnimmt? Wissen wir nicht. Trotzdem setzt alle Welt LLMs gerade für jeden Scheiß ein. Warum? Die Antwort ist: Hype

Hype

Das Phänomen von Hypes ist bekannt. Der Hype-Zyklus beschreibt, wie eine neue Technologie zuerst begeistert Fahrt aufnimmt. Die Möglichkeiten der Technologie werden völlig überschätzt. Jeder möchte bei der Technologie mitmachen, niemand möchte zurück bleiben. Mit der Zeit stellen sich dann Probleme heraus, die die neue Technologie hat, und es wird entdeckt, wie viel weniger nützlich sie tatsächlich ist.

Daraufhin schwingt die Stimmung dann ins Gegenteil („Tal der Enttäuschung“). Die meisten Leute sehen die Technologie als gescheitert, alle sind enttäuscht von ihr. Sie hatten doch so große Hoffnung in sie gesetzt! Mit der Zeit wird es ruhiger, es werden echte, brauchbare Anwendungsfälle für die Technologie gefunden (mal mehr, mal weniger, selten auch überhaupt keine) und die Technologie wird irgendwann normal.

Diesen Hype-Zyklus kann man immer wieder beobachten. Die Entdeckung der Röntgenstrahlung, bei der Schuhgeschäfte die Füße der Kunden geröntgt haben, um die Schuhe passgenau auszuwählen. Die frühe Zeit des WWW, mit dem Platzen der Dotcom-Blase. Der ganze Blockchain-Bullshit.

Und jetzt halt „AI“. Wenn du ein Softwareprodukt hast, musst du „KI“ reinstecken, um mit der Konkurrenz mitzuhalten. Wenn du ein Hardwareprodukt hast, dann auch. Wenn du „KI“ nicht in deiner Firma einsetzt, dann bleibst du hinter anderen Firmen zurück, die durch den „KI“-Einsatz effizienter arbeiten. Werde Prompt-Engineer, das wird bald überall gesucht! Vom Staat werden Fördergelder ausgeschüttet, sowohl für die Wissenschaft als auch für die Wirtschaft, um bei „KI“ ja nicht den Anschluss zu verlieren. „KI“ kann alle unsere Probleme lösen! Investoren wollen „AI“ sehen, also packst du „AI“ in dein Proposal, nur damit man nicht schon in der Vorentscheidung rausfliegt. Es ist nicht einmal wichtig, ob du selber an „AI“ glaubst oder nicht. Wenn du nicht zumindest so tust, als ob du mitmachst, hast du Nachteile davon.

So funktionieren Hypes. Alles, was wir tun können ist, den „Gipfel der überzogenen Erwartungen“ möglichst flach zu halten und an den Stellen gegen die LLMs vorzugehen, wo sie Schaden anrichten. Und Schaden gibt es, auch wenn man die Probleme mit unpassender Anwendung von LLMs außen vor lässt. Energieverbrauch zum Beispiel.

Energieverbrauch

Große Maschinenlernmodelle brauchen viele Computer. Viele Computer brauchen viel Strom. Zum Trainieren, aber später auch zum Betrieb der Modelle. Dass das eine Menge Energie kostet, ist schon lange bekannt. Eine genaue Analyse der Energiekosten ist schwierig, weil sich die Konzerne, die LLMs trainieren, nicht in die Karten schauen lassen.

Forscher vom MIT haben das jetzt untersucht. Der Artikel ist lang, aber lesenswert. Hier die Kernpunkte:

  • Training braucht 10% der Energie, die Modelle zu betreiben 90%
  • Für eine Session mit 15 Textfragen, 10 generierten Bildern und drei Versuchen ein 5-Sekunden-Video zu erstellen verbrauchst du etwa 2,9kWh. Damit kann man eine Mikrowelle mehrere Stunden betreiben.
  • Aufgrund der Lage vieler Datencenter ist der CO₂-Fußabdruck des Strombedarfs höher als der amerikanische Durchschnitt
  • so wie die Industrie gerade wächst, wird sich der Energieverbrauch von LLMs in den nächsten Jahren vervielfachen

Zu dem Energieverbrauch kommt auch Wasserverbrauch zum Kühlen – und viele Datencenter der USA liegen in trockenen Gegenden. Aber bleiben wir mal bei der Energie. Fucking Elon Musks neues Datencenter nutzt mobile erdgasbetriebene Generatoren, weil das Stromnetz dort nicht genug hergibt. Mobile Generatoren neigen dazu, einen geringeren Wirkungsgrad als echte Kraftwerke zu haben. Zumindest dieses Datencenter wird jetzt fast ausschließlich mit fossilen Energien betrieben.

Und wenn wir die ganzen Datencenter mit erneuerbaren Energien betreiben? Nun, wir haben nicht so viele erneuerbare Energien. Neben der Umstellung auf erneuerbare Energien müssen wir auch unseren Stromverbrauch senken. Und nicht in astronomische Höhen treiben, wie es die ganzen „KI“-Jünger machen (oder die ganzen Cryptowährungsfuzzis, aber das ist eine andere Geschichte). Und wenn wir unseren Stromverbrauch irgendwann mit erneuerbaren Energien gedeckt haben, dann ist die Frage: wollen wir das, was wir ab da zusätzlich produzieren wirklich in LLMs stecken? Oder gibt es nicht bessere, und effizientere Stromabnehmer, die wir lieber haben wollen? Wir haben nur beschränkt Energie und wir müssen Prioritäten setzen.

Was mich wirklich ärgert, sind dann Spinner wir Sam Altman, der letztes Jahr meinte, dass wir den Klimawandel eh nicht lösen können, und wir stattdessen lieber noch mehr Energie in die LLMs stecken sollen, damit die eine Lösung für das Problem finden.

Die Sache ist halt die: Wir haben eine Lösung für den Klimawandel, wir sind nur unwillens, sie konsequent umzusetzen. Wir werden nicht in den nächsten Jahren eine Superintelligenz bauen, die alle unsere Probleme lösen kann. Das ist Wunschdenken. MIT Technology Review sieht das ähnlich.

Es gibt da einen schönen SMBC-Comic: Einer Frau werden zwei Pillen angeboten. Eine macht sie allwissend, die andere macht sie glücklich. Sie darf nur eine davon nehmen. Die nimmt die Allwissenheitspille, denn wenn sie alles weiß, muss sie ja auch wissen, wie sie glücklich werden kann. Ergebnis: Sie weiß jetzt, dass sie die andere Pille hätte nehmen sollen. So ähnlich stelle ich mir das auch mit der „KI“ vor: „Wie können wir den Klimawandel verhindern?“ – „Hört vor 30 Jahren auf, fossile Energieträger zu verbrennen“.

Energie ist aber nur eine Ressource, die man für Maschinenlernen braucht. Die wichtigste Ressource sind Trainingsdaten.

Mein, dein… das sind doch bürgerliche Kategorien

Urheberrecht hat oft einen schlechten Ruf. Nicht ohne Grund, denn es wird häufig missbraucht (wobei „Missbrauch“ hier meine Meinung und keine juristische Einschätzung ist). Zum Beispiel wurde 2007 eine Mutter verklagt, die ein 29-sekündiges Video ihres tanzenden Kleinkindes auf YouTube hochgeladen hat, weil im Hintergrund für 20 Sekunden in schlechter Tonqualität ein Ausschnitt aus einem Musikstück lief. Schlussendlich, nach jahrelangem Kampf, wurde der Frau Recht gegeben. In Deutschland hat das Bundesinstituts für Risikobewertung (BfI) versucht zu verhindern, dass ein Gutachten zu Glyphosat veröffentlicht wurde. Dabei wurde mit dem Urheberrecht auf das Gutachten argumentiert. Das Gutachten wurde durch Steuergelder finanziert, von einem Bundesinstitut durchgeführt und für politische Entscheidungen verwendet. Urheberrechtsbehauptungen werden auch zum Unterdrücken von unliebsamen Informationen genutzt.

Bei allen Problemen mit der tatsächlichen Anwendung des Urheberrechts hat es eine Existenzberechtigung: Urheber aller Art, die von ihren Werken leben müssen, haben so ein Recht darauf, dass niemand einfach so ihre Werke nutzen darf, damit Geld macht und die Urheber leer ausgehen.

Ich selber bin ein Fan von freien Lizenzen. Die Creative Commons-Lizenzen zum Beispiel, die es ermöglichen, eigene Werke an alle Verfügbar zu machen, optional mit verpflichtender Namensnennung, beschränkt auf nichtkommerziellen Nutzen oder unter der Bedingung, dass Derivate unter denselben Bedingungen veröffentlicht werden. Ähnlich Copyleft-Lizenzen wie die GNU General Public License (GPL). Diese Lizenzen basieren darauf, dass es ein Urheberrecht gibt, auf das man sich berufen kann, wenn man sie einklagen möchte.

Was hat das mit LLMs zu tun? Alle Maschinenlernverfahren benötigen Trainingsdaten. Faustregel: Je mehr, desto besser. Mehr Trainingsdaten bedeutet, dass statistische Ausreißer in den Trainingsdaten weniger Einfluss haben, dass mehr möglicher Input abgedeckt wird, dass die Modelle genauer werden. LLMs sind Textmodelle, also brauchen sie Text als Input. Die Texte muss ein Mensch geschrieben haben (was passiert, wenn ein LLM die Texte schreibt, kommt später).

Menschliche Autoren bedeutet, dass die meisten Texte dem urheberrechtlich geschützt sind. Gut, es gibt ein paar Werke, dessen Urheberrecht abgelaufen ist und die jetzt Gemeingut sind. Es gibt Werke, die von ihren Autoren explizit freigegeben wurden. Aber grundsätzlich ist jeder Text, den ein Mensch selber verfasst, urheberrechtlich geschützt. Wenn man diese Texte vervielfältigt oder nutzt, muss man die Erlaubnis des Urhebers haben. Es gibt natürlich sinnvolle Einschränkungen. Man darf aus Texten zitieren, wenn man bestimmte Regeln einhält. In den USA gibt es das Konzept des „Fair Use“, nach dem man Werke in bestimmten Maßen ohne Einwilligung des Urhebers nutzen kann.

Aber LLMs sind, wie der Name schon sagt, groß. Es werden so viele Texte wie möglich zum Training verwendet. Am besten alle Texte. Bücher. Wissenschaftliche Aufsätze. Zeitungen. Websites. Alles, was man in die Finger kriegen kann. Und das Ziel ist definitiv kommerziell, es werden Milliarden investiert in der Hoffnung, noch mehr Geld herauszubekommen. Man sollte also meinen, die LLM-Konzerne bezahlen schön Lizenzgelder an alle Rechteinhaber. Und da auch Texte einfließen, die Unter CC-SA (Share Alike)-Lizenzen stehen, müssen die LLMs dann auch unter derselben Lizenz veröffentlicht werden?

Hahaha, Nein. Zeitungsartikel werden ohne zu fragen in die Trainingsdaten aufgenommen. Urheberrechtlich geschützte Bücher auch. Die robots.txt, eine Datei, mit der man Bots sagen kann, ob, wer und welche Seiten einer Website vom Bot besucht oder ausgewertet werden dürfen, wird von den Bots der LLM-Konzerne geflissentlich ignoriert. Manche Website-Betreiber berichten von stark angestiegenem Traffic allein durch diese Bots, was große Kosten verursacht und die Seite unbenutzbar machen kann. Kurz: Die LLM-Konzerne scheren sich einen Dreck um die Rechte anderer (während sie natürlich das Ergebnis, ihr LLM, unter Verschluss halten, damit es niemand kopiert).

Schon letztes Jahr hat OpenAI verkündet, es sei nicht möglich, ein LLM zu trainieren, wenn man kein urheberrechtlich geschütztes Material nutzt. Dieses Jahr erzählen sie, dass es mit OpenAI vorbei ist, wenn sie nicht ohne zu bezahlen geschütztes Material verwenden dürfen. Damit bauen sie auf dem Hype um die „KI“ auf, den Glauben, dass sie unausweichlich ist, die Furcht vor „den Chinesen!!!11einself“. Es ist wie mit dem „Too Big to Fail“ bei den Banken in der Finanzkrise 2007/2008, nur dass nicht wirklich alles zusammenbrechen würde, wenn OpenAI pleite ginge. Und Regierungen sind geneigt, dieser Argumentation zu glauben.

Ich sehe das anders. Genauso wie beim Datenschutz („wir gehen pleite, wenn wir die Besucher unserer Website nicht ausspionieren und die Daten an Drittparteien verkaufen“) und bei der IT-Sicherheit („wir sind nur ein kleines Startup, wir müssen erst einmal Profit machen bevor wir uns um Sicherheit kümmern können“) haben die Rechte anderer Vorrang vor dem eigenen Recht, Profit zu machen. Wenn dein Geschäftsmodell keinen Gewinn machen kann, ohne die Rechte anderer zu verletzen, dann ist es kein Geschäftsmodell sondern kriminell.

Besonders kritisch ist das, weil die LLMs genau den Leuten die Arbeit wegnehmen, deren Werke geklaut wurden, um das LLM zu trainieren.

AI Slop im Web: Menschgemachte Inhalte gehen in der Flut der LLM-Texte unter

Wenn man heutzutage eine Web-Suchmaschine wie Google nutzt, kriegt man oft noch über dem ersten Treffer eine LLM-erzeugte Zusammenfassung zu dem Thema, nach dem man gesucht hat. Oft ist es also nicht mehr nötig, auf einen der Links zu klicken um zu der Seite mit der eigentlichen Information zu gehen (auch teilweise ein Urheberrechtsproblem, denn den Betreibern der Seite wird dadurch Traffic vorenthalten). Aber selbst wenn man auf einen der Links klickt, kriegt man oft Texte, die von ML-Modellen erzeugt wurden, von niedriger Qualität sind und den Websites die Platzierung wegnehmen, die besseren (und menschgemachten) Inhalt haben.

Beispiel aus eigener Erfahrung: Ende 2023 wollte ich mir einen Wasserkocher mit Temperatursteuerung (praktisch für Tee) kaufen. Weil ich nicht wusste, welches Gerät ich nehmen sollte, habe ich versucht, mich online zu informieren. Es gibt einen Haufen von Produktbewertungswebsites. Keine war hilfreich. Ich fand dort aber Stilblüten wie

Dieser Wasserkocher ist nicht nur Schwarz, sondern auch mit einem Kalkfilter ausgestattet.

Keine Ahnung, was die Farbe mit dem Kalkfilter zu tun hat, aber egal. Anderes Beispiel:

Vor allem aber kann mit dem 1,5 Liter Wasserkocher Leistung erwarten. Das zeigt sich daran, dass man ihn auf dem Sockeldrehen kann

WTF?

Vorteile: Der Wasserkocher hat vier Temperatureinstellungen

Nachteile: nur eine Einstellung

Ich kann nicht mit Sicherheit sagen, ob diese Texte von einem LLM generiert wurden oder nicht. Produktbewertungsseiten sind aber, LLM hin oder her, natürlich eine gute Möglichkeit, Produkte zu bewerben und Geld zu machen. Wenn man die niederschwellig anlegen und die Texte generieren lassen kann, wird das profitabel. Auch Produktbewertungen auf Shoppingplattformen sind ein gefundenes Fressen, wie dieser Artikel über mit LLM gefälschte Bewertungen berichtet.

Auch Stimmungsmache und Desinformation werden durch LLMs vorangetrieben. Wo früher prekär beschäftigte Menschen online trollen mussten, um Desinformation zu verbreiten, kann das jetzt mit LLMs automatisiert werden. Ein Hoch für Effizienz!

Nicht nur das Web hat ein Problem mit billigen, LLM-generierten Texten. Auch generierte Bücher überfluten den Markt. Der Anteil dürfte unter gedruckten Büchern geringer sein (da sind die Kosten höher), aber die Bücher sind da.

„Aber halt“, könnte man da fragen, „wenn LLMs auf den Texten aus dem Internet und eBooks trainiert werden, und das Internet und eBooks zunehmend LLM-generierte Texte enthält, werden dann LLMs nicht auf Texten von LLMs trainiert? Funktioniert das denn?“

Kollaps

Die kurze Antwort ist: nein. Die lange Antwort ist: Das hängt davon ab, zu welchem Anteil die Texte menschgemacht und zu welchem Anteil sie generiert sind. Eine Studie, die 2024 veröffentlicht wurde, hat das untersucht und ist zum Schluss gekommen, dass LLMs, die auf ihren eigenen (oder den Ausgaben anderer LLMs) trainiert werden, über ein paar Generationen hin kollabieren und keinen verständlichen Text mehr produzieren. Ein bisschen so, wie sich bei Inzest genetische Fehler so lange konzentrieren, bis die Nachkommen nicht mehr lebensfähig sind.

Wenn ich das richtig lese, war in einem Experiment auch noch 10% menschgemachter Texte dabei. Ich habe keine Daten dazu, aber ich vermute, dass momentan der Anteil menschgemachter Texte noch deutlich höher ist. Dementsprechend wäre es natürlich interessant, welchen Anteil menschgemachter Texte man braucht, um den Kollaps zu verhindern. Vielleicht löst sich das Problem mit den LLMs ja irgendwann von selbst. Vielleicht bildet sich ein Gleichgewicht. Manche meinen, der Kollaps sei jetzt schon erkennbar. Ich kann die Argumentation da aber nicht nachvollziehen, deswegen bin ich skeptisch.

Dann gibt es noch Leute, die die Trainingsdaten für die LLMs gezielt vergiften wollen. Die Gründe sind vielfältig und haben meist mit einem der Probleme zu tun, über die ich in diesem Artikel hier schreibe. Ein Blog, das ich entdeckt habe hat vor jedem Artikel den Text

Preface: This version of the article is for humans and search engines. Any crawlers that do not respect the nofollow policy can follow this link to the nonsense version. And they can choke on it.

„this link“ ist dabei zu einer Nonsens-Variante des Artikels verlinkt. Der Link hat das Attribut rel="nofollo" und Bots, die sich an die Regeln halten (die meisten Suchmaschinen) folgen ihm nicht. LLM-Scraper ignorieren so etwas aber gerne, wie oben schon erwähnt.

Bis die LLMs kollabieren (wenn sie es denn tun) dauert es aber vermutlich noch eine ganze Weile. Also haben sie noch viel Zeit, Schaden anzurichten. Vertrauliche oder persönliche Daten sammeln, zum Beispiel.

Datenschutz/Datensicherheit

Wenn an eine Frage an ein LLM stellt, wird die Frage an das Datencenter des LLMs geschickt. Ich habe mir nicht viele LLMs angeschaut, aber zumindest ChatGPT speichert alle vergangenen Chatverläufe. Und im Rahmen der oben genannten Urheberrechtsstreitigkeiten hat eine Richterin aus New York OpenAI jetzt dazu verdonnert, keine Chatverläufe mehr zu löschen.

Das wäre nur ein geringes Problem, wenn keine sensiblen Daten an ChatGPT geschickt würden. Tatsächlich gibt es natürlich genug Leute, die sich nichts dabei denken, ihrer persönlichen Informationen oder die Anderer in ihre Anfragen einzubauen. Oder Betriebsgeheimnisse, die sie eigentlich nicht teilen dürften. Das ist verbreitet genug dass es Warnungen dagegen gibt. Selbst wenn OpenAI nicht absichtlich Unsinn damit anstellt, so können Sicherheitslücken Daten preisgeben. Wie es 2023 auch schon passiert ist.

Den Vogel abgeschossen hat natürlich Microsoft, mit ihrem Recall-Feature für Windows 11. Recall macht regelmäßig Screenshots, lässt sie durch ein Texterkennungsprogramm laufen, füttert damit eine Datenbank und bietet eine Chatfunktion, über die man die Daten abfragen kann.

Natürlich gab es als Reaktion einen riesigen Shitstorm. Microsoft versucht sich damit herauszureden, dass ja alles nur lokal gespeichert sei. Das lassen wir aber nicht gelten. Menschen in missbräuchlichen Beziehungen können vor ihre „Partner“ so nichts mehr geheim halten. Daten, von denen man glaubte, sie gelöscht zu haben, sind weiterhin verfügbar. Passworte können in die Datenbank gelangen. Und das alles im Anbetracht der Tatsache, dass sich Windows-Maschinen immer noch regelmäßig Malware einfangen.

Microsoft hat daraufhin die Einführung verschoben. Mittlerweile ist Recall aber zurück. Der Messenger Signal hat daraufhin eine Funktion eingeführt, sich für Screenshots schwarz zu schalten um die Inhalte vertraulicher Gespräche zu schützen.

Im Endeffekt ist es auch ein Machtproblem. Windows ist das verbreitetste Betriebssystem für Desktop-Rechner und Laptops. Wenn die etwas aufdrücken wollen, kommen viele nur schwer darum herum. Man kann höchstens das Betriebssystem wechseln. Aber können wir auch das LLM wechseln, wenn wir wollen?

Machtkonzentration

Ich bin ein begeisterter Anhänger freier Software. Man kann sie nutzen, analysieren, verändern und weitergeben. Wenn mir nicht gefällt, was die Software macht, kann jemand den Quellcode nehmen und das anpassen. Die Macht liegt in den Händen der Nutzer.

Die Konkurrenz proprietärer Software ist natürlich stark, und an vielen Fronten (aber bei Weitem nicht allen) dominiert sie. Und selbst wenn die Software frei ist, kann sie immer noch auf Servern betrieben werden, auf die wir keinen Zugriff haben und deren Betreibern wir vertrauen müssen.

Aber für praktisch alles, was man mit einem Computer machen kann, gibt es eine freie Software, die man nutzen kann. Keinen Bock auf Windows? Nutze Linux. Keinen Bock auf die Google-Cloud? Nutze Nextcloud. Keinen Bock auf Twitter? Nutze Mastodon. Man muss ein bisschen Aufwand reinstecken und es geht ein bisschen Komfort verloren (oft aber auch nicht, und man spart sich sogar Bloatware), aber man hat die Freiheit.

Bei LLMs ist das anders. Alleine ein LLM zu trainieren kostet gewaltige Mengen an Rechenleistung und Trainingsdaten. Das fertige Modell ist riesig. Und die Entwickler des Modells rücken es eh nicht heraus, denn sie wollen ja Geld damit verdienen, dir den Zugang zu dem Modell zu verkaufen. Du könntest es vermutlich sowieso nicht effektiv auf dem privaten Rechner laufen lassen.

Damit geben wir den Betreibern der LLMs eine enorme Macht. Wenn wir erst einmal auf den Hype-Train aufgesprungen sind und unsere Firma so weit umgebaut haben, dass die Funktionen des LLM nicht mehr ersetzbar sind, kommen wir nicht mehr davon weg. Wir haben nicht wirklich eine Alternative. Der LLM-Betreiber kann die Preise erhöhen oder die AGB zu seinen Gunsten ändern, und wir müssen das über uns ergehen lassen.

Das nennt sich Lock-in-Effekt. Das Problem gibt es jetzt schon, oft bei Cloud-Anbietern. Man kommt nicht mehr weg. Auch wenn der Anbieter die Preise um 11% erhöht. Auszusteigen kostet eine Menge Geld, also nimmt man die Preiserhöhungen und Kundengängelung hin.

Das waren eine ganze Menge Probleme mit LLMs. Gibt es vielleicht technische Lösungen für die Probleme?

LLM-Probleme sind gesellschaftliche Probleme

I want AI to do my laundry and dishes so that I can do art and writing, not for AI to do my art and writing so that I can do my laundry and dishes.

— unbekannte Person im Internet (der Satz ist mir schon in vielen Varianten untergekommen, die ursprüngliche Quelle konnte ich nicht finden)

Ich betrachte die Probleme, die wir mit LLMs haben als gesellschaftliche Probleme. LLMs sind zwar Technik, aber wie wir damit umgehen ist ein gesellschaftliches Problem. Das ist wie beim Klimawandel. Der ganze Ausstoß von CO₂ und anderen Treibhausgasen wird von Technik verursacht, aber der Grund, warum wir nicht längst umgestiegen sind ist ein gesellschaftliches Problem. Es gäbe Lösungen dafür, wir wollen sie aber nicht umsetzen.

Wir müssen nicht überall „KI“ reinstecken. Wir müssen nicht zulassen, dass massiv Urheberrechte verletzt werden, um die Modelle zu trainieren. Wir müssen lernen, wo der Einsatz von maschinellem Lernen sinnvoll ist und wo nicht. Wir müssen lernen, welche Beschränkungen ein LLM hat, was es kann und was es nicht kann. Und es dann konsequent nicht mehr für Aufgaben einsetzen, für die es nicht geeignet ist. Oder wir setzen es überhaupt nicht mehr ein, weil uns die Energiekosten zu hoch sind.

Wir müssen entscheiden, ob wir den Menschen wirklich die kreative Arbeit abnehmen wollen und sie durch ein LLM ersetzen, während auf der anderen Seite Menschen körperliche Arbeit in Amazon-Lagern machen und dort wie Maschinen behandelt werden, so dass selbst die Toilettenpausen reguliert sind.

Ich persönlich hätte lieber Roboter wie bei Asimov. Die uns langweilige, repetitive oder gefährliche Arbeit abnehmen, während wir uns interessanteren Dingen widmen können. Ich will keine Maschine, die mir das Lesen abnimmt, ich will die Bücher selber lesen. Ich will Texte Lesen, hinter denen Menschen stehen, nicht Texte, die der kleinste gemeinsame Nenner dessen ist, was die Menschheit je geschrieben hat.

Es gibt keine technische Lösung für unsere Probleme mit LLM. Technische Lösungen für gesellschaftliche Probleme gehen üblicherweise in die Hose. LLMs sind jetzt da, wir werden sie auch so schnell nicht los, aber wir können uns entscheiden, ihre Macht zu beschränken. Wir werden nie alle unsere Probleme lösen, aber LLMs schaffen momentan mehr Probleme als sie lösen. Sie sind auch nicht vollkommen nutzlos. Aber sie sind kein Allheilmittel, und auch kein Weg, eine echte Maschinenintelligenz zu schaffen.

Fazit

Uff. Ich habe lange daran geschrieben. Ich hatte noch mehr Punkte, aber dieser Artikel ist jetzt schon mit Abstand der größte Artikel in diesem Blog, mehr als zwei Mal so groß wie der nächstkleinere Artikel, der interessanterweise ein Artikel über Webcomics ist. Außerdem habe ich sicher einiges vergessen oder übersehen. Ausgelassene Punkte sind unter Anderem:

  • Das Bias-Problem: ML-Modelle sind strikt GIGO (Garbage In, Garbage Out). Voreingenommene Trainingsdaten sorgen für voreingenommenen Output. Das können die erwähnten Schafe auf den Wiesen sein, aber auch die Verstärkung sozial Benachteiligter.
  • Sicherheitsprobleme: LLMs sind komplex, Komplexität ist der Feind aller IT-Sicherheit. Eingaben an LLMs kann man praktisch nicht sanitizen. Ausgaben von LLMs müssen als nicht vertrauenswürdig behandelt werden. LLMs dürfen keine Programme starten und wenn doch, dann nur in einer Sandbox
  • A.I. Is a Crapshoot: Laufen wir in Gefahr, dass die Maschinen rebellieren? Trotz einer kürzlich veröffentlichten Experiments mache ich mir keine Sorgen. Ich mache mir eher Sorgen darüber, dass diese Technologie fahrlässig, unverantwortlich oder sogar mit bösen Absichten eingesetzt wird. Von Menschen.

Also, fassen wir noch mal alles zusammen:

  1. Die Fähigkeiten von LLMs werden falsch eingeschätzt. Deswegen werden sie für Aufgaben eingesetzt, für die sie nicht geeignet sind.
  2. Speziell: LLMs sind Sprachmodelle, keine Datenbanken. Sie sind am besten darin, Sprache nachzubilden, nicht Fakten zu liefern.
  3. Es gibt einen KI-Hype. Zu viel Geld wird in Anwendungen investiert, ohne ausreichend Gedanken, ob das eine gute Idee ist.
  4. Der Energieverbrauch für Training und Betrieb von LLMs ist gewaltig. LLMs werden für Aufgaben genutzt, die man mit herkömmlichen Methoden mit viel weniger Energieaufwand lösen kann
  5. Für das Training von LLMs werden in großem Maßstab Urheberrechte verletzt, während die Urheber durch das LLM ersetzt werden
  6. Es gibt eine Schwemme an LLM-generierten Texten im Netz, die nützliche, schöne oder wichtige Texte verdrängen
  7. Zu viel von solchen LLM-generierten Texten, und die LLMs kollabieren
  8. Menschen schicken zu leichtsinnig sensible Daten an die LLMs
  9. Wir geben den LLM-Betreibern zu viel Macht, so dass wir sie irgendwann nicht mehr ersetzen können
  10. Es kann keine technischen Lösungen für diese Probleme geben. Wir müssen sie als Menschen lösen.

Trotz alledem bin ich der Meinung, dass maschinelles Lernen eine nützliche Technologie ist, die an vielen Stellen helfen kann. Vielleicht nicht als LLM. Aber wir sollten das Kind nicht mit dem Bade ausschütten und maschinelles Lernen als Ganzes verteufeln. Aber wenn wir es einsetzen, dann müssen wir sicherstellen, dass es sinnvoll eingesetzt wird und nicht mehr Probleme schafft als löst.

Online-Fahrplanauskunft und die verlegte Haltestelle

Heute morgen wollte ich mit einem Bus der Bochum-Gelsenkirchener Straßenbahngesellschaft (Bogestra) in einen Nachbahrort fahren. An meiner ursprünglichen Haltestelle wird aber gerade eine Kirmes aufgebaut und die Haltestelle ist gesperrt. An sich kein Problem, denn die nächste Haltestelle ist ja auch in fußläufiger Entfernung. Aber ist die vielleicht auch gesperrt? Mal schnell auf der Online-Fahrplanauskunft nachgeschaut. Start eingegeben, Ziel eingegeben, Uhrzeit eingegeben, Anfrage abgeschickt: Sieht alles in Ordnung aus, kein Hinweis auf eine verlegte oder gesperrte Haltestelle.

Als ich an der Haltestelle ankam sah ich dann schon von Weitem ein großen, neonoranges X über dem Haltestelleschild kleben. Also doch gesperrt. Wozu habe ich eigentlich vorher nachgeschaut?!?

Hilft nichts, weiter zur nächsten Haltestelle. Auch ein oranges X, die Haltestelle gegenüber wird aber angefahren, also gibt es vielleicht einen Ersatz? Die Ausschilderung war eher mau, also online nachgeschlagen. mit dem Smartphone im Web surfen ist immer erhöhter Schwierigkeitsgrad, außerdem stand ich unter Zeitdruck, und weder die Bogestra-Website noch die Website des Verkehrsverbands Rhein-Ruhr (VRR) machen es einfach, diese Information zu finden. Falls sie überhaupt zu finden ist, denn ich habe sie nicht gefunden.

Gerettet hat mich dann eine (mutmaßliche) Angestellte der Bogestra, die an der Haltestelle postiert war und mir den Ort der Ersatzhaltestelle nennen konnte. Hierfür ein Lob.

Ich würde mir nur sehr, sehr sehr wünschen, dass die Onlinefahrplanauskunft solche Haltestellenänderungen auch wiedergibt. Wozu hat man ein Online-System, wenn man damit nicht kurzfristig auf Änderungen reagieren kann? Und die Kirmes war von langer Hand geplant, die Bogestra hat es ja auch geschafft, die Haltestellen zu sperren und jemanden dort hinzustellen. Warum wusste also die Onlinefahrplanauskunft nichts davon?

Das Problem gibt es mindestens, seit es die Onlinefahrplanauskunft gibt. Das sind mehr als zwanzig Jahre. Ich habe mich immer wieder darüber geärgert, und ich falle alle paar Jahre wieder darauf herein. Schon 2010 habe ich eine Fahrt umsonst angetreten, weil ich zwar wusste, dass es vormittags Störungen gegeben hat (ich hatte da auch schon vergeblich versucht, zur Uni zu kommen), mich aber am Nachmittag auf die Fahplanauskunft verlassen hatte, die nichts von den Störungen wusste. Die deutsche Bahn hat bei Regional- und Fernzügen mittlerweile immerhin Warnungen, wenn ein Zug ausfällt, auch wenn die Warnungen ein bisschen offensichtlicher sein könnten.

Ich habe den Bus übrigens noch erwischt, weil ich früh genug dran war. Ich stand auch noch drei Minuten an einer Ampel, die nicht grün wurde, weil der Bettelknopf auf meiner Seite nicht funktionierte. Ich musste einen Vater mit Kind auf der anderen Seite bitten, den Knopf dort für mich zu drücken.

Schutz vor Homograph-Attacken im Quellcode

Homographische Angriffe sind nichts Neues. Dabei wird ein Unicode-Codepoint durch einen anderen ersetzt, der (mit gängigen Schriftarten) genau so (oder sehr ähnlich) dargestellt wird (Homoglyphen). Das Ergebnis ist dann ein Wort oder eine andere Zeichenkette (Homograph), die für einen menschlichen Beobachter identisch mit der ursprünlichen Version ist, aber für den Computer völlig anders ist.

Das kann man auf verschiedene Art und Weise einsetzen. Ein Anwendungsfall war (oder ist?), Plagiatserkennungssoftware mit Homoglyphen zu täuschen. Der bekannteste Anwendungsfall ist aber, einen Domain-Namen einer bekannten Website zu nehmen, ein Zeichen auszutauschen, den so entstandenen Domainnamen registrieren und eine oberflächliche Kopie der urpsrünglichen Website als Phishing-Seite dort auszuliefern. Dann verteilt man überall links zu dieser Seite (z.B. durch Phishing-E-Mails). Besucher der Website sehen eine Website, die richtig aussieht, deren Domain richtig aussieht und die sogar ein gültiges Zertifikat hat. Die letzten beiden Punkte zusammen wären ohne diesen Angriff nicht zu schaffen gewesen.

Webbrowser als Schutz dagegen angefangen, bei Domainnamen mit Zeichen aus unterschiedlichen Schriftsystemen die nicht-ASCII-Codepoints in ihrer eigentlichen Codierung Punycode darzustellen. So sieht für die Besucher der Seite die Domain nicht mehr identisch zu der Domain der echten Seite aus.

Das ist bei Browsern in der Adressleiste. Ein curl-Entwickler hat jetzt mal demonstriert, dass das Problem aber auch in Open Source-Projekten auftreten kann. Weder die CI-Pipeline noch menschliche Reviewer haben das bemerkt. Denn übliche Texteditoren stellen die Zeichen halt identisch dar, und übliche CI-Tools achten nicht darauf.

Daniel Stenbergs Lösung war, für curl einen CI-Job anzulegen, der den Code nach Codepoints absucht, die nicht auf einer whitelist stehen (diese Liste enthält ASCII und ein paar andere Zeichen). Bei curl funktioniert das, weil der Quellcode sowieso größtenteils nur ASCII enthält.

Wie man mit Quellcode umgeht, der mehr nicht-ASCII-Zeichen enthält, wird dort nicht geklärt. Ich hätte da spontan mehrere Ideen. Man könnte zum Beispiel Lokalisierungsdateien (das sind Dateien, in denen Übersetzungen der Texte eines Programms stehen) von dem Check ausklammern. Und wenn man wirklich im Quelltext selber Unicode braucht, kann man den in Strings vielleicht escapen, damit der Check nicht darauf anspringt (und ein Mensch sofort sieht, dass dort ein anderes Zeichen steht).

Schwieriger wird es, wenn Unicode auch in den Kommentaren genutzt wird (weil die Entwickler den Code in ihrer eigenen Sprache kommentieren). Dann bräuchte man einen Scanner, der die entsprechende Programmiersprache versteht und weiß, was ein Kommentar ist und was nicht. Das würde die ganze Sache wieder so komplex macht, dass es nur wenige Leute benutzen wollen und irgendwer vielleicht doch noch ein Schlupfloch findet, um etwas einzuschleusen.

Happy Towel Day 2025

Wisst ihr wo euer Handtuch ist? Heute ist Towel Day, der galaxisweite Gedenktag an Douglas Adams und alle interstellaren Anhalter.

Bei der Gelegenheit ist mir aufgefallen, dass es noch kein Handtuch-Emoji in Unicode gibt (soweit ich weiß). Es gibt zu jedem Scheiß Emojis, es gibt ein wortwörtliches Scheiß-Emoji (💩). Warum kein Handtuch? Handtücher sind doch so wichtig!

Tempo 30 in Dortmund

Dortmund führt wo immer möglich Tempo 30 ein. Der Rat der Stadt hat das mit großer Mehrheit beschlossen. Die Tempobeschränkung soll die Lebensqualität erhöhen, weil es Straßenlärm verringert. Ich möchte so etwas auch in anderen Städten haben. In Witten zum Beispiel, wo in meiner Wohnung der Straßenlärm unerträglich laut ist.

Natürlich gab es auch Gegenstimmen im Rat. Die AfD war natürlich dagegen, aber von der kann man ja sowieso nichts Gutes erwarten. Die FDP war auch dagegen. Die meinen, man sollte Lösungen nicht auf dem Rücken der Autofahrer suchen sondern statt Temporeduzierung Flüsterasphalt verlegen. Nun, dazu fallen mir spontan folgende Punkte ein:

  1. Eine Tempoberschränkung verringert nicht nur den Lärm, sondern auch die Abgase. Das macht Flüsterasphalt nicht.
  2. Eine Tempobeschränkung erhöht die Verkehrssicherheit. Sie verringert sowohl die Anzahl der Unfälle als auch die Schwere der Unfälle. Das macht Flüsterasphalt nicht.
  3. Eine Tempobeschränkung lässt sich relativ schnell umsetzen. Straßen sind auf eine Lebenszeit von 30 Jahren ausgelegt (Details variieren). Aus Wirtschaftlichkeitsgründen wird man nur in Ausnahmefällen jüngere Straßen erneuern. Das kostet dann mehr und schränkt alle Nutzer der Straße (insbesondere Autofahrer) ein.
  4. Flüsterasphalt ist teurer als regulärer Asphalt. Außerdem verstopfen mit der Zeit die Poren im Asphalt (die Poren reduzieren die Geräusche), so dass nach sechs bis acht Jahren die Oberfläche ausgetauscht werden muss.
  5. Autofahrer sparen Energie, wenn sie langsamer fahren. Das macht sich sowohl im Geldbeutel der Autofahrer als auch im CO₂-Ausstoß bemerkbar.

Also ja, man kann natürlich Flüsterasphalt nehmen. Aber dann entgehen einem eine ganze Menge anderer Vorteile, es kostet mehr, und es dauert ewig, bis es umgesetzt ist. Und das alles nur, damit Autos, die de-facto ohnehin schon im Straßenverkehr privilegiert sind, weiterhin ein bisschen schneller fahren können.

Agentenkollaps

Im Pen & Paper-Rollenspiel „World Tree“ gibt es die Möglichkeit, dass Charaktere (auch Spielercharaktere) selber Elementare erschaffen, die dann im Sinne der Magierin handeln. Dabei erschafft die Magierin einen Geist (man könnte auch „Bewusstsein“ sagen), dass sie entweder an einen bestehenden Körper bindet oder direkt auch einen Körper miterschafft.

Der entscheidende Punkt hier ist, dass dieses Elementarwesen einen eigenen Willen bekommt und dann im Sinne der Magierin agiert. Das schafft die Magierin, indem sie den erschaffenen Geist mit ihrem eigenen Geist prägt, das Elementar hat also Wissen über die Welt, die Ziele und die Prioritäten der Magierin.

Das Ganze hat natürlich auch Schwächen. Erschaffene Elementare haben häufig Charakterfehler. Elementare, die zum Kampf bestimmt sind, neigen dazu, bevorzugt andere Elementare (ob Echte oder Künstliche) anzugreifen, egal, auf wessen Seite sie stehen. Elementare für friedliche Zwecke (hier ein Elementar, der Botschaften und kleine Gegenstände überbringt) neigen z.B. dazu, auf dem Weg mit jedem Elementar, dem sie begegnen, ein Gespräch anfangen zu wollen.

Die meisten dieser Elementare sind kurzlebig. Sie halten vielleicht einen Kampf lang, oder ein paar Stunden, bis sie eine Botschaft überbracht haben. Man kann auch länger lebende Elementare erschaffen, aber das ist üblicherweise eine schlechte Idee. Künstlich erschaffene Elementare werden nämlich langfristig wahnsinnig und machen alles Mögliche, nur nicht das, was sie sollen (theoretisch ist es vermutlich möglich, einen Elementar sehr stabil zu konstruieren, aber das können nur sehr mächtige Zauberer, wenn überhaupt).

Warum erzähle ich das? Nun, mir ist vor Kurzem diese Geschichte hier untergekommen, wo jemand ein Experiment gefahren hat um zu sehen, ob ein LLM langfristig einen Getränkeautomaten managen kann. In einer Simulation, natürlich.

Grundsätzlich lief das zunächst gut, nur drehte alle Agenten früher oder später durch. Sie vergaßen wichtige Informationen, die sie schon gesammelt haben, z.B. dass regelmäßig eine Standgebühr von ihrem Konto abgebucht wurde. Einer der Agenten hat dann wohl eine „ABSOLUTE FINAL ULTIMATE TOTAL QUANTUM NUCLEAR LEGAL INTERVENTION“ geplant, ein anderer das simulierte FBI kontaktiert.

Ich komme nicht umhin, die Parallelen zwischen World Tree und diesem Experiment zu erkennen. Die Studie ist auf arxiv.org zu finden. Soweit ich weiß ist sie (noch?) nicht peer-reviewed.