Weblog-Start / Blogroll / Feeds

„Vertraue keiner KI“

ChatGPT und seine Kumpels sind so praktisch. Doch es ist Vorsicht geboten, wenn es um Fakten geht – davor warnt nicht nur der Google-CEO, sondern auch der Stand der Technik.

Google-CEO Sundar Pichai sagt im Interview mit der BBC, Menschen „,müssen lernen, diese Tools [Large Language Modelle] für das zu nutzen, worin sie gut sind, und nicht blind allem zu vertrauen, was sie sagen“.

Nun könnte man als Nutzer:in natürlich sagen: "Ja, dann schreibe das eben auf dein Produkt". Tatsächlich tut das derzeit nur Google. Wir benötigen dafür jedoch Vorschriften, denn Unternehmen werden Fehler oder Probleme mit ihren Algorithmen und Produkten nicht offenlegen. Im Gegenteil.

Ich erzähl ja schon seit geraumer Zeit, dass Large Language Modelle wie ChatGPT keine Wissensmaschine, sondern Erzählmodelle sind. Es schockiert mich immer wieder, wie selbst Menschen das nicht verstehen, die ich für einigermaßen Medienkompetent halt.

Gestern stolperte ich über einen Test, in dem 'koray' 29 Open-Source LLMs bei 'Wer wird Millionär' hat antreten lassen. Die Ergebnisse kann man nur als katastrophal bezeichnen.

Nun hat Google natürlich ein gewisses Interesse daran, zu betonen, wie schlecht die KI ist – schließlich verdient man trotz aller Investitionen in KI das meiste Geld mit Werbung in der Suche. Aber so schlecht ist die Warnung von Pichai dann trotzdem nicht. Sollte man sich zu Herzen nehmen.

Grundsätzlich macht KI aktuell natürlich riesige Sprünge. Und was sie heute nicht kann, beherrscht sie morgen vielleicht schon. Aber ich befürchte, als Nutzer müssen wir grundsätzlich in Zukunft wieder mehr zweifeln. Wir haben in den letzten 20 Jahren gelernt, dass wir im Informationszeitalter leben. Wir haben Zugriff auf jede Information und finden diese in Sekunden.

Jetzt müssen wir lernen, dass wir im Desinformationszeitalter leben. Wir finden jede Information, die wir suchen – aber wir können ihr nicht mehr trauen. Weder Text, noch Bild oder Video. Dank KI verkommt das Netz zu einem Platz, in dem jeder mit einer Mission (ob böswillig oder nicht) binnen Sekunden alles erschaffen und es real wirken lassen kann. Und mit der Information füttern sich die KI-Modelle dann selbst wieder. Dabei reichen schon 250 Dokumente, um einen Wissenspunkt (dem man so schon nicht trauen sollte) einer KI zu vergiftenNa, Prost Mahlzeit.

Was nehmen wir also mit?
Traue 👏 Keiner 👏 KI 👏
… und checke die Fakten, bevor du in ein Land einreist, Bier braust oder Elon Musk für Jesus hälst.

Veröffentlicht:
Schlagwörter:

Kommentare

  • Meine Erfahrung ist, dass KI / LLMs sogar recht gut geeignet sind, um Behauptungen zu überprüfen, quasi als Faktenchecker. Das ist sehr hilfreich, um etwa reisserische Videos einem Reality-Check zu unterziehen - hier ein Beispiel (Claude 4.5 über Perplexity pro):
    https://www.perplexity.ai/search/bitte-fasse-dieses-video-zusam-XYaHc4eZRKun4tIUrfA3AA#0
    Für jeden Absatz werden Quellen angegeben - etwas, das nicht jede KI macht. Für mich war es DER Grund, recht bald von ChatGPT zu Perplexity zu wechseln, dass auf Recherche optimiert ist. Das obige Beispiel habe ich übrigens gleich von 3 Modellen bearbeiten lassen - auch ein guter Gegencheck, um evtl. einen Bias einzelner Modelle aufzudecken. Hier zum Vergleich mal die Antwort der chinesischen Kimi K2 (Denken), gehostet in den USA:
    https://www.perplexity.ai/search/bitte-fasse-dieses-video-zusam-oFSCmaYbQquuBAOs3BOrcw#0

    Dank dieser KIs kann ich mich über komplexe Zusammenhänge in einer Geschwindigkeit informieren - bzw. Gesehenes/Gehörtes/Gelesenes überprüfen lassen - wie es mit klassischen Mitteln nicht möglich wäre (es sei denn, ich wäre beruflich Journalistin).

    Der von dir verlinkte Artikel zum "Wer-wird-Millionär-Test" zeigt Ergebnisse ohne jede Relevanz für DIE KI-MODELLE, die wir in aller Regel nutzen. Der Autor schreibt zu seiner Modellwahl:

    "My selection of LLMs is limited as I ran them on my Framework Laptop 13 (AMD Ryzen 5 7640U with 32 GB of RAM), which necessitated the use of smaller models. All models were Q4_K_M quantized and, if available, recommended settings were used."

    Die berichteten Ergebnisse auf große KI-Modellen zu beziehen, ist in etwa so, wie wenn ich von der Leistung eines kleinen Stabmixers auf das Potenzial eines 3-Watt-Hochleistungsmixers rückschließen würde!

    Hinzu kommt eine weitere Erschwernis, die der Autor nennt:

    "The initial questions often involve wordplay and idioms, requiring a deep understanding of the German language".

    Und DAS als ernsthafter Test zur Fähigkeit von KIs, WISSENSFRAGEN (!) zu beantworten?

Kommentare geschlossen