A.I. Datenhunger saugt das Netz leer

In late 2021, OpenAI faced a supply problem. The artificial intelligence lab had exhausted every reservoir of reputable English-language text. […] Tech companies could run through the high-quality data on the internet as soon as 2026, according to Epoch, a research institute. The companies are using the data faster than it is being produced.

Im Artikel der Economic Times geht es darum, vor welchen Problemen OpenAI und andere Firmen stehen, weil der Datenhunger ihrer Large Language Modelle unendlich scheint. Dabei verstoßen sie gegen Urheberrechte, Plattform-Bestimmungen und andere Regeln. Die Frage, wo man weitere Daten für die eigenen Tools her bekommt, geht soweit, dass zum Beispiel Google darüber nachdenkt, private Dokumente von Google Docs-Nutzern anzuzapfen.

Die Diskussionen darum, was Scraping Tools, die Daten für LLMs sammeln, eigentlich dürfen und nicht, hat erst begonnen (unvollständige Liste). Gegen OpenAI allein laufen Dutzende Klagen von Urheberrechts-Eigentümern. Erst vor wenigen Tagen musste jedoch X eine Niederlage vor Gericht einstecken – die Auffassung des Gerichts: Scraping-Tools könnten nicht per se verboten werden die Daten von Social-Media-Plattformen zu holen. Würde man dies tun, unterbinde man die Nutzung öffentlicher Daten und riskiere die Schaffung von Informationsmonopolen, die dem öffentlichen Interesse zuwider liefen. Nun ist X nicht der Urheber, sondern nur der originäre Verbreiter der Daten – in einer entsprechenden Sammelklage von X-Nutzern könnte das Urteil anders aussehen.