Es könnte für Meta bei Threads noch etwas anderes im Spiel sein, selbst wenn es Twitter nicht übertrifft: AI-Trainingsdaten.
Wie alle anderen entwickelt auch Meta große Sprachmodelle, die auf großen Mengen organischen Textes zu einer Vielzahl von Themen trainiert werden müssen. Deshalb hat OpenAI die Modelle, auf denen ChatGPT basiert, mit Twitter-Konversationen trainiert – zu einer Zeit, als das Sammeln von Trainingsdaten so einfach war wie das Abschöpfen des öffentlichen Webs.
Jetzt beginnen Tech-Unternehmen, ihre Daten abzuschotten (wie es Stack Overflow und Twitter bereits getan haben), was andere Unternehmen daran hindert, dieses Quellenmaterial zum Trainieren von Sprachmodellen zu nutzen. Es besteht also die reale Möglichkeit, dass zukünftige LLMs durch die ihnen zur Verfügung stehenden proprietären Trainingsdaten charakterisiert werden.
Googles Modelle könnten ein Verständnis der Welt gewinnen, indem sie YouTube-Videos konsumieren. Elon Musk könnte Twitter-Inhalte verwenden, um den von ihm angedeuteten ChatGPT-Konkurrenten zu trainieren. Und Meta könnte eines Tages eine reiche Fundgrube an Trainingsdaten in Threads finden.