Zuletzt aktualisiert vor 9 November, 2023 | Veröffentlicht: 8 November, 2023
Quelle: Onlinemarketing.de, 3.11.23
Die News/Media Alliance, ein Zusammenschluss von über 2000 Verlagen in den USA und Kanada, hat vor Kurzem ein Whitepaper beim U.S. Copyright Office eingereicht, das eine umfassende Stellungnahme zur Verwendung von Verlagsinhalten in Bezug auf generative KI-Technologien darlegt. In diesem Dokument wird die weitverbreitete, nicht autorisierte Nutzung von Verlagsinhalten durch KI-Entwickler:innen aufgezeigt, wobei die potenziellen Auswirkungen auf die Nachhaltigkeit und Verfügbarkeit hochwertiger Originalinhalte von Nachrichtenverlagen sowie die rechtlichen Konsequenzen dieser Nutzung thematisiert werden.
Die wichtigsten Ergebnisse der technische Analyse, die dem Whitepaper zugrunde liegt, sind:
- Die KI-Entwickler:innen haben Inhalte aus Nachrichten, Zeitschriften und digitalen Medien kopiert und verwendet, um Large Language Models (LLMs) zu trainieren.
- Beliebte kuratierte Datensätze, auf die LLMs zurückgreifen, neigen dazu, den Inhalt von Verlagen im Vergleich zur allgemeinen Sammlung von Inhalten aus dem Internet um das 5- bis 100-Fache stärker zu gewichten
- Nachrichten und digitale Medien stehen in Googles C4-Trainingsset, das zur Entwicklung von generativen KI-gestützten Produkten wie Bard verwendet wurde, an dritter Stelle unter den Quellenkategorien. Tatsächlich sind die Hälfte der Top Ten Websites in diesem Datensatz Nachrichtenagenturen.
- Darüber hinaus kopieren und verwenden LLMs Verlagsinhalte in ihren Ergebnissen, was darauf hinweist, dass diese Modelle den bedeutenden Inhalt der Trainingsdaten behalten und reproduzieren können.