Generative KI-Modelle werden mit Terabytes an Web-Crawl-Daten aus dem Internet trainiert. Eine der beliebtesten Quellen für Trainingsdaten ist Common Crawl, ein riesiges Archiv mit Web-Crawl-Daten, das von einer kleinen gemeinnützigen Organisation zusammengestellt wurde. Mozillas neueste Untersuchung zeigt, dass Common Crawl dazu beigetragen hat, die generative KI-Entwicklung transparenter und wettbewerbsstärker zu machen, aber KI-Entwickler müssen transparent sein, wie sie diese Daten verwenden, da sie die Verzerrungen des Internets widerspiegeln und Inhalte enthalten, die toxisch und schädlich sind. Aber wir wissen nicht einmal, ob große KI-Unternehmen wie Microsoft, Google oder Meta Common Crawl verwenden, um ihre KI-Produkte zu trainieren, geschweige denn, wie sie schädliche Inhalte herausgefiltert haben.
Besser geht immer bei der Entwicklung vertrauenswürdiger KI-Produkte. Wir müssen alles darüber wissen, wie KI trainiert wird, damit wir ihre Risiken und Grenzen abschätzen können. Und noch wichtiger: Damit wir wissen, was verbessert werden muss, damit KI vertrauenswürdig ist und alle Internetnutzer*innen davon profitieren können.
Unterzeichnen Sie unsere Mozilla-Petition und fordern Sie OpenAI, Google, Microsoft und Meta auf, Transparenz über die Daten zu schaffen, die sie zum Trainieren ihrer KI-Tools verwenden!