Hauptbild

KI auf den Boden der Tatsachen holen: Evaluation als zentrales KI-Thema im Jahr 2025

Roya Pakzad, Mozilla 2025 Fellow

Von bahnbrechenden Innovationen bis hin zu kühnen Visionen – unsere 2025 Fellows teilen ihre Prognosen darüber, wohin die Technologie steuert und welche Auswirkungen sie auf die Welt haben könnte.

Vollständige Liste anzeigen →

Die KI-Landschaft im Jahr 2025 wird eine dringend benötigte Transformation erfahren, die sich von der Begeisterung für allgemeine Fähigkeiten hin zu einer Fokussierung auf die Bewertung der realen, domänenspezifischen Leistung verlagert. Während es in den letzten Jahren hauptsächlich darum ging, das Potenzial generativer KI und großer Sprachmodelle zu feiern, wird die nächste Phase praktische Antworten verlangen: Wie effektiv sind diese Systeme bei der Ausführung spezifischer Aufgaben in Bereichen wie dem Gesundheitswesen, Behördendiensten, humanitären Krisen oder der Steuerung von Social-Media-Inhalten?

Derzeit bewerten die meisten Benchmarks KI anhand statischer Aufgaben (wie z. B. Frage-Antwort oder Bildklassifizierung) mit vordefinierten Datensätzen. Diese Benchmarks erfassen jedoch nicht die Komplexität realer Anwendungen. So kann beispielsweise ein Sprachmodell bei einem Standard-Benchmark gut abschneiden, aber bei Tests in nicht-englischen oder diversen Kontexten versagen, in denen die Kenntnis subtiler sprachlicher Nuancen oder gesellschaftlicher Normen für das Verständnis am wichtigsten ist. Da KI-Systeme immer „handlungsfähiger“ werden und sich mit Gedächtnis, Argumentation, Aktionen und der Integration von Tools von Drittanbietern auseinandersetzen, greifen traditionelle Bewertungsmethoden zu kurz. Kann ein KI-Agent Anfragen in verschiedenen Sprachen und kulturellen Kontexten gerecht verwalten? Wie wird er auf unvorhersehbare Szenarien im Krisenmanagement oder in öffentlichen Diensten reagieren? Dies sind die Fragen, die nach differenzierteren soziotechnischen Bewertungsansätzen und einem neuen Denken über Benchmarks verlangen.

Mein Fellowship-Projekt „Equitable AI Benchmarking for Linguistic Diversity“ geht diese Lücken direkt an. Diese offene, webbasierte Plattform richtet die KI-Benchmarking-Praktiken neu aus, um nicht-englischsprachigen Gemeinschaften, insbesondere denjenigen, die am stärksten von KI-bedingten Schäden betroffen sind, besser zu dienen. Durch die Erstellung kontextuell und sprachlich nuancierter Benchmarking-Daten und -Praktiken in Zusammenarbeit mit zivilgesellschaftlichen Organisationen ermöglicht das Projekt Bewertungen, die die gelebten Realitäten marginalisierter Gemeinschaften widerspiegeln. Es erkennt an, dass traditionelle Benchmarks, die oft von privaten Unternehmen oder akademischen Institutionen erstellt werden, nicht genügend Input von den Gemeinschaften berücksichtigen, die am stärksten von der Technologie betroffen sind.

Die jüngsten Entwicklungen unterstreichen die Dringlichkeit dieser Arbeit. Führende KI-Labore, Regierungsbehörden und philanthropische Gruppen erforschen aktiv neue Methoden, um die Lücken in den aktuellen Bewertungssystemen zu schließen. Große KI-Konferenzen wie NeurIPS veranstalten jetzt spezielle Workshops, die die Mängel bestehender Benchmarks untersuchen und Ideen für gemeinschaftsorientierte, partizipative Ansätze zum Testen von KI-Systemen erforschen.

Da KI-Systeme immer komplexer werden, muss die Bewertung Schritt halten. Und 2025 wird das Jahr sein, in dem wir differenziertere Bewertungsrahmen, -techniken und -Benchmarks erleben werden, die dazu beitragen, den Hype um die Fähigkeiten von GenAI zu durchbrechen und sie auf den Boden der Tatsachen zu holen.

Bild von Roya Pakzad

Roya Pakzad ist ein 2025 Mozilla Fellow.

Von bahnbrechenden Innovationen bis hin zu kühnen Visionen – unsere 2025 Fellows teilen ihre Prognosen darüber, wohin die Technologie steuert und welche Auswirkungen sie auf die Welt haben könnte.

Vollständige Liste anzeigen →