EU AI Act: Viele große KI-Modelle erfüllen die Anforderungen (noch) nicht
Stanford-Forscher haben untersucht, inwieweit die großen Sprachmodelle wie GPT-4 oder Googles PaLM die Anforderungen des geplanten EU AI-Acts erfüllen. Die Spanne liegt zwischen 25 und 75 Prozent der notwendigen Punktzahl. Die meisten Modelle erreichen etwa die Hälfte. Verbesserungen sind aber leicht möglich, schreiben die Forscher.
Das Center for Research on Foundation Models an der Standford University hat in einer Studie analysiert, inwieweit die großen Sprachmodelle wie GPT-4 von OpenAI, PaLM2 von Google oder LLaMA von Meta die Anforderungen des aktuellen Entwurfs des EU AI-Acts erfüllen. Dabei zeigt sich eine große Bandbreite: Einige Anbieter wie AI21 Labs, Aleph Alpha und Anthropic erreichten weniger als 25 Prozent der Kriterien. Nur Bloom von HuggingFace erreicht derzeit mindestens 75 Prozent. „Selbst bei den Anbietern mit der höchsten Punktzahl gibt es noch erheblichen Spielraum für Verbesserungen. Dies bestätigt, dass das Gesetz (wenn es in Kraft gesetzt, befolgt und durchgesetzt wird) das Ökosystem erheblich verändern und einen wesentlichen Fortschritt hin zu mehr Transparenz und Rechenschaftspflicht bewirken würde“, schreiben die Stanford-Forscher.
Besonders in vier Bereichen vergaben die Forscher schlechte Noten (also 0 oder 1 von maximal 4 Punkten):
- Urheberrechtlich geschützte Daten,
- Computer/Energie,
- Risikominderung und
- Bewertung/Tests.
Unklare Haftung aufgrund des Urheberrechts. Nur wenige Anbieter geben nach Ansicht der Stanford-Forscher Auskunft über den Urheberrechtsstatus der Trainingsdaten. Viele Foundation-Modelle werden auf Daten trainiert, die aus dem Internet kuratiert wurden und von denen ein beträchtlicher Teil wahrscheinlich urheberrechtlich geschützt ist. Die rechtliche Zulässigkeit des Trainings mit diesen Daten im Sinne einer fairen Nutzung, insbesondere bei Daten mit spezifischen Lizenzen, und der Reproduktion dieser Daten bleibt unklar.
Uneinheitliche Berichterstattung über den Energieverbrauch. Die Anbieter der Modelle machen uneinheitliche Angaben zum Energieverbrauch, zu den Emissionen, zu ihren Strategien zur Messung der Emissionen und zu den Schritten, die sie zur Verringerung der Emissionen ergriffen haben.
Unzureichende Offenlegung der Risikominderung/Nicht-Minderung. Die Risikolandschaft für Foundation-Modelle ist immens und umfasst viele Formen der böswilligen Nutzung, unbeabsichtigte Schäden und strukturelle oder systemische Risiken, erklären die Stanford-Forscher. Während viele Anbieter der Foundation-Modellen Risiken nur aufzählen, legen relativ wenige die von ihnen getroffenen Abhilfen und deren Wirksamkeit offen. Das Gesetz verlangt auch, dass die Anbieter „nicht geminderte Risiken mit einer Erklärung, warum sie nicht gemindert werden können“, beschreiben, was keiner der bewerteten Anbieter tut, kritisieren die Forscher.
Fehlen von Bewertungsstandards/einem Ökosystem für Audits. Anbieter von Basismodellen messen nur selten die Leistung der Modelle in Bezug auf absichtliche Schäden wie böswillige Nutzung oder Faktoren wie Robustheit und Kalibrierung. Viele in der Gemeinschaft haben mehr Evaluierungen gefordert, aber Standards für die Evaluierung von Basismodellen (insbesondere über Sprachmodelle hinaus) sind noch in Arbeit.
Große Unterschiede zwischen privaten und offenen Modellen
Die Einhaltung der Vorschriften hängt nach Ansicht der Forscher eindeutig von der Veröffentlichungsstrategie ab. Gegenwärtig wenden die Anbieter von Foundation-Modellen eine Vielzahl von Freigabestrategien an, für die es keine festgelegten Normen gibt. Offene Versionen wie GPT-NeoX von EleutherAI, Bloom von Hugging Face/BigScience und LLaMA von Meta) stehen eingeschränkten/geschlossenen Modellen wie PaLM 2 von Google, GPT-4 von OpenAI oder Claude von Anthropic gegenüber. Offene Versionen erreichen im Allgemeinen hohe Punktzahlen bei den Anforderungen an die Offenlegung von Ressourcen (sowohl Daten als auch Rechenleistung), wobei EleutherAI in diesen Kategorien 19/20 Punkte erhält. Solche offenen Versionen machen es jedoch schwierig, den Einsatz zu überwachen oder zu kontrollieren, wobei eingeschränktere/geschlossene Versionen zu besseren Ergebnissen bei den einsatzbezogenen Anforderungen führen. So erhält beispielsweise Googles PaLM 2 die Note 11/12 für den Einsatz. Die Forscher empfehlen der EU eine Verschärfung der Einführungsanforderungen für Unternehmen, die Gründungsmodelle auf den Markt bringen. Sie sollten eine ausreichende Rechenschaftspflicht in der gesamten digitalen Lieferkette gewährleisten.
Verbesserungen leicht möglich
Kein Anbieter von Foundation-Modellen erreicht eine perfekte Punktzahl, und in den meisten Fällen besteht noch reichlich Raum für Verbesserungen. Die Stanford-Forscher gehen aber davon aus, dass die Unternehmen bei ausreichenden Anreizen wie  Geldstrafen bei Nichteinhaltung ihr Verhalten ändern werden, selbst wenn kein starker regulatorischer Druck ausgeübt wird, und dass viele Anbieter durch sinnvolle, aber plausible Änderungen eine Gesamtpunktzahl im Bereich der 30er oder 40er erreichen könnten. Konkret liegt der Höchstwert für den Einstieg bei OpenAI und Hugging Face/BigScience bei 42 (fast 90 % Compliance). Wir kommen zu dem Schluss, dass die Durchsetzung dieser 12 Anforderungen im Gesetz eine wesentliche Veränderung bewirken würde und gleichzeitig für die Anbieter erreichbar bliebe.
Die Veröffentlichungen von Basismodellen sind im Allgemeinen weniger transparent geworden, wie die großen Veröffentlichungen der letzten Monate zeigen. In den Berichten zu OpenAIs GPT-4 und Googles PaLM 2 wird offen erklärt, dass sie viele relevante Aspekte zu Daten und Berechnungen nicht angeben. Im GPT-4-Bericht heißt es: „In Anbetracht des Wettbewerbsumfelds und der Sicherheitsimplikationen von groß angelegten Modellen wie GPT-4 enthält dieser Bericht keine weiteren Details über die Architektur (einschließlich der Modellgröße), die Hardware, die Trainingsberechnung, die Datensatzkonstruktion, die Trainingsmethode oder Ähnliches.“
Die Forscher gehen davon aus, dass eine ausreichende Transparenz, um die Anforderungen des Gesetzes in Bezug auf Daten, Berechnungen und andere Faktoren zu erfüllen, kommerziell machbar sein sollte, wenn die Anbieter von Foundation-Modelln gemeinsam Maßnahmen als Ergebnis von Industriestandards oder Vorschriften ergreifen. „Wir sehen keine nennenswerten Hindernisse, die jeden Anbieter daran hindern würden, die Art und Weise zu verbessern, wie er Einschränkungen und Risiken diskutiert und über Standard-Benchmarks berichtet. Auch wenn Open-Sourcing Aspekte der Offenlegung von Implementierungen erschweren kann, gibt es machbare Verbesserungen bei der Offenlegung von maschinell erzeugten Inhalten oder der Verfügbarkeit von nachgelagerter Dokumentation. Obwohl Fortschritte in jedem dieser Bereiche einige Arbeit erfordern, sind wir der Meinung, dass diese Arbeit in vielen Fällen im Verhältnis zur Erstellung und Bereitstellung des Basismodells minimal ist und als Voraussetzung für einen verantwortungsvollen und seriösen Modellanbieter angesehen werden sollte.“
Schlussfolgerung
Wir stellen fest, dass die Anbieter von Foundation-Models die Anforderungen des Entwurfs des EU-KI-Gesetzes ungleichmäßig erfüllen. Die Verabschiedung und Durchsetzung des EU-KI-Gesetzes wird einen bedeutenden positiven Wandel im Ökosystem der Modelle bewirken. Die Modellanbieter halten die Anforderungen in Bezug auf Urheberrecht, Energie, Risiko und Bewertung besonders schlecht ein.
„Unsere Bewertung zeigt scharfe Trennlinien entlang der Grenze zwischen offenen und geschlossenen Veröffentlichungen: Wir glauben, dass alle Anbieter ihr Verhalten verbessern können, unabhängig davon, wo sie in diesem Spektrum liegen. Insgesamt spricht unsere Analyse für einen breiteren Trend der schwindenden Transparenz: Die Anbieter sollten Maßnahmen ergreifen, um gemeinsam Industriestandards festzulegen, die die Transparenz verbessern, und die politischen Entscheidungsträger sollten Maßnahmen ergreifen, um sicherzustellen, dass dieser Allzwecktechnologie angemessene Transparenz zugrunde liegt. Diese Arbeit ist nur der Anfang einer umfassenderen Initiative des Center for Research on Foundation Models, die darauf abzielt, die Transparenz der Anbieter von Foundation-Modellen direkt zu bewerten und zu verbessern, und die unsere Bemühungen um eine ganzheitliche Bewertung, die Dokumentation des Ökosystems, die Entwicklung von Normen, Policy Briefs und politische Empfehlungen ergänzt.“