Meta hat kürzlich seine Lama 4-Serie von AI-Modellen veröffentlicht, die Schlagzeilen für die Überlegung von GPT-4O und Gemini 2.0 Pro in der Chatbot Arena (ehemals LMSYs) machte. Das Unternehmen behauptete, dass sein Lama 4 -Maverick -Modell – ein MOE -Modell, das nur 17 Milliarden Parameter von massiven 400 Mrd. bei 128 Experten aktiviert, einen beeindruckenden ELO -Wert von 1.417 auf der Chatbot Arena -Benchmark erreichte.
Dieses Ergebnis brachte Augenbrauen in der KI-Community an, da ein relativ kleineres MOE-Modell viel größere LLMs wie GPT-4,5 und Grok 3. Die ungewöhnliche Leistung eines kleinen Modells führte viele in der KI-Community, um das Modell unabhängig zu testen. Überraschenderweise entsprach die reale Aufführung von Lama 4 Maverick nicht den Benchmark-Ansprüchen von Meta, insbesondere in Codierungsaufgaben.
An 1point3acresein beliebtes Forum für Chinesen in Nordamerika, ein Benutzer, der behauptet, ein ehemaliger Meta -Mitarbeiter zu sein, veröffentlichte eine Bombe. Nach der Post, die ins Englische übersetzt wurde RedditDie Meta-Führung hat angeblich „die Testsets verschiedener Benchmarks im Nach-Training-Prozess“ gemischt, um den Benchmark-Score aufzuerlösen und interne Ziele zu erreichen.
Der Meta -Mitarbeiter fand die Praxis inakzeptabel und entschied sich für den Rücktritt. Der ehemalige Mitarbeiter bat das Team außerdem, seinen Namen aus dem technischen Bericht des Lama 4 auszuschließen. Tatsächlich behauptet der Benutzer, dass der jüngste Rücktritt von METAs Leiter der AI -Forschung, Joelle Pineau, direkt mit dem Lama 4 -Benchmark -Hacking verbunden ist.
Als Reaktion auf die wachsenden Vorwürfe teilte Ahmad Al-Dahle, Leiter der Generativ-KI-Abteilung von Meta, a Post auf x. Er wies die Behauptung fest, dass Lama 4 in den Testsets nachgebildet wurde. Al-Dahle schreibt:
Wir haben auch behauptet, dass wir an Testsets trainiert haben – das ist einfach nicht wahr und das würden wir niemals tun. Unser bestes Verständnis ist, dass die variablen Qualität, die Menschen sehen, darauf zurückzuführen ist, dass Implementierungen stabilisieren müssen.
Er erkannte die inkonsistente Lama 4 -Leistung auf verschiedenen Plattformen an. Und forderte auch die KI -Community auf, ihr einige Tage Zeit zu geben, damit die Implementierung „eingewählt“ wird.
LMSYS reagiert auf Lama 4 -Benchmark -Manipulationsvorwürfe
Nach Anliegen der KI -Community gab LMSYs – die Organisation hinter der Chatbot Arena Ranglastboard – eine Erklärung zur Verbesserung der Transparenz ab. LMSYS stellte klar, dass das eingereichte Modell in Chatbot Arena „Lama-4-Maverick-03-26-Experimental“ war. Es war eine benutzerdefinierte Variante des Modells, die für die menschliche Präferenz optimiert wurde.
LMSYS räumte ein, dass „Stil- und Modellantwort -Ton ein wichtiger Faktor war“. Dies hat möglicherweise dem benutzerdefinierten Lama 4 -Maverick -Modell unangemessen. Die Organisation gab auch zu, dass diese Informationen vom Meta -Team nicht ausreichend klar gemacht wurden. Darüber hinaus stellte LMSYS fest: „Die Interpretation unserer Richtlinie durch Meta stimmte nicht mit dem überein, was wir von Modellanbietern erwarten.“
10 beste Großsprachmodelle (LLMs) im Jahr 2025
Fair zu sein, Meta, in seinem Beamten Lama 4 Blogerwähnte, dass „eine experimentelle Chat -Version“ in Chatbot Arena 1.417 erzielte. Aber sie erklärten nichts weiter.
Um die Transparenz zu verbessern, fügte LMSYS die umarmende Gesichtsversion von Lama 4 Maverick in Chatbot Arena hinzu. Außerdem hat es über 2.000 Kopf-an-Kopf-Schlachtergebnisse für die Öffentlichkeit veröffentlicht. Die Ergebnisse umfassen Eingabeaufforderungen, Modellantworten und Benutzerpräferenzen.
Ich habe die überprüft Kampfergebnisseund es war verblüffend zu sehen, wie Benutzer die oft falschen und überaus ausführlichen Antworten von Lama 4 konsequent bevorzugen. Dies wirft tiefere Fragen zum vertrauenswürdigen gemeinnützigen Benchmarks wie Chatbot Arena auf.
Nicht das erste Mal Meta -Gaming -Benchmarks
Dies ist nicht das erste Mal, dass Meta wegen Datenkontamination gespielt wird, dh Mischen von Benchmark -Datensätzen im Trainingskorpus. Bereits im Februar dieses Jahres teilte Susan Zhang – ein ehemaliger Meta -AI -Forscher, der jetzt bei Google DeepMind arbeitet, eine aufschlussreiche Studie als Reaktion auf einen Beitrag von Yann Lecun, dem Chefwissenschaftler von Meta AI.
Der Studie fanden heraus, dass über 50% der Testproben aus wichtigen Benchmarks in Metas Lama 1 -Vorabendaten vorhanden waren. In der Zeitung heißt es: „Insbesondere große Bank, Humaner-, Hellaswag-, MMLU-, PIQA- und Triviaqa zeigen in beiden Korpora eine erhebliche Kontaminationsniveau“.
Inmitten der neuesten Behauptungen von Benchmark -Hacking um Lama 4 hat Zhang sarkastisch notiert Dieses Meta sollte zumindest ihre „frühere Arbeit“ aus Lama 1 für diesen „einzigartigen Ansatz“ zitieren. Der JAB richtet sich an Meta, dass die Benchmark -Manipulation kein Unfall ist. Aber es ist eine Strategie des von Zuckerberg geführten Unternehmens, die Leistungsmetriken künstlich zu steigern.