Metin Maverick AI model rangiran je ispod rivala
Ranije ove nedelje, Meta se našla u nezavidnoj poziciji jer je koristila eksperimentalnu, neobjavljenu verziju svog modela Llama 4 Maverick da bi postigla visok rezultat na LM Arena. Incident je podstakao LM Arenu da promeni svoju politiku i oceni neizmenjeni Maverick.

Nemodifikovani Maverick, „Llama-4-Maverick-17B-128E-Instruct“, rangiran je ispod raznih modela uključujući OpenAI GPT-4o, Anthropicov Claude 3.5 Sonnet i Google Gemini 1.5 Pro.
Zašto loš učinak? Metin eksperimentalni Maverick, Llama-4-Maverick-03-26-Ekperimental, bio je „optimizovan za konverzaciju“, objasnila je kompanija. Očigledno je da su te optimizacije uticale pozitivno na LM Arena skor, koja angažuje osobe koje upoređuju rezultate modela i biraju koji im je draži.
Iz različitih razloga, LM Arena nikada nije bila najpouzdanija mera performansi AI modela. Ipak, prilagođavanje modela prema referentnoj vrednosti — osim što je obmanjujuće — čini izazov za programere da predvide tačno koliko će model raditi u različitim kontekstima.
Llama-4-Maverick-03-26-Ekperimental je verzija optimizovana za ćaskanje sa kojom smo eksperimentisali i koja takođe ima dobre rezultate na LM Areni“, rekao je portparol Meta. „Sada smo objavili našu verziju otvorenog koda i videćemo kako programeri prilagođavaju Llama 4 za sopstvene slučajeve upotrebe. Uzbuđeni smo što ćemo videti šta će napraviti i radujemo se njihovim stalnim povratnim informacijama.
Izvor: techcrunch.com