Grok-4 lepszy od GPT-4 i Gemini

grok4

Grok-4, nowy model językowy od xAI, przeskoczył OpenAI i Google na tabeli wyników. Mówią o teście AGIEval – model Muska miał tam zdobyć 107.7.

Dla porównania: GPT-4 – 100.0, Gemini 1.5 Pro – 94.4. Te liczby przewijają się w tech-świadku, ale nikt nie widział oficjalnego PDF-a z pieczątką. xAI też nie raczyło go opublikować. Czyli klasyk: słyszeliśmy, widzieliśmy wykres, ale czekamy aż ktoś to podpisze nazwiskiem.

Sam AGIEval to nie test IQ z telewizji śniadaniowej. To pakiet zadań inspirowanych egzaminami typu LSAT czy GMAT. Sprawdza nie tylko rozumienie tekstu, ale też logikę, myślenie wieloetapowe i umiejętność wnioskowania. Tego nie da się ogarnąć prostym „podaj synonim słowa pies”. Grok-4 miał tam wypaść najlepiej. Jeżeli te dane się potwierdzą, to znaczy, że Musk nie rzucał słów na wiatr.

Grok4 1 - Grok-4 lepszy od GPT-4 i Gemini
Grok 4

Model działa w oparciu o coś, co xAI nazywa Grok-4 System-1. Czyli pierwsza wersja ich nowej architektury. Nie wiemy, ile parametrów, nie wiemy, na czym dokładnie to stoi, ale wiadomo jedno: sprzęt robi wrażenie. xAI miało trenować Groka na superkomputerze z dziesiątkami tysięcy H100. Jeśli wiesz, co to H100, to wiesz, że to nie są zabawki. To jednostki do zadań specjalnych. Takie, które pozwalają liczyć szybciej niż konkurencja zdąży powiedzieć „model językowy”.

Jest też plan na wersję Grok-4 System-2. Ma to być coś więcej niż chatbot. Agent z pamięcią, umiejętnością działania w kodzie, analizą danych, wykonywaniem zadań. Brzmi jak coś między asystentem a autonomicznym systemem, który ogarnia więcej niż tylko rozmowy o pogodzie. Ale – znowu – zero konkretów. Zero dat, zero funkcji, zero kodu. Tylko deklaracja.

To, co realne, to wynik Grok-4 w AGIEval (o ile prawdziwy). I fakt, że ktoś taki jak Elon Musk potrafił w krótkim czasie zbudować model, który może grać w tej samej lidze co OpenAI i Google. A może nawet wygrywać. To mówi więcej niż tysiąc sloganów o „inteligentnym doświadczeniu użytkownika”.

Reszta to polityka firm i ich strategia. xAI stawia na zamknięty model z dostępem przez platformę społecznościową. OpenAI robi z GPT produkt do wszystkiego. Google montuje swoje modele w wyszukiwarce i Dokumentach. Trzy firmy, trzy style. Ale jeśli Grok-4 faktycznie wypada lepiej w testach od GPT-4 i Gemini, to Google i OpenAI mają problem.

Grok-4 to model, o którym nie wiemy wszystkiego, ale wiemy jedno: na dziś ma najmocniejsze wyniki. Dopóki ktoś nie wyciągnie twardszych danych – to on prowadzi.

Źródło:
x.com
Udostępnij
Facebook
Twitter
Email
Twój koszyk0
Brak produktów w koszyku!
0