«Наприклад, один з найскладніших бенчмарків — Humanity’s Last Exam Gemini 3 проходить на 37,5%, а у форматі використання інструментів — на неймовірних 45,8%. У GPT-5.1 — „всього“ 26,5%, у Gemini 2.5 Pro — 13,7%», — зазначив він у дописі на своєму Facebook.
Також він відзначив покращений бенчмарк MRCR, що оцінює роботу з довгим контекстом. «Було 58%, стало 77%, це крутий результат», — констатував він.
Водночас, Краковецький висловив і свою суб’єктивну думку щодо моделей Gemini, зазначивши, що між бенчмарками і реальним використанням він все ж відчуває суттєву різницю.
«Суб’єктивщина: парадокс Gemini в тому, що в реальному житті Gemini показує себе не дуже у порівнянні з Claude та ChatGPT. І я не дуже розумію, чому, враховуючи такі показники», — додав експерт.
У свою чергу експерт з ШІ Олексій Мінаков також акцентував увагу на тому, що Gemini 3.0 Pro майже за всіма бенчмарками перевершує GPT-5.1.
«В Google AI Studio вже можна безоплатно потестувати її. Наприклад, поставив їй контрольне запитання — як Україні перемогти росію у повномасштабній війні. Окремо відзначу маркетинг цієї моделі — напередодні типу „випадково“ злили (розмістили на сайті) результати складання тестів цією моделлю. Щоб підігріти інтерес, фактично анонсувати в такий спосіб», — написав він на своїй сторінці у FB.
Олексій Мінаков констатував, що якщо вірити бенчмаркам, то зараз це найкраща модель серед усіх при використанні саме для складних і великих завдань, де потрібні розрахунки та елементи логіки і розмірковувань.
Як писав dev.ua, напередодні Google представив свою «найрозумнішу модель» ШІ Gemini 3, яка перевершує GPT-5 Pro та Claude Sonnet 4.5. Сама компанія назвала її «найточнішою» й «найрозумнішою» у світі та великим кроком на шляху до AGI.
https://dev.ua/news/eksperty-pro-novu-model-gemini-3-vid-google-1763533942

Добавить комментарий