Grok 4.1 очолила рейтинг LMArena’s Text Leaderboard, набравши 1483 бали, повідомляє компанія. Це робить нову модель значно ефективнішою для відповідей на запити порівняно з усіма іншими чатботами на ринку.
Також Grok 4.1 посіла перше місце в EQ-Bench3 — тесті на емоційний інтелект, який оцінювався іншим ШІ, а саме Claude Sonnet 3.7. Це означає, що модель може відповідати більш природним, емпатичним та людським чином. У результаті користувачі отримують розмови, які є простішими для сприйняття.
Поширеною проблемою зі штучним інтелектом є галюцинації, коли система надає неправильну або вигадану інформацію. xAI стверджує, що Grok 4.1 зменшив цю проблему майже втричі порівняно зі старою версією.
«У процесі донавчання Grok 4.1 ми зосередилися на зниженні фактичних галюцинацій у відповідях на інформаційні запити. Згодом ми спостерігали значне зменшення рівня галюцинацій для вибіркових робочих запитів на пошук інформації. Для оцінки рівня галюцинацій ми використовуємо стратифіковану вибірку запитів на пошук інформації з робочої системи. Крім того, ми оцінюємо показник FActScore — відкритий тест, який містить 500 біографічних запитань про конкретних осіб», — зазначає xAI.
Наразі модель доступна в автоматичному режимі, тобто користувачам не потрібно робити нічого, аби почати її використовувати. Grok 4.1 також можна обрати безпосередньо у меню вибору моделі.

Добавить комментарий