Компания Илона Маска xAI только что выпустила очередную версию своего ИИ - Grok-3. На презентации команда xAI показала, насколько Grok-3…
- Творческий подход: Grok-3 превзошел Клода
- Резюмирование документов: ничья
- Цензура: Grok-3 - больше "свободы слова"
- Политическая предвзятость: Grok-3 дает нейтральные ответы
- Кодинг: Grok-3 "просто работает" (лучше, чем другие)
- Математические рассуждения: OpenAI и DeepSeek впереди
- Нематематические рассуждения и логика: Быстрее и лучше
- Генерация изображений: Хорошо, но специализированные модели лучше
- Глубокий поиск: Быстрее, но более универсально
- Кому подходит Grok-3?

Компания Илона Маска xAI только что выпустила очередную версию своего ИИ - Grok-3.
На презентации команда xAI показала, насколько Grok-3 превосходит своих конкурентов. Настало время узнать, действительно ли он настолько хорош.
Итак, Grok-3 vs ChatGPT, Gemini, DeepSeek и Claude. Независимые тестировщики сравнили эти модели ИИ в разных условиях использования:
- творческое письмо;
- кодинг;
- саммари;
- математические рассуждения;
- логика;
- деликатные темы;
- политические предубеждения;
- создание изображений;
- глубокие исследования.
Творческий подход: Grok-3 превзошел Клода
Творческое письмо проверяет, насколько хорошо ИИ может создавать увлекательные, связные истории.
В этом тесте попросили Grok-3 написать сложный рассказ о путешественнике во времени из будущего, запутавшемся в парадоксе после возвращения в прошлое. Задача не из лёгких. И Grok-3 превзошёл Claude 3.5 Sonnet, который ранее считался золотым стандартом для творческих задач.
Резюмирование документов: ничья
В качестве тестировочного текста был выбран 47-страничный отчёт МВФ.
Grok-3 превзошел Клода по точности цитирования. При сравнении с GPT-4o единственным отличительным фактором был стиль. GPT-4o казался более аналитическим, в то время как Grok-3 структурировал информацию так, чтобы она была более удобной для пользователя.
В этом сравнении явного победителя нет. Выбор конкретного ИИ зависит от ожиданий пользователя. Если искать конкретные, жесткие и убедительные обзоры, то GPT-4o - лучший выбор. Если же хочется получить что-то похожее на беседу с другом - то Grok-3.
Цензура: Grok-3 - больше "свободы слова"
В целом, Grok всегда был самой нецензурной и несдержанной моделью из всех существующих. И остается таковой. В новой версии ответы формируются таким образом, что модель остается безопасной и избегает потенциально оскорбительный контент. При этом, Grok-3 старается отвечать на все неудобные вопросы. В то время как другие модели просто отказываются это делать.
Политическая предвзятость: Grok-3 дает нейтральные ответы
Многие полагали, что Грок будет транслировать личные правые взгляды Илона Маска. Но эти предположения оказались неверными.
К удивлению, во всех провокационных политических вопросах Grok-3 сохранял тщательно взвешенный сбалансированный подход.
В свою очередь, ответы OpenAI, Anthropic, Meta и DeepSeek демонстрируют более заметный политический уклон в своих результатах. Эти модели часто подталкивают пользователей к определенным выводам или отказываются от обсуждения некоторых тем.
Кодинг: Grok-3 "просто работает" (лучше, чем другие)
Тесты подтвердили, что Grok-3 обладает довольно мощными способностями к кодированию, создавая функциональный код, который выигрывает у конкурентов при выполнении аналогичных заданий.
Grok-3 предоставил самую красивую, чистую и работающую версию игры, которую просили сделать в качестве теста. Она смогла обойти Claude 3.5 Sonnet, OpenAI o-3 mini high, DeepSeek R1 и Codestra.
Математические рассуждения: OpenAI и DeepSeek впереди
Модель справляется со сложными математическими рассуждениями и может решать трудные задачи. Однако она не смогла правильно решить задачу, которую тестировщики взяли у FrontierMath (независимый проект, который тестирует, насколько хорошо ИИ могут справляться со сложными математическими задачами).
Если OpenAI и DeepSeek дали полностью правильный ответ, то Грок дал ответ, который ещё можно сократить.
Нематематические рассуждения и логика: Быстрее и лучше
Тестировщики для проверки ИИ выбрали историю о школьной поездке в отдаленное заснеженное место, где ученики и учителя сталкиваются с серией странных исчезновений. Модель должна выяснить, кто был преследователем.
И здесь Грок впереди планеты всей. Ему потребовалось 67 секунд, чтобы разобраться в этой истории и прийти к правильному выводу. DeepSeek R1 - 343 секунды. OpenAI o3-mini не справился с задачей.
Генерация изображений: Хорошо, но специализированные модели лучше
Grok использует Aurora, свой собственный генератор изображений.
В целом, он выигрывает у Dall-e 3. Но не может конкурировать с Recraft, MidJourney, SD 3.5 или Flux - самыми современными генераторами изображений.
И здесь Грок впереди по показателям цензуры. Он способен выдавать более рискованные фотографии, хотя и не слишком вульгарные и вызывающие.
Например, когда Dall-e просят сгенерировать пикантный или жестокий контент, он прямо отказывается. Вместо этого Grok-3 генерирует изображения, которые удовлетворяют требованиям пользователя и при этом не переходят в разряд сомнительного контента.
Глубокий поиск: Быстрее, но более универсально
Эта функция практически аналогична той, что предлагают Google и OpenAI: Исследовательский агент, который ищет в Интернете информацию по теме, сжимает важные фрагменты и предоставляет хорошо документированный брифинг, подкрепленный авторитетными источниками.
Отчеты Grok были общими, но показывали достаточно информации, чтобы удовлетворить потребности поиска.
Отчеты Gemini и OpenAI в целом более насыщенные и подробные. Однако Грок генерирует отчеты быстрее, чем Gemini и OpenAI.
Кому подходит Grok-3?
- если уже есть опыт использования Grok-2, то третья версия значительно его превосходит;
- может быть более привлекательным вариантом для кодеров и творческих писателей;
- кому интересны разговоры на деликатные темы - тоже стоит обратить внимание на Грок;
- тем, у кого есть подписка X Premium.
Преимущества других моделей:
- ChatGPT подойдёт тем, кто ищет более персонализированный, агентский ИИ-чатбот;
- Claude не блещет ничем в сравнении с другими;
- DeepSeek хорош, если нужен локальный частный ИИ;
- Gemini подойдёт тем, кто нуждается в эпизодической помощи ИИ. Плюс экосистема Google и 2 ТБ облачного хранилища.
Итог: для корректной и результативной работы с ИИ пользователю нужно чётко формулировать свои задачи. Основываясь на этом, можно спокойно подобрать наиболее подходящую модель.
0 комментариев Комментарии
Мы выбираем 🔥
Bybit - Удобная биржа. Простая верификация. Отличный выбор начинающих. Скидки на комиссии по ссылке + бонусы до 5000$ | перейти |
Mexc - Проводят много акций. Часто прилетают бонусы. Кешбэк! Низкие торговые комиссии. | перейти |
Okx - Шикарный выбор трейдинговых ботов для автоматизации. Присоединяйся, получи Mystery Box и выиграй до 10 000$ | перейти |
