Сотрудники OpenAI публично обвинили XAI в том, что результаты тестирования модели искусственного интеллекта Grok3 имеют вводящие в заблуждение Бенчмарк

robot
Генерация тезисов в процессе

ChainCatcher сообщает, согласно отчету Jinse, сотрудник OpenAI публично обвинил компанию XAI, принадлежащую Маску, в том, что результаты тестирования модели искусственного интеллекта Grok3, выпущенной компанией, имеют вводящий в заблуждение Бенчмарк. В то же время сооснователь XAI Игорь Бабушкин настаивает на том, что компания не совершала ничего нечестного. Графики XAI показывают, что две версии Grok3 - Grok3 Reasoning Beta и Grok3 mini Reasoning - превзошли текущую самую мощную модель o3-mini-high от OpenAI на AIME 2025. Однако сотрудники OpenAI быстро указали на платформе X, что графики XAI не включают оценку o3-mini-high в условиях "cons@64" для AIME 2025. Бабушкин на платформе X заявил, что OpenAI ранее также публиковало вводящие в заблуждение графики тестирования, аналогичные Бенчмарк. Несмотря на то, что эти графики были использованы для сравнения производительности их собственных моделей.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить