Сотрудники OpenAI публично обвинили XAI в том, что результаты тестирования модели искусственного интеллекта Grok3 имеют вводящие в заблуждение Бенчмарк
ChainCatcher сообщает, согласно отчету Jinse, сотрудник OpenAI публично обвинил компанию XAI, принадлежащую Маску, в том, что результаты тестирования модели искусственного интеллекта Grok3, выпущенной компанией, имеют вводящий в заблуждение Бенчмарк. В то же время сооснователь XAI Игорь Бабушкин настаивает на том, что компания не совершала ничего нечестного.
Графики XAI показывают, что две версии Grok3 - Grok3 Reasoning Beta и Grok3 mini Reasoning - превзошли текущую самую мощную модель o3-mini-high от OpenAI на AIME 2025. Однако сотрудники OpenAI быстро указали на платформе X, что графики XAI не включают оценку o3-mini-high в условиях "cons@64" для AIME 2025.
Бабушкин на платформе X заявил, что OpenAI ранее также публиковало вводящие в заблуждение графики тестирования, аналогичные Бенчмарк. Несмотря на то, что эти графики были использованы для сравнения производительности их собственных моделей.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Сотрудники OpenAI публично обвинили XAI в том, что результаты тестирования модели искусственного интеллекта Grok3 имеют вводящие в заблуждение Бенчмарк
ChainCatcher сообщает, согласно отчету Jinse, сотрудник OpenAI публично обвинил компанию XAI, принадлежащую Маску, в том, что результаты тестирования модели искусственного интеллекта Grok3, выпущенной компанией, имеют вводящий в заблуждение Бенчмарк. В то же время сооснователь XAI Игорь Бабушкин настаивает на том, что компания не совершала ничего нечестного. Графики XAI показывают, что две версии Grok3 - Grok3 Reasoning Beta и Grok3 mini Reasoning - превзошли текущую самую мощную модель o3-mini-high от OpenAI на AIME 2025. Однако сотрудники OpenAI быстро указали на платформе X, что графики XAI не включают оценку o3-mini-high в условиях "cons@64" для AIME 2025. Бабушкин на платформе X заявил, что OpenAI ранее также публиковало вводящие в заблуждение графики тестирования, аналогичные Бенчмарк. Несмотря на то, что эти графики были использованы для сравнения производительности их собственных моделей.