Повідомлення від ChainCatcher, згідно з повідомленням Jinshi, один з працівників OpenAI публічно звинуватив фірму XAI, що належить Маску, у тому, що нова модель штучного інтелекту Grok3 має хибні результати тестів Бенчмарк. Натомість співзасновник XAI Ігор Бабушкін стверджує, що компанія не здійснювала ніяких неправомірних дій.
Графік xAI показує, що дві версії Grok3 - Grok3 Reasoning Beta та Grok3 mini Reasoning - виходять за межі поточно доступної моделі o3-mini-high від OpenAI на AIME 2025. Однак співробітники OpenAI швидко зауважили на платформі X, що графік xAI не містить рейтингу o3-mini-high на умові "cons@64" для AIME 2025.
Бабушкін на платформі X заявив, що OpenAI також коли-небудь публікував подібні маніпуляційні ГРОК-тести. Навіть якщо ці таблиці використовувалися для порівняння власної моделі.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Співробітники OpenAI публічно звинуватили xAI у тому, що останній штучний інтелект Grok3 має маніпулятивні результати тестування Бенчмарк
Повідомлення від ChainCatcher, згідно з повідомленням Jinshi, один з працівників OpenAI публічно звинуватив фірму XAI, що належить Маску, у тому, що нова модель штучного інтелекту Grok3 має хибні результати тестів Бенчмарк. Натомість співзасновник XAI Ігор Бабушкін стверджує, що компанія не здійснювала ніяких неправомірних дій. Графік xAI показує, що дві версії Grok3 - Grok3 Reasoning Beta та Grok3 mini Reasoning - виходять за межі поточно доступної моделі o3-mini-high від OpenAI на AIME 2025. Однак співробітники OpenAI швидко зауважили на платформі X, що графік xAI не містить рейтингу o3-mini-high на умові "cons@64" для AIME 2025. Бабушкін на платформі X заявив, що OpenAI також коли-небудь публікував подібні маніпуляційні ГРОК-тести. Навіть якщо ці таблиці використовувалися для порівняння власної моделі.