Модель искусственного интеллекта Claude 3 впервые превзошла GPT-4 на Chatbot Arena
Большая языковая модель (LLM) Claude 3 Opus от Anthropic впервые превзошла GPT-4 от OpenAI на Chatbot Arena.
«Король мертв», — написал в X (Twitter) разработчик ПО Ник Добос в посте, в котором сравнивал GPT-4 Turbo и Claude 3 Opus.
The king is dead
RIP GPT-4
Claude opus #1 ELoHaiku beats GPT-4 0613 & Mistral large
That’s insane for how cheap & fast it is https://t.co/XWmvTE6h75 pic.twitter.com/fAwzJScLTH— Nick Dobos (@NickADobos) March 26, 2024
Chatbot Arena — это краудсорсинговая открытая платформа для оценки больших языковых моделей. Для составления рейтинга оценивается большое количество человеческих отзывов о работе моделей по системе рейтинга Эло. Как работает тест — люди вводят запрос и выбирают лучший ответ из нескольких вариантов от разных моделей. На основе тысяч пользовательских тестов формируется и ранжируется топ.
Таблица лидеров Chatbot Arena была запущена 3 мая 2023 года, а GPT-4 была включена в рейтинг 10 мая. С тех пор различные вариации GPT-4 неизменно находились на вершине рейтинга. До сих пор. Поэтому появление нового лидера в этой сфере привлекает к себе внимание. Более того, одна из меньших моделей Anthropic, Haiku, также привлекла внимание своей производительностью в таблице лидеров.
«Впервые лучшие доступные модели — Opus для сложных задач, Haiku для экономии и эффективности — доступны от поставщика, который не является OpenAI», — сказал независимый исследователь ИИ Саймон Уиллисон. «Это успокаивает — мы все получаем выгоду от разнообразия ведущих поставщиков в этой области. Но GPT-4 в настоящее время существует более года, и этот год потребовался, чтобы кто-то догнал его».
Вслед за Claude 3 Opus и двумя версиями GPT-4 в рейтинге разместилась модель Bard (Gemini Pro) от Google. Однако, если между первыми тремя позициями разница в баллах Эло незначительная (2-3 балла), то Bard отстает от третьего места уже на 45 баллов. Все остальные конкуренты набрали менее 1200 баллов.
Источник: arstechnica
Продолжается конкурс авторов ИТС. Напиши статью о развитии игр, гейминг и игровые девайсы и выигрывай профессиональный игровой руль Logitech G923 Racing Wheel, или одну из низкопрофильных игровых клавиатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!