VNews.com.ua

GPT-4 имеет 1,8 трлн параметров на 120 уровнях — в сети появились детали об архитектуре новейшей нейросети OpenAI

Июль 11
15:56 2023

Технические подробности о языковой модели GPT-4, недавно ставшей общедоступной, проникли в Twitter, Reddit и на Treadreader. В нескольких словах, модель в 10 раз больше, лучше использует ресурсы и быстрее работает, но стоимость логического вывода увеличилась в 3 раза.

GPT-4 оперирует приблизительно 1,8 трлн параметров на 120 уровнях, что в 10 раз больше, чем у GPT-3. Он использует модель Mixture of Experts (MoE) с 16 экспертами, каждый из которых имеет около 111 млрд параметров. Использование MoE позволяет более эффективно распоряжаться ресурсами для логического вывода, требуя всего около 280 миллиардов параметров и 560 TFLOPs по сравнению с 1,8 трлн параметров и 3700 TFLOPs, необходимыми для плотной модели (старой).

Модель обучается примерно на 13 трлн токенов из различных источников, включая интернет, книги и исследовательские работы. Чтобы снизить затраты на обучение, OpenAI использует тензорный и конвейерный параллелизм, а также большой размер пакета в 60 млн. Ориентировочная стоимость обучения для GPT-4 составляет около $63 млн.

Хотя большее количество экспертов могло бы улучшить производительность модели, OpenAI решили использовать 16 из-за проблем с обобщением и конвергенцией. Стоимость логического вывода GPT-4 в три раза выше, чем у его предшественника, DaVinci, в основном из-за необходимости в более крупных кластерах и более низкой степени использования. Модель также включает в себя отдельный видеокодер с перекрестным вниманием для мультимодальных задач, таких как чтение веб-страниц и расшифровка изображений и видео.

OpenAI может использовать спекулятивное декодирование для вывода GPT-4, которое включает использование меньшей модели для предварительного прогнозирования токенов и передачу их в большую модель в одном пакете. Этот подход может помочь оптимизировать затраты на логические выводы, но давать большую задержку.

Это короткое и упрощенное изложение, хотя и оно достаточно сложное. Больше технических деталей можно найти здесь.

OpenAI пока не обучает GPT-5 – Сэм Альтман говорит, что предстоит еще много подготовительных работ

Конкурс на найкращий читацький Блог ITC проходить по 16 липня. Головний приз — сучасний ігровий ПК ASGARD (i7 13700, 32Gb RAM, SSD 1Tb, GF RTX 4060Ti 8Gb) від інтернет-магазину Click.ua. Щоб прийняти участь, напишіть матеріал, в якому розкажіть про особистий досвід користування цікавими гаджетами та девайсами. Деталі тут.

Share

Статьи по теме

Последние новости

Военный объяснил, как россияне используют солдат КНДР в боевых действиях

Читать всю статью

Наши партнёры

UA.TODAY - Украина Сегодня UA.TODAY

Всегда на пути к успеху: EA-LOGISTIC – ваш проводник в международных грузоперевозках.