VNews.com.ua

GPT-4 имеет 1,8 трлн параметров на 120 уровнях — в сети появились детали об архитектуре новейшей нейросети OpenAI

Июль 11
15:56 2023

Технические подробности о языковой модели GPT-4, недавно ставшей общедоступной, проникли в Twitter, Reddit и на Treadreader. В нескольких словах, модель в 10 раз больше, лучше использует ресурсы и быстрее работает, но стоимость логического вывода увеличилась в 3 раза.

GPT-4 оперирует приблизительно 1,8 трлн параметров на 120 уровнях, что в 10 раз больше, чем у GPT-3. Он использует модель Mixture of Experts (MoE) с 16 экспертами, каждый из которых имеет около 111 млрд параметров. Использование MoE позволяет более эффективно распоряжаться ресурсами для логического вывода, требуя всего около 280 миллиардов параметров и 560 TFLOPs по сравнению с 1,8 трлн параметров и 3700 TFLOPs, необходимыми для плотной модели (старой).

Модель обучается примерно на 13 трлн токенов из различных источников, включая интернет, книги и исследовательские работы. Чтобы снизить затраты на обучение, OpenAI использует тензорный и конвейерный параллелизм, а также большой размер пакета в 60 млн. Ориентировочная стоимость обучения для GPT-4 составляет около $63 млн.

Хотя большее количество экспертов могло бы улучшить производительность модели, OpenAI решили использовать 16 из-за проблем с обобщением и конвергенцией. Стоимость логического вывода GPT-4 в три раза выше, чем у его предшественника, DaVinci, в основном из-за необходимости в более крупных кластерах и более низкой степени использования. Модель также включает в себя отдельный видеокодер с перекрестным вниманием для мультимодальных задач, таких как чтение веб-страниц и расшифровка изображений и видео.

OpenAI может использовать спекулятивное декодирование для вывода GPT-4, которое включает использование меньшей модели для предварительного прогнозирования токенов и передачу их в большую модель в одном пакете. Этот подход может помочь оптимизировать затраты на логические выводы, но давать большую задержку.

Это короткое и упрощенное изложение, хотя и оно достаточно сложное. Больше технических деталей можно найти здесь.

OpenAI пока не обучает GPT-5 – Сэм Альтман говорит, что предстоит еще много подготовительных работ

Конкурс на найкращий читацький Блог ITC проходить по 16 липня. Головний приз — сучасний ігровий ПК ASGARD (i7 13700, 32Gb RAM, SSD 1Tb, GF RTX 4060Ti 8Gb) від інтернет-магазину Click.ua. Щоб прийняти участь, напишіть матеріал, в якому розкажіть про особистий досвід користування цікавими гаджетами та девайсами. Деталі тут.

Share

Статьи по теме

Последние новости

Почти 600 компаний Федерации работодателей сменили регион деятельности

Читать всю статью

Наши партнёры

UA.TODAY - Украина Сегодня UA.TODAY

Всегда на пути к успеху: EA-LOGISTIC – ваш проводник в международных грузоперевозках.