Это ruGPT-3.5, которая лежит в основе GigaChat. Кроме этого, разработчики банка выложили mGPT 13B, являющаяся самой большой многоязычной моделью Сбера с возможностью генерировать текст на 61 языке.
GigaChat включает ансамбль моделей под названием NeONKA. Для создания этого была выбрана базовая языковая модель — Russian Generative Pretrained Transformer версии 3.5 с 13 миллиардами параметров, которая является улучшенной версией нейросети ruGPT-3 13B.
Модель ruGPT-3.5 13B умеет писать на русском, английском языках, а также на языках программирования. Её контекстная длина составляет 2048 токенов. Финальный чекпоинт этой модели является базовым претрейном, который может быть использован для проведения дальнейших экспериментов.