«ГигаЧат» освоил более 30 языков народов России и стран СНГ
Обновленный ИИ-помощник «ГигаЧат» улучшил качество понимания и создания текста более чем на 30 языках народов России и стран СНГ. В их числе татарский, башкирский, чувашский, удмуртский, якутский, бурятский, осетинский, чеченский, карачаево-балкарский и другие. Поддержка каждого языка потребовала отдельной точечной доработки модели – качество ответов обеспечивалось за счет тщательно отобранных обучающих данных. Всего с учетом других международных языков «ГигаЧат» может выполнять задачи более чем на 40 языках. Об этом CNews сообщили представители Сбербанка.
Партнерами по сбору данных для обучения ИИ-помощника выступила ФГБУ «Дом народов России» и интернет-энциклопедия «Рувики», а также региональные академии наук, научные и образовательные организации и некоммерческие фонды, работающие в сфере сохранения локальных языков и культурного наследия народов России.
Поддержка национальных языков реализована в текстовом формате. Достаточно попросить «ГигаЧат» отвечать на нужном языке – и он будет его использовать, когда пользователь обращается на нем к ИИ-помощнику. Пользователи ИИ-помощника могут получать ответы, консультации и помощь в цифровых сервисах на родном языке: от поиска информации и помощи в учебе до подготовки текстов, обращений и взаимодействия с государственными органами. Возможность общаться с ИИ на родном языке важна как для старшего поколения, получающего доступ к сервисам на родном языке, так и для подрастающего, осваивающего цифровую среду через ИИ-помощников. Такой подход помогает укреплять связь между поколениями, сохранять культурную и историческую память и создает основу для будущего развития сервисов и продуктов на национальных языках в образовании, культуре, туризме, медиа и других секторах экономики.
Как обучали языковую модель
Многие национальные языки исторически мало представлены в цифровой среде, поэтому Сбербанк выстраивает работу с широким кругом федеральных и региональных партнеров — университетами, библиотеками, медиа и культурными институтами, региональными ассоциациями, фондами и академиями наук, заинтересованными в оцифровке языкового наследия и развитии ИИ-сервисов на родных языках. Именно они помогают собирать и верифицировать языковые данные, необходимые для обучения модели. Носители языка также участвуют в разметке и оценке качества: контролируют корректность ответов модели, проверяют грамматику, стилистику и соответствие живой речи.
Обучающий набор по каждому языку включал от нескольких сотен тысяч до нескольких миллионов документов. Это архивные и современные тексты из фондов образовательных учреждений и библиотек, новостные и публицистические материалы медиапартнеров, а также учебные и научные тексты. Разнообразие источников обеспечивает высокое качество ответов и охват как литературного, так и разговорного языка. Команда также оптимизировала алгоритмы обработки национальных языков, что заметно повысило эффективность обучения. Такой подход позволил добиться значимого улучшения качества ответов при относительно компактных датасетах.
Антон Фролов, старший вице-президент, руководитель блока «Развитие генеративного ИИ» Сбербанка: «Мы хотим сделать «ГигаЧат» по-настоящему массовым продуктом – таким, которым сможет воспользоваться каждый житель страны. В России используют более 270 языков и диалектов, и мы ставим перед собой задачу, чтобы как можно больше жителей могли общаться с нашим ИИ-помощником на родном языке. Когда человек может объяснить задачу своими словами, на языке, на котором он думает и чувствует, ИИ-помощник становится по-настоящему полезным инструментом в обычной жизни – будь то помощь ребёнку с учебой, разбор юридического договора или инструкция по настройке новой техники».
Генеративная модель «ГигаЧат» создана с нуля российскими специалистами – от сбора и разметки данных до базового обучения, дообучения под конкретные задачи и финальной оценки качества. Все этапы разработки выполнены на собственной инфраструктуре Сбербанка.
Ранее Сбербанк представил новую версию ИИ-помощника на базе флагманской модели «ГигаЧат Ультра» (GigaChat Ultra). Ключевое нововведение — долгосрочная память: в отличие от контекстной памяти, которая сбрасывается в конце каждого диалога, «ГигаЧат» теперь сохраняет факты для пользователя между сессиями и учитывает их в каждом последующем разговоре. Модель запоминает увлечения, профессию, предпочтения и информацию о близких — и самостоятельно отбирает только значимые факты, не перегружая память мелочами. Это делает ответы более персонализированными и точными. ИИ-помощник теперь сам понимает, когда нужно найти информацию в интернете, а скорость генерации ответов увеличена в два раза.



