Разделы

Веб-сервисы Искусственный интеллект axenix

«ГигаЧат» освоил более 30 языков народов России и стран СНГ

Обновленный ИИ-помощник «ГигаЧат» улучшил качество понимания и создания текста более чем на 30 языках народов России и стран СНГ. В их числе татарский, башкирский, чувашский, удмуртский, якутский, бурятский, осетинский, чеченский, карачаево-балкарский и другие. Поддержка каждого языка потребовала отдельной точечной доработки модели – качество ответов обеспечивалось за счет тщательно отобранных обучающих данных. Всего с учетом других международных языков «ГигаЧат» может выполнять задачи более чем на 40 языках. Об этом CNews сообщили представители Сбербанка.

Партнерами по сбору данных для обучения ИИ-помощника выступила ФГБУ «Дом народов России» и интернет-энциклопедия «Рувики», а также региональные академии наук, научные и образовательные организации и некоммерческие фонды, работающие в сфере сохранения локальных языков и культурного наследия народов России.

Поддержка национальных языков реализована в текстовом формате. Достаточно попросить «ГигаЧат» отвечать на нужном языке – и он будет его использовать, когда пользователь обращается на нем к ИИ-помощнику. Пользователи ИИ-помощника могут получать ответы, консультации и помощь в цифровых сервисах на родном языке: от поиска информации и помощи в учебе до подготовки текстов, обращений и взаимодействия с государственными органами. Возможность общаться с ИИ на родном языке важна как для старшего поколения, получающего доступ к сервисам на родном языке, так и для подрастающего, осваивающего цифровую среду через ИИ-помощников. Такой подход помогает укреплять связь между поколениями, сохранять культурную и историческую память и создает основу для будущего развития сервисов и продуктов на национальных языках в образовании, культуре, туризме, медиа и других секторах экономики.

Как обучали языковую модель

Многие национальные языки исторически мало представлены в цифровой среде, поэтому Сбербанк выстраивает работу с широким кругом федеральных и региональных партнеров — университетами, библиотеками, медиа и культурными институтами, региональными ассоциациями, фондами и академиями наук, заинтересованными в оцифровке языкового наследия и развитии ИИ-сервисов на родных языках. Именно они помогают собирать и верифицировать языковые данные, необходимые для обучения модели. Носители языка также участвуют в разметке и оценке качества: контролируют корректность ответов модели, проверяют грамматику, стилистику и соответствие живой речи.

Обучающий набор по каждому языку включал от нескольких сотен тысяч до нескольких миллионов документов. Это архивные и современные тексты из фондов образовательных учреждений и библиотек, новостные и публицистические материалы медиапартнеров, а также учебные и научные тексты. Разнообразие источников обеспечивает высокое качество ответов и охват как литературного, так и разговорного языка. Команда также оптимизировала алгоритмы обработки национальных языков, что заметно повысило эффективность обучения. Такой подход позволил добиться значимого улучшения качества ответов при относительно компактных датасетах.

VPN под ударом. Рынок VDI ждет бурный рост?
VPN под ударом. Рынок VDI ждет бурный рост? безопасность

Антон Фролов, старший вице-президент, руководитель блока «Развитие генеративного ИИ» Сбербанка: «Мы хотим сделать «ГигаЧат» по-настоящему массовым продуктом – таким, которым сможет воспользоваться каждый житель страны. В России используют более 270 языков и диалектов, и мы ставим перед собой задачу, чтобы как можно больше жителей могли общаться с нашим ИИ-помощником на родном языке. Когда человек может объяснить задачу своими словами, на языке, на котором он думает и чувствует, ИИ-помощник становится по-настоящему полезным инструментом в обычной жизни – будь то помощь ребёнку с учебой, разбор юридического договора или инструкция по настройке новой техники».

Генеративная модель «ГигаЧат» создана с нуля российскими специалистами – от сбора и разметки данных до базового обучения, дообучения под конкретные задачи и финальной оценки качества. Все этапы разработки выполнены на собственной инфраструктуре Сбербанка.

Ранее Сбербанк представил новую версию ИИ-помощника на базе флагманской модели «ГигаЧат Ультра» (GigaChat Ultra). Ключевое нововведение — долгосрочная память: в отличие от контекстной памяти, которая сбрасывается в конце каждого диалога, «ГигаЧат» теперь сохраняет факты для пользователя между сессиями и учитывает их в каждом последующем разговоре. Модель запоминает увлечения, профессию, предпочтения и информацию о близких — и самостоятельно отбирает только значимые факты, не перегружая память мелочами. Это делает ответы более персонализированными и точными. ИИ-помощник теперь сам понимает, когда нужно найти информацию в интернете, а скорость генерации ответов увеличена в два раза.



Конференция K2 Cloud Conf 2026 Конференция K2 Cloud Conf 2026

erid: 2W5zFJoBN9o

Рекламодатель: АО "К2 ИНТЕГРАЦИЯ"

ИНН/ОГРН: 7701829110/01097746072797