Разделы

Открытое ПО

Исследователи из T-Bank AI Research разработали метод универсальной интерпретации моделей без потери точности

Исследователи из T-Bank AI Research разработали метод HierarchicalTopK, который делает работу нейросетей прозрачнее. Обычно, чтобы объяснить решения модели, исследователи переводят ее внутренние сигналы в «человеческие» признаки. Но здесь возникает конфликт: чем больше признаков, тем точнее описание, но тем сложнее их понять; чем меньше — тем понятнее, но теряются детали. Новый метод позволяет сохранить интерпретируемость на разных уровнях детализации без потери качества.

Результаты были представлены на одной из ведущих международных конференций в области ИИ по эмпирическим методам обработки естественного языка.

Современные языковые модели сложны для анализа: их внутренние механизмы плохо поддаются интерпретации. Существующие подходы используют sparse autoencoders (разреженные автоэнкодеры) — это особый вид нейросетей, которые помогают понять, что происходит «внутри» больших моделей. Они преобразуют активации модели в набор «человеческих» концептов. Но у этого метода есть ограничение: разреженность (уровень детализации) нужно выбрать заранее, и каждая настройка требует обучения отдельной модели.

Исследователи T-Bank AI Research предложили метод HierarchicalTopK, который позволяет обучать систему так, чтобы она могла объяснять свои решения сразу на разных уровнях подробности. То есть теперь не нужно создавать несколько отдельных моделей под каждую задачу — достаточно одной универсальной, которая одинаково хорошо справляется и с простыми объяснениями, и с более детальным разбором.

Новый метод устраняет главный недостаток существующих подходов — невозможность менять уровень разреженности после обучения. HierarchicalTopK обеспечивает: сохранение высокой интерпретируемости даже при увеличении разреженности; оптимальный баланс между объяснимостью признаков и точностью описания поведения модели; предотвращение «мертвых признаков» (характеристик, которые перестают работать при смене параметров); снижение вычислительных затрат и необходимость обучать только одну модель вместо множества.

В экспериментах на модели Gemma-2 2B метод показал оптимальные по Парето результаты: один автоэнкодер по качеству не уступал и даже превосходил целый набор отдельно обученных моделей.

Как новая платформа помогла «Росгосстраху» улучшить качество данных для бизнес-процессов
Цифровизация

Благодаря новому методу повышается прозрачность работы ИИ-систем и снижается порог входа для компаний, которые хотят использовать современные языковые модели. HierarchicalTopK способствует созданию новых стандартов в области интерпретируемого ИИ и ускоряет развитие приложений, в которых важна не только точность, но и понимание, почему модель принимает то или иное решение.

Никита Балаганский, руководитель научной группы LLM Foundations, T-Bank AI Research, сказал: «Сегодня, если мы хотим понять внутренние решения языковой модели, нам нужно обучать множество отдельных подмоделей. Это дорого и неудобно. HierarchicalTopK позволяет заменить их одной универсальной моделью, которая сохраняет интерпретируемость на любом уровне разреженности. Метод особенно полезен для аудита языковых моделей, анализа их поведения и быстрой корректировки ответов, что важно для бизнеса и сфер с повышенными требованиями к надежности и прозрачности. Такой подход делает ИИ понятнее и доступнее — и для исследователей, и для индустрии».

Исходный код метода опубликован в открытом доступе на GitHub и Hugging Face.



Будущее IT и цифровых коммуникаций обсудят на Толк Шоу Будущее IT и цифровых коммуникаций обсудят на Толк Шоу

erid: 2W5zFH93NQ8

Рекламодатель: Акционерное общество «Производственная фирма "СКБ Контур"

ИНН/ОГРН: 6663003127/1026605606620