Российские ученые разработали механизм семантического быстрого поиска по специализированным базам данных

Российские ученые разработали механизм семантического быстрого поиска по специализированным базам данных.

Предложенная технология может использоваться для улучшения качества информационного поиска и анализа данных в специализированных поисковых системах, предназначенных для научных и промышленных организаций – по отчетам, патентам, научным публикациям. Исследование по сегментации текстовых документов для оптимизации и 20-процентного ускорения поиска нужной информации пользователями было реализовано группой ученых НИТУ «МИСиС» в рамках гранта Российского научного фонда.

Ученые решали задачу корректного поиска объемных документов, близких по смыслу. Обычно в больших сложных документах, особенно в рамках специализированных поисковых систем, содержится сразу несколько тем, что сильно затрудняет автоматический поиск. Исследователи предложили использовать метод сегментирования.

«Сегментирование документов — это деление текста на такие отрывки, в которых речь идет об одном и том же, что может быть полезно в разных задачах обработки естественного языка. К таким задачам, например, относится анализ больших документов или поиск по содержанию документа. С точки зрения прикладного машинного обучения сегментация длинных текстов обоснована, так как на коротких текстах обычно лучше работают различные методы векторизации. Это логично, ведь чем больше текст, тем больше в нем разных смыслов и тем сложнее агрегировать все эти смыслы в некоторое общее векторное представление», – сказал Никита Никитинский, научный сотрудник центра исследования больших данных НИТУ «МИСиС».

Команда специалистов центра предложила следующее решение этой проблемы: разбить документ на несколько сегментов, каждый из которых относится к одной теме. По таким тематически однородным кускам текста компьютерному алгоритму проще производить поиск.

«В рамках исследования мы использовали метод, основанный на подходе аддитивной регуляризации тематических моделей (additive regularization of topic models, ARTM) и алгоритме TopicTiling. В результате экспериментов удалось улучшить точность работы узкоспециального поиска по научным публикациям с 55% до почти 82%», – сказал Никитинский.

По словам разработчиков, технология уже реализована в российском проекте создания Реестра обязательных требований.

По их оценкам, с использованием нового метода до 15-20% увеличивается скорость и эффективность поиска нужной информации пользователями, что критично для научных и промышленных организаций.

В настоящий момент похожие проблемы решают исследователи и инженеры из других крупных организаций, в том числе Университет Мангейма, французский исследовательский центр Eurecom и Google Research, которые в рамках своих исследований изучали публикации членов научного коллектива по этой тематике.

Лучший софт для обеспечения ИТ-безопасности компании ― на ИТ-маркетплейсе Market.CNews. С ценами.

Подписаться на новости

Короткая ссылка

Российские ученые разработали механизм семантического быстрого поиска по специализированным базам данных

Другие материалы рубрики

Конференции

Рынок IBP-систем 2025

Цифровизация агропромышленного комплекса 2025

Строительные технологии будущего 2025

MARKET.CNEWS

Colocation

BPM

IP-телефония

ИТ-безопасность

Техника

Обзор игрового монитора DIGMA 29.5" Overdrive 30A510F: ультраширокоформатный изогнутый экран в среднем классе

Обзор линейки портативных колонок Hisense Party: качественная музыка всегда и везде

Зачем нужна цветная электронная книга в 2025 году: 5 лучших моделей

Наука

Вымершие гигантские амфибии найдены после загадочной массовой гибели 230 миллионов лет назад

500-летние трансильванские летописи раскрывают жестокую правду Малого ледникового периода

Обнаружен самый древний кратер на Земле от падения метеорита — ему 3,47 миллиарда лет

Совместимость решений — один из главных вызовов при внедрении заказного ПО

Чем ИИ может быть полезен в госуправлении? Мнения участников рынка

Совместимость решений — один из главных вызовов при внедрении заказного ПО

Больше чем Jira и Trello? Обновилось российское решение по управлению проектами

Чем ИИ может быть полезен в госуправлении? Мнения участников рынка

Крупнейшие ИКТ-бюджеты регионов России 2025