Разделы

Цифровизация Искусственный интеллект

Новую базу данных об опасных природных явлениях создали географы НИУ ВШЭ с использованием генеративной языковой модели

Новую технологию создания базы данных об опасных природных явлениях разработали на факультете географии и геоинформационных технологий НИУ ВШЭ. В ядре алгоритма – генеративная языковая модель (GPT), которая извлекает из новостных сообщений и структурирует информацию о том, что, где и когда произошло, какой ущерб был нанесен и какие меры реагирования принимались. Географы НИУ ВШЭ создали новую технологию при выполнении проекта «Лучшие практики адаптации к природно-климатическим рискам в России», который получил флагманский грант НИУ ВШЭ «ИИ-технологии для человека» в 2024 г. Об этом CNews сообщили представители НИУ ВШЭ.

Созданный географами ВШЭ алгоритм обрабатывает более 1000 текстов в час. В пилотном применении удалось автоматически извлечь и обработать более 50 тыс. новостных сообщений в 8 млн исходных текстов с новостных порталов, региональных сайтов МЧС и из пабликов органов власти в социальных сетях. Материалы освещали последствия или предупреждали о почти 30 тыс. событий, связанных с опасными и неблагоприятными природными явлениями

«Крупные природные катастрофы ожидаемо получают в медиа-ресурсах больше внимания. Например, более 400 публикаций, которые прошли через наш алгоритм, были посвящены катастрофическому наводнению в Курганской, Оренбургской и Томской областях весной 2024 г. Но нам был важен именно массовый охват медиа-источников, чтобы собрать сведения и о локальных проблемах. Ведение многих похожих баз, а также попадание в статистику МЧС, подразумевает преодоление некоторой планки ущерба. Если дорогу каждый год засыпает лавинами, но нет, условно, раздавленных машин, эта проблема может не фигурировать в статистике и отчетах, лавинную защиту не финансируют и не прописывают в KPI. Сейчас регионы России обновляют свои Планы адаптации к изменениям климата и это правильный момент собрать фактический материал про себя, чтобы эффективно расставить приоритеты», — сказала соавтор разработки Анна Деркачева, научный сотрудник риск-офиса Центра геоданных факультета географии и геоинформационных технологий НИУ ВШЭ.

Результат работы генеративной языковой модели по формированию базы данных об опасных природных явлениях подвергается дополнительной автоматизированной проверке. После нее затронутые территории наносятся на карту, а серия текстов об одном и том же происшествии группируется.

«Новостные публикации уже десятилетиями используются для сбора информации о чрезвычайных ситуациях. Например, так ведется наиболее признанная и долго действующая международная база катастроф EM-DAT. Но поиск и обработка новостей вручную делают создание таких баз трудо- и времяемкой задачей, поэтому они зачастую освещают только крупные события либо посвящены небольшим территориям. В нашу базу данных попадают разномасштабные опасные природные явления. На сегодняшний день база содержит несколько десятков тысяч публикаций. Кстати, в силу специфики используемых источников, по ней можно изучать не только опасные природные процессы, но и социальные процессы: например, ярко появился тренд цифровизации государственных структур», — сказала Анна Деркачева.

Евгений Свидерский, Itglobal.com: Мы знаем, как адаптировать IaaS под современные задачи бизнеса

Цифровизация

Фрагменты базы данных доступны по запросу для свободного использования в научных и учебных целях на условиях получения обратной связи, а также по договоренности – для коммерческого использования.

Разработчики технологии создания базы данных об опасных природных явлениях: сотрудники факультета географии и геоинформационных технологий НИУ ВШЭ Анна Деркачева, Мария Сакиркина, Глеб Краев, Татьяна Анискина и Рената Зигангирова. Полезной для проекта также стала курсовая работа студентки факультета географии НИУ ВШЭ Марии Диденко, выполненная на предоставленных данных.