Разделы

Цифровизация Бизнес-приложения Big Data

ИСП РАН представил два программных комплекса для анализа данных соцсетей

Институт системного программирования Российской академии наук (ИСП РАН) представил свои технологии «Талисман» и «Текстерра», предназначенные для анализа больших массивов данных социальных сетей. Как рассказали CNews в ИСП РАН, в недалеком будущем внедрение разработок такого рода может значительно изменить лицо глобальной информационной сети и культуру интернет-общения.

«Текстерра» — технология многоязычного интеллектуального анализа текста. В ее основе — программный комплекс, способный накапливать и анализировать информацию, устанавливать взаимосвязь между понятиями и проводить интеллектуальный анализ текстов. По словам разработчиков, «Текстерра» опирается на объем понятий и терминов, почти на порядок превышающий размеры Британской энциклопедии, и может при необходимости расширить свою базу знаний еще больше. В результате при использовании этой технологии возможно вычислять лексически сходные тексты, принадлежащие перу одного автора или написанные по единому плану, содержащие сходные семантические конструкции, и, таким образом, выявлять факт и структуру информационных «вбросов», отметили в ИСП РАН.

Система «Талисман», в свою очередь, позволяет отследить и выявить фиктивные аккаунты, служащие для распространения недостоверной информации, спама, имитации массовой активности — ботов. Анализ производится по полным и неполным данным, указанным в профилях социальных сетей, социальным связям аккаунтов, подпискам, спискам друзей и читателей. В результате анализа определяются такие демографические атрибуты, как возраст пользователя, а также семейное положение, уровень образования и так далее.

«Если значения тех или иных атрибутов не вписываются в создаваемый программным комплексом алгоритм, можно с серьезной долей уверенности говорить о том, что выпадающий из схемы профиль социальной сети принадлежит не живому человеку, а создан искусственно, — пояснили в ИСП РАН. — Дальше приходит на помощь “Текстерра”, позволяющая вычислить множества ботов, созданных одной рукой либо ведущихся по одному лекалу-методичке».

Также технология «Талисман» позволяет на основании анализа неполных данных с использованием информации из социальных сетей вычислить примерное место проживания пользователя, его принадлежность к определенному социальному слою, приверженность той или иной идеологии и другую полезную информацию.

«Анализ такого постоянно меняющегося массива данных, как информация в соцсетях, сегодня — насущная необходимость, — убежден директор ИСП РАН Арутюн Аветисян. — Это и маркетинговый инструмент, позволяющий оценивать аудиторию, выстраивать закономерности, помогающие работать адресно с разными возрастными и социальными группами. И во многом — инструмент безопасности. В последние десятилетия неограниченная интернет-анонимность стала источником угрозы для отдельных людей или компаний, для целых народов и стран. Работа в этом направлении способна в корне изменить ситуацию».

Рынок корпоративных коммуникаций уходит от разрозненных каналов
Рынок корпоративных коммуникаций уходит от разрозненных каналов Бизнес

Важным, по мнению директора ИСП РАН, является также этический аспект применения разработок института, сохранение тайны личных данных и неприкосновенности частной жизни.

«При применении подобных технологий необходимо, чтобы не нарушались права пользователей социальных сетей, не разглашались персональные данные, — уточнил Денис Турдаков, заведующий отделом информационных систем ИСП РАН. — Мы проводим научные исследования, дорабатываем “Текстерру” и “Талисман”. Всеобъемлющий анализ соцсетей пока затруднен, прорыв еще предстоит, но ждать его осталось недолго».

По информации ИСП РАН, в настоящий момент оптимизация этих программных комплексов продолжается, наращивается их функционал и мощность.

Татьяна Короткова