Big Data безошибочно предсказали победителей премии «Оскар»
Анализ массива данных о кино-индустрии за последние 40 лет помог угадать победителей во всех ключевых номинациях.Аналитическая компания Farsite безошибочно предугадала результаты вручения кинопремии «Оскар» на основе анализа «больших данных». Церемония вручения состоялась 2 марта, и ее результаты полностью подтвердили прогноз Farsite. Победителями премии стали: «12 лет рабства» — лучшая кинокартина, Мэтью МакКонахи — лучший актер, Кейт Бланшет — лучшая актриса, Альфонсо Куарон — лучший режиссер, Джаред Лето — лучший актер второго плана, Люпита Нионго — лучшая актриса второго плана.
Победителей во всех этих номинациях компании Farsite удалось предсказать при помощи технологий Big Data. В основу анализа компании легли данные о более чем 40 годах деятельности киноиндустрии и различных кино-наград. На конечный прогноз Farsite повлияли такие факторы как предыдущие награды и номинации участников церемонии, рецензии и оценки критиков и коллег, частота упоминаний номинантов в интернете. Многие из академиков, голосующие за номинантов на «Оскар», также участвуют во вручении других кино-наград, поэтому результаты таких премией как «Золотой глобус» также были учтены.
Согласно прогнозу Farsite, конкуренцию картине «12 лет рабства» могла составить лишь «Гравитация» Альфонсо Куарона. Шансы на победу «12 лет рабства» аналитики оценивали в 55%, «Гравитации» — в 38%. В других номинациях результаты анализа данных были куда более однозначными и оставляли другим участникам лишь незначительные шансы на победу.
Директор Farsite Майкл Голд (Michael Gold) подчеркивает, что предсказать результаты «Оскара» помогли те же технологии, что сейчас все больше используются в ритейле, медицине и других областях. «Если у вашей компании миллионы клиентов, вы не можете узнать о том, что думает и чего хочет каждый из них. Big Data дает вам возможность отслеживать наиболее популярные тренды в реальном времени и выводить из них определенные модели», – поясняет он.
С помощью технологии Big Data аналитики предсказали всех будущих обладателей премии в этом году
Примечательно, что год назад компания Farsite также делала прогноз победителей, угадав 4-х номинантов из 5-ти. Но внимание прогнозных аналитиков привлекает не только премия «Оскар». В этом году компания QlikTech выпустила к зимним Олимпийским играм 2014 г. в Сочи приложение Global Games – Winter Edition. Это обновленная версия аналогичного приложения, разработанного для Летних олимпийских игр 2012 г. в Лондоне. Оно выполняет функции по визуализации, сравнению и анализу различных данных соревнований, используя технологию Big Data.
О принципах технологии прогнозирования победителей рассказывает Андрей Свирщевский, руководитель направлений аналитики и гарантирования доходов компании SAS Россия/СНГ: «Для Text Mining не проблема проанализировать, какие ключевые слова и словосочетания в описании фильма, роли, актера или в отзывах приводили к получению «Оскара» в прошлом, и применить эти закономерности к текущим кандидатам. Могут быть некоторые сложности с объемами информации, но высокопроизводительные реализации этой методологии должны справиться. Это самая эффективная методика для решения подобных задач. Например, Text Mining уже давно применяется в Голливуде, чтобы по описанию фильма предсказывать размеры кассовых сборов. Но есть и другие подходы».
По словам Андрея Свирщевского, современные средства текстовой аналитики научились очень эффективно собирать и анализировать частоту упоминаний и тональность (позитив/негатив) в интернете по заданным объектам и темам. Hadoop поможет хранить эти огромные массивы неструктурированной информации. Эффективные средства синтаксического разбора справятся с анализом таких объемов.
Data Mining может дополнительно на основе структурированных данных вида «число упоминаний», «пропорция позитива/негатива», «категория фильма», «кассовые сборы» определить вероятность получить премию. В таком подходе не используются технологии Больших Данных, достаточно обычного Data Mining.
Однако существенную роль в предсказании может сыграть не просто число позитивных/негативных упоминаний и такого рода статические параметры, а рисунок динамики изменений этих параметров во времени, поясняет Свирщевский. «Тогда на помощь придет Time Series Data Mining, который выделит, у каких показателей рисунки победителей и прочих номинантов отличались, составит типовой профиль таких рисунков для победителей и сравнит его с показателями во времени по текущим кандидатам. Таким образом, современные технологии углубленной аналитики могут давать очень высокую точность при решении подобных задач», – уверен он.
Дополнительные источники информации и объем анализируемых данных способны повысить точность любого прогноза, так как добавляют глубину и возможность проверки гипотез с разных углов, – говорит Сергей Лихарев, руководитель продаж IBM Big Data Solutions IBM в странах Центральной и Восточной Европы. «Говорить о том, что это всегда почти 100% вероятность наверно нельзя, но тем не менее попытки предсказывать исход того или иного события на основе анализа больших данных действительно все чаще показывают впечатляющие результаты», – отмечает он.
Возможно, через несколько лет ставки в брокерских конторах будут определяться с помощью технологий Big Data.