Какую информацию о человеке и обществе может дать анализ сообщений в социальных сетях?
Каждую секунду в соцсетях регистрируются восемь новых пользователей. Каждый час сети пополняются миллионами лайков, сообщений, фотографий, видео. О чём могут рассказать эти потоки данных? Исследователи наперегонки создают программы, способные извлекать все больше полезной информации из социальных сетей. Будьте бдительны: каждый ваш лайк содержит информацию о вас!
1. Посты и неологизмы
«Репостить», «лайкать», «комментить» — все эти слова плотно вошли в наш лексикон, но до сих пор остаются за рамками словарей. Ученые из Высшей школы экономики и МГУ им. М.В. Ломоносова решили исправить ситуацию и на материалах фейсбука составили список неологизмов русского языка.
Для этого было обработано 573 млн. постов 3,2 млн. пользователей (это почти 40% русскоязычного фейсбука): все тексты автоматически разбивались на слова, которые потом искали в Открытом корпусе русского языка OpenCorpora. Дальше эксперты вручную процеживали получившийся перечень неологизмов, созданный из слов, не найденных в корпусе.
В итоговом списке оказалось 168 слов. Подавляющее большинство из них англицизмы, связанные с интернетом или мультимедиа («фотоотчет», «видеоблог»). При этом образование всех неологизмов подчиняется строгим грамматическим правилам. Единственным исключением стали слова вроде «ржач», «махач», «срач»: это «ч» как элемент словообразования стало более продуктивным именно благодаря социальным сетям.
2. Хештеги и революция
Влияние социальных сетей на мир стало очевидным во время «арабской весны», когда выснилось, что восставшие координируют свои действия и мобилизуют массы с помощью фейсбука и твиттера. А нельзя ли использовать соцсети для предсказания таких событий?
Этим вопросом задались учёные из Кембриджа и Гарварда, разработавшие программу, которая высчитывает индекс политической поляризации и измеряет уровень напряжённости в обществе — близость к революционной ситуации. Для этого исследователи проверили 7000 сообщений египтян в твиттере во время волнений 2013 года на наличие радикальных хештегов вроде «#не забудем, не простим» — в Египте существует почти точный аналог этого выражения.
Хештеги — это такие отметки, которые начинаются со знака «#», знакомят с темой сообщения и позволяют распознавать «своих» в информационной войне. Оказалось, что их анализ вполне пригоден для прогнозирования: пики упоминания радикальных хештегов действительно предшествовали реальным столкновениям.
3. Лайки и сексуальная ориентация
«Человек — то, что он лайкает», — могли бы изречь учёные из Кембриджа, исследовавшие лайки 58 тыс. пользователей Фейсбука и обнаружившие взаимосвязь между мимолётными предпочтениями и более глубокими личностными характеристиками.
Разработанная ими программа отличает белых от афроамериканцев с точностью до 95%, республиканцев от демократов — 85%, мусульман от христиан — 82%. Менее успешно программа «угадывает» семейное положение (точность — 65%), курение (73%) и употребление наркотиков (65%). Позволяют лайки судить и о сексуальной ориентации: для мужчин — с точностью 88%, для женщин — 75%.
При этом корреляции не всегда бывают прямыми: например, только 5% геев лайкали однополые браки и другие столь же специфические события. Программа делает выводы, опираясь на косвенные данные вроде музыкальных предпочтений. Допустим, поставить лайк Hello Kitty — значит признать свою открытость и эмоциональную нестабильность, а любители спиральной картошки фри наверняка идентифицируются как обладатели высокого интеллекта.