Общество

Светлана Толдова
кандидат филологических наук, старший научный сотрудник МГУ

«Главное – вычислить базовые интересы»

28 августа 2012, 13:46

В СМИ появилась неофициальная информация, что в начале этого года Служба внешней разведки (СВР) объявила три закрытых тендера на сумму свыше 30 млн рублей на разработку новых методик мониторинга блогосферы, а также способов «массового распространения информационных сообщений в заданных социальных сетях с целью формирования общественного мнения».

Допустим, у одного человека 100 друзей, у другого – 50, и они довольно сильно пересекаются. Логично предположить, что эти люди как-то близки

В компании «Итеранет», которая, по данным газеты «Коммерсант», была выбрана исполнителем, эти сообщения опровергли. «Разработкой систем мониторинга блогов и вброса информации в блогосферу мы не занимаемся... Таких контрактов, о которых пишет «Коммерсант», не было. Эти работы мы не выполняем», – заявил гендиректор фирмы Игорь Мацкевич РИА «Новости».

Между тем председатель Общественного совета при Минобороны России Игорь Коротченко сообщил в своем блоге, что внешняя разведка и контрразведка Эстонии проводят свой собственный анализ по изложенным в статье фактам, посчитав, что затрагиваются интересы национальной безопасности Эстонской Республики.

О том, как в принципе работают технологии, позволяющие контролировать социальные сети, газете ВЗГЛЯД рассказала доцент кафедры теоретической и прикладной лингвистики МГУ им. Ломоносова, доцент Института лингвистики РГГУ, кандидат филологических наук Светлана Толдова.

ВЗГЛЯД: Светлана Юрьевна, как, по каким признакам поисковым программам удается классифицировать пользователей блогов?

Светлана Толдова: Во-первых, по ключевым словам на социальных страницах – они находятся или в текстах, или в тегах, которые ставят сами люди. Во-вторых, по ссылкам. В-третьих, во многих блогах, к примеру в Twitter или Facebook*, у человека есть некоторый круг общения. По этим «френдам» вы можете автоматически вычислить некоторый социум. Допустим, у одного человека 100 друзей, у другого – 50, и они довольно сильно пересекаются. Логично предположить, что эти люди как-то близки. Возможно, их объединяет общность интересов, или они входят в социальную группу, сформированную по какому-то признаку: это может быть научный, социальный интерес или просто круг общения. Соответственно, по тому, кого люди указывают в друзьях, или по тому, кому они посылают приглашение к контакту, можно отследить некоторый круг общения.

Светлана Толдова полагает, что нити интересов позволяют связать пользователей во вполне определенные группы (Фото: darwin.philol.msu.ru)

Вы приходите на страницу того, кто не закрывает свой Facebook, и видите, кто у него в друзьях. Вы с кем-то делитесь новостью – это тоже входит в ваш круг общения. Вы кому-то «ретвитите» – конечно, можно всем подряд пересылать сообщение, но, скорее всего, вы пошлете его людям, которым это потенциально может быть интересно.

Кроме того, во многих социальных сетях предлагается заполнить какую-то анкету, где человек может указать свои интересы. Такие данные можно анализировать, как и любой другой контент, как любые статьи. Подобно тому, как новости группируют по сюжетам при помощи специальных математических процедур, можно поступить с темами и интересами, которые люди указывают. Можно объединить людей по близости интересов и потом посмотреть, например, какие фильмы они чаще всего упоминают в своих блогах или ставят им «лайк», на какие события обращают внимание.

ВЗГЛЯД: Насколько я понимаю, в интернете уже давно определяются интересы различных групп, для чего это делается?

С. Т.: В поисковых программах используются так называемые рекомендательные системы. Вы начинаете работать с каким-то ресурсом, скачивая оттуда фотографии, фильмы или музыку, а через некоторое время вам уже и без запроса начинают предлагать то, что вам, вероятнее всего, понравится.

Для начала такая система разбивает пользователей по группам – по тому, что они явно указали, или по неявным признакам, например по тематике, которой они чаще всего интересуются, а затем начинает предлагать то же, что и тем пользователям, которые входят в эту группу.

Допустим, вышел какой-то фильм, который интересен большому количеству пользователей из некоторой группы. Когда вы авторизовались, вас автоматически к ней отнесли, поскольку ваше поведение похоже на эту группу, – тогда вам начинают предлагать те же самые объекты.

Каждый, кто когда-нибудь скачивал фильмы, мог обратить внимание на то, что через какое-то время сама поисковая система начинает предлагать что-то похожее на уже выбранное вами, а иногда социальная сеть явно говорит: «Еще 10 пользователей выбрали этот фильм». Человек смотрит новости в Google, а через какое-то время ему предлагают, не хочет ли он создать тему, по которой ему будут поставляться новости.

ВЗГЛЯД: Наверняка это используется не только сайтами с медийным контентом?

С. Т.: Если это система мониторинга для коммерческих продаж, вам будут предлагать те же самые объекты для продажи. Если это система мониторинга социальных сетей интеллектуального контента, вам будут предлагать тот же самый интеллектуальный контент, которым заинтересовались пользователи из вашей группы. Технология одна и та же, главное – сформировать пользовательские группы по интересам и вычислить их базовые интересы.

ВЗГЛЯД: А есть какая-то специфика в работе системы, в задачи которой входит выяснить политические, религиозные и тому подобные предпочтения людей, количество таких людей и их активность?

С. Т.: Есть некоторые типовые задачи анализа контента, которые пытаются решать многие организации. К примеру, это кластеризация контента, то есть объединение похожих текстов в группы. Вспомните, в новостях «Яндекса» все статьи сгруппированы относительно некоторого события. То же самое можно делать с социальным контентом: группировать по разным признакам – уже перечисленным (выставленным тегам, пользователям, которым высылается контент), а кроме того, по ключевым словам, которые содержатся в записях, и по так называемым именованным сущностям, которые можно там выделить.

ВЗГЛЯД: Что это за сущности, и как их обнаружить?

С. Т.: Это отдельная задача – найти в тексте объекты, соответствующие именам собственным, которые можно там выделить. Как правило, всех интересуют люди, организации, места, даты и иногда события, которые имеют какие-то имена, а также продукты – продукты фирмы или продукты интеллектуальной деятельности – названия фильмов, книг и т. д. Система нацелена на то, чтобы извлекать все это из текстов. Потом по этим признакам тоже можно группировать контент и пользователей. Более того, можно мониторить интересы людей, что сейчас наиболее актуально для той или иной социальной группы.

Можно делать это и «вручную»: посадить группу людей и поставить им задачи определять что-то из кластеров, то есть близких по составу слов текстов.

ВЗГЛЯД: Вы постоянно говорите об «интересе», но ведь интерес к какому-то объекту не всегда означает, что субъект хорошо к нему относится...

С. Т.: Сейчас очень модным направлением в исследованиях как раз стала «тональность» – обнаружение экспрессии в тексте. Это широкое понятие. В социальных сетях обычно ставятся несколько задач, одна из них – понять, насколько агрессивны тексты для данной группы пользователей, для данной темы. Как правило, это индексируется по некоторым словам. Чем больше оценочных слов, тем очевиднее, что в тексте есть некоторая эмоциональность. Дальше остается определить, какие слова означают положительную или отрицательную эмоциональность в связи с некоторым событием. Как правило, определяются два параметра: отрицательная или положительная оценка, а также ее интенсивность.

* Организация (организации) ликвидированы или их деятельность запрещена в РФ

Текст: Роман Крецул

Вам может быть интересно

Путин: Дело идет к завершению украинского конфликта
Темы дня

Парад в Москве стал ответом на внешние вызовы и угрозы

«В голосе Путина слышалось явное предупреждение в адрес оппонентов о недопустимости риторики на языке нацистов», – так эксперты оценивают речь Владимира Путина на параде Победы в Москве. Они также отмечают, что мероприятие прошло штатно, несмотря на угрозы Киева, а сами торжества были насыщены новшествами.

Штурм Берлина стал победой Красной армии еще и над собственными ошибками

Берлинская операция стала последним стратегическим наступлением Красной армии в Великой Отечественной войне. Советским войскам пришлось преодолевать не только ожесточенное сопротивление гитлеровцев. Какие главные сложности доставил при обороне Берлина вермахт – и какие победы нашим войскам пришлось совершить над собственными ошибками?

Путин: Россия отреагировала на провокационные заявления Киева

В Кремле назвали клоунадой указ Зеленского о параде в Москве

Ветеран Семенов раскрыл содержание переданного Путину на параде письма

Новости

Захарова высмеяла «разрешившего парад» Зеленского сравнением с Пугачевой

Официальный представитель российского внешнеполитического ведомства Мария Захарова провела параллель между украинским лидером Владимиром Зеленским, «разрешившим» парад в Москве и эстрадной артисткой Аллой Пугачевой, «разрешавшей» весну.

Ирландский журналист назвал «сюрреализмом» заявление фон дер Ляйен о 9 Мая

Выступление главы Еврокомиссии Урсулы фон дер Ляйен о празднике 9 Мая вызвало у журналиста из Ирландии Брайана Макдональда недоумение из-за отсутствия упоминания СССР.

Путин объяснил отсутствие военной техники на параде в Москве

Решение об отказе от демонстрации военной техники на параде в Москве принято не только по соображениям безопасности, заявил президент России Владимир Путин.

Ушаков оценил реакцию в мире на предупреждения Москвы в адрес Киева

Большинство зарубежных стран с пониманием восприняли предупреждение Москвы о возможных последствиях для киевского режима в случае террористических действий на 9 Мая, заявил помощник президента Юрий Ушаков.

Итальянский телеведущий удивился сплоченности россиян

Итальянский телеведущий Федерико Арнальди признался, что впервые приехал в Россию именно в майские дни и был поражен атмосферой сплоченности, которой не встречал у себя на родине.

Путин: Дело идет к завершению украинского конфликта

Президент России Владимир Путин заявил, что украинский конфликт, по его мнению, близится к завершению.

Путин объяснил причину отказа Киева от перемирия на 9 мая

Вместо прямого согласия на прекращение огня 8 и 9 мая украинская сторона выдвинула встречную инициативу, предложив начать перемирие с 6 мая, потому что Киев посчитал невыгодным сразу согласиться с предложением России, заявил президент Владимир Путин.

Дмитриев заявил о панике Обамы из-за разоблачения мифа о России

Бывший президент США Барак Обама пытается привлечь международное внимание после разоблачения обвинений о вмешательстве России в американские выборы, сообщил глава РФПИ Кирилл Дмитриев.

Путин назвал лучшую кандидатуру на роль переговорщика между Россией и Европой

Оптимальным кандидатом для ведения прямого дипломатического диалога между Москвой и европейскими государствами стал бы бывший канцлер Германии Герхард Шредер, отметил президент России Владимир Путин.

На Украине разразился скандал из-за песни «Матушка-земля»

Управление Национальной полиции Украины по Киевской области проверяет молодых людей, которые пели композицию «Матушка-земля» в ночь на 9 мая.

Глава Росатома Лихачев назвал Siemens «непотребными поставщиками»

Глава Росатома Алексей Лихачев сообщил о полном отказе от сотрудничества с немецкой Siemens и переходе на альтернативные решения для атомных проектов.

Путин назвал условия для личной встречи с Зеленским

Президент России Владимир Путин заявил, что не инициирует встречу с Владимиром Зеленским, но и не отказывается от нее, однако переговоры с украинским лидером должна стать окончательной точкой.
Мнения

Ольга Андреева: День Победы запустил историю заново

Народ – это та точка, где прошлое, настоящее и будущее сходятся. Народ – это возможность истории как таковой. Народ хранит в себе образы и память предков, а в его несгибаемой воле к жизни рождаются и образы будущих поколений.

Архиепископ Савва (Тутунов): Русский народ бился, чтобы быть

Почти всякая наша война была Отечественной. Не битвой феодалов посредством вассальных или наемных войск и ради экономических выгод, а битвой самого народа. Мы бились ради сохранения нашего духовного самобытия, нашего русского национального самостояния.

Игорь Мальцев: Германия идет по пути Прибалтики

Ничего удивительного в запрете советской символики в Берлине на День Победы я не вижу – все развивается по очень знакомому сценарию. Только совершенно зря в этот блудняк втягивают немцев, которые два раза вписались в мировые войны и оба раза получили национальную катастрофу.
Вопрос дня

Что за ветеран сидел рядом с Путиным на параде Победы