В ноябре «Киберпартизаны» атаковали Главный радиочастотный центр, который выполняет контрольно-надзорные и регуляторные функции Роскомнадзора. Эти документы доказывают, что малоизвестное предприятие играет ключевую роль в тотальной государственной слежке за россиянами и беларусами в интернете. Кто курирует Роскомнадзор? Безопасно ли пользоваться российскими соцсетями в Беларуси? Каким образом контролируется беларусский интернет? На эти и другие вопросы в сегодняшнем эфире ответит официальный представитель беларусских «Киберпартизан» Юлиана Шеметовец. Ведущий – Евгений Казакевич.
Беларуская хакерская группа «Киберпартизаны» получила доступ к внутренним документам и письмам Главного радиочастотного центра (ГРЧЦ) — подведомственного Роскомнадзору органа, в чьи обязанности входят цензура медиа, сбор сведений о пользователях, выступающих с критикой российской власти, и потенциальных «иностранных агентах». Доступ к файлам получили несколько российских изданий. «Медиазона» рассказывает, что нового можно узнать из самой крупной утечки данных Роскомнадзора.
За российским интернетом следят при помощи нейросетей
У Роскомнадзора масштабные планы по слежке за российским интернетом при помощи нейросетей, и часть этих планов уже осуществляется. Как выяснила «Медиазона», при помощи ИИ ведомство ищет картинки о суициде, посты о войне в Украине, «пропаганду нетрадиционных отношений» и другие нарушения. Самый главный проект Роскомнадзора — «Чистый интернет».
Для сбора данных «Чистый интернет» использует API поиска «Яндекса». После уговоров РКН «Яндекс» сделал число возможных запросов для ведомства больше, чем доступно обычным пользователям. Также РКН использовал платформу «Яндекса» «Толока», но степень кооперации корпорации и ведомства неясна. Активнее всего с РКН сотрудничают МФТИ и компания Brand Analytics. Отчеты последней состоят из миллионов страниц с постами в соцсетях и информацией об их авторах.
Нейроскомнадзор. Чем пользуется РКН чтобы следить за интернетом — и кто ему в этом помогает
«Важные истории»: РКН составляет справки для признания «иностранными агентами», часть из них пока не использована
«Важные истории» утверждают, что в их распоряжении оказался список из 804 фамилий людей, о которых ГРЧЦ с 2020 по 2022 год собирал информацию для признания «иностранными агентами». 139 человек из этого списка уже внесли в официальный реестр, однако число потенциальных «иностранных агентов» может быть больше, отмечает издание.
«Настоящее время» пишет, что летом 2021 года, перед выборами в Госдуму, ГРЧЦ составлял отчеты по спискам целых редакций и общественных организаций: «Только за июнь — август специалисты центра подготовили 346 таких справок».
Почему составленные в 2021 году справки до сих пор не были использованы для признания нескольких сотен человек «иностранными агентами», точно не знают даже сотрудники Роскомнадзора, отмечают «Важные истории». Хотя они предположили, что «определяющим фактором [для признания] становится оппозиционная деятельность, конфликт между изданием и чиновником и т. д.», логика внесения в реестр, судя по внутренней переписке, остается им «не совсем ясной».
«Настоящее время» обнаружило справки о людях и организациях, которые трудно назвать оппозиционными. Речь идет о соведущей Владимира Соловьева Анне Шафран, телеканале «Царьград» и движении «Двуглавый орел» (оба принадлежат олигарху Константину Малофееву).
Отдельное внимание ведомство уделяет «лидерам общественного мнения» и «антироссийским» изданиям
Сотрудники ГРЧЦ также следят за лидерами общественного мнения (в переписке используется аббревиатура ЛОМ), в списках ведомства значится 472 человека с указанием рода деятельности и ссылками на соцсети, пишут «Важные истории». Пока что все это делается вручную, однако в будущем «Роскомнадзор планирует автоматически отслеживать аккаунты в соцсетях признанных и потенциальных иноагентов и ЛОМов», добавляет издание.
«Крупные независимые медиа в мониторингах называются "антироссийскими", — уточняет "Агентство". — С таким ярлыком упоминаются "Русская служба Би-би-си", "Медуза", "Радио Свобода", The Insider, канал "Пивоваров. Редакция", DOXA».
Как минимум на 17 российских журналистов Роскомнадзор составил персональные справки. «Агентство» приводит имена некоторых из них: Роман Баданин, Максим Гликин, Мария Жолобова, Таисия Бекбулатова, Илья Рождественский, Юлия Ярош, Кирилл Харатьян и другие. Такого внимания удостоились не только журналисты; похожие досье есть на основателей организации Activatica Евгению Чирикову и ее мужа Михаила Матвеева, основателей «Диссернета» Андрея Заякина и Михаила Гельфанда, правозащитника и историка Сергея Лукашевского, политолога Дмитрия Орешкина, карикатуриста Сергея Елкина, финансирующего СМИ экс-главу ЮКОСа Михаила Ходорковского, экс-мэра Екатеринбурга Евгения Ройзмана.
Сотрудники РКН делятся с МВД, Центром «Э» и другими ведомствами данными об «угрозах» в соцсетях
О существовании «Кабинета оперативного взаимодействия» (КОВ) стало известно еще из прошлой утечки башкирского РКН. Судя по найденным в переписках скриншотам и обсуждениям изменений, «Кабинет» представляет собой тематические чаты между сотрудниками РКН, чиновниками и силовиками из МВД, Центра «Э», Росгвардии и других ведомств. В чатах цензоры вручную делятся обнаруженными «угрозами». Можно найти и обсуждение улучшений системы: добавить личные сообщения, редактирование и удаление сообщений, упоминания участников через символ @ и другие стандартные функции мессенджеров.
«Настоящее время» приводит список актуальных чатов в КОВ на ноябрь 2022 года: «Протестные настроения», «Дестабилизация оперативно», «Терроризм», «Протестные мероприятия оперативно», «Межнациональные отношения», «Иностранное вмешательство» и «Экстремизм».
РКН пытается добиться разблокировки пророссийских блогеров в зарубежных соцсетях
Журналисты «Агентства» обнаружили, что, согласно отчетам, Роскомнадзор нередко вступается перед зарубежными соцсетями за провластных комментаторов, даже если они формально никак не связаны с российским государством. Например, ведомство безуспешно пыталось добиться отмены блокировки аккаунтов основателя «ЧВК Вагнера» Евгения Пригожина, писателя Захара Прилепина, пропагандиста Тиграна Кеосаяна, который также приходится мужем главе RT Маргарите Симоньян, блогера Дмитрия Пучкова и других. Похожую поддержку ведомство оказывало телеканалу «Царьград», изданиям Lenta.ru и «Газета.ру», RT, «Спутнику» и РИА «Новости», телеканалу «Звезда», главе Чечни Рамзану Кадырову, экс-главе «Роскосмоса» Дмитрию Рогозину, трем депутатам Госдумы и другим.
Ведомство цензурирует не только российский интернет, но и беларуские сайты
«Медиазона.Беларусь» пишет, что в утечке также обнаружили требования к беларуским СМИ удалить материалы, например, о потерях среди российских военных или об оккупированных украинских территориях. По данным издания, в июле 2022 года во внутренней переписке одного из отделов Роскомнадзора появилась тема из нескольких десятков писем под названием «Задача Белоруссия». Там сотрудники РКН вели таблицу, отслеживая тысячи публикаций на беларуских сайтах, некоторые из них сопровождала пометка: «Да (фейк СВО)». «Медиазона.Беларусь» приводит адреса сайтов, которые были отмечены таким маркером: mediazona.by, btvsat.eu, euroradio.by, flagshtok.info, baj.by, gazetaby.media, naviny97.by и другие.
Сотрудники РКН выполняют «специальные поручения» и зачищают негативную информацию по просьбе руководства
Периодически сотрудники Роскомнадзора получают от руководства «специальные поручения», в числе которых «ограничение негативной информации» о некоторых людях, пишут «Важные истории». Например, осенью 2020 года начальник управления контроля и надзора в сфере электронных коммуникаций Евгений Зайцев прислал сотрудникам ссылку на эфир телеканала «Россия», во время которого были показаны фотографии обнаженной несовершеннолетней дочери историка Юрия Дмитриева, осужденного на 13 лет по делу о насильственных действиях сексуального характера. Зайцев отметил, что это «крайне резонансная тема» и «в случае, если будут поступать жалобы/письма, касающиеся этой тематики, направлять сразу мне и БЕЗ СОГЛАСОВАНИЯ ничего не делать!». В итоге Роскомнадзор не нашел нарушений в том, что телеканал демонстрировал фотографии девочки.
В 2019 году Зайцев поручил ограничить «доступ к материалам с негативной направленностью про [бизнесмена] Рубена Татуляна». Такие же поручения касались смерти замкомандира президентского полка Романа Лотвина: нужно было вычистить информацию о его возможном самоубийстве.
Кроме того, сотрудникам ГРЧЦ ставили задачу «завалить жалобами» интервью певицы Наргиз, во время которого она между фото продюсера Максима Фадеева и Адольфа Гитлера выбрала нацистского лидера. Сотрудники Роскомнадзора по указанию руководства жаловались на видео за «пропаганду фашизма».
В РКН следят за публикациями о здоровье Владимира Путина и постами с оскорблениями в его адрес
С апреля по октябрь 2022 года Роскомнадзор создавал отчеты о публикациях, которые касались здоровья российского президента Владимира Путина, отмечает «Агентство». В таблички ведомство сводит, например, комментарии к роликам из ютьюба в духе «Путин и есть — рак!», их количество разнится в зависимости от повестки: оно увеличилось, когда политолог Валерий Соловей объявил об онкологическом заболевании у главы государства. Похожим образом РКН следил за критикой мобилизации: в мониторинг попадали сообщения о том, как мужчины пытаются получить бронь через университет «Синергия» или женятся.
Кроме того, в отчеты попадают, например, высказывания, в которых Путина назвали «палачом Беслана» и критиковали за то, что он ни разу не высказал «слова обычного человеческого сочувствия» жертвам теракта в Беслане или родственникам погибших на «Курске» моряков, пишут «Важные истории». С начала российского вторжения в Украину в отчетах преобладают сообщения с критикой президента за развязывание войны и введение санкций против России.
«Настоящее время» обращает внимание, что в задачи ГРЧЦ входит и поиск оскорбительных картинок (вероятно, для обучения нейросетей): сравнения Путина с Гитлером, террористом, вором в законе, вампиром, педофилом или маньяком или изображения президента в образе женщины, «гомосексуалиста», краба или моли и другие.
Нейроскомнадзор. Чем пользуется РКН, чтобы следить за интернетом — и кто ему в этом помогает
Беларуская хакерская группа «Киберпартизаны» получила доступ к внутренней сети Главного радиочастотного центра (ФГУП «ГРЧЦ») — подведомственной организации Роскомнадзора, фактически его исполнителя.
Хакеры утверждают, что им удалось зашифровать рабочие компьютеры сотрудников, нарушить работу внутренней сети и выгрузить около 1,2 терабайта данных: архив внутреннего почтового сервера, внутреннее файловое хранилище, данные некоторых внутренних систем и данные системы контроля за сотрудниками FalconGaze.
В архивах переписки лежат около 1,5 млн электронных писем, в основном за 2020–2022 годы, а также около 200 тысяч текстовых документов, таблиц и презентаций.
«Медиазона» получила доступ к этим архивам. Первая часть нашего расследования — о том, как Роскомнадзор в последние годы опутывал российский интернет нейросетями для поиска «запрещенного» контента — и кто ему в этом помогал.
— Переписки раскрывают масштабные планы Роскомнадзора по слежке за российским интернетом при помощи нейросетей. Большая часть этих технологий уже применяется, они ищут не только картинки о суициде, но и, например, посты о войне в Украине.
— Самый масштабный проект называется «Чистый интернет». По замыслу разработчиков, он должен контролировать 100% российского сегмента.
— Для сбора данных «Чистый интернет» использует API поиска «Яндекса». По просьбе Роскомнадзора «Яндекс» увеличил для ведомства число возможных запросов в сутки.
— Кроме того, ГРЧЦ использовал для обучения нейросетей платформу «Яндекса» «Толока». Степень вовлеченности «Яндекса» в сотрудничество с РКН неясна; в компании отрицают, что давали ведомству какие-либо преференции.
— Среди тех, кто сотрудничал с ГРЧЦ активно — Московский физико-технический институт (МФТИ), а также компания Brand Analytics. Технологии последней помогли ГРЧЦ составить сотни отчетов на миллионы страниц.
— Еще две системы с использованием искусственного интеллекта создавались для автоматического анализа видеоконтента (сейчас все трансляции сотрудники ведомства смотрят сами), тоже для поиска «запрещенной информации».
Найти и запретить. «Яндекс» и «Чистый интернет»
В полученном «Медиазоной» архиве содержится больше 680 писем с упоминанием корпоративной почты «Яндекса» за период с 2014 по 2022 год. Больше половины из них — это переписка внутри самого Роскомнадзора, например, сотрудники ГРЧЦ в письмах друг другу обсуждали, какой контактный адрес «Яндекса» указывать при заполнении карточек для реестра.
Другая часть — это переписка между «Яндексом» и ГРЧЦ. Большинство этих писем — стандартная коммуникация российской IT-компании с чиновниками, в ходе которой компания объясняет, почему не стоит блокировать те или иные страницы. Например, Роскомнадзор несколько раз вносил в реестр запрещенной информации поисковую выдачу «Яндекса», сервис для сокращения ссылок click.ru или несколько страниц «Яндекс.Турбо».
Некоторые встречи с представителями «Яндекса» проходили офлайн. Врио начальника управления по работе с автоматизацией отдела средств массовой коммуникации ГРЧЦ Анастасия Волкова в переписках с коллегами упоминает две из них: в конце 2019 года и в начале 2020-го.
На одной из них, по словам Волковой, представители «Яндекса» «консультировали нас [ГРЧЦ] по вопросам нейросетей». Подтверждений, что речь шла о какой-то адресной консультации, «Медиазоне» найти не удалось; вероятно, представительница ГРЧЦ имеет в виду совместное участие в одной из отраслевых конференций.
Схема работы АС ЧИ, составленная Роскомнадзором. Скриншот из презентаций ГРЧЦ и Роскомнадзора / Медиазона
Волкова также писала, что на этих встречах сотрудники IT-компании рассказывали о своем API для поиска в интернете — речь идет о «Яндекс.XML» — и якобы пообещали снять лимит на запросы для нужд Роскомнадзора.
Это обещание пришлось очень кстати. В 2020 году ГРЧЦ начал разрабатывать для Роскомнадзора систему «Чистый интернет». Она была задумана как замена уже существовавшей автоматизации поиска «запрещенного» контента, но с упором на использование нейронных сетей, а не словарей ключевых слов.
Руководитель департамента ведения реестров запрещенной информации Иван Зуев в мае 2020 года в описании стратегии развития ГРЧЦ писал: «Эффективность деятельности ГРЧЦ в соцсетях низкая», автоматизированы только поиск детской порнографии и «суицидального контента».
Почему мы считаем архив настоящим
Проверить подлинность всего архива невозможно. Однако «Медиазона» доверяет этой утечке по нескольким причинам.
Мы нашли в архиве документы, которые можно найти независимо. Например, мы встретили копии писем, запросов и ответов на требования Роскомнадзора от самих сотрудников «Медиазоны», а также обсуждения запросов наших коллег из других изданий.
Большая часть архива посвящена обработке сотрудниками ГРЧЦ публикаций, находящихся в свободном доступе, а огромный объем и общая непротиворечивость архивов не оставляют сомнений том, что материалы подлинные.
Система «Чистый интернет», или АС ЧИ, должна была собирать материалы по приоритетному списку источников и по соцсетям, а затем с помощью нейросетей находить нарушения: экстремизм, терроризм, призывы к участию в массовых мероприятиях, «пропаганду нетрадиционных отношений», оскорбление госсимволов и другие.
В презентациях о системе ГРЧЦ обещал, что после выхода на проектную мощность «Чистый интернет» будет покрывать 100% Рунета, за исключением стриминговых сервисов, которыми должна заниматься другая система — АС МАВР.
Главная проблема, которая стояла перед ГРЧЦ при разработке этой системы — как искать данные по всему интернету. Ее невозможно было решить без сотрудничества с поисковиками.
В мае 2020 года Анастасия Волкова решила напомнить «Яндексу» о доступе к API поиска. Она пишет директору по развитию технологий искусственного интеллекта «Яндекса» Александру Крайнову и жалуется на ограничения сервиса — всего тысяча запросов в день:
«Александр, добрый день!
Меня зовут Анастасия, начальник Управления развития автоматизации средств массовых коммуникаций ФГУП ГРЧЦ.
В том году осенью Вы с коллегами консультировали нас по вопросам нейросетей.
Мы потихоньку планируем работы с АПИ Яндекса, до конца года должны реализовать. Есть один вопрос, не знаю, к Вам он или нет, но Григорий [Бакунов] подсказал именно Вас. Если не к Вам, подскажите пожалуйста, кому его можно задать.
По доступной API сейчас существенные ограничения, для нас это очень мало. Насколько я помню, на первых встречах Вы или Ваши коллеги упоминали, что по необходимости можете посодействовать в снятии ограничений.
Ограничение сейчас 1000 запросов в сутки, 50 запросов в час.
А хотелось бы хотя бы 100К в сутки.
Подскажите, можно ли расширить для нас ограничения?».
В следующем письме Волкова уточняет: Роскомнадзор планирует использовать API, чтобы «мониторить интернет на предмет нарушений Федерального Закона».
На этом этапе «Яндекс» отказывает. Коллегам Волкова пишет: компания сослалась на то, что не может дать расширенный доступ бесплатно, а коммерческое расширение доступа подразумевает не только оплату, но и обмен трафиком — а трафика на собственных ресурсах у Роскомнадзора нет.
Из переписок также можно понять, что в ГРЧЦ присматривались и к другим поисковым системам, например Rambler, Google или «Спутнику», но в итоге отмели их. В отчете о запуске АС ЧИ объясняется: Google — платный, Rambler — это тот же поиск «Яндекса», а «Спутник» не индексировался уже несколько лет.
Дальнейшей переписки с «Яндексом» по поводу API в полученном «Медиазоной» архиве нет. Вероятнее всего, общение на себя взял непосредственно Роскомнадзор. В декабре 2020 года Волкова через начальника управления контроля и надзора в сфере электронных коммуникаций РКН Евгения Зайцева вновь пишет в «Яндекс». И если раньше речь шла об увеличении лимита с тысячи до 100 тысяч в сутки, то теперь чиновники просят дать 300 тысяч запросов на два аккаунта:
«Просим от Яндекса увеличить лимиты для мирового поиска до 300 тысяч запросов в день для двух аккаунтов:
Текущие лимиты: 10 тысяч запросов к мировому поиску в сутки на аккаунт.
Если возникнет вопрос, почему два аккаунта: обеспечит стабильность и отказоустойчивость в части распределения нагрузки между двумя нодами (группами серверов)».
В 2021 году — точную дату «Медиазоне» установить не удалось — «Яндекс» все же поддался давлению Роскомнадзора. Компания увеличила для аккаунтов РКН лимит запросов до 300 тысяч в сутки, это упоминается в отчетах ГРЧЦ о развертывании системы.
Поиск «Яндекса» — это ключевой компонент сбора данных для «Чистого интернета». Вторая часть этого сбора — краулер для соцсетей, который был разработан ООО «Вектор Икс». Он ищет посты во «ВКонтакте», «Одноклассниках», «Моем Мире», «Ответах Mail.ru», «Живом журнале» и частично в телеграме и ютубе. В 2023 году, согласно планам ГРЧЦ, в список добавят фейсбук, инстаграм, твиттер, тикток, «Яндекс.Дзен» и рутьюб.
API «Яндекса» упоминается в отчетах о развертывании «Чистого интернета» до января 2022 года — и, вероятно, используется до сих пор. Добавление поиска от Mail.ru запланировано на 2023 год, а Google — на 2024-й.
25 февраля 2022 года, спустя сутки после начала войны, «Чистый интернет» подключили к поиску постов и комментариев с «призывами к незаконным митингам по ситуации на Украине».
Комментарий «Яндекса»
«"Яндекс" не разрабатывал и не предоставлял РКН никакой специальный API. Также для РКН не производилось никаких доработок в сервисах компании.
Публичный сервис доступа к поиску через протокол XML — xml.yandex.ru — доступен всем внешним пользователям в стандартном виде и без специальных доработок.
Расширение лимита является стандартной функциональностью нашего протокола XML и доступно для всех внешних пользователей. Такие изменения не являются эксклюзивными или специальными условиями».
Еще один продукт «Яндекса», который использовал Роскомнадзор — «Толока». Это краудсорсинговый сервис, который помогает готовить наборы данных для машинного обучения.
«Толока» работает так: заказчик заключает договор с «Яндексом» и загружает в сервис простые задания, например, классифицировать изображения, которые будут использованы для обучения моделей. Задания распределяются между людьми, которые регистрируются в сервисе; они выполняют их и получают за это небольшое денежное вознаграждение из бюджета заказчика.
Упоминание «Толоки» в почте ГРЧЦ встречается с осени 2021-го по февраль 2022 года. Следов каких-либо переговоров с «Яндексом» по поводу использования этого сервиса в архиве нет.
Примерно полгода ГРЧЦ использовал «Толоку» для того, чтобы его сотрудники размечали изображения по теме «суицидальный контент». Так ведомство готовило данные для модели, которая должна была стать частью «Единого модуля анализа» — ИИ «Чистого интернета».
В последнем доступном отчете, подготовленном 24 февраля 2022 года, говорится, что за все время работы операторы СМК разметили более 120 тысяч изображений, а до окончания работ нужно было разметить еще 150 тысяч. В переписках можно найти и составление «графиков дежурств»: в них ГРЧЦ планировал, кто будет работать с «Толокой» в следующем месяце, особенно в выходные и праздничные дни.
Степень кооперации «Яндекса» с Роскомнадзором и ГРЧЦ по «Толоке» неясна. Главный вопрос — договаривался ли Роскомнадзор с «Яндексом» о том, чтобы «Толоку» можно было использовать для распределения заданий только между своими сотрудниками, а не случайными исполнителями.
Привлечение собственных исполнителей доступно в версии Toloka In-House, которую «Яндекс» запустил осенью 2022 года. В пресс-службе «Яндекса» «Медиазоне» сообщили, что компания никогда не предоставляла Роскомнадзору доступ к режиму in-house в «Толоке».
Комментарий «Яндекса»
«Медиазона»: Правильно ли мы понимаем, что по умолчанию заказы в «Толоке» распределяются между случайными пользователями, а те, кто хочет распределять задания между своими подрядчиками, обращаются к услуге in-house? Когда был запущен in-house?
«Яндекс»: Да, все верно — любой заказчик может разместить свое задание на общедоступной платформе. Задания распределяются между исполнителями автоматически случайным образом с учетом соответствующих навыков толокеров (например, задача на иностранном языке не попадет к исполнителю, который им не владеет).
С осени 2022 для всех заказчиков стал доступен режим in-house, в рамках которого можно использовать собственных исполнителей (экспертов, исследователей и так далее).
Работавший с «Толокой» собеседник «Медиазоны» рассказал, что у платформы была возможность выдавать задачи только проверенной категории пользователей, которые имели больший опыт в системе и заключили дополнительные договоры с «Яндексом».
По его словам, такая опция использовалась во внутренних проектах IT-компании. Собеседник «Медиазоны» допустил, что таким же способом задачи в «Толоке» могли передавать сотрудникам ГРЧЦ, например, отобрав «проверенных пользователей» исключительно среди своих сотрудников по их email-адресам.
Еще одна часть проекта «Чистый интернет» — это бот-ферма. Ее разрабатывают внутри самого ГРЧЦ; финальную версию, согласно упомянутым в письмах планам, должны представить в мае 2023 года.
Цель такой бот-фермы отличается от привычной: фальшивые аккаунты служат не для того, чтобы публиковать какие-то сообщения, а для того, чтобы собирать посты в соцсетях, в том числе из закрытых групп и сообществ.
Из технического задания к бот-ферме ГРЧЦ
«Система должна автоматически получать мобильные номера с помощью eSIM API операторов, обходить сложные капчи, генерировать биографии, имитировать реальную активность в соцсетях и автоматически проходить проверки в закрытые группы.
Работать все это должно в VK, Одноклассниках, «Моем мире», Ответах.mail.ru, ЖЖ, Youtube, TikTok, Likee, Kwai, Facebook, Instagram, Twitter, Telegram, Яндекс Дзен, Rutube, YAPPI».
«Точки информационной напряженности»: «Вепрь», «Окулус» и МФТИ
Назвать «Яндекс» компанией, которая помогала строить систему контроля за российским интернетом, довольно трудно: IT-гигант дал ГРЧЦ доступ к двум сервисам — и, насколько можно судить по переписке, сделал это не по первому требованию. Но есть и те, кто тесно сотрудничал с Роскомнадзором и разрабатывал для ведомства целые продукты.
В сентябре 2021 года журналисты нашли на сайте госзакупок два опубликованных ГРЧЦ контракта: один — на концепцию системы для анализа изображений и видео «Окулус», а второй — на концепцию более обширной системы «Вепрь». Оба тендера выиграл Московский физико-технический институт (МФТИ): концепцию «Вепря» оценили в 10 млн рублей, а концепцию «Окулуса» — в 14 млн.
В десятках отчетов и планов развития ГРЧЦ называет «Вепрь» ключевым направлением: система нужна для того, чтобы мониторить и даже прогнозировать так называемые «точки информационной напряженности».
Описание «Вепря» в целом похоже на «Чистый интернет»: это сбор постов и публикаций в интернете и их анализ с помощью искусственного интеллекта. Однако в «Вепре» упор делается не на поиск контента для реестра, а на его глубокий анализ, например, отработку неких сценариев, которые операторы ГРЧЦ смогут вносить в систему. В качестве аналога приводится разработка АО «РТИ» для Минобороны стоимостью 1,5 млрд рублей, она «во многом похожа на ИС "Вепрь" в рамках противодействия информационным атакам».
Научное обоснование «Вепря» выполнила кафедра машинного обучения и цифровой гуманитаристики МФТИ. Над документом работали десятки сотрудников; он состоит из ссылок на философов Макиавелли и Ортегу-и-Гассета, мемов, например, с Путиным и Геббельсом, а также математических принципов работы языковых моделей.
Огромное внимание при разработке в МФТИ уделили и классификации «точек информационной напряженности». В подготовленном институтом 500-страничном плохо структурированном документе все возможные угрозы перечислены вразнобой: терроризм и экстремизм, критика властей и несистемная оппозиция, «пропаганда ЛГБТ», чайлдфри, наркомания, уклонение от армии, «группы смерти», «оскорбительные арт-акции», методы Джина Шарпа и даже «коллекционирование собственных козявок или обстриженных ногтей».
При этом самой разработкой «Вепря» МФТИ заниматься не дали — контракт получила компания «НеоБИТ» из Петербурга.
Еще одна разработанная в МФТИ концепция — это «Окулус», система искусственного интеллекта для распознавания запрещенной информации в видео и на картинках. В обосновании к проекту ГРЧЦ жалуется, что сейчас сотрудники ведомства вынуждены проверять контент вручную, что невозможно из-за огромного потока информации.
В МФТИ чиновникам рассказали о возможностях по распознаванию лиц на изображениях (в том числе лиц в масках), по преобразованию надписей на изображениях в текст, а также по классификации изображений и видео по категориям: митинги, суицидальный контент, руферы и зацеперы, запрещенные логотипы и символика. Судя по приведенному в презентации примеру, нейросеть распознала эмблему НАТО как символ АУЕ.
В одном из документов МФТИ перечисляются аналогичные системы, которые можно было бы закупить для «подстраховки». Например, система поиска «запрещенного контента» была разработана ООО «ОКАС» для Центра изучения и сетевого мониторинга молодежной среды, а для распознавания лиц МФТИ рекомендовал аналоги от той же ООО «ОКАС», NtechLab, VisionsLabs, ФГУП «ГосНИИАС» и ДИТ Москвы.
В августе 2022 года тендер на разработку «Окулуса» стоимостью 57,7 млн рублей выиграло ООО «Эксикьюшн Эр Ди Си». Дедлайн выполнения — декабрь 2022 года. Как отмечал «Коммерсант», раньше эта компания не выступала подрядчиком в госзакупках.
Brand Analytics и тысячи страниц отчетов
Еще одна крупная компания, услугами которой активно пользуется ГРЧЦ — это Brand Analytics.
На своем сайте BA называет себя лидером мониторинга и анализа соцмедиа и СМИ. Направления работы — анализ бренда, поиск упоминаний, работа с аудиторией и реагирование на отзывы пользователей. Среди клиентов Brand Analytics — крупные российские компании, банки, а также «органы государственного управления, министерства и ведомства».
Запросы ГРЧЦ к Brand Analytics тоже похожи на то, что планирует Роскомнадзор в «Чистом интернете». Клиенты BA могут искать публикации по ключевым словам, а на выходе получать отчеты с подробной статистикой, индексами цитируемости, анализом аудитории и тональной оценкой публикации. Кроме соцсетей, анализируются и СМИ, в том числе сканы газет, расшифровки эфиров и закрытые ленты информагентств.
Впервые использование Brand Analytics упоминается в переписках ГРЧЦ в декабре 2021 года, а через месяц ГРЧЦ выпускает первый подробный отчет об использовании системы.
В отчете говорится, что ГРЧЦ оплатил максимальный тариф, который позволяет выгружать до 5 млн материалов в месяц. Среди тем, которые интересовали ГРЧЦ — анализ ежедневных протестных настроений на федеральном и региональном уровнях, поиск негатива по отношению к Владимиру Путину, ШОС, ЕАЭС и БРИКС, отчеты по «казакам» и «Эху Москвы», «искажение истории ВОВ», «пропаганда ЛГБТ».
Отдельно в отчете упомянуты «срочные» темы, «запросы на которые возникали в чатах Telegram», но их содержание не раскрывается.
С начала российского вторжения в Украину ГРЧЦ использует Brand Analytics, чтобы искать призывы к антивоенным митингам и «фейки» о действиях армии, например об убийствах мирного населения и уничтожении социальной инфраструктуры.
Отдельно заводятся темы «Фейк арест Путина» и «Фейк Патриарх Кирилл призвал остановить войну».
В октябре 2022 года к темам добавились военнопленные, мобилизация, «конспирологические теории, связанные с суевериями и предсказаниями», ядерная война, «критическое состояние здоровья Президента РФ В.В. Путина», «общий кризис российской экономики».
В переписке можно найти и несколько тысяч итоговых отчетов по темам, в том числе ежедневных. Они представляют собой эксель-таблички, в которых собраны все найденные по темам публикации и их статистика. Приводятся полностью тексты постов, их анализ, например тональность и наличие агрессии, количество репостов и лайков, а также справка об авторе публикации: имя, город или регион, указанный в профиле возраст.
«Дуализм» и МАВР
У ГРЧЦ есть еще два более скромных по задачам и масштабам проекта, которые связаны с искусственным интеллектом. Первый — это «Автоматизированная система мониторинга аудиовизуальных ресурсов» (АС МАВР).
АС МАВР должна отвечать за поиск запрещенной информации в фильмах и сериалах на стриминговых сервисах. Систему в 2021 году разработал давний подрядчик ГРЧЦ, компания «Е.Софт». Подробнее о «Е.Софт» и миллиардных контрактах с РКН можно почитать на «Медузе».
В проектных документах для разработки МАВР указано, что сейчас сотрудники ГРЧЦ смотрят сериалы и эфиры телеканалов сами, надеясь найти какие-либо нарушения. АС МАВР должна освободить их от этой работы, но функционирует ли она, до сих пор непонятно.
В 2021 году АС МАВР была способна лишь собирать метаданные к фильмам с помощью публичных API IMDB и «Кинопоиска». В 2022 году ее принялись дорабатывать; одной из основных задач называли как раз полную автоматизацию и передачу контента в «Единый модуль анализа», где запрещенную информацию будет искать ИИ. Следов работы новой версии этой системы «Медиазоне» найти не удалось.
Другой связанный с видеоконтентом проект ГРЧЦ называется «Дуализм». Ведомство хочет искать «дипфейки» при помощи нейросетей; эта разработка профинансирована Фондом перспективных исследований.
В проектных документах сотрудники подчеркивают опасность «дипфейков» и перспективность противодействия им. Сама система еще не разработана.
«Медиазона» продолжает изучать архив почты ГРЧЦ. В следующих публикациях мы расскажем о других направлениях работы Роскомнадзора. Подписывайтесь на наш Telegram, чтобы ничего не пропустить.