13 декабря 2023, 14:40
Роскомнадзор приказал хостинг-провайдерам запретить OpenAI собирать информацию с российских сайтов — «Ъ»
Главный радиочастотный центр Роскомнадзора (ГРЧЦ) предложил заблокировать в России GPTBot — сообщает «Коммерсантъ» со ссылкой на текст обращения. Соответствующее письмо ведомство на этой неделе разослало российским хостинг-провайдерам.
GPTBot — это так называемый веб-сканер или «поисковый робот» от OpenAI, который собирает данные со страниц в интернете для «тренировки» нейросетей компании. В фирме отдельно подчёркивают, что сами фильтруют просканированный контент, включая «источники, требующие платного доступа» (контент по подписке), а также персональные данные и «текст, нарушающий политики» компании.
Важно отметить, что формально владельцы сайтов могут запретить боту просматривать их страницы, если внесут соответствующие изменения в специальный файл. Тем не менее, по умолчанию программа считает, что может сканировать сайт, к которому имеет доступ.
«OpenAI имеет два отдельных пользовательских агента для сканирования веб-страниц и просмотра пользователей, поэтому вы знаете, для какого варианта использования предназначен тот или иной запрос. Наша система отказа в настоящее время обрабатывает оба пользовательских агента одинаково, поэтому любой запрет в файле robots.txt для одного агента будет распространяться на обоих», — отмечают в OpenAI.
Веб-сканеры есть и у других компаний, которые индексируют и собирают информацию из интернета. У одного только Google таких роботов более 15-ти. Каждая программа выполняет свою функцию: некоторые собирают общую информацию о странице, другие — отдельные категории, вроде карточек товаров или новостей.
В разостланном компаниям письме ГРЧЦ требует «оценить риски» сбора информации, в частности той, которая касается персональных данных. Хостинг-провайдеров, которые обнаружат такие «риски», просят заблокировать доступ GPTBot к сайтам.
Журналисты связывают активность Роскомнадзора с атаками, которыми подверглись российские сайты. Заявляется, что нагрузку на российские сети зафиксировали именно с IP-адресов OpenAI.
«В ноябре этого года [зарегистрировали] резкий рост активности вредоносных ботов. В первую очередь их атакам подверглись онлайн-магазины во время активных распродаж. В период 24–30 ноября произошло 40,7% от всех обращений обезличенных ботов на индустрию в прошлом месяце. Крупнейшая отдельная атака была 26 ноября — тогда зафиксировали 5,2 миллиона запросов. По данным Qrator Labs, рекордным стало количество обращений к российским ресурсам именно от GPTBot», — пишут в «Ъ».
Недавно в Роскомнадзоре решили начать блокировать китайский протокол для VPN-сервисов Shadowsocks. Ведомство также ограничивает доступ к «призывам» к обходу государственных блокировок.