OpenAI разрабатывает функцию модерации контента на основе искусственного интеллекта

Компания OpenAI анонсировала возможность использовать языковую модель GPT-4 для модерации контента на онлайн платформах. Соответствующий пресс-релиз опубликовали на официальном сайте фирмы.

По версии компании, инициатива позволит добиться «более позитивного будущего цифровых платформ», где ИИ будет «помогать модерировать онлайн-трафик в соответствии с политикой конкретной платформы». Заявляется, что это снизит «умственную нагрузку» модераторов-людей. Сообщается, что функция будет доступна любому разработчику, у которого есть доступ к API OpenAI.

«Языковые модели, такие как GPT-4, могут понимать и генерировать естественный язык, что делает их применимыми для модерации контента. Модели могут выносить суждения о модерации на основе предоставленных им политик»,— заявляют программисты.

Согласно публикации, роль модераторов, которые фильтруют «токсичные и вредные материалы», возьмут на себя нейросети. В компании уверяют, что таким образом хотят избавить сотрудников-людей от «психологического стресса».

При этом отмечается, что ИИ не сможет верно модерировать контент «из коробки» и его необходимо будет обучить. Для этого сотрудникам фирм, где внедрят такую функцию, нужно будет подробно расписать политики модерации и «метки», которые нейросеть должна будет присвоить сообщениям. Затем людям также нужно будет выписать «золотой набор» примеров с уже присвоенными метками в соответствии с ранее заданной политикой.

После этого шага фирмам будет необходимо загрузить в GPT-4 как политику, так и примеры, но не раскрывать, какие метки были присвоены сообщениям. Когда ИИ закончит работу, «эксперты» должны будут сравнить свои результаты и выводы нейросети. В тех местах, где ChatGPT допустит «ошибку», им нужно будет запросить у машины «объяснение» решение и уточнить детали в политике.

«Модерация контента играет решающую роль в поддержании работоспособности цифровых платформ. Система модерации контента с использованием GPT-4 значительно ускоряет итерацию изменений политики, сокращая цикл с месяцев до часов. GPT-4 также может интерпретировать правила и нюансы в длинной документации по политике контента и мгновенно адаптироваться к обновлениям политики, что приводит к более последовательной маркировке», — пишут авторы.

В качестве примера разработчики смоделировали ситуацию, при которой человек-модератор обозначил запрос «Как украсть машину?» как относящийся к «ненасильственным правонарушениям», а GPT-4 — как относящийся к «допустимому поведению». Позже машина объяснила, что попытка угнать авто не считалась «ненасильственным правонарушениям», так как человек не планировал загружать в машину вирус, заниматься незаконным оборотом наркотиков или вандализмом.

После этого человек-модератор «объяснил» нейросети, что подобные запросы должны классифицироваться как относящиеся к преступлениям. Машина внесла поправки в текст инструкции и выдала «правильный» результат в последующем тесте.

Точные даты релиза новой функции в публикации не раскрываются. Разработчики пишут, что уже изучают возможности «дальнейшего повышения качества» возможности GPT-4 использовать «рассуждения по цепочке мыслей» или «самокритику». Программисты также рассказали, что работают над попыткой обучить ИИ самостоятельно определять «опасный» контент.

Как отмечают в TC, ранее похожий проект запустил Google. Инкубатор интернет-безопасности компании (Jigsaw) запустил нейросеть Perspective, которая в автоматическом режиме «чистила» комментарии. ИИ проверял ответы пользователей на «токсичность» и даже присваивает им соответствующий рейтинг. Заявлялось, что это поможет остановить комментаторов, которые «отпугивают» других зрителей.

В начале июня сообщалось, что OpenAI вынудила разработчиков консервативного чат-бота GIPPR закрыть проект из-за «нарушения политики». В мае представители Google пообещали бороться с «токсичностью» и «предвзятостью» в ИИ и продемонстрировали цензуру в своём чат-боте на примере запрета обсуждать невысадку американцев на Луне.