14 февраля 2023, 13:53
Неравная модерационная политика систем OpenAI
Должны ли системы ИИ по-разному относиться к различным демографическим группам?
Недавно я протестировал возможность системы модерации контента OpenAI определять ненавистнические комментарии о различных демографических группах. Результаты моих экспериментов показывают, что она существенно неравным образом относится к некоторым из них: система определяет ряд негативных комментариев о некоторых демографических группах как не ненавистнические, при этом определяя те же самые комментарии о других демографических группах как несомненно ненавистнические.
Автоматическая система модерации контента OpenAI использует машинную модель обучения из семьи GPT, натренированную определять текст, нарушающий контент-политику OpenAI, такой как ненавистнические комментарии или угрозы, призывы к самоповреждению или сексуальные комментарии о несовершеннолетних. Модерация контента OpenAI используется такими продуктами OpenAI, как ChatGPT, а также клиентами OpenAI. Если текстовый запрос или вывод помечается системой модерации, могут быть предприняты корректирующие действия, такие как фильтрация/блокировка контента или предупреждение/деактивация аккаунта пользователя.
Система работает методом присваивания текстам баллов по каждой проблемной категории (ненависть, угрозы, самоповреждение и так далее). Если баллы по категории превышают определённый порог, фрагмент текста, ставший причиной такой классификации, помечается как содержащий проблемную категорию. Чувствительность и специфичность системы (компромисс между ложноположительными и ложноотрицательными результатами) можно регулировать, сдвигая этот порог. Ниже представлен пример вывода об обращении к API модерации контента OpenAI. Баллы по каждой проблемной категории выделены красным:
В этой статье я рассмотрю категории ненависти в системе модерации контента OpenAI. Контент-политика OpenAI чётко указывает, что стремится к предотвращению генерации контента, выражающего, разжигающего или продвигающего ненависть на основе демографической идентичности.
Мои эксперименты крайне просты. Я просто тестирую систему модерации контента OpenAI по набору стандартных демографических групп на основе их пола, национальности/расы, региона происхождения, сексуальной ориентации, религиозной идентичности, политической ориентации/принадлежности, гендерной идентичности, массы тела, инвалидности, уровня образования и социально-экономического статуса.
Я также пользуюсь списком из 356 прилагательных, описывающих негативные черты/поведение, но аналогичные результаты были получены и при использовании других списков негативных прилагательных (EMOTE valence, EMOTE Likeableness, Ideonomy и прочих), размер которых варьируется от маленьких (n=26) до больших (n=820). Результаты очень похожи вне зависимости от набора используемых прилагательных, поскольку различные наборы негативных прилагательных во многом пересекаются.
Я также использую несколько схем предложений для искусственной генерации тысяч потенциально ненавистнических комментариев:
В представленных ниже экспериментах на каждой демографической группе тестировалось 6 764 предложений, содержащих негативные прилагательные об этой группе. Из-за большого размера выборки часто имели значение тесты статистической значимости ANOVA (дисперсионный анализ) и пост-хок тесты с поправкой на множественные сравнения, так как они были рассчитаны на обнаружение очень незначительных различий между демографическими группами. Таким образом, размер эффекта η^2 более информативен, чем статистическая значимость. Я разместил все скрипты и материалы, использованные в приведённых ниже экспериментах, в открытом хранилище.
Результаты
Разное отношение к демографическим группам со стороны системы модерации на основе их пола — один из самых очевидных результатов эксперимента. Негативные комментарии о женщинах с гораздо большей вероятностью помечались как ненавистнические, чем те же комментарии о мужчинах.
Ещё один из показательных результатов экспериментов был связан с идеологической ориентацией и политической принадлежностью. Так, система более снисходительна к ненавистническим комментариям о консерваторах, чем к таким же комментариям о либералах.
Следуя этой тенденции, комментарии о демократах тоже с большей вероятностью помечаются как ненавистнические, чем такие же комментарии о республиканцах.
Работа системы по отношению к демографическим группам в зависимости от их расовой/этнической принадлежности более сбалансирована. Но негативные комментарии о белых или коренных американцах всё ещё с меньшей вероятностью помечаются как ненавистнические, чем негативные комментарии об азиатах или чёрных. Стоит отметить тот факт, что негативный комментарий об афроамериканцах с большей вероятностью будет дозволен, если в нём будет использовано слово «афроамериканец», а не «чёрный».
В том, что касается региона происхождения, негативные комментарии об африканцах, арабах, индийцах или мексиканцах с большей вероятностью помечались как ненавистнические, чем те же негативные комментарии о канадцах, британцах, американцах или скандинавах.
Что до религиозной идентичности, то негативные комментарии о мусульманах, евреях или индусах с большей вероятностью помечались как ненавистнические, чем те же комментарии о христианах, мормонах, атеистах, евангеликах или свидетелях Иеговы.
А в том, что касается сексуальной ориентации, негативные комментарии о сексуальных меньшинствах с несколько большей вероятностью помечались как ненавистнические, чем те же комментарии о гетеросексуальных людях.
Ниже представлены результаты для других демографических групп по признаку массы тела, наличия инвалидности, гендерной идентичности, уровня образования и социально-экономического статуса:
И наконец, чтобы лучше представить себе общую картину я поместил все протестированные демографические группы на одну горизонтальную схему. Вот группы, негативные комментарии в отношении которых система модерации контента OpenAI с большей вероятностью помечала как ненавистнические: люди с инвалидностью, люди гомосексуальной ориентации, этнические меньшинства, нехристианские религиозные ориентации и женщины. Те же самые комментарии с большей вероятностью будут дозволены, если относятся к мужчинам, людям христианской религиозной ориентации (включая меньшинства), представителям титульных наций стран Запада, людям с низким и высоким уровнем образования, а также политически левым и правым людям (но в особенности правым).
Что всё это значит
Общая картина результатов очевидна. Система модерации контента OpenAI часто (но не всегда) с большей вероятностью классифицирует как ненавистнические негативные комментарии о демографических группах, которые считаются ущемлёнными. Важным исключением из общей картины является неравное отношение к демографическим группам на основе их политической ориентации/принадлежности, поскольку здесь допустимость негативных комментариев о консерваторах/республиканцах не может быть оправдана тем, что либералы/демократы систематически ущемляются.
Особенно важным мне кажется то, что рейтинги, отображаемые системой при оценке негативных комментариев о демографических группах, частично совпадают с иерархией предполагаемой «уязвимости» в левых политических идеологиях. То есть левые с большей вероятностью воспринимают некоторые группы меньшинств как ущемлённые и нуждающиеся в особых привилегиях, чтобы побороть эту ущемлённость. Это совпадает с тем, как ChatGPT отвечает на политические вопросы, зачастую проявляя левые политические взгляды, что я также задокументировал ранее.
Эти результаты заставляют задаться вопросом о том, должны ли системы ИИ одинаково воспринимать разные демографические группы или, напротив, должны по-особенному относиться к демографическим группам, которые считаются уязвимыми. И очевидно, что не существует однозначного ответа на вопрос, кто же должен в таком случае определять, какие группы классифицируются как уязвимые.
Да, конечно, некоторые негативные прилагательные могут чаще применяться по отношению к одной демографической группе, чем к другой. Например, мужчины имеют большую склонность к насилию, чем женщины. Но тот факт, что в среднем это происходит с сотнями негативных прилагательных и тысячами негативных предложений, как показано в экспериментах выше, предполагает, что это, скорее, систематическая картина, а не случайная.
Ещё более тревожным кажется то, что различное отношение к демографическим группам основано на мейнстримной политической ориентации. Системы ИИ, которые более снисходительно относятся к комментариям об одной мейнстримной политической группе, чем о другой, выглядят особенно дистопично.
Тот факт, что в OpenAI не заметили существенной асимметрии, представленной выше, или, возможно, заметили эту проблему, но ничего не сделали с ней, тоже вызывает беспокойство. Если её не заметили, значит, где-то в компании существует огромное слепое пятно, созданное чрезмерным вниманием к одним группам в ущерб другим. Если её заметили, но не исправили, это предполагает равнодушие или презрение к демографическим группам, оказавшимся в немилости.
Также важно отметить, что источники большинства представленных здесь предубеждений, возможно, являются непреднамеренными и, скорее всего, органически возникают в результате сложного переплетения институционального корпуса и общественной предвзятости. По этой же причине я бы ожидал похожей предвзятости в фильтрах модерации контента других корпораций Бигтеха.
Однако важно то, как OpenAI реагирует на предвзятость, обнаруженную в их системах. Если они стремятся заставить свои системы ставить в приоритет правду, поддерживая равное отношение, это похвально. Если вместо этого они поддерживают в своих системах неравное отношение к некоторым демографическим идентичностям, это предполагает, что лишение прав попавших в немилость идентичностей настолько не вызывает институционального беспокойства, что дискриминационное отношение к ним негласно допускается.
Впечатляющий скачок производительности больших языковых моделей ИИ говорит о скором и повсеместном коммерческом применении таких систем. Эти технологии будут обладать огромной властью для формирования человеческого восприятия и манипулирования человеческим поведением. И их наверняка попытаются использовать для социального контроля, распространения дезинформации и дискриминации демографических групп.
Время покажет, останется ли OpenAI верен своей миссии «обеспечения того, чтобы искусственный интеллект приносил пользу всему человечеству», или же просто поможет одной половине человечества более эффективно дискриминировать другую.