Nature News & Views

20240830 LLMs produce racist output when prompted in African American English

jaeheon shin 2024. 8. 30. 17:58

\생명과학 내용은 아니지만, AI와 bias를 공부하기 위해 작성함

 

Large language models (LLMs)는 여러 용도로 이용됨, 그러나 부적절한 답변을 할 수 있음

Hofmann et al.: LLM은 사투리(어투)에 따라 racial prejudices 보인다

 

여러 language technology가 unjust behavior 보임.

Toxicity-detection model: disability를 mention하는 benign text를 toxic 하다고 판단

GPT-3: 무슬림이 언급된 인풋에 대해 violent한 text를 생성

 

이런 behavior는 predictable하다: LLM의 training data는 language technology development에서 배제되는

언어/dialect를 inferior하게 취급

African American English (AAE)도 이에 해당, 'incorrect', 'lazy' English로 취급받음

Speaker를 따져도 Standard American English (SAE)보다 상대적으로 less educated

 

Language model도 AAE와 AAE speaker에 대한 discrimination을 reproduce

예) automatic speech recognition은 white people에 더 잘 적용

예) AAE processing/generating이 SAE보다 어려움

이러한 unjust를 2가지로 연구, 해석

 

1) LLM이 AAE와 speaker에 대한 어떤 stereotype을 만들어내는가?

사회언어학자들이 언어에 대한 stereotype 조사하는 방법

A person who says <TEXT> is ____ 빈칸채우기

텍스트를 AAE로 주었을 때 aggressive, dirty, lazy 등 negative한 반응 확인.

이는 사람을 상대로 실험을 진행한 결과보다 더 negative하게 나온 결과 (거의 시민운동 이전)

The Black person is ____ 를 물어봤을 때에는 artistic, brilliant, passionate 등 (다소 stereotipical but positive)

 

2) language technology의 unjust behavior가 material impact로 전환될 가능성

예) allocation, punishment

model은 AAE text를 요리사, 군인 등과 가장 강하게 연관, 심리학자, 교수 등과 가장 약하게 연관

SAE보다 AAE text가 주어졌을 때 hypothetical defendant로 취급

 

모델이 커질수록 African American에 대한 분명한 stereotype은 덜 보이지만,

AAE와 negative trait을 엮는 경향은 그대로.

Human feedback training을 진행해도 같은 경향성.

 

LLM은 특정 인종에 대한 negative stereotype을 보이지 않으나, AAE에 대한 stigmatization은 한다

AI가 injustice를 reproduce하지 않도록 만드려면 sociohistorical context / literature / culture 등에 대한 이해 필요

 

추가적으로 연구 / 고려해야 할 사항들

1) AAE는 특정 사투리가 아니라 region / group에 따라 다르게 나타나는 어투

서로 다른 종류의 AAE에 대해 동일한 stereotypical 반응을 보이는가?

 

2) 모델이 이러한 sterotype을 어떻게 acquire?

AAE는 주로 spoken form으로 전해지며 written data는 적다, 즉 training data에서 비중 낮다

물론 social post 등으로 비중이 높아졌을 수 있다

그래도, 이 language에 대한 'negative stereotype'은 어디서 오는가?

-AAE 패러디에서 유래했을 수 있음 / 그래도 정확한 조사가 필요

 

3) 현재의 human-feedback training은 AAE에 대한 stereotype 없애기에 부적합.

어떻게 AAE speaker와 community를 '잘' involve하여 training 할 수 있는가?

 

4) Language technology가 minoritized group에게 resource, opportunity allocation시 불공평할 수 있음

AAE speaker는 실제로도 불공평한 employability / criminality

실제 법정에서 바로 쓰이기는 어렵지만 본 연구와 같은 연구를 통해 AAE speaker

/ 그들에 대한 discrimination을 이해하고 적용할 수 있을 것.

 

연구? 아이디어

이 연구조차 black people에 대한 racism을 실험함

Asian / Ginger(이런 말 써도 되나?)에 대한 racism은 다루지 않음.

비슷한 실험을 해볼 수 있을 것