바른 한글 구사 인공지능 학습용 데이터셋 ‘K-StereoSet’ 공개

바른 한글 구사 인공지능 학습용 데이터셋 ‘K-StereoSet’ 공개

서울대 윤성로 교수 연구팀, 한글날 맞아 한국어 언어 모델의 사회적 편향 진단을 위한 데이터셋 발표

서울대학교 전기정보공학부 윤성로 교수 연구팀이 한글날을 맞아, 한국어 언어 모델의 사회적 편향(social bias) 진단을 위한 인공지능(AI) 학습용 데이터셋 ‘K-StereoSet를 공개했다. 

인공지능의 사회적 편향은 미래 인공지능 연구에서 전 세계적으로 중요한 키워드다. 국내에서도 올해 초 인공지능 기반 한국어 챗봇인 ‘이루다’로부터 성소수자, 인종, 장애인 등에 대한 차별 및 혐오성 표현이 발견돼 화제가 된 바 있다. 

또한, 최근 4차산업혁명위원회와 과학기술정보통신부가 인간성을 위한 인공지능의 3대 원칙 중 하나로 ‘인간의 존엄성 원칙’을, 10대 핵심 요건 중 하나로 ‘다양성 존중’을 제시했을 만큼 윤리적인 인공지능에 대한 중요성이 커지고 있다. 

이런 문제의식 하에 윤성로 교수팀이 이번에 공개하는 K-StereoSet’은 영어 언어 모델의 사회적 편향을 진단하기 위해 MIT에서 공개한 ‘StereoSet’의 개발셋(development set)을 기반으로 한국적 현실에 맞춰 보완 개발한 것으로, 앞으로 지속적으로 확장될 예정이다. 
 

▲ 연구를 진행한 서울대학교 윤성로 교수 연구팀 (사진출처=서울대학교)

약 4000개의 샘플로 구성된 원본 데이터셋은 먼저 네이버 파파고 API를 통해 1차적으로 번역한 후 다수 연구원이 독립적으로 번역 내용을 검수했다. 원래의 샘플 양식과 취지를 보존하도록 후처리(post-processing)를 진행해 구축됐다. 

데이터 내 사회적 편향의 분야는 성별, 종교, 직업, 인종 총 네 가지 항목으로 구성돼 있으며, 편향성 진단을 위한 샘플 양식은 두 개의 카테고리로 분류돼 있다. 

첫 번째는 문장 내 편향 진단 테스트를 위한 ‘intrasentence’ 양식이다. 빈칸 처리된 문장이 주어졌을 때 빈칸에 채워질 내용으로서 세 개의 보기 중 어느 것에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 한 문장 안에서 ‘심리학자’라는 직업의 사람이 ‘독선적’이라는 편향을 가졌는지를 확인할 수 있다. 

두 번째는 문장 간 편향 진단 테스트를 위한 ‘intersentence’ 양식이다. 앞 문장(context)이 주어졌을 때 다음 문장으로서 세 개의 선택지가 주어지며 이들 중 어떤 문장에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 사람이 ‘히스패닉’이라는 문맥이 주어졌을 때, 다음 문장에서 그 사람이 ‘불법적인 시민’이라는 편향을 가졌는지 확인할 수 있다. 

연구 책임자인 윤성로 교수는 “인공지능 기반의 한국어 언어 모델이 고도화되고 사업화될수록 윤리성 확보 및 편향성 제거를 위한 노력이 핵심적이며, 한글날을 맞아 보다 바른 한글을 구사하는 인공지능 기술 개발을 위해 K-StereoSet가 작지만 의미 있는 첫걸음이 되기를 기대한다”고 밝혔다.  

​글. 김효정 기자 needhj@naver.com | 사진 및 자료출처 = 서울대학교

ⓒ 브레인미디어 무단전재 및 재배포 금지

인기 뉴스

설명글
인기기사는 최근 7일간 조회수, 댓글수, 호응이 높은 기사입니다.