AI와 우리 사회: NIST의 새로운 대규모 언어 모델 평가 프로그램 ARIA
이미지 출처: CACM
최근 인공지능(AI) 기술의 발전은 우리가 몰랐던 다양한 가능성과 도전과제를 제시하고 있습니다. 이러한 상황에서 미국 국립표준기술연구소(National Institute of Standards and Technology, NIST)은 '대규모 언어 모델(LLM)의 사회적 영향 평가'라는 새로운 프로그램을 시작했습니다.
ARIA 프로그램이란?
NIST는 'AI 평가와 영향평가 프로그램(Assessing Risks and Impacts of AI, ARIA)'을 통해 다양한 AI 기술의 유효성, 신뢰성, 안전성, 보안성, 프라이버시 및 공정성을 평가할 수 있도록 돕고자 합니다. 이 프로그램은 2023년에 발표된 NIST AI 위험 관리 프레임워크(AI RMF)를 기반으로 하여 기존의 평가 방법을 확장하고 새로운 방법론과 평가 지표를 개발할 예정입니다.
프로그램의 작동 방식
ARIA는 LLM 테스트, 적군팀 시험(red teaming), 현장 시험의 세 가지 평가 수준에서 언어 모델을 추적하게 됩니다. 이를 통해 모델의 기술적 성능과 사회적 성능을 모두 평가하게 됩니다.
다양한 평가 방법
- 모델 테스트: 기본적인 모델 성능을 평가합니다.
- 적군팀 시험(레드팀 테스트): 악의적인 사용자가 모델을 사용할 때의 최악의 시나리오를 평가합니다.
- 현장 테스트: 실제 사용자들이 자연스러운 환경에서 AI 모델과 상호작용하면서 데이터를 수집합니다.
현장 테스트 단계는 수천 명의 사용자가 모델을 사용하는 동안의 데이터를 수집하여 모델의 영향을 전반적으로 평가합니다.
잠재적 편향 피하기
카네기멜론대학교의 연산 연구 및 공공정책 조교수인 홀리 위버그(Holly Wiberg)는 “다각적인 접근 방식이 AI 모델의 안전성과 정확성 평가에서 중요한 역할을 할 것”이라고 말했습니다. 그러나 그는 평가 과정에서 주관적인 편향이 발생할 수 있음을 경고했습니다. 따라서 데이터 수집 및 평가 지표의 명확한 정의가 필요합니다.
IEEE의 시니어 멤버이자 Octopyd의 데이터 과학자인 라훌 비슈와카르마(Rahul Vishwakarma)는 "이 프로그램에 참여하는 모든 사람은 데이터 수집 시 주의가 필요하다"고 말했습니다. 그는 또한 "필요할 경우, 정부 기관 및 AI를 사용하는 기업에 ARIA 인증을 의무화하는 것도 신뢰성을 높이는 방법이 될 수 있다"고 제안했습니다.
미래의 평가 방법 확장
NIST의 목표는 ARIA 프로그램을 통해 연구자들이 과학적 환경에서 AI 모델을 평가하고, 실제 세계에서의 영향을 파악하는 것입니다. ARIA의 성과물은 AI 모델과 시스템이 개인, 지역사회 및 사회에 더 유익하도록 돕는 가이드라인, 도구, 평가 방법론 및 측정 방법을 포함할 것입니다.
결론
AI의 활용이 증가하면서, 그 사회적 영향과 위험을 평가하는 것은 필수적인 과제가 되었습니다. NIST의 ARIA 프로그램은 이러한 평가를 위한 중요한 첫걸음이 될 것이며, AI 기술이 우리 사회에 긍정적인 영향을 미칠 수 있도록 방향을 제시할 것입니다.
원본 기사: GAUGING SOCIETAL IMPACTS OF LARGE LANGUAGE MODELS
작성자: 에스더 쉰(Esther Shein)