NIST ARIA 프로그램: 대규모 언어 모델의 사회적 영향 평가 확대

AI와 우리 사회: NIST의 새로운 대규모 언어 모델 평가 프로그램 ARIA

wire structure sphere, illustration
이미지 출처: CACM

최근 인공지능(AI) 기술의 발전은 우리가 몰랐던 다양한 가능성과 도전과제를 제시하고 있습니다. 이러한 상황에서 미국 국립표준기술연구소(National Institute of Standards and Technology, NIST)은 '대규모 언어 모델(LLM)의 사회적 영향 평가'라는 새로운 프로그램을 시작했습니다.

ARIA 프로그램이란?

NIST는 'AI 평가와 영향평가 프로그램(Assessing Risks and Impacts of AI, ARIA)'을 통해 다양한 AI 기술의 유효성, 신뢰성, 안전성, 보안성, 프라이버시 및 공정성을 평가할 수 있도록 돕고자 합니다. 이 프로그램은 2023년에 발표된 NIST AI 위험 관리 프레임워크(AI RMF)를 기반으로 하여 기존의 평가 방법을 확장하고 새로운 방법론과 평가 지표를 개발할 예정입니다.

프로그램의 작동 방식

ARIA는 LLM 테스트, 적군팀 시험(red teaming), 현장 시험의 세 가지 평가 수준에서 언어 모델을 추적하게 됩니다. 이를 통해 모델의 기술적 성능과 사회적 성능을 모두 평가하게 됩니다.

다양한 평가 방법

  1. 모델 테스트: 기본적인 모델 성능을 평가합니다.
  2. 적군팀 시험(레드팀 테스트): 악의적인 사용자가 모델을 사용할 때의 최악의 시나리오를 평가합니다.
  3. 현장 테스트: 실제 사용자들이 자연스러운 환경에서 AI 모델과 상호작용하면서 데이터를 수집합니다.

현장 테스트 단계는 수천 명의 사용자가 모델을 사용하는 동안의 데이터를 수집하여 모델의 영향을 전반적으로 평가합니다.

잠재적 편향 피하기

카네기멜론대학교의 연산 연구 및 공공정책 조교수인 홀리 위버그(Holly Wiberg)는 “다각적인 접근 방식이 AI 모델의 안전성과 정확성 평가에서 중요한 역할을 할 것”이라고 말했습니다. 그러나 그는 평가 과정에서 주관적인 편향이 발생할 수 있음을 경고했습니다. 따라서 데이터 수집 및 평가 지표의 명확한 정의가 필요합니다.

IEEE의 시니어 멤버이자 Octopyd의 데이터 과학자인 라훌 비슈와카르마(Rahul Vishwakarma)는 "이 프로그램에 참여하는 모든 사람은 데이터 수집 시 주의가 필요하다"고 말했습니다. 그는 또한 "필요할 경우, 정부 기관 및 AI를 사용하는 기업에 ARIA 인증을 의무화하는 것도 신뢰성을 높이는 방법이 될 수 있다"고 제안했습니다.

미래의 평가 방법 확장

NIST의 목표는 ARIA 프로그램을 통해 연구자들이 과학적 환경에서 AI 모델을 평가하고, 실제 세계에서의 영향을 파악하는 것입니다. ARIA의 성과물은 AI 모델과 시스템이 개인, 지역사회 및 사회에 더 유익하도록 돕는 가이드라인, 도구, 평가 방법론 및 측정 방법을 포함할 것입니다.

결론

AI의 활용이 증가하면서, 그 사회적 영향과 위험을 평가하는 것은 필수적인 과제가 되었습니다. NIST의 ARIA 프로그램은 이러한 평가를 위한 중요한 첫걸음이 될 것이며, AI 기술이 우리 사회에 긍정적인 영향을 미칠 수 있도록 방향을 제시할 것입니다.

원본 기사: GAUGING SOCIETAL IMPACTS OF LARGE LANGUAGE MODELS
작성자: 에스더 쉰(Esther Shein)

Share this article
Shareable URL
Prev Post

Slack에서 나만의 커스텀 이모지 만드는 법과 꿀팁

Next Post

Navigating the Challenges of AI-Driven Political Disinformation

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

Read next

혼돈 속 평안함: 시계 수리에서 찾은 작은 위로

세기의 혼란 속에서 찾아낸 위안: 시계 수리에 대한 사랑 안녕하세요, 여러분! 요즘 어떻게 지내고 계신가요? 세상은 여전히 혼란스럽고 어지러운 것 같습니다. 어디를 둘러봐도 정치적인 불안과 기술적인…