AI 벤치마크, 온전히 신뢰할 수 있을까

IT동아

2025.04.16 20:08:59

조회 110 추천 0 댓글 0

[IT동아 김예지 기자] 인공지능(AI) 벤치마크는 특정 기준에 따라 다양한 AI 모델의 성능을 비교·평가하는 도구다. 개발자 및 사용자는 벤치마크로 측정된 AI 모델의 역량을 파악하고, 이를 토대로 활용 방안을 모색하거나 개선점을 찾을 수 있다.

Humanity

일반적으로 AI 벤치마크는 ▲평가 대상 영역을 대표하는 선별된 ‘데이터셋’ ▲AI 모델이 해결해야 하는 ‘과제’ ▲성능을 평가하는 ‘지표’ ▲공정한 비교를 위한 표준화 절차로 구성된다. 벤치마크의 영역별 지표에는 번역, 언어 모델링, 질의응답, 코드 생성, 컴퓨터 비전, 효율성 및 시스템, 수학 등이 있다.

AI 벤치마크, 계속 새롭게 등장하는 이유는?

주요 AI 벤치마크로는 언어 이해 능력을 종합적으로 평가하는 ▲MMLU-pro(다중 작업 언어 이해) ▲Humanity’s Last Exam(광범위한 주제에 대한 학술 벤치마크) ▲GLUE/SuperGLUE(일반 언어 이해) ▲Big-Bench(범용 능력) ▲HellaSwag(상식 추론 능력) 등이 있다. 또한 수학 능력 평가에는 ▲AIME 2024(미국 수학 경시대회) ▲MATH-500(수학 올림피아드 문제) 등이 활용되며, 코딩 능력 평가에는 ▲LiveCodeBench(고품질 코딩 문제) ▲SWE-Bench ▲HumanEval(오픈AI의 코딩 벤치마크) ▲ScicCode 등이 활용된다.

최근 AI 에이전트가 화두로 떠오르면서 에이전트의 자율적인 작업 수행 능력을 평가하는 벤치마크도 개발되고 있다. ▲DABStep ▲AgentBench ▲ToolBench ▲WebArena ▲Raga AI 프레임워크 ▲페이퍼벤치(오픈AI) 등이 대표적이다. 더불어 의료, 법률, 금융, 소프트웨어 공학 등 특정 분야의 성능 평가를 위한 벤치마크도 다양하다. 예컨대, 지난 13일 구글 연구팀이 발표한 대형언어모델(LLM) 문제 해결 능력 평가 벤치마크 ‘큐리(CURIE)’는 양자컴퓨팅 등 첨단 과학 분야에 특화됐다.

MLPerf Inference v5.0 그래프, 라마 2 70B 모델 벤치마크 채택률(제출자 수 및 결과 수)이 증가하고 있다 / 출처=ML커먼스

그렇다면 다양한 벤치마크가 계속 새롭게 개발되는 이유는 무엇일까. 이는 사용자가 AI 모델에 기대하는 성능이 각기 다르기 때문이다. 결국 본인에게 맞는 모델을 찾으려면 그에 적합한 벤치마크가 필요하다. 서로 다른 목표를 가진 과제는 근본적으로 다른 지표와 측정 방식을 요구한다.

또 다른 이유는 기존의 벤치마크가 한계를 갖기 때문이다. AI 모델은 추론, 멀티모달 처리, 코딩 등 영역에서 지속적으로 발전하고 있다. 이로 인해 과거에는 어려웠던 과제들이 상대적으로 쉬워지면서 기존 벤치마크로는 최신 모델을 평가하는 데 불충분하다. 과거에 공개된 AI 벤치마크가 다른 버전이나 새로운 분야로 확장돼 나오는 것도 이러한 이유 때문이다. 예컨대, 머신러닝 성능을 평가하는 ‘MLPerf’는 생성 AI의 추론 효율성을 평가하기 위해 ‘MLPerf Inference v5.0’이라는 최신 벤치마크를 선보였다.

특히 AI 모델이 복잡한 추론 모델로 진화하는 과정에서 벤치마크 또한 큰 진전이 있었다. 추론 모델은 사고 과정에서 추가적인 컴퓨팅 자원을 소모해 응답 정확도를 높이는 방식으로, 수학과 코딩에 강점을 갖는다. 과거에는 모델 성능 향상을 위해 주로 스케일링 법칙에 기반한 방법이 사용됐지만, 추론 모델은 이와 다른 새로운 패러다임을 제시했다. 높은 수준의 지식과 추론 능력이 요구되는 AI 에이전트 벤치마크에서 추론 모델은 우수한 평가를 받는다.

AI 벤치마크 결과, 100% 신뢰는 금물

AI 성능을 평가할 때 벤치마크는 중요한 기준이 되지만, 그 결과를 해석할 때는 신중해야 한다. 기업은 원하는 AI 성능에 부합하는 벤치마크를 참조하되, 여러 벤치마크 결과를 종합적으로 비교해볼 필요가 있다. AI 벤치마크가 실제 환경과 동떨어진 결과를 보여줄 수 있기 때문이다. 또한 개발자가 특정 벤치마크에 유리하도록 알고리즘을 조정하는 사례가 발생하면서 벤치마크의 정확성에 대한 의문이 제기된 것도 한몫한다. 최근 메타는 ‘라마 4(Llama 4)’에 대한 성능 과장 의혹을 받은 바 있다. 일부 기업이 자사의 AI 모델 성능을 부각하기 위해 유리한 벤치마크 결과만을 선별적으로 공개하면서 지표 자체의 신뢰도를 스스로 떨어뜨렸다는 비판도 있다.

김지수 올거나이즈코리아 팀장 / 출처=IT동아

AI 모델의 벤치마크 결과는 실제 운영 환경에서의 데이터 또는 프롬프트 차이로 인해 달라질 수 있다. 지난 11일 산업교육연구소가 주최한 ‘딥시크 분석을 통한 AI 기술 개발을 위한 새로운 기회 세미나’에서 김지수 올거나이즈코리아 팀장은 “벤치마크는 실제 성능을 100% 대표할 수는 없다. 벤치마크에서 높은 점수를 받은 AI 모델도 실제 사용 시 부정확한 답변을 내놓을 수 있다”고 지적했다. 그러나 그는 “그럼에도 불구하고 이러한 벤치마크들이 계속 등장하는 이유는 넓은 범위에서 모델의 성능과 수준을 파악하기 용이하고, 사용자가 원하는 작업에 어떤 모델이 필요한지에 대한 가이드라인으로 충분히 활용할 수 있기 때문”이라고 덧붙였다.

따라서 기업은 벤치마크가 실제 환경을 얼마나 잘 반영하는지, 그리고 수행된 과제가 실제 비즈니스 상에서 결과를 반영하는지 등을 확인하는 것이 강조된다. 김지수 팀장은 “고객사들이 어떤 모델을 선택할 지 도움을 줄 때 벤치마크 결과를 바탕으로 정성적으로 평가를 해보도록 권장하며, 특정 업무에 사용할 AI 모델의 성능을 평가하기 위해 최소 50개 정도의 평가용 데이터셋(Evaluation Data)을 구축해 직접 평가해보라고 조언한다”고 말했다.

이어 그는 “이렇게 하면 빠르게 변화하는 AI 모델을 신속하게 평가하는 데 유리하다. 요즘 추세를 보면 매달, 매주 새로운 모델이 출시되고 있으며, 모델은 이전 세대 모델을 능가하는 성능을 동일한 가격에 제공하는 경우가 많다. 기업들이 자사의 워크플로우에 새로운 AI 모델을 도입하려는 경우, 바로 적용되는지 테스트를 할 수 있어야 하기 때문에 이러한 데이터셋이 꼭 필요하다”고 설명했다.

김지수 팀장은 “올거나이즈는 LLM뿐만 아니라 에이전트, 금융, 검색증강생성(RAG), 리더보드 등 다양한 파이프라인을 제공하고 있다. 모든 엣지 케이스를 포괄적으로 검증하기 위해 자체적으로 데이터셋을 구축해 모델 평가에 활용하고, 고객에게 적합한 모델을 개발 및 추천하기 위해 노력한다”고 말했다. 또한 “올거나이즈가 개발한 LLM 알파 모델은 동급 파라미터에서 경쟁력 있는 점수를 기록하고 있으며, 3B 모델은 오픈소스로 공개할 예정”이라고 덧붙였다.

AI 벤치마크는 초기 단순한 과제 수행 능력 측정에서 시작해 점차 복잡하고 다면적인 평가 방식으로 진화해왔다. 새로운 패러다임의 등장은 AI 기술의 빠른 발전 속도와 더불어 새로운 벤치마크가 지속적으로 개발되게 하는 주요 동력이다. 기술적인 벤치마크는 필수적이지만, AI 모델의 최종 척도는 실제 환경에서의 신뢰성과 유용성에 달렸다. 데이터 오염을 방지하고 벤치마크 신뢰도를 높여 추상적인 지표와 실질적인 가치 사이의 간극을 좁혀나가는 노력은 지속될 것으로 전망된다. 기업은 벤치마크를 적절히 참고하되 자사의 목표에 맞춰 효율적으로 활용하는 방안을 모색해야 한다.

IT동아 김예지 기자 (yj@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)

▶ [주간스타트업동향] 넥스트페이먼츠, 모네리스와 파트너십 체결 外 ▶ 김성훈 업스테이지 대표, "워크 인텔리전스로 일하는 방법, 새로운 방향 만들겠다"▶ 코헤시티 “백업 솔루션 넘어 AI 데이터 분석 기업으로 도약”

고정닉 0

원본 첨부파일 3본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	술 마시면 실수가 많을 것 같은 스타는?	운영자	25/04/14	-	-
5177	[생성 AI 길라잡이] '인공지능으로 더 멋진 문서를 만든다' 캔바 비주얼 스위트 2.0	IT동아	04.18	35	0
5176	모양이 비슷한 도로표지판 의미 살펴보니	IT동아	04.18	304	0
5175	[리뷰] 게이밍 노트북∙태블릿이 하나로, 에이수스 ROG 플로우 Z13(GZ302)	IT동아	04.18	38	0
5174	[IT하는법] 스마트폰 속의 민증, '모바일 신분증' 만드는 법	IT동아	04.18	63	0
5173	[KESIA 프리팁스] 레졸루션, 'AI 기반 PCB 비전 검사'로 제조혁신 돕는다	IT동아	04.18	44	0
5172	[크립토퀵서치] 미국 관세 정책에 가상자산 시장이 요동치는 이유는?	IT동아	04.18	36	0
5171	“청년 창업 허브 넘어 메카로 성장시킬 것” 손문규 강동구 청년해냄센터 센터장	IT동아	04.18	42	0
5170	SBA·한국문화예술위원회, 예술·기술 융복합 및 산업 거점 활성화에 맞손	IT동아	04.18	45	0
5169	SBA 서울창업허브 “초격차 개방형 혁신, 스타트업 세계화”	IT동아	04.18	47	0
5168	이용자 편의성 강화하는 가상자산 거래소	IT동아	04.17	82	0
5167	[월간자동차] 25년 3월, 신차 등록 증가세…기아 쏘렌토 5개월 연속 판매 1위	IT동아	04.17	5183	0
5166	“인공지능으로 창작 방식 재정의할 것” 로버트 카왈스키 캔바 제품 총괄	IT동아	04.17	78	0
5165	[서평] 인생 선배가 전하는 현실적인 조언과 격려 - [동 트기 전 새벽이 가장 어둡다]	IT동아	04.17	68	0
	AI 벤치마크, 온전히 신뢰할 수 있을까	IT동아	04.16	110	0
5163	[주간스타트업동향] 넥스트페이먼츠, 모네리스와 파트너십 체결 外	IT동아	04.16	137	0
5162	김성훈 업스테이지 대표, "워크 인텔리전스로 일하는 방법, 새로운 방향 만들겠다"	IT동아	04.16	105	0
5161	55인치 실내 디스플레이·에어 라이드 서스펜션 탑재…‘더 뉴 에스컬레이드’ 출시	IT동아	04.16	311	0
5160	[IT애정남] 지원 종료 앞둔 윈도 10, 계속 써도 되나요? [1]	IT동아	04.16	2302	1
5159	미국 반도체ㆍIT 기기 관세 면제? 분류만 바뀔 뿐, 달라진 것은 없었다	IT동아	04.16	135	0
5158	[ETF/퇴직연금 Q&A] 퇴직연금으로 투자할 수 없는 ETF	IT동아	04.16	4931	0
5157	“가상자산 산업, 명확한 업 구분과 그에 따른 합리적인 규제 필요”	IT동아	04.16	96	0
5156	코헤시티 “백업 솔루션 넘어 AI 데이터 분석 기업으로 도약”	IT동아	04.16	93	0
5155	월드, ‘프리 플래그십’ 팝업 오픈···오브·월드ID 체험 기회 제공	IT동아	04.15	132	0
5154	[자동차와 法] 첨단 교통단속 기술의 빛과 그림자	IT동아	04.15	131	0
5153	[기고] AI와 미래 산업기술 - 1. AI 시대를 맞는 전통 산업 엔지니어의 '뉴 마이웨이'	IT동아	04.15	571	0
5152	재부팅ㆍ소프트웨어 종료 불편함 없이 PC 1대로 여럿이 쓰고 싶다면 이렇게! [이럴땐 이렇게!]	IT동아	04.14	172	0
5151	경량 스포츠카 제조사 ‘로터스’ 77년 역사 장식한 슈퍼카 살펴보니 [5]	IT동아	04.14	2585	1
5150	[뉴스줌인] 카톡에 사진/문서 올려 프린터 출력, '엡손 프린톡' 이모저모	IT동아	04.14	149	0
5149	[투자를IT다] 2025년 4월 2주차 IT기업 주요 소식과 주가 흐름	IT동아	04.14	134	0
5148	[기고] 인테리어와 IT기술의 융합 - '잇테리어'의 시대	IT동아	04.14	5162	1
5147	퓨리오사AI 찾은 이재명 전 당대표, "AI 현장에서 새로운 희망이 보인다"	IT동아	04.14	139	0
5146	[생성 AI 길라잡이] 해커인 척 LLM 취약점 찾아낸다, AI 레드팀 [1]	IT동아	04.11	7720	0
5145	[리뷰] 눈까지 즐거운 야외용 블루투스 스피커, 브리츠 BZ-MG9	IT동아	04.11	266	0
5144	[KESIA 프리팁스] 바이브에이아이 “SaaS 기반 개인화 AI 서비스로 글로벌 공략”	IT동아	04.11	252	0
5143	[생활 속 IT] 동네 전문가, 카카오맵으로 찾는다	IT동아	04.11	211	0
5142	[민원제로] 1. "제가 그 유명한 진상 민원인입니다만...!"	IT동아	04.11	208	0
5141	씨너렉스 “확장성 뛰어난 ‘초정밀 위성항법 장치’로 자율주행 시대 맞이할 것” [2]	IT동아	04.11	4834	1
5140	농림축산식품부, '농촌융복합 창업 활성화' 사업으로 가치 혁신 나선다	IT동아	04.11	212	0
5139	세종미래경제포럼 “지산학연 고도화, 지역 상생 산업계 구축”	IT동아	04.11	168	0
5138	[생활 속 IT] 라인에서 실시간 통역 기능 사용하는 방법	IT동아	04.10	1930	1
5137	AI로 무장한 이통3사, 보이스피싱 탐지 기술 강화한다	IT동아	04.10	185	0
5136	자동차 보험 비교 2.0 써보니··· '실결제 가격 오차범위 내로 줄어'	IT동아	04.10	177	0
5135	[IT애정남] 파일이 열려 있어 작업을 완료하지 못할 때 해결법은? [2]	IT동아	04.10	952	1
5134	무선 게이밍 기어로 게임 즐기려면 ‘지연 시간’이 중요하다	IT동아	04.10	169	0
5133	[생활 속 IT] 직접 만들어 본 카카오톡 펑, 쓸모 있는 기능일까?	IT동아	04.10	1973	0
5132	델, ‘AI 레디’ 서버 및 스토리지 신제품 다수 선보여	IT동아	04.09	1939	0
5131	[신차공개] BMW ‘뉴 i4 eDrive40’·KGM ‘토레스 EVX ALPHA’ 출시	IT동아	04.09	2019	1
5130	업비트·빗썸, 가상자산 시장 회복으로 2024년 실적 개선	IT동아	04.09	171	0
5129	[주간스타트업동향] 팜스태프, 농산물 부가가치 높인 ‘하토마 잼’ 출시 外	IT동아	04.09	171	0
5128	[IT하는법] 일회성으로 전화번호 저장할 땐, '태그 추가'로 해결하자	IT동아	04.09	207	0
뉴스	‘임창정 아내’ 서하얀, 새 출발 소식 알렸다…“1년 전 시작된 여정”	디시트렌드	10:00