디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

통신사용 AI 평가하는 ‘오픈 텔코 LLM 벤치마크’ 공개

IT동아갤로그로 이동합니다. 2025.03.10 21:31:54
조회 73 추천 0 댓글 0
[IT동아 김예지 기자] 세계 통신사들이 만든 인공지능(AI) 모델을 평가하기 위한 벤치마크가 공개됐다. 지난 2월 25일 세계이동통신사업자연합회(GSMA)가 발표한 ‘GSMA 오픈 텔코 LLM 벤치마크(Open-Telco LLM Benchmarks)’다.

이는 지난 3월 3일부터 나흘간 스페인 바르셀로나에서 열린 세계 최대 모바일 전시회 ‘모바일 월드 콩그레스 2025(MWC 2025)’에 앞서 발표됐다. 이 벤치마크를 주도하는 기업에는 SKT, LG유플러스를 비롯해 도이치 텔레콤, 툭셀, 화웨이 등이 있다.


벤치마크는 하드웨어 및 소프트웨어, 시스템, 기기 등의 성능을 측정 및 비교하기 위한 평가 도구다 / 출처=셔터스톡



벤치마크는 하드웨어 및 소프트웨어, 시스템, 기기 등의 성능을 측정 및 비교하기 위한 평가 도구다. 이번에 공개된 벤치마크는 기존의 일반적인 AI 평가 도구와 차별된다. GSMA는 통신사의 독특한 요구 사항 및 사용 사례를 반영하도록 설계됐다고 설명한다.

GSMA 오픈 텔코 거대언어모델(LLM) 벤치마크는 기존의 LLM이 통신 관련 작업을 수행하는 데 어려움을 겪는다는 점에서 출발했다. 챗GPT, 라마, 미스트랄, 큐웬 등 AI 모델이 3GPP 사양, ITU 지침 등 표준과 정책, 네트워크 관련 기술 작업을 수행하지 못한다는 것. SKT의 텔벤치(TelBench) 연구에 따르면, 기존 LLM은 통신 고객 서비스와 기술 질의 분야에서 성과가 낮고, 업계별 용어를 다루는 데 어려움을 겪는 것으로 나타났다.


SKT는 텔코 LLM 성능 평가를 위한 텔벤치를 소개했다 / 출처=SKT



지난해 SK AI 서밋에서 이선우 SKT 데이터 구축/평가 팀장은 “LLM 상담사 등 상용화 사례를 통해 어떤 기능을 우선으로 학습시켜야 하는지 인사이트를 얻을 수 있다. SKT가 만든 텔벤치는 실제 사례를 기반으로 하는 벤치마크 데이터셋을 통해 포괄적인 성능에 대한 평가가 가능하도록 설계했다”며, “비즈니스 맥락을 이해할 수 있도록 설계한 평가 데이터 ‘텔테스크(TelTask)’와 도메인 기본 역량 및 추론 능력 평가 데이터 ‘텔인스트럭트(TelInstruct)’를 바탕으로 기존 LLM을 평가한 결과, 통신 서비스명, 비즈니스 맥락을 이해하지 못했다”고 말했다.

이러한 배경에서 공개된 오픈 텔코 LLM 벤치마크는 실제 통신 문서 및 규정 준수 시나리오를 기준으로 AI 모델을 평가한다. 프레임워크가 오픈소스로 제공되는 만큼, 통신 분야에서 생성 AI를 도입하는 사업자로부터 의견이 수용된다. 예컨대, 이동통신망 운영, 고객 서비스 자동화, 네트워크 관리 등 주요 업무에서 LLM이 효과적으로 작동하는지 평가한다. 특히 통신사 데이터의 처리와 보안에 대한 적합성, 언어 다양성, 실시간 응답 속도 등도 주요 평가 항목에 포함된다.

덕분에 이는 통신 산업 전반에 걸쳐 LLM의 효율성 및 품질을 측정하는 기준이 될 것으로 기대된다. GSMA는 “통신사가 AI 솔루션을 선택하거나 기존 시스템을 최적화하는 데 중요한 지침 역할을 할 전망”이라고 말했다.


오픈AI의 GPT-4 및 GPT-3.5 터보 모델이 각각 평균 점수 56.96, 51.44를 획득해 가장 높은 순위를 차지했다 / 출처=GSMA 오픈 텔코 LLM 벤치마크



오픈 텔코 LLM 벤치마크는 ▲TeleQnA(통신 도메인 지식 및 기술적 이해) ▲3GPPTdocs 분류(표준 이해 및 문서 구문 분석) ▲MATH500(수학적 추론 및 모델링) ▲FOLIO(논리 및 추론) 등 4가지 핵심 데이터셋을 사용해 AI 모델을 평가했다.

허깅 페이스에 공개된 결과에 따르면, 오픈AI의 GPT-4 및 GPT-3.5 터보 모델이 각각 평균 점수 56.96, 51.44를 획득해 가장 높은 순위를 차지했다. 그러나 통신 표준 이해에서는 어려움이 있었다. 또한 메타의 라마 3-8B-인스트럭트 모델은 평균 점수 40.38로 통신 도메인 점수는 높았지만, 역시 표준 이해 부문에서 점수가 낮았다. 이외에 미스트랄, 마이크로소프트 Phi-2 등 소형 모델은 20점대의 낮은 점수를 기록해 통신 AI에 적합하지 않다는 결과가 나왔다.

향후 오픈 텔코 LLM 벤치마크는 4가지 데이터셋을 넘어 ▲네트워크 문제 해결 ▲에너지 효율성 ▲안전 ▲사업자 중심 사용 사례 등 주요 산업 우선순위에 따라 AI 모델을 평가함으로써 실제 통신 과제를 해결한다. 이는 오픈소스로 제공돼 폐쇄적·독점적 AI 평가 도구와 달리 공정성을 확보, 지속 개선해 나간다는 계획이다.

한편, 여기에는 몇 가지 우려도 공존한다. 먼저 AI 모델을 평가하기 위한 고품질의 데이터가 충분하지 않아 효과적인 활용이 어려울 수 있다는 점이다. 또한 평가 결과에서 높은 점수를 받더라도 실제 사례에서 발휘되는 성능과 차이를 보일 수 있다. 결국 오픈 텔코 LLM 벤치마크의 출범은 통신 산업에서 AI 모델의 성능을 개선을 위한 중요한 걸음이지만, 현실적인 접근 방식을 통해 한쪽으로 치우치지 않도록 주의하면서 동시에 꾸준한 성능 향상이 필요해 보인다.

IT동아 김예지 기자 (yj@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ [투자를IT다] 2025년 3월 1주차 IT기업 주요 소식과 주가 흐름▶ MWC 2025 무대 선 통신장비사, 주목한 AI 기술 살펴보니▶ CIT, MWC 2025서 유리기판-구리 증착 기술, 투명 안테나·디스플레이 선보여



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 매니저들에게 가장 잘할 것 같은 스타는? 운영자 25/03/10 - -
4998 [민관협력 오픈이노베이션 지원사업] 밀리어스 “CJ온스타일의 브랜딩 전략 구축 지원받아 세계 진출 발판 마련한 밀리밀리” IT동아갤로그로 이동합니다. 10:57 7 0
4997 [리뷰] “고부하 작업과 게이밍 사이의 조화” AMD 라이젠 9 9950X3D IT동아갤로그로 이동합니다. 00:38 28 0
4996 연세퀀텀컴플렉스 개소…양자컴퓨팅 미래 앞당길까 IT동아갤로그로 이동합니다. 03.11 29 0
4995 [시승기] 더 커진 차체와 첨단 기술 앞세워 돌아온 ‘신형 팰리세이드’ IT동아갤로그로 이동합니다. 03.11 37 0
4994 LG∙삼성의 가전 구독 서비스, 기존 렌탈∙할부와의 차이점은? [1] IT동아갤로그로 이동합니다. 03.11 557 0
통신사용 AI 평가하는 ‘오픈 텔코 LLM 벤치마크’ 공개 IT동아갤로그로 이동합니다. 03.10 73 0
4992 일상 속 RFID의 쓰임새, 그리고 차단 기술의 원리는? [1] IT동아갤로그로 이동합니다. 03.10 1892 0
4991 아이폰 실수로 전화 걸기 방지하려면 이렇게! [이럴땐 이렇게!] IT동아갤로그로 이동합니다. 03.10 82 0
4990 [주간투자동향] 젠젠에이아이, 120억 원 규모 시리즈A 투자 유치 外 [1] IT동아갤로그로 이동합니다. 03.10 499 0
4989 [리뷰] 썬더볼트 기능에 뛰어난 화질까지, 델 울트라샤프 U2725QE IT동아갤로그로 이동합니다. 03.10 72 0
4988 [생성 AI 길라잡이] “인공지능 생성 결과물로 나만의 콘텐츠 만들자” 캔바 [2] IT동아갤로그로 이동합니다. 03.07 6937 2
4987 [신차공개] 볼보, 차세대 전기 세단 ‘ES90’·KGM 첫 HEV ‘토레스 하이브리드’ 공개 IT동아갤로그로 이동합니다. 03.07 165 0
4986 [투자를IT다] 2025년 3월 1주차 IT기업 주요 소식과 주가 흐름 IT동아갤로그로 이동합니다. 03.07 151 0
4985 [리뷰] 비밀번호 없이 안면 인식으로 열린다, 직방 헤이븐 도어록 [11] IT동아갤로그로 이동합니다. 03.07 4833 1
4984 [생활 속 IT] 내 위치 실시간 공유, 카카오맵 ‘위치 공유’ IT동아갤로그로 이동합니다. 03.07 142 0
4983 [IT애정남] 대중화 시작된 와이파이 7, 어떻게 구축하고 쓰나요? IT동아갤로그로 이동합니다. 03.07 184 0
4982 람보르기니, 우라칸 후속 920마력 HPEV 슈퍼카 ‘테메라리오’ 공개 [1] IT동아갤로그로 이동합니다. 03.06 545 1
4981 MWC 2025 무대 선 통신장비사, 주목한 AI 기술 살펴보니 IT동아갤로그로 이동합니다. 03.06 204 0
4980 [리뷰] 음식물 처리기를 백색 가전 반열로, '이롭 더 그레블' [1] IT동아갤로그로 이동합니다. 03.06 788 0
4979 SBA, 높아지는 美 보호무역 대응 위한 '제재 준수 프로그램' 등 지원 나서 IT동아갤로그로 이동합니다. 03.06 541 0
4978 스타트업 투자 유치 프로젝트 '와우데이' 개최... 유망 스타트업과 투자자 연결의 장 IT동아갤로그로 이동합니다. 03.06 137 0
4977 [ETF 기본기 다지기] ETF 상품 선택 시 고려해야 할 3가지 IT동아갤로그로 이동합니다. 03.06 133 1
4976 [리뷰] “가격과 성능 둘 다 잡았다” AMD 라데온 RX 9070 시리즈 [3] IT동아갤로그로 이동합니다. 03.06 2679 4
4975 "장비 가리지 않고 개인정보 지킨다" 노드시큐리티, 한국 개인 보안 시장 정조준 IT동아갤로그로 이동합니다. 03.06 151 0
4974 [생활 속 IT] 아이폰 기본 메모에서 실시간 공동 작업하려면 [1] IT동아갤로그로 이동합니다. 03.05 4968 2
4973 [주간스타트업동향] 조윈, 암 환우 심리상담 앱 '캔서포트' 정식 출시 外 IT동아갤로그로 이동합니다. 03.05 147 0
4972 “스테이블코인 규제, 금융 안정 고려해야” IT동아갤로그로 이동합니다. 03.05 150 0
4971 함기호 AWS 코리아 대표, "AI의 IT 이점을 비즈니스 이점으로 가져가야" IT동아갤로그로 이동합니다. 03.05 219 0
4970 SBA, 초격차 스타트업 대상 '제1회 버티컬 AI 챌린지·제2회 온디바이스AI 챌린지' 공모 IT동아갤로그로 이동합니다. 03.05 153 0
4969 유통계에 부는 AI 바람…네이버 플러스스토어 앱 나아갈 방향은? IT동아갤로그로 이동합니다. 03.04 172 0
4968 [자동차와 法] 역사 속으로 사라지는 자동차번호판 봉인제도 [1] IT동아갤로그로 이동합니다. 03.04 478 0
4967 [뉴스줌인] 갤S25 맞먹는 샤오미 15 시리즈, 국내 출시도 유력? [7] IT동아갤로그로 이동합니다. 03.04 565 2
4966 조용히 등장한 MS 365 무료 광고버전··· '가벼운 편집 OK, 기능 제약 많아' IT동아갤로그로 이동합니다. 03.04 179 0
4965 오래된 중고 카메라가 고장 난다면 어떻게? [이럴땐 이렇게!] IT동아갤로그로 이동합니다. 03.04 651 0
4964 트랜쇼·꾼, 'EV 스마트 물류 혁신' 목표로 인수합병 추진 IT동아갤로그로 이동합니다. 03.04 1914 0
4963 CIT, MWC 2025서 유리기판-구리 증착 기술, 투명 안테나·디스플레이 선보여 IT동아갤로그로 이동합니다. 03.03 210 0
4962 [투자를IT다] 2025년 2월 4주차 IT기업 주요 소식과 주가 흐름 IT동아갤로그로 이동합니다. 03.01 7075 0
4961 ‘인공지능 역량 높여 게이밍 성능 개선’ AMD, 라데온 RX 9070 시리즈 그래픽카드 공개 [9] IT동아갤로그로 이동합니다. 03.01 10090 10
4960 [리뷰] 콘텐츠 품질 높이는 프로급 짐벌, DJI RS 4 미니 IT동아갤로그로 이동합니다. 02.28 342 0
4959 [생성 AI 길라잡이] 인공지능 생성물에 워터마크 표시…효과와 한계는? IT동아갤로그로 이동합니다. 02.28 397 0
4958 [기술영업人] 고객관계관리에서 AI 기반으로, 세일즈포스의 기술영업 방법론은? IT동아갤로그로 이동합니다. 02.28 337 0
4957 [IT애정남] 로봇청소기, 개인정보 보호 대처 방법을 알려주세요 [6] IT동아갤로그로 이동합니다. 02.28 4979 0
4956 해시드오픈리서치 “국내 가상자산 투자자, 3040 남성 강세” IT동아갤로그로 이동합니다. 02.28 318 0
4955 Startup KAIST 글로벌 스튜디오 “코호트 기업, 세계 누비도록 지원” IT동아갤로그로 이동합니다. 02.28 308 0
4954 [IT신상공개] 4세대 뷰티 디바이스 ‘앳홈 톰 더 글로우’, 광채·탄력·보습 잡는다 IT동아갤로그로 이동합니다. 02.28 322 0
4953 “잘 쓰던 SSD가 갑자기 고장?” 데이터 보호하려면 철저한 대비가 필요해 [4] IT동아갤로그로 이동합니다. 02.27 981 2
4952 솔리드웍스 CEO “손쉬운 사용자 경험...전 세계 800만 사용자 확보한 배경” IT동아갤로그로 이동합니다. 02.27 311 0
4951 Arm, Armv9 엣지 AI 플랫폼, AI 엣지용 Cortex-A320 칩 공개 IT동아갤로그로 이동합니다. 02.27 358 0
4950 [리뷰] ‘폰카’로 ‘작품’ 찍는 짐벌, DJI 오즈모 모바일 7 시리즈 [2] IT동아갤로그로 이동합니다. 02.27 4551 22
4949 배재인 다쏘시스템코리아 CRE본부장 “韓 로봇 시장 급성장…스타트업 혁신 적극 지원” IT동아갤로그로 이동합니다. 02.27 311 0
뉴스 지드래곤, 조세호와 첫 만남 회상… “명품관에서 쇼핑백 5개 들고 있더라” 디시트렌드 03.11
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2