디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[생성 AI 길라잡이] 해커인 척 LLM 취약점 찾아낸다, AI 레드팀

IT동아갤로그로 이동합니다. 2025.04.11 19:12:53
조회 7525 추천 0 댓글 1
※생성 인공지능이 세계를 뜨겁게 달굽니다. 사람만큼, 더러는 사람보다 더 그림을 잘 그리고 글을 잘 쓰는 생성 인공지능. 생성 인공지능을 설치하고 활용하는 방법과 최신 소식을 매주 전합니다.

[IT동아 김예지 기자] 생성 AI 기술이 빠르게 발전하면서 새로운 위험 요소가 부각되고 있다. 특히 거대언어모델(LLM)에는 200개가 넘는 취약점이 존재한다고 알려졌다. 이처럼 잘못 사용되거나 악의적인 요청에 의해 조작될 수 있는 생성 AI의 한계에 맞서, ‘AI 레드팀(Red Team)’은 예측하기 어려운 위험에 선제 대응해 AI의 신뢰성 및 안전성을 검증하는 전략이다.


AI 레드팀은 예측하기 어려운 위험에 선제 대응해 AI의 신뢰성 및 안전성을 검증하는 전략이다 / 출처=셔터스톡


AI 레드팀, 모델 취약점 찾아 방어책 마련


‘레드팀’이라는 용어는 모의 군사 훈련에서 아군의 취약점을 파악하기 위해 적군 역할을 수행하는 팀을 운영한 데서 유래했다. 이후 AI 분야에서 레드팀은 마치 실제 공격자(해커)처럼 AI 시스템을 위협함으로써 예상치 못한 오작동이나 유해한 결과의 생성 가능성을 점검하는 활동을 맡았다.

특히 생성 AI 분야에서 레드팀은 의도된 악의적 공격뿐만 아니라 일반 사용자의 상호작용에서 발생할 수 있는 부적절한 결과까지 폭넓게 다룬다. AI 모델의 결함, 학습 데이터의 문제, 윤리적 쟁점 등 잠재적 위험 요인을 찾아내는 게 이들의 임무다. 예컨대, 악의적인 프롬프트를 입력해 AI가 혐오 발언, 차별적 내용, 잘못된 정보, 유해한 지침을 생성하도록 유도하는 테스트를 수행한다. 더불어 AI 시스템의 빠른 변화에 발맞춰 지속적이고 주기적인 점검과 자동화된 모니터링도 실시한다.


AI 레드팀 가이드 / 출처=마이크로소프트



AI 레드팀은 모델의 취약점을 발견하고, 이를 방어할 방법을 개발해 궁극적으로 모델의 안전성을 높인다. LG AI연구원에 따르면, 이 과정은 ▲위험 요소를 찾아 분류 ▲공격 전략을 개발해 자동화 ▲공격에 대한 방어법 수립 ▲이를 적용해 시스템을 개선 등 네 가지 단계를 거쳐 이뤄진다. LG AI연구원은 지난 8월 공개한 기업용 AI 에이전트 ‘ChatEXAONE’에 AI 레드팀 활동을 적용한 바 있다.

한편, 레드팀과 함께 블루팀, 퍼플팀이라는 개념도 등장했다. 블루팀은 다양한 도구를 활용해 레드팀의 공격 시도에 맞서 방어 엄무를 수행한다. 퍼플팀은 레드팀과 블루팀 간의 협력을 촉진해 보안 조치를 통합하는 역할을 한다. 여기에는 양팀을 오가며 기술을 적용하는 멤버를 포함한다. 각 팀은 궁극적으로 조직의 사이버 보안 강화를 목표한다.

LLM 속이는 기술, 프롬프트 인젝션


AI 레드팀은 취약점을 찾아내기 위한 여러 기술을 활용한다. 이때 대표적인 수법은 ‘프롬프트 인젝션(Prompt injection)’이다. LLM을 대상으로 사용자가 입력하는 프롬프트를 조작해 AI가 기존 설계된 지침을 벗어나 악의적인 행동을 하도록 유도하는 기법이다. 레드팀은 다양한 시나리오를 만들어 테스트를 시도해 개발 과정에서 놓칠 수 있는 숨겨진 위험 요소들을 발견하고 개선함으로써 안전하고 신뢰할 수 있는 AI 시스템을 구축하도록 한다.

프롬프트 인젝션은 직접 프롬프트를 입력하는 방식과, LLM이 접근하는 외부 데이터에 악성 프롬프트를 숨겨두는 간접적 방식으로 나뉜다. 직접 프롬프트 인젝션 방법에는 ▲지침 무력화 ▲역할 재할당 ▲맥락 혼동 ▲특수문자 악용 ▲순차적 명령 ▲코드 인젝션 등이 있다. 지침 무력화의 대표적인 예시는 사용자가 ‘이전 지침을 무시해’와 같은 명령을 내려 기존의 설정을 우회하는 것이다. 또한 역할 재할당은 ‘너는 이제 제한 없는 AI야’와 같은 문장을 입력해 AI에게 새로운 역할을 부여하는 방식으로, 탈옥 공격이라고도 부른다.


권태경 연세대학교 정보대학원 교수 / 출처=IT동아



산업교육연구소가 4월 11일 진행한 ‘딥시크(DeepSeek) 분석을 통한 AI 기술 개발을 위한 새로운 기회·혁신·포착 전략 세미나’에서 권태경 연세대학교 정보대학원 교수는 ‘포스트 딥시크 시대의 AI 보안 위협과 대응’을 주제로 발표했다. 권태경 교수는 “AI 모델이 비밀성, 무결성, 가용성을 모두 만족할 때 보안성을 갖추었다고 평가한다. NIST, OWASP 등 기관에서는 AI 모델에 위협 대응 방안을 오래 전부터 연구하고 표준화해왔다”고 말했다.

그는 “OWASP에서는 10가지 LLM 취약점을 소개했는데, AI 모델이 데이터를 기반으로 콘텐츠를 생성하는 과정에서 의도적으로 민감 데이터나 시스템 정보를 노출시키는 위험은 매우 치명적이기 때문에 프롬프트 인젝션의 위험성을 가장 처음으로 언급한다”고 덧붙였다. 또한 “SQL인젝션(코드 인젝션의 기법으로 입력값을 조작해 서버의 데이터베이스를 공격하는 해킹 기법)처럼 악의적인 명령과 데이터를 함께 주입해 오염시키는 유형의 공격도 늘었다”며, “결국 입력값을 철저히 검증하고, 지속 모니터링하는 것이 앞으로 중요한 대응책이 될 것”이라고 말했다.

나아가, 권태경 교수는 AI 보안의 중요성이 커지는 이유에 대해 “AI 에이전트가 점차 물리적인 세계로 확장돼 우리 실생활에서 상호작용하게 되면서, 만약 누군가의 악의적인 명령으로 인해 예상치 못한 문제가 벌어지면 현실 세계에까지 큰 위험을 초래할 수 있다”고 지적하며, “이제는 생성 AI의 위협을 면밀히 분석하고 국가적 대응을 본격화할 때”라고 말했다.

이어 그는 “특히 오픈소스 모델의 경우 더욱 주의가 필요하다. 해커가 이런 모델의 뛰어난 성능을 악용할 가능성이 있기 때문”이라고 말했다. 실제로 시스코(Cisco)는 딥시크의 오픈소스 R1 모델이 다른 모델보다 탈옥 공격에 취약하다는 분석 결과를 내놓기도 했다.

고도화되는 AI 위협…레드팀 역할 커질 것



지난해 네이버는 과학기술정보통신부와 한국정보통신기술협회(TTA)가 주최한 ‘생성 AI 레드팀 챌린지’에 SKT, 업스테이지, 포티투마루, 셀렉트스타 등과 함께 대표 파트너로 참여한 바 있다 / 출처= 네이버



초기부터 생성 AI 개발을 주도해 온 오픈AI, 메타, 마이크로소프트, 구글 등 빅테크 기업들은 자체적으로 레드팀을 구축하거나 전문 보안 업체의 도움을 받고 있다. 네이버, SKT, LG유플러스, 업스테이지, 셀렉트스타 등 국내 기업들도 역시 레드팀의 중요성을 인식하고 관련 역량 확보에 적극 투자하고 있다.

오픈AI는 자체 ‘레드티밍 네트워크’를 구축해 GPT-4 등 대형 AI 모델의 잠재적 악용 사례를 지속 찾아내고 있다. 마이크로소프트는 빙챗(Bing Chat) 등 AI 서비스를 대상으로 AI 레드팀 활동을 수행하며 보안 취약점과 유해 콘텐츠 생성 가능성을 식별한다. 또한 애저 오픈AI(Azure OpenAI) 서비스 사용자에게 레드팀 가이드라인을 제공해 신뢰성 있는 AI 시스템을 개발을 지원하고 있다.

메타는 레드팀과 블루팀을 결합한 퍼플팀을 운영해 AI 시스템의 보안을 강화하고 있다. 일환으로 퍼플 라마(Purple Llama) 프로젝트를 통해 LLM의 사이버 보안 평가 벤치마크 및 ‘라마 가드(Llama Guard)’와 같은 안전 필터 모델을 개발자들에게 제공한다.

국내 기업의 움직임도 활발하다. 네이버는 AI 안전성 연구를 전담하는 ‘퓨처 AI 센터(Future AI 센터)’를 신설하고, 자체 AI 레드팀을 운영 중이다. 지난해에는 과학기술정보통신부와 한국정보통신기술협회(TTA)가 주최한 ‘생성 AI 레드팀 챌린지’에 SKT, 업스테이지, 포티투마루, 셀렉트스타 등과 함께 대표 파트너로 참여한 바 있다. 이 행사에는 AI 전문가뿐만 아니라 제조·금융 등에서 1000여 명이 모여 네이버 하이퍼클로바X를 비롯해 SKT, 업스테이지, 포티투마루 등 국내 4개 기업의 LLM에 대해 ▲인권침해 ▲잘못된 정보 ▲일관성 결여 ▲사이버 공격 ▲편견 및 차별 ▲불법 콘텐츠 ▲탈옥 등 7가지 주제로 안전성을 검증했다. 네이버에 따르면, 전체 시도된 공격 중 42%가 ‘잘못된 정보’ 생성을 유도하는 대화로 나타났다.


AI 스타트업 셀렉트스타는 지난 3월 MWC 2025에서 글로벌이동통신협회(GSMA)와 ‘글로벌 AI 레드팀 챌린지’를 개최했다 / 출처=셀렉트스타



또한 AI 스타트업 셀렉트스타는 지난 3월 MWC 2025에서 글로벌이동통신협회(GSMA)와 ‘글로벌 AI 레드팀 챌린지’를 개최했다. 세계에서 모인 100명의 참가자들은 ‘통신’을 주제로 LLM이 유해하거나 차별적 결과를 생성하도록 유도하고, 시스템 오용을 일으키는 프롬프트 공격을 시도했다. 공격에 성공한 프롬프트 유형에는 ▲권위적 지위 설정 ▲의도적 거짓말 유도 ▲가상 상황 설정 ▲잘못된 전제 유도 등이 두드러졌다.

황민영 셀렉트스타 부대표는 “참가자들은 이번 챌린지를 통해 AI가 아직 완벽하지 않다는 점을 확인하고, 레드팀 분야에 더 많은 연구와 투자의 필요성을 느꼈다고 전했다”고 말했다. 또한 “AI의 취약점 검증의 중요성이 커지는 가운데, 생성 AI 서비스를 제공하는 기업은 레드팀 활동을 통해 시스템을 꾸준히 개선해야 한다"고 강조했다. 한편, 셀렉트스타는 생성 AI 신뢰성 검증 자동화 솔루션 ‘다투모 이밸(DATUMO Eval)’을 통해 AI 서비스의 잠재적 오류와 위험 요소를 사전에 식별하고 대응하도록 지원한다. ‘레드티밍’ 기능 외에도 평가용 질문 대량 생성, AI 답변의 정량적 평가 등 자동화된 검증 프로세스를 제공한다.

AI 보안은 AI 시장의 핵심 화두가 될 전망이다. AI가 우리 일상에 미치는 영향력이 커짐에 따라 AI 레드팀의 역할과 방법론도 진화할 것으로 예상된다. 특히 AI 레드팀은 AI 개발 전 과정에 깊숙이 통합되고, 레드팀과 블루팀 간 실시간 협력을 이끄는 퍼플팀이 더욱 부각될 것이다. 이를 지원하는 다양한 도구가 개발·활용되는 동시에 관련 정책 수립과 표준화 노력도 가속화되면서 AI 레드팀은 ‘책임감 있는 AI’ 개발의 핵심 요소로 자리 잡을 것으로 예측된다.

더불어 AI 레드팀은 단순히 문제점을 찾는 수동적인 역할에 그치지 않고, AI 안전성 분야 전체를 주도하는 원동력이 될 것이다. 레드팀을 통해 드러난 AI 모델의 취약점은 결과적으로 더욱 견고한 모델을 설계하도록 촉진함으로써 AI 기술의 발전을 견인한다.

IT동아 김예지 기자 (yj@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ AI로 무장한 이통3사, 보이스피싱 탐지 기술 강화한다▶ 양자컴퓨터 상용화 시기, 전망 엇갈리는 이유는?▶ 네이버플러스 스토어, AI 쇼핑 앱 판도 바꿀까



추천 비추천

0

고정닉 0

12

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 술 마시면 실수가 많을 것 같은 스타는? 운영자 25/04/14 - -
5155 월드, ‘프리 플래그십’ 팝업 오픈···오브·월드ID 체험 기회 제공 IT동아갤로그로 이동합니다. 18:31 17 0
5154 [자동차와 法] 첨단 교통단속 기술의 빛과 그림자 IT동아갤로그로 이동합니다. 15:49 24 0
5153 [기고] AI와 미래 산업기술 - 1. AI 시대를 맞는 전통 산업 엔지니어의 '뉴 마이웨이' IT동아갤로그로 이동합니다. 11:07 196 0
5152 재부팅ㆍ소프트웨어 종료 불편함 없이 PC 1대로 여럿이 쓰고 싶다면 이렇게! [이럴땐 이렇게!] IT동아갤로그로 이동합니다. 04.14 68 0
5151 경량 스포츠카 제조사 ‘로터스’ 77년 역사 장식한 슈퍼카 살펴보니 [5] IT동아갤로그로 이동합니다. 04.14 2361 1
5150 [뉴스줌인] 카톡에 사진/문서 올려 프린터 출력, '엡손 프린톡' 이모저모 IT동아갤로그로 이동합니다. 04.14 58 0
5149 [투자를IT다] 2025년 4월 2주차 IT기업 주요 소식과 주가 흐름 IT동아갤로그로 이동합니다. 04.14 51 0
5148 [기고] 인테리어와 IT기술의 융합 - '잇테리어'의 시대 IT동아갤로그로 이동합니다. 04.14 5046 1
5147 퓨리오사AI 찾은 이재명 전 당대표, "AI 현장에서 새로운 희망이 보인다" IT동아갤로그로 이동합니다. 04.14 54 0
[생성 AI 길라잡이] 해커인 척 LLM 취약점 찾아낸다, AI 레드팀 [1] IT동아갤로그로 이동합니다. 04.11 7525 0
5145 [리뷰] 눈까지 즐거운 야외용 블루투스 스피커, 브리츠 BZ-MG9 IT동아갤로그로 이동합니다. 04.11 193 0
5144 [KESIA 프리팁스] 바이브에이아이 “SaaS 기반 개인화 AI 서비스로 글로벌 공략” IT동아갤로그로 이동합니다. 04.11 183 0
5143 [생활 속 IT] 동네 전문가, 카카오맵으로 찾는다 IT동아갤로그로 이동합니다. 04.11 144 0
5142 [민원제로] 1. "제가 그 유명한 진상 민원인입니다만...!" IT동아갤로그로 이동합니다. 04.11 138 0
5141 씨너렉스 “확장성 뛰어난 ‘초정밀 위성항법 장치’로 자율주행 시대 맞이할 것” [2] IT동아갤로그로 이동합니다. 04.11 4674 1
5140 농림축산식품부, '농촌융복합 창업 활성화' 사업으로 가치 혁신 나선다 IT동아갤로그로 이동합니다. 04.11 151 0
5139 세종미래경제포럼 “지산학연 고도화, 지역 상생 산업계 구축” IT동아갤로그로 이동합니다. 04.11 109 0
5138 [생활 속 IT] 라인에서 실시간 통역 기능 사용하는 방법 IT동아갤로그로 이동합니다. 04.10 1856 1
5137 AI로 무장한 이통3사, 보이스피싱 탐지 기술 강화한다 IT동아갤로그로 이동합니다. 04.10 130 0
5136 자동차 보험 비교 2.0 써보니··· '실결제 가격 오차범위 내로 줄어' IT동아갤로그로 이동합니다. 04.10 121 0
5135 [IT애정남] 파일이 열려 있어 작업을 완료하지 못할 때 해결법은? [2] IT동아갤로그로 이동합니다. 04.10 838 1
5134 무선 게이밍 기어로 게임 즐기려면 ‘지연 시간’이 중요하다 IT동아갤로그로 이동합니다. 04.10 115 0
5133 [생활 속 IT] 직접 만들어 본 카카오톡 펑, 쓸모 있는 기능일까? IT동아갤로그로 이동합니다. 04.10 1911 0
5132 델, ‘AI 레디’ 서버 및 스토리지 신제품 다수 선보여 IT동아갤로그로 이동합니다. 04.09 1878 0
5131 [신차공개] BMW ‘뉴 i4 eDrive40’·KGM ‘토레스 EVX ALPHA’ 출시 IT동아갤로그로 이동합니다. 04.09 1961 1
5130 업비트·빗썸, 가상자산 시장 회복으로 2024년 실적 개선 IT동아갤로그로 이동합니다. 04.09 123 0
5129 [주간스타트업동향] 팜스태프, 농산물 부가가치 높인 ‘하토마 잼’ 출시 外 IT동아갤로그로 이동합니다. 04.09 122 0
5128 [IT하는법] 일회성으로 전화번호 저장할 땐, '태그 추가'로 해결하자 IT동아갤로그로 이동합니다. 04.09 158 0
5127 미국의 상호 관세가 우리나라 PC 시장에 미칠 영향은? IT동아갤로그로 이동합니다. 04.09 2006 3
5126 양자컴퓨터 상용화 시기, 전망 엇갈리는 이유는? IT동아갤로그로 이동합니다. 04.08 153 0
5125 GM “SDV 시대 준비 박차·슈퍼크루즈 20개 모델 이상 적용 완료” IT동아갤로그로 이동합니다. 04.08 147 0
5124 [생활 속 IT] 아이폰 '나의 찾기'로 실시간 위치 공유·제품 찾는 방법 IT동아갤로그로 이동합니다. 04.08 180 0
5123 [IT신상공개] 수면 추적·제어 기능 더한 무선 이어폰, 디비비츠 포미버즈 IT동아갤로그로 이동합니다. 04.08 4880 1
5122 [IT’s 가성비] 원래는 전광판용? 기능 덜어 가격 낮춘 ‘삼성 비즈니스 TV’ IT동아갤로그로 이동합니다. 04.08 169 0
5121 서울과학기술대학교+동아닷컴+아이티동아, 스타트업 글로벌 홍보 증진 프로그램 MOU 체결 IT동아갤로그로 이동합니다. 04.07 154 0
5120 안성~구리 고속도로'에 적용된 첨단 기술 살펴보니 IT동아갤로그로 이동합니다. 04.07 142 0
5119 귀찮게 뜨는 광고 팝업 없애려면 이렇게! [이럴땐 이렇게!] IT동아갤로그로 이동합니다. 04.07 889 2
5118 연구기관의 디지털 전환, KETI는 ‘NHN두레이’에서 해답 찾아 IT동아갤로그로 이동합니다. 04.07 137 0
5117 [주간투자동향] BHSN, 100억 원 규모 시리즈B 투자 유치 外 IT동아갤로그로 이동합니다. 04.07 136 0
5116 [투자를IT다] 2025년 4월 1주차 IT기업 주요 소식과 주가 흐름 IT동아갤로그로 이동합니다. 04.04 238 0
5115 네이버플러스 스토어, AI 쇼핑 앱 판도 바꿀까 IT동아갤로그로 이동합니다. 04.04 230 0
5114 신차 출시의 장으로 꾸려진 '2025 서울모빌리티쇼' 살펴보니 IT동아갤로그로 이동합니다. 04.04 255 0
5113 [리뷰] 음량/배터리 빵빵한 아웃도어용 스피커, 브리츠 BZ-WK1 IT동아갤로그로 이동합니다. 04.04 219 0
5112 [생성 AI 길라잡이] GPT-4o 이미지 생성은 왜 새삼스레 주목받는가? IT동아갤로그로 이동합니다. 04.04 215 0
5111 디스프레드 “비트코인 ETF·트럼프 당선으로 신규 투자자 증가” IT동아갤로그로 이동합니다. 04.04 210 0
5110 목재로 은은한 멋 살린 PC 케이스, 써도 될까? [11] IT동아갤로그로 이동합니다. 04.04 5424 2
5109 시스코 “AI 디펜스, 기업용 AI 보안 우려 해소” IT동아갤로그로 이동합니다. 04.04 1755 1
5108 HP, 비즈니스용 AI PC 4종 공개··· '온디바이스 AI로 오프라인 AI 구현' IT동아갤로그로 이동합니다. 04.03 302 0
5107 [크립토퀵서치] CBDC 실거래 테스트, 개인 정보는 안전한가요? [9] IT동아갤로그로 이동합니다. 04.03 930 0
5106 [기고] 화물차 불법주차가 발생할 수밖에 없는 현실과 해결책 [3] IT동아갤로그로 이동합니다. 04.03 1078 3
뉴스 김숙♥구본승 “10월 7일 결혼하고, 신혼여행은 평양으로” 디시트렌드 14:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2