OpenAI, o3와 o4-mini 출시

실시간 베스트 갤러리

sama

2025.04.17 15:05:01

조회 20477 추천 66 댓글 108

OpenAI o3 및 o4-mini 공개: 전체 도구 접근성을 갖춘 역대 가장 스마트하고 유능한 모델

오늘 OpenAI는 응답하기 전에 더 오래 생각하도록 훈련된 o-시리즈 모델의 최신 버전인 OpenAI o3와 o4-mini를 출시합니다. 이는 저희가 지금까지 출시한 모델 중 가장 스마트한 모델로, 호기심 많은 사용자부터 고급 연구원에 이르기까지 모든 사람을 위한 ChatGPT의 능력을 한 단계 끌어올렸습니다.

처음으로 저희 추론 모델이 ChatGPT 내의 모든 도구를 능동적으로 사용하고 결합할 수 있게 되었습니다. 여기에는 웹 검색, Python을 사용한 파일 및 기타 데이터 분석, 시각적 입력에 대한 깊이 있는 추론, 이미지 생성까지 포함됩니다. 결정적으로, 이 모델들은 더 복잡한 문제를 해결하기 위해 일반적으로 1분 이내에 올바른 출력 형식으로 상세하고 사려 깊은 답변을 생성하기 위해 언제, 어떻게 도구를 사용해야 하는지 추론하도록 훈련되었습니다.

이를 통해 다면적인 질문을 더 효과적으로 처리할 수 있으며, 사용자를 대신하여 독립적으로 작업을 수행할 수 있는 보다 능동적인 ChatGPT를 향한 한 걸음입니다. 최첨단 추론 능력과 전체 도구 접근성의 결합된 힘은 학문적 벤치마크와 실제 작업 모두에서 훨씬 더 강력한 성능으로 이어져 지능과 유용성 모두에서 새로운 기준을 세웁니다.

변경된 점

OpenAI o3는 코딩, 수학, 과학, 시각 인식 등 다양한 분야에서 최고 성능을 보여주는 가장 강력한 추론 모델입니다. Codeforces, SWE-bench(맞춤형 모델별 스캐폴드 구축 없이), MMMU 등 벤치마크에서 새로운 SOTA(최고 수준)를 기록했습니다.

다면적 분석이 필요하고 답이 즉시 명확하지 않을 수 있는 복잡한 쿼리에 이상적입니다. 특히 이미지, 차트, 그래픽 분석과 같은 시각적 작업에서 강력한 성능을 발휘합니다. 외부 전문가 평가에서 o3는 어려운 실제 작업에서 OpenAI o1보다 주요 오류를 20% 적게 발생시켰으며, 특히 프로그래밍, 비즈니스/컨설팅, 창의적 아이디어 구상과 같은 분야에서 뛰어났습니다. 초기 테스터들은 사고 파트너로서의 분석적 엄격함을 강조하고, 특히 생물학, 수학, 공학 분야 내에서 새로운 가설을 생성하고 비판적으로 평가하는 능력을 강조했습니다.

OpenAI o4-mini는 빠르고 비용 효율적인 추론에 최적화된 소형 모델입니다. 크기와 비용 대비 놀라운 성능을 달성하며, 특히 수학, 코딩, 시각적 작업에서 뛰어납니다. AIME 2025에서 o4-mini는 Python 인터프리터 접근 권한이 주어졌을 때 99.5%의 점수를 기록하여 이 벤치마크를 사실상 포화시켰습니다. 전문가 평가에서도 STEM 외 작업뿐만 아니라 데이터 과학과 같은 영역에서도 이전 모델인 o3-mini보다 뛰어난 성능을 보였습니다. 효율성 덕분에 o4-mini는 o3보다 훨씬 높은 사용량 한도를 지원하므로, 추론이 필요한 질문에 대해 대용량, 고처리량 옵션으로 강력합니다.

외부 전문가 평가자들은 두 모델 모두 향상된 지능과 웹 소스 포함 덕분에 이전 모델보다 향상된 지시 사항 준수 능력과 더 유용하고 검증 가능한 응답을 보여준다고 평가했습니다. 이전 버전의 추론 모델과 비교할 때, 이 두 모델은 특히 기억과 과거 대화를 참조하여 응답을 더 개인화되고 관련성 있게 만들기 때문에 더 자연스럽고 대화적으로 느껴질 것입니다.

7aea8768f5dc3f8650bbd58b36807d6ff54b

7beb8668f5dc3f8650bbd58b36837c6decb6

78e88568f5dc3f8650bbd58b36807c6afc0e

79e98468f5dc3f8650bbd58b368376647595

7eee8368f5dc3f8650bbd58b368073640d39

7fef8268f5dc3f8650bbd58b3683706ef4b5

7cec8168f5dc3f8650bbd58b3683726d79d8

강화 학습의 지속적인 확장

OpenAI o3 개발 전반에 걸쳐, 대규모 강화 학습이 GPT 시리즈 사전 훈련에서 관찰된 것과 동일한 "더 많은 컴퓨팅 = 더 나은 성능" 추세를 보인다는 것을 관찰했습니다. 이 확장 경로를 RL에서 다시 추적함으로써 훈련 컴퓨팅과 추론 시간 추론 모두에서 추가적인 자릿수만큼 확장했지만, 여전히 명확한 성능 향상을 확인하여 모델이 더 많이 생각하도록 허용할수록 성능이 계속 향상된다는 것을 입증했습니다. OpenAI o1과 동일한 지연 시간 및 비용으로 o3는 ChatGPT에서 더 높은 성능을 제공하며, 더 오래 생각하게 하면 성능이 계속 상승한다는 것을 검증했습니다.

또한 강화 학습을 통해 두 모델 모두 도구를 사용하도록 훈련했습니다. 즉, 도구를 사용하는 방법뿐만 아니라 언제 사용해야 하는지 추론하도록 가르쳤습니다. 원하는 결과에 따라 도구를 배포하는 능력은 개방형 상황, 특히 시각적 추론 및 다단계 워크플로우를 포함하는 상황에서 모델을 더욱 유능하게 만듭니다. 이러한 개선은 초기 테스터들이 보고한 바와 같이 학문적 벤치마크와 실제 작업 모두에 반영됩니다.

이미지로 생각하기

처음으로 이 모델들은 이미지를 사고 과정에 직접 통합할 수 있습니다. 단순히 이미지를 보는 것이 아니라, 이미지로 생각합니다. 이는 시각적 및 텍스트적 추론을 혼합하는 새로운 종류의 문제 해결을 가능하게 하며, 멀티모달 벤치마크 전반에 걸친 최첨단 성능에 반영됩니다.

사용자는 화이트보드 사진, 교과서 다이어그램 또는 손으로 그린 스케치를 업로드할 수 있으며, 이미지가 흐리거나, 뒤집히거나, 저화질이라도 모델은 이를 해석할 수 있습니다. 도구 사용을 통해 모델은 추론 과정의 일부로 즉석에서 이미지를 회전, 확대/축소 또는 변환하여 조작할 수 있습니다.

이 모델들은 시각 인식 작업에서 동급 최고의 정확도를 제공하여 이전에는 해결할 수 없었던 질문을 해결할 수 있게 합니다. 자세한 내용은 시각적 추론 연구 블로그⁠를 확인하세요.

7af39e36ebd518986abce8954486726d9096

능동적인 도구 사용을 향하여

OpenAI o3 및 o4-mini는 ChatGPT 내의 도구뿐만 아니라 API의 함수 호출을 통해 사용자 지정 도구에도 완전히 접근할 수 있습니다. 이 모델들은 문제를 해결하는 방법을 추론하도록 훈련되었으며, 일반적으로 1분 이내에 올바른 출력 형식으로 상세하고 사려 깊은 답변을 신속하게 생성하기 위해 언제, 어떻게 도구를 사용해야 하는지 선택합니다.

예를 들어, 사용자는 "캘리포니아의 여름 에너지 사용량은 작년과 비교하여 어떻게 될까요?"라고 질문할 수 있습니다. 모델은 공공 유틸리티 데이터를 웹에서 검색하고, 예측을 구축하기 위한 Python 코드를 작성하고, 그래프나 이미지를 생성하고, 예측의 주요 요인을 설명하며 여러 도구 호출을 연결할 수 있습니다. 추론을 통해 모델은 마주치는 정보에 따라 필요에 맞게 반응하고 방향을 전환할 수 있습니다. 예를 들어, 검색 제공 업체의 도움을 받아 웹을 여러 번 검색하고, 결과를 보고, 더 많은 정보가 필요하면 새로운 검색을 시도할 수 있습니다.

이러한 유연하고 전략적인 접근 방식을 통해 모델은 모델의 내장된 지식을 넘어서는 최신 정보 접근, 확장된 추론, 합성 및 여러 양식에 걸친 출력 생성이 필요한 작업을 처리할 수 있습니다.

모든 예시는 OpenAI o3로 완료되었습니다.

비용 효율적인 추론 발전

OpenAI o3 및 o4-mini는 저희가 출시한 모델 중 가장 지능적이며, 이전 모델인 OpenAI o1 및 o3-mini보다 종종 더 효율적입니다. 예를 들어, 2025 AIME 수학 경진대회에서 o3의 비용-성능 경계는 o1을 명백히 개선하며, 유사하게 o4-mini의 경계는 o3-mini를 명백히 개선합니다. 더 일반적으로, 대부분의 실제 사용 사례에서 o3 및 o4-mini는 각각 o1 및 o3-mini보다 더 스마트하고 저렴할 것으로 예상합니다.

74f3c028e2f206a26d81f6e44682756bb1

75f3c028e2f206a26d81f6e4478376696b

안전성

모델 기능이 향상될 때마다 그에 상응하는 안전성 개선이 필요합니다. OpenAI o3 및 o4-mini의 경우, 생물학적 위협(바이오리스크), 멀웨어 생성, 탈옥과 같은 영역에서 새로운 거부 프롬프트를 추가하여 안전성 훈련 데이터를 완전히 재구축했습니다. 이 새로워진 데이터 덕분에 o3 및 o4-mini는 내부 거부 벤치마크(예: 지시 계층 구조⁠, 탈옥)에서 강력한 성능을 달성했습니다. 모델 거부에 대한 강력한 성능 외에도, 프론티어 위험 영역에서 위험한 프롬프트를 탐지하기 위한 시스템 수준의 완화 조치도 개발했습니다. 이전의 이미지 생성 작업과 유사하게, 사람이 작성하고 해석 가능한 안전 사양에 따라 작동하는 추론 LLM 모니터를 훈련했습니다. 바이오리스크에 적용했을 때, 이 모니터는 인간 레드팀 캠페인의 대화 중 약 99%를 성공적으로 탐지했습니다.

저희는 역대 가장 엄격한 안전 프로그램을 통해 두 모델을 스트레스 테스트했습니다. 업데이트된 준비 태세 프레임워크⁠에 따라, 프레임워크가 다루는 세 가지 추적 기능 영역인 생물학적 및 화학적, 사이버 보안, AI 자기 개선 전반에 걸쳐 o3 및 o4-mini를 평가했습니다. 이러한 평가 결과에 기초하여, o3 및 o4-mini 모두 세 범주 모두에서 프레임워크의 "높음" 임계값 미만으로 유지된다고 판단했습니다. 이러한 평가의 상세 결과는 첨부된 시스템 카드⁠⁠에 게시했습니다.

Codex CLI: 터미널에서의 프론티어 추론

또한 새로운 실험인 Codex CLI를 공유합니다. 이는 터미널에서 실행할 수 있는 경량 코딩 에이전트입니다. 컴퓨터에서 직접 작동하며, o3 및 o4-mini와 같은 모델의 추론 능력을 극대화하도록 설계되었으며, GPT-4.1과 같은 추가 API 모델에 대한 지원이 곧 제공될 예정입니다.

스크린샷이나 저해상도 스케치를 모델에 전달하고 로컬 코드에 접근하여 명령줄에서 멀티모달 추론의 이점을 얻을 수 있습니다. 저희는 이를 모델과 사용자 및 컴퓨터를 연결하는 최소한의 인터페이스로 생각합니다. Codex CLI는 오늘 github.com/openai/codex⁠(새 창에서 열림)에서 완전한 오픈 소스로 제공됩니다.

이와 함께 Codex CLI 및 OpenAI 모델을 사용하는 프로젝트를 지원하기 위해 1백만 달러 규모의 이니셔티브를 시작합니다. API 크레딧 형태로 25,000달러 단위의 보조금 신청서를 평가하고 수락할 것입니다. 제안서는 여기에서 제출할 수 있습니다.

접근성

ChatGPT Plus, Pro, Team 사용자는 오늘부터 모델 선택기에서 o1, o3-mini, o3-mini-high를 대체하는 o3, o4-mini, o4-mini-high를 볼 수 있습니다. ChatGPT Enterprise 및 Edu 사용자는 일주일 후에 접근 권한을 얻게 됩니다. 무료 사용자는 쿼리를 제출하기 전에 작성기에서 '생각하기(Think)'를 선택하여 o4-mini를 사용해 볼 수 있습니다. 모든 플랜의 속도 제한은 이전 모델 세트에서 변경되지 않았습니다.

몇 주 내에 전체 도구 지원을 갖춘 OpenAI o3-pro를 출시할 것으로 예상합니다. 현재 Pro 사용자는 여전히 o1-pro에 접근할 수 있습니다.

o3 및 o4-mini는 오늘부터 Chat Completions API 및 Responses API를 통해 개발자에게도 제공됩니다(일부 개발자는 이러한 모델에 접근하기 위해 조직을 확인⁠(새 창에서 열림)해야 할 수 있습니다). Responses API는 추론 요약, 더 나은 성능을 위해 함수 호출 주변의 추론 토큰을 보존하는 기능 등을 지원하며, 곧 모델의 추론 내에서 웹 검색, 파일 검색, 코드 인터프리터와 같은 내장 도구를 지원할 예정입니다. 시작하려면 저희 문서⁠⁠(새 창에서 열림)를 살펴보고 더 많은 업데이트를 기대해 주세요.

다음 단계

오늘의 업데이트는 저희 모델이 나아갈 방향을 반영합니다: o-시리즈의 특화된 추론 능력과 GPT-시리즈의 보다 자연스러운 대화 능력 및 도구 사용을 융합하고 있습니다. 이러한 강점을 통합함으로써 미래의 모델은 선제적인 도구 사용 및 고급 문제 해결과 함께 원활하고 자연스러운 대화를 지원할 것입니다.

- (오픈AI) o3 및 o4-mini 공개

2025년 4월 16일 | 출시 | 제품

OpenAI o3 및 o4-mini 공개: 역대 가장 스마트하고 유능하며 완전한 도구 접근성을 갖춘 모델

[ChatGPT에서 사용해 보기]

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662b284d464b468e89fb4340d7ad0f155a47e4cc181b5a61d68ed4

오늘, OpenAI는 o-시리즈의 최신 모델인 o3와 o4-mini를 출시합니다. 이 모델들은 응답하기 전에 더 깊이 사고하도록 훈련되었습니다. 현재까지 저희가 출시한 모델 중 가장 스마트하며, 호기심 많은 사용자부터 고급 연구원에 이르기까지 모든 이들에게 ChatGPT 역량의 획기적인 발전(step change)을 보여줍니다. 처음으로 저희 추론 모델들은 스스로 판단하여(agentically) ChatGPT 내의 모든 도구 – 웹 검색, Python을 이용한 파일 및 데이터 분석, 시각적 입력에 대한 심층 추론, 이미지 생성까지 – 를 활용하고 조합할 수 있습니다. 결정적으로, 이 모델들은 언제 어떻게 도구를 사용해야 할지 추론하여, 일반적으로 1분 이내에 정확한 출력 형식으로 상세하고 심도 있는 답변을 생성함으로써 더 복잡한 문제를 해결하도록 훈련되었습니다. 이를 통해 다면적인 질문을 더욱 효과적으로 처리할 수 있으며, 사용자를 대신하여 독립적으로 작업을 수행할 수 있는 더욱 주체적인(agentic) ChatGPT로 나아가는 한 걸음입니다. 최첨단 추론 능력과 완전한 도구 접근성의 결합은 학술 벤치마크와 실제 과제 전반에서 현저하게 향상된 성능으로 이어져, 지능과 유용성 모두에서 새로운 기준을 제시합니다.

무엇이 달라졌는가

OpenAI o3는 코딩, 수학, 과학, 시각 인식 등 전 분야에 걸쳐 기술의 한계를 넓히는 저희의 가장 강력한 추론 모델입니다. Codeforces, SWE-bench(맞춤형 모델별 스캐폴드 구축 없이), MMMU 등 벤치마크에서 새로운 최고 성능(SOTA)을 기록했습니다. 다면적 분석이 필요하고 답이 즉각적으로 명확하지 않은 복잡한 질의에 이상적입니다. 특히 이미지, 차트, 그래픽 분석과 같은 시각적 작업에서 강력한 성능을 보입니다. 외부 전문가 평가에서 o3는 어려운 실제 과제에서 OpenAI o1보다 주요 오류를 20% 적게 발생시켰으며, 특히 프로그래밍, 비즈니스/컨설팅, 창의적 아이디어 구상 분야에서 뛰어난 성과를 보였습니다. 초기 테스터들은 사고 파트너로서의 분석적 엄밀함을 높이 평가했으며, 특히 생물학, 수학, 공학 분야에서 새로운 가설을 생성하고 비판적으로 평가하는 능력을 강조했습니다.

OpenAI o4-mini는 빠르고 비용 효율적인 추론에 최적화된 소형 모델입니다. 크기와 비용 대비 놀라운 성능을 달성하며, 특히 수학, 코딩, 시각적 작업에서 뛰어납니다. AIME 2024 및 2025에서 새로운 최고 성능(SOTA)을 기록했습니다. 전문가 평가에서는 데이터 과학과 같은 영역뿐만 아니라 비 STEM 분야에서도 이전 모델인 o3-mini를 능가했습니다. 효율성 덕분에 o4-mini는 o3보다 훨씬 높은 사용 한도를 지원하므로, 추론 능력이 중요한 대량, 고처리량 질문에 강력한 옵션입니다.

외부 전문가 평가자들은 두 모델 모두 향상된 지능과 웹 소스 포함 덕분에 이전 모델들보다 개선된 지시 사항 준수 능력과 더 유용하고 검증 가능한 응답을 보여준다고 평가했습니다. 이전 버전의 추론 모델들과 비교하여, 이 두 모델은 특히 기억과 과거 대화를 참조하여 응답을 더욱 개인화되고 관련성 높게 만들기 때문에 더 자연스럽고 대화적인 느낌을 줄 것입니다.

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662b284d404b415fe48c852e7a0abdd15bc09dc8c585560deaf1

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d454ada399628382837f974a168062cbe07918df8bf44

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d4444562cb36bbaf7b70ceb0e5d422e345f4d22513031

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d474b40586e7e241ef5a3d41cb12e585689e62c359b97

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d464f57f2ca4f4f467158d651ac887f7fd2932ac13dbc

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d464b4a4a8d25c85236018057959a80311cebc7f676a6

모든 모델은 ChatGPT의 'o4-mini-high'와 유사한 높은 '추론 노력(reasoning effort)' 설정에서 평가되었습니다.

강화 학습의 지속적인 확장

OpenAI o3 개발 전반에 걸쳐, 저희는 대규모 강화 학습이 GPT 시리즈 사전 훈련에서 관찰된 것과 동일한 "더 많은 컴퓨팅 = 더 나은 성능" 추세를 보인다는 것을 관찰했습니다. 이번에는 강화 학습에서 스케일링 경로를 되짚어봄으로써, 훈련 컴퓨팅과 추론 시간 추론 모두에서 추가적인 자릿수(order of magnitude)만큼 확장했음에도 여전히 명확한 성능 향상을 확인했습니다. 이는 모델이 더 많이 생각하도록 허용할수록 성능이 계속 향상된다는 것을 입증합니다. OpenAI o1과 동일한 지연 시간 및 비용에서 o3는 ChatGPT에서 더 높은 성능을 제공하며, 더 오래 생각하게 하면 성능이 계속 상승한다는 것을 검증했습니다.

또한 저희는 강화 학습을 통해 두 모델이 도구를 사용하도록 훈련했습니다. 단순히 도구 사용법뿐만 아니라 언제 사용해야 할지 추론하는 능력을 가르쳤습니다. 원하는 결과에 따라 도구를 배치하는 능력은 특히 시각적 추론과 다단계 워크플로우를 포함하는 개방형 상황에서 모델을 더욱 유능하게 만듭니다. 이러한 개선은 초기 테스터들이 보고한 바와 같이 학술 벤치마크와 실제 과제 모두에 반영되었습니다.

이미지와 함께 사고하기

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d414f8942094bb2fdeb36b9c2b9d172c8afcc66d2c3b14b

처음으로 이 모델들은 이미지를 자신의 사고 과정(chain of thought)에 직접 통합할 수 있습니다. 단순히 이미지를 보는 것을 넘어, 이미지를 가지고 생각합니다. 이는 시각적 및 텍스트적 추론을 결합하는 새로운 종류의 문제 해결을 가능하게 하며, 다중 모드 벤치마크 전반에서 최첨단 성능으로 나타납니다.

사용자는 화이트보드 사진, 교과서 다이어그램 또는 손으로 그린 스케치를 업로드할 수 있으며, 이미지가 흐릿하거나, 뒤집혀 있거나, 저품질이더라도 모델은 이를 해석할 수 있습니다. 도구 사용을 통해 모델은 추론 과정의 일부로 이미지를 즉석에서 회전, 확대/축소 또는 변형하는 등 조작할 수 있습니다.

이 모델들은 시각 인식 작업에서 동급 최고의 정확도를 제공하여 이전에는 해결할 수 없었던 질문을 풀 수 있게 합니다. 자세한 내용은 시각적 추론 연구 블로그⁠를 확인하세요.

주체적인 도구 사용을 향하여

OpenAI o3 및 o4-mini는 ChatGPT 내의 도구뿐만 아니라 API의 함수 호출(function calling)을 통해 사용자의 자체 맞춤형 도구에도 완전한 접근 권한을 갖습니다. 이 모델들은 문제를 해결하는 방법을 추론하고, 언제 어떻게 도구를 사용하여 일반적으로 1분 이내에 정확한 출력 형식으로 상세하고 심도 있는 답변을 신속하게 생성할지 선택하도록 훈련되었습니다.

예를 들어, 사용자가 "캘리포니아의 여름철 에너지 사용량이 작년과 비교하여 어떻게 될까요?"라고 질문할 수 있습니다. 모델은 공공 유틸리티 데이터를 웹에서 검색하고, 예측 모델을 구축하기 위해 Python 코드를 작성하고, 그래프나 이미지를 생성하고, 예측의 주요 요인을 설명하는 등 여러 도구 호출을 연쇄적으로 수행할 수 있습니다. 추론 능력 덕분에 모델은 마주치는 정보에 따라 필요에 맞게 반응하고 방향을 전환할 수 있습니다. 예를 들어, 검색 제공자의 도움을 받아 웹을 여러 번 검색하고, 결과를 살펴보고, 더 많은 정보가 필요하면 새로운 검색을 시도할 수 있습니다.

이러한 유연하고 전략적인 접근 방식을 통해 모델은 내장된 지식을 넘어서는 최신 정보 접근, 확장된 추론, 종합, 그리고 여러 양식에 걸친 출력 생성이 필요한 작업을 처리할 수 있습니다.

모든 예시는 OpenAI o3로 완료되었습니다.

링크

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d404f3e84beb940a2ace2781c77eaa1301822f055120a8d

OpenAI o3는 검색을 사용하지 않고도 정확한 응답을 얻는 반면, o1은 정확한 응답을 제공하지 못합니다.

비용 효율적인 추론의 발전

비용 대비 성능: o3-mini 및 o4-mini

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c204d444997548cb9c5a65b71b25fe90c7893068afe0241f4a7

비용 대비 성능: o1 및 o3

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c204d474d77d0c19ce5c7ab29886d736166e035dcff922de548

OpenAI o3 및 o4-mini는 저희가 출시한 가장 지능적인 모델이며, 이전 모델인 OpenAI o1 및 o3-mini보다 종종 더 효율적입니다. 예를 들어, 2025년 AIME 수학 경시대회에서 o3의 비용-성능 경계선은 o1보다 확실히 개선되었으며, 마찬가지로 o4-mini의 경계선도 o3-mini보다 확실히 개선되었습니다. 더 일반적으로, 대부분의 실제 사용 사례에서 o3와 o4-mini는 각각 o1과 o3-mini보다 더 스마트하고 저렴할 것으로 예상합니다.

안전성

모델 능력의 모든 개선에는 그에 상응하는 안전성 개선이 필요합니다. OpenAI o3 및 o4-mini를 위해 저희는 안전 훈련 데이터를 완전히 재구축하여 생물학적 위협(바이오리스크), 악성 코드 생성, 탈옥(jailbreaks)과 같은 영역에서 새로운 거부 프롬프트를 추가했습니다. 이 새로워진 데이터 덕분에 o3와 o4-mini는 내부 거부 벤치마크(예: 지시 계층 구조⁠, 탈옥)에서 강력한 성능을 달성했습니다. 모델 거부에 대한 강력한 성능 외에도, 저희는 최전선 위험 영역에서 위험한 프롬프트를 탐지하기 위한 시스템 수준의 완화 조치도 개발했습니다. 이미지 생성⁠에서의 이전 작업과 유사하게, 인간이 작성하고 해석 가능한 안전 사양에 따라 작동하는 추론 LLM 모니터를 훈련했습니다. 바이오리스크에 적용했을 때, 이 모니터는 인간 레드팀 캠페인에서 대화의 약 99%를 성공적으로 탐지했습니다.

저희는 현재까지 가장 엄격한 안전 프로그램을 통해 두 모델을 스트레스 테스트했습니다. 업데이트된 준비 상태 프레임워크⁠에 따라, 저희는 프레임워크에서 다루는 추적된 세 가지 능력 영역인 생물학 및 화학, 사이버 보안, AI 자가 개선에 걸쳐 o3와 o4-mini를 평가했습니다. 이러한 평가 결과에 기초하여, 저희는 o3와 o4-mini 모두 세 가지 범주 모두에서 프레임워크의 "높음(High)" 임계값 미만으로 유지된다고 판단했습니다. 이러한 평가의 자세한 결과는 첨부된 시스템 카드⁠⁠에서 발표했습니다.

Codex CLI: 터미널에서의 최첨단 추론

저희는 또한 새로운 실험인 Codex CLI를 공유합니다. 이는 터미널에서 실행할 수 있는 경량 코딩 에이전트입니다. 사용자의 컴퓨터에서 직접 작동하며 o3 및 o4-mini와 같은 모델의 추론 능력을 극대화하도록 설계되었으며, 곧 GPT-4.1⁠과 같은 추가 API 모델도 지원할 예정입니다.

스크린샷이나 간단한 스케치를 모델에 전달하고 로컬 코드에 접근하여 명령줄에서 다중 모드 추론의 이점을 얻을 수 있습니다. 저희는 이를 모델과 사용자 및 사용자 컴퓨터를 연결하는 최소한의 인터페이스로 생각합니다. Codex CLI는 오늘 github.com/openai/codex⁠에서 완전히 오픈 소스로 공개됩니다.

이와 함께, 저희는 Codex CLI 및 OpenAI 모델을 사용하는 프로젝트를 지원하기 위해 1백만 달러 규모의 이니셔티브를 시작합니다. 미화 25,000달러 단위의 API 크레딧 형태로 보조금 신청서를 평가하고 수락할 것입니다. 제안서는 여기에서 제출할 수 있습니다.

이용 안내

ChatGPT Plus, Pro, Team 사용자는 오늘부터 모델 선택기에서 o1, o3-mini, o3-mini-high를 대체하는 o3, o4-mini, o4-mini-high를 볼 수 있습니다. ChatGPT Enterprise 및 Edu 사용자는 일주일 후에 이용할 수 있습니다. 무료 사용자는 쿼리를 제출하기 전에 작성기에서 '생각하기(Think)'를 선택하여 o4-mini를 사용해 볼 수 있습니다. 모든 요금제의 속도 제한은 이전 모델 세트와 동일하게 유지됩니다.

몇 주 안에 완전한 도구 지원을 갖춘 OpenAI o3-pro를 출시할 것으로 예상합니다. 현재 Pro 사용자는 여전히 o1-pro에 접근할 수 있습니다.

o3와 o4-mini 모두 오늘부터 Chat Completions API 및 Responses API를 통해 개발자에게도 제공됩니다(일부 개발자는 이러한 모델에 접근하기 위해 조직 인증⁠이 필요할 수 있습니다). Responses API는 추론 요약, 더 나은 성능을 위해 함수 호출 주변의 추론 토큰을 보존하는 기능 등을 지원하며, 곧 모델의 추론 내에서 웹 검색, 파일 검색, 코드 인터프리터와 같은 내장 도구를 지원할 예정입니다. 시작하려면 저희 문서⁠⁠를 살펴보고 추가 업데이트를 기다려 주십시오.

다음 단계

오늘의 업데이트는 저희 모델이 나아갈 방향을 반영합니다: 저희는 o-시리즈의 전문화된 추론 능력과 GPT-시리즈의 보다 자연스러운 대화 능력 및 도구 사용을 융합하고 있습니다. 이러한 강점을 통합함으로써, 저희의 미래 모델은 선제적인 도구 사용 및 고급 문제 해결과 함께 원활하고 자연스러운 대화를 지원할 것입니다.

원문 링크

- o3 사용 후기 (vs 2.5 pro)

7af3c028e2f206a26d81f6e34685706e

75f3c028e2f206a26d81f6ed4e84746a

OAI에 좀 편향되게 평가하는 아저씨긴한데 그래도 참고하삼

biomedical scientist임

- o3 문제퓰이 개지리는데??? (vs 2.5 pro)

1ebec223e0dc2bae61abe9e74683716d90d520a0be029ef5fd50d4b0b7e255a7ec92dfea5f426189d0115fc2dc27dd65b959

위 문제 이미지로 넣고 풀게 시킴

1ebec223e0dc2bae61abe9e74683716d90d520a0be029ef1f95bd4b0b7e255a79370a77bb9b877c6674443789a563b37e69e

1ebec223e0dc2bae61abe9e74683716d90d520a0be029ef0fd55d4b0b7e255a773ec59dbeda1d71a942864bd4b8bea285a34

1ebec223e0dc2bae61abe9e74683716d90d520a0be029ef0ff53d4b0b7e255a71ae4af3bb784bdefe37f16099a1369f3edfc

O3 원큐에 정답

1ebec223e0dc2bae61abe9e74683716d90d520a0be029efdf956d4b4b0ec468c361ffd8aa8c07eda1f772a010030984d52bb

2.5 pro: 밑에 잘렸는데 답 9 라고함 = ㅂㅅ

39b5d535ecdc3fb362bec4bc02c8696fb256f44f73920dade12f07d4422a1eb621fb9859998dd69cf3998437a1cd1f8c81b3

추가로 o1 pro, o3 mini, grok3 다 못풀었었음

옛날에 이미 다 시켜봄

- dc official App

- 속보) 애니프사의 o3 / o4mh 사용후기...jpg

24b0d121e09c28a8699fe8b115ef0464d289e0cf

24b0d121e09c28a8699fe8b115ef046c65f32e479f

24b0d121e09c28a8699fe8b115ef0468e6adedbb

24b0d121e09c28a8699fe8b115ef046ec840caf7

24b0d121e09c28a8699fe8b115ef046f5c45989fa8

24b0d121e09c28a8699fe8b115ef0464de89e6cd

24b0d121e09c28a8699fe8b115ef0468e3a2edb2

24b0d121e09c28a8699fe8b115ef046c67f02d4c9c

- 속보) o3 시간맞추기 최초성공

지금까지 시계보고 시간맞추는 모델은 없었는데 o3가 최초 통과함. o4미니는 실패

1ebec223e0dc2bae61abe9e74683716d90d520a0bf069bf7f955d4b0b7e255a74642e1bbf66df8fbd581eb1ccee34299fd70

- dc official App

출처: 특이점이 온다 갤러리 [원본 보기]

고정닉 33

원본 첨부파일 10본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	술 마시면 실수가 많을 것 같은 스타는?	운영자	25/04/14	-	-
323183	[야갤] 성공한야붕이.. 히로시마 FLEX~ [192]	ㅇㅇ(118.235)	04.17	21427	326
323181	[카연] 스승의 날 이벤트하는 manhwa [59]	도우시락	04.17	17576	131
323177	[주갤] 펌) 결정사 매니저가 말하는 결혼시장 현실 ㄷㄷ [582]	MARTINELLI(118.221)	04.17	46379	258
323175	[이갤] 미국에서 난리난 인성교육 강의 [405]	ㅇㅇ(23.27)	04.17	41338	205
323172	[백갤] 포방터 상인들을 악마로 만들었던 골목식당.jpg [194]	ㅇㅇ(211.235)	04.17	35982	387
323169	[싱갤] 싱글벙글 대통령 자녀들....보인다 보여.....JPG [448]	ㅇㅇ	04.17	58143	912
323166	[판갤] 개들은 시간도 냄새로 안다네 [150]	NOIR	04.17	26474	127
323163	[군갤] 후티어 전술이야기 [83]	카다뮴	04.17	16112	57
323160	[잡갤] 대학이 너무 별로라는 전문대생 [242]	묘냥이	04.17	44226	133
323157	[기갤] 우리 기억에서 사라진 어린이, 이승복 "나는 공산당이 싫어요" [337]	ㅇㅇ(211.246)	04.17	22753	490
323155	[이갤] 20kg 감량한 유튜버가 헬스장 가기 싫었을때 쓴 방법 [351]	ㅇㅇ(61.97)	04.17	53085	260
323148	[군갤] 2차대전 당시 유럽 전선의 미군 병참 체계에 관한 정보들 [103]	카다뮴	04.17	18910	118
323145	[무갤] 요즘 10대 우울증이 심각하다고 한다 [837]	무갤러(59.28)	04.17	45033	322
323142	[카연] 괴물이 쓰러질 때까지 1화 [104]	용원마술사	04.17	15219	123
323140	[유갤] 여자들끼리 미묘한 신경전일 때 나온다는 리액션.jpg [401]	ㅇㅇ(175.119)	04.17	50494	81
323138	[중갤] (생로병사의 비밀) 35세는 생식 절벽이 아니다 [656]	중갤러(77.111)	04.17	37931	201
323137	[이갤] 누런 가래 뱉지말고 삼키는 게 좋은 이유 [444]	ㅇㅇ	04.17	42695	149
323135	[싱갤] 싱글벙글 요즘 점점 거품 얘기 나오는거 [500]	ㅇㅇ	04.17	47494	192
323131	[새갤] 김문수 "청년고용,SMR 최우선아젠다..이번 모수개혁은 개악" [208]	포만한	04.17	14940	65
323129	[주갤] 예비 시댁이랑 고기 먹으러갈때 며느리가 집게 잡아야 하나요? [229]	ㅇㅇ(106.101)	04.17	26731	105
323124	[싱갤] 싱글벙글 싱갤인기인 만두주물럭 근황 [645]	ㅇㅇ	04.17	48745	317
323122	[이갤] 요즘 여자들의 이성적인 매력 기준 [372]	ㅇㅇ(85.204)	04.17	47970	69
323120	[부갤] “강제 철거 반대” 미아리 텍사스 여성들 구청 앞에서 집회 [240]	ㅇㅇ(45.87)	04.17	21292	101
323118	[디갤] 무야 마포떡밥 지낫냐 [8]	가샥샥	04.17	11050	16
323116	[메갤] (부고소식) 메이플대학교 오프행사 1일차 근황 [173]	노바섭김창섭	04.17	25520	191
323114	[잡갤] 솔밭공원 오목의신과 대결한 유나 [122]	한지수	04.17	25564	109
323113	[코갤] 한국이 무너져도 솟아날 주식은 있다.MANHWA [81]	애니머니	04.17	18469	43
323111	[백갤] [정보]외식산업개발원 지자체 예산 8억 주방기기 및 집기류 대리구매 의혹 [76]	백갤러(1.247)	04.17	12021	138
323110	[싱갤] 싱글벙글 요즘 한국인들 소비력 근황 [808]	ㅇㅇ	04.17	47419	199
323107	[이갤] 목에 15kg 부담 거북목 증후군 주의보 [149]	배그린	04.17	33597	45
323105	[박갤] 일본사람들이 고속도로 요금 때문에 난리 난 이유 [242]	ㅇㅇ	04.17	24194	124
323104	[잡갤] 동덕여대 천원의 아침밥 학식 논란 [322]	휴민트솜솜이	04.17	36047	153
323102	[국갤] 국정원 "中 홍보사, 韓 언론사 7곳 도용해 사이트 개설" [278]	ㅇㅇ(221.140)	04.17	22813	751
323101	[카연] 죽은 아내가 너무너무 보고 싶었던 마법사 만화. 上 [70]	머래낙지	04.17	20013	120
323099	[싱갤] 역사상 국가의 면적 순위 TOP 15 [237]	ㅇㅇ	04.17	21138	36
323098	[이갤] 포스코이앤씨, 신안산선 붕괴 사죄…"철저한 재발 방지 대책 마련" [79]	묘냥이	04.17	13525	20
323096	[해갤] ■ 뮌헨 현지팬들 김민재를 향한 충격적인 민심...JPG [181]	ㅇㅇ(175.197)	04.17	20411	174
323095	[주갤] 남사친한테 자취방을 빌려준다는 여친... 이거 맞아?? 진짜 맞아??? [427]	갓럭키	04.17	39266	103
323093	[일갤] (4)오키나와를 여행하는 핑프를 위한 안내서 [21]	평범씨	04.17	10721	27
323090	[싱갤] 싱글벙글 요즘 씹덕물 주인공이 죄다 쿨찐인 이유.manhwa [588]	트랄랄레로트랄랄라	04.17	47971	443
323089	[미갤] 버핏도 인정하는 하워드막스의 관세전쟁 해석.jpg [198]	끼얏호우	04.17	25042	204
323088	[이갤] 이재명 "남을 괴롭혀서 감옥보내면 행복하지않다" [679]	ㅇㅇ(45.134)	04.17	24875	79
323086	[해갤] 그와중에 뤼가놈 또 터진 인성논란....jpg [79]	바루	04.17	18111	86
323084	[티갤] T1 직관 분위기 안좋긴한가봄 (+스매쉬 패싱, 악플) [282]	T갤러(175.211)	04.17	28727	163
323083	[야갤] 현재 미국에서 논란중인 케이티 페리 [211]	ㅇㅇ(106.101)	04.17	32687	340
323081	[잡갤] "327억 얼른 찾아가세요" 3년 지나면 '나라가 꿀꺽'...jpg [149]	빌애크먼	04.17	31532	62
323080	[안갤] [스압] 안철수"기술패권 경쟁시대, 이과 출신 대통령 나와야" [359]	간미래	04.17	13302	302
323078	[이갤] 펌) 똥싸고 ㄸㄸㅇ 해놓고 도망간 배달기사 [423]	ㅇㅇ(146.70)	04.17	40502	269
323075	[중갤] 레딧에서도 까이고있는 라오어 드라마 [321]	ㅇㅇ	04.17	25877	238
323074	[싱갤] 우주스압 우주의 신비...4탄.jpg [53]	싱글벙글	04.17	15587	44
뉴스	“전신마비 이겨냈는데”… 배정남 반려견, ‘악성종양’ 비보에 ‘충격’ (‘미우새’)	디시트렌드	10:00