OpenAI, o3와 o4-mini 출시

실시간 베스트 갤러리

sama

2025.04.17 15:05:01

조회 20081 추천 66 댓글 107

OpenAI o3 및 o4-mini 공개: 전체 도구 접근성을 갖춘 역대 가장 스마트하고 유능한 모델

오늘 OpenAI는 응답하기 전에 더 오래 생각하도록 훈련된 o-시리즈 모델의 최신 버전인 OpenAI o3와 o4-mini를 출시합니다. 이는 저희가 지금까지 출시한 모델 중 가장 스마트한 모델로, 호기심 많은 사용자부터 고급 연구원에 이르기까지 모든 사람을 위한 ChatGPT의 능력을 한 단계 끌어올렸습니다.

처음으로 저희 추론 모델이 ChatGPT 내의 모든 도구를 능동적으로 사용하고 결합할 수 있게 되었습니다. 여기에는 웹 검색, Python을 사용한 파일 및 기타 데이터 분석, 시각적 입력에 대한 깊이 있는 추론, 이미지 생성까지 포함됩니다. 결정적으로, 이 모델들은 더 복잡한 문제를 해결하기 위해 일반적으로 1분 이내에 올바른 출력 형식으로 상세하고 사려 깊은 답변을 생성하기 위해 언제, 어떻게 도구를 사용해야 하는지 추론하도록 훈련되었습니다.

이를 통해 다면적인 질문을 더 효과적으로 처리할 수 있으며, 사용자를 대신하여 독립적으로 작업을 수행할 수 있는 보다 능동적인 ChatGPT를 향한 한 걸음입니다. 최첨단 추론 능력과 전체 도구 접근성의 결합된 힘은 학문적 벤치마크와 실제 작업 모두에서 훨씬 더 강력한 성능으로 이어져 지능과 유용성 모두에서 새로운 기준을 세웁니다.

변경된 점

OpenAI o3는 코딩, 수학, 과학, 시각 인식 등 다양한 분야에서 최고 성능을 보여주는 가장 강력한 추론 모델입니다. Codeforces, SWE-bench(맞춤형 모델별 스캐폴드 구축 없이), MMMU 등 벤치마크에서 새로운 SOTA(최고 수준)를 기록했습니다.

다면적 분석이 필요하고 답이 즉시 명확하지 않을 수 있는 복잡한 쿼리에 이상적입니다. 특히 이미지, 차트, 그래픽 분석과 같은 시각적 작업에서 강력한 성능을 발휘합니다. 외부 전문가 평가에서 o3는 어려운 실제 작업에서 OpenAI o1보다 주요 오류를 20% 적게 발생시켰으며, 특히 프로그래밍, 비즈니스/컨설팅, 창의적 아이디어 구상과 같은 분야에서 뛰어났습니다. 초기 테스터들은 사고 파트너로서의 분석적 엄격함을 강조하고, 특히 생물학, 수학, 공학 분야 내에서 새로운 가설을 생성하고 비판적으로 평가하는 능력을 강조했습니다.

OpenAI o4-mini는 빠르고 비용 효율적인 추론에 최적화된 소형 모델입니다. 크기와 비용 대비 놀라운 성능을 달성하며, 특히 수학, 코딩, 시각적 작업에서 뛰어납니다. AIME 2025에서 o4-mini는 Python 인터프리터 접근 권한이 주어졌을 때 99.5%의 점수를 기록하여 이 벤치마크를 사실상 포화시켰습니다. 전문가 평가에서도 STEM 외 작업뿐만 아니라 데이터 과학과 같은 영역에서도 이전 모델인 o3-mini보다 뛰어난 성능을 보였습니다. 효율성 덕분에 o4-mini는 o3보다 훨씬 높은 사용량 한도를 지원하므로, 추론이 필요한 질문에 대해 대용량, 고처리량 옵션으로 강력합니다.

외부 전문가 평가자들은 두 모델 모두 향상된 지능과 웹 소스 포함 덕분에 이전 모델보다 향상된 지시 사항 준수 능력과 더 유용하고 검증 가능한 응답을 보여준다고 평가했습니다. 이전 버전의 추론 모델과 비교할 때, 이 두 모델은 특히 기억과 과거 대화를 참조하여 응답을 더 개인화되고 관련성 있게 만들기 때문에 더 자연스럽고 대화적으로 느껴질 것입니다.

7aea8768f5dc3f8650bbd58b36807d6ff54b

7beb8668f5dc3f8650bbd58b36837c6decb6

78e88568f5dc3f8650bbd58b36807c6afc0e

79e98468f5dc3f8650bbd58b368376647595

7eee8368f5dc3f8650bbd58b368073640d39

7fef8268f5dc3f8650bbd58b3683706ef4b5

7cec8168f5dc3f8650bbd58b3683726d79d8

강화 학습의 지속적인 확장

OpenAI o3 개발 전반에 걸쳐, 대규모 강화 학습이 GPT 시리즈 사전 훈련에서 관찰된 것과 동일한 "더 많은 컴퓨팅 = 더 나은 성능" 추세를 보인다는 것을 관찰했습니다. 이 확장 경로를 RL에서 다시 추적함으로써 훈련 컴퓨팅과 추론 시간 추론 모두에서 추가적인 자릿수만큼 확장했지만, 여전히 명확한 성능 향상을 확인하여 모델이 더 많이 생각하도록 허용할수록 성능이 계속 향상된다는 것을 입증했습니다. OpenAI o1과 동일한 지연 시간 및 비용으로 o3는 ChatGPT에서 더 높은 성능을 제공하며, 더 오래 생각하게 하면 성능이 계속 상승한다는 것을 검증했습니다.

또한 강화 학습을 통해 두 모델 모두 도구를 사용하도록 훈련했습니다. 즉, 도구를 사용하는 방법뿐만 아니라 언제 사용해야 하는지 추론하도록 가르쳤습니다. 원하는 결과에 따라 도구를 배포하는 능력은 개방형 상황, 특히 시각적 추론 및 다단계 워크플로우를 포함하는 상황에서 모델을 더욱 유능하게 만듭니다. 이러한 개선은 초기 테스터들이 보고한 바와 같이 학문적 벤치마크와 실제 작업 모두에 반영됩니다.

이미지로 생각하기

처음으로 이 모델들은 이미지를 사고 과정에 직접 통합할 수 있습니다. 단순히 이미지를 보는 것이 아니라, 이미지로 생각합니다. 이는 시각적 및 텍스트적 추론을 혼합하는 새로운 종류의 문제 해결을 가능하게 하며, 멀티모달 벤치마크 전반에 걸친 최첨단 성능에 반영됩니다.

사용자는 화이트보드 사진, 교과서 다이어그램 또는 손으로 그린 스케치를 업로드할 수 있으며, 이미지가 흐리거나, 뒤집히거나, 저화질이라도 모델은 이를 해석할 수 있습니다. 도구 사용을 통해 모델은 추론 과정의 일부로 즉석에서 이미지를 회전, 확대/축소 또는 변환하여 조작할 수 있습니다.

이 모델들은 시각 인식 작업에서 동급 최고의 정확도를 제공하여 이전에는 해결할 수 없었던 질문을 해결할 수 있게 합니다. 자세한 내용은 시각적 추론 연구 블로그⁠를 확인하세요.

7af39e36ebd518986abce8954486726d9096

능동적인 도구 사용을 향하여

OpenAI o3 및 o4-mini는 ChatGPT 내의 도구뿐만 아니라 API의 함수 호출을 통해 사용자 지정 도구에도 완전히 접근할 수 있습니다. 이 모델들은 문제를 해결하는 방법을 추론하도록 훈련되었으며, 일반적으로 1분 이내에 올바른 출력 형식으로 상세하고 사려 깊은 답변을 신속하게 생성하기 위해 언제, 어떻게 도구를 사용해야 하는지 선택합니다.

예를 들어, 사용자는 "캘리포니아의 여름 에너지 사용량은 작년과 비교하여 어떻게 될까요?"라고 질문할 수 있습니다. 모델은 공공 유틸리티 데이터를 웹에서 검색하고, 예측을 구축하기 위한 Python 코드를 작성하고, 그래프나 이미지를 생성하고, 예측의 주요 요인을 설명하며 여러 도구 호출을 연결할 수 있습니다. 추론을 통해 모델은 마주치는 정보에 따라 필요에 맞게 반응하고 방향을 전환할 수 있습니다. 예를 들어, 검색 제공 업체의 도움을 받아 웹을 여러 번 검색하고, 결과를 보고, 더 많은 정보가 필요하면 새로운 검색을 시도할 수 있습니다.

이러한 유연하고 전략적인 접근 방식을 통해 모델은 모델의 내장된 지식을 넘어서는 최신 정보 접근, 확장된 추론, 합성 및 여러 양식에 걸친 출력 생성이 필요한 작업을 처리할 수 있습니다.

모든 예시는 OpenAI o3로 완료되었습니다.

비용 효율적인 추론 발전

OpenAI o3 및 o4-mini는 저희가 출시한 모델 중 가장 지능적이며, 이전 모델인 OpenAI o1 및 o3-mini보다 종종 더 효율적입니다. 예를 들어, 2025 AIME 수학 경진대회에서 o3의 비용-성능 경계는 o1을 명백히 개선하며, 유사하게 o4-mini의 경계는 o3-mini를 명백히 개선합니다. 더 일반적으로, 대부분의 실제 사용 사례에서 o3 및 o4-mini는 각각 o1 및 o3-mini보다 더 스마트하고 저렴할 것으로 예상합니다.

74f3c028e2f206a26d81f6e44682756bb1

75f3c028e2f206a26d81f6e4478376696b

안전성

모델 기능이 향상될 때마다 그에 상응하는 안전성 개선이 필요합니다. OpenAI o3 및 o4-mini의 경우, 생물학적 위협(바이오리스크), 멀웨어 생성, 탈옥과 같은 영역에서 새로운 거부 프롬프트를 추가하여 안전성 훈련 데이터를 완전히 재구축했습니다. 이 새로워진 데이터 덕분에 o3 및 o4-mini는 내부 거부 벤치마크(예: 지시 계층 구조⁠, 탈옥)에서 강력한 성능을 달성했습니다. 모델 거부에 대한 강력한 성능 외에도, 프론티어 위험 영역에서 위험한 프롬프트를 탐지하기 위한 시스템 수준의 완화 조치도 개발했습니다. 이전의 이미지 생성 작업과 유사하게, 사람이 작성하고 해석 가능한 안전 사양에 따라 작동하는 추론 LLM 모니터를 훈련했습니다. 바이오리스크에 적용했을 때, 이 모니터는 인간 레드팀 캠페인의 대화 중 약 99%를 성공적으로 탐지했습니다.

저희는 역대 가장 엄격한 안전 프로그램을 통해 두 모델을 스트레스 테스트했습니다. 업데이트된 준비 태세 프레임워크⁠에 따라, 프레임워크가 다루는 세 가지 추적 기능 영역인 생물학적 및 화학적, 사이버 보안, AI 자기 개선 전반에 걸쳐 o3 및 o4-mini를 평가했습니다. 이러한 평가 결과에 기초하여, o3 및 o4-mini 모두 세 범주 모두에서 프레임워크의 "높음" 임계값 미만으로 유지된다고 판단했습니다. 이러한 평가의 상세 결과는 첨부된 시스템 카드⁠⁠에 게시했습니다.

Codex CLI: 터미널에서의 프론티어 추론

또한 새로운 실험인 Codex CLI를 공유합니다. 이는 터미널에서 실행할 수 있는 경량 코딩 에이전트입니다. 컴퓨터에서 직접 작동하며, o3 및 o4-mini와 같은 모델의 추론 능력을 극대화하도록 설계되었으며, GPT-4.1과 같은 추가 API 모델에 대한 지원이 곧 제공될 예정입니다.

스크린샷이나 저해상도 스케치를 모델에 전달하고 로컬 코드에 접근하여 명령줄에서 멀티모달 추론의 이점을 얻을 수 있습니다. 저희는 이를 모델과 사용자 및 컴퓨터를 연결하는 최소한의 인터페이스로 생각합니다. Codex CLI는 오늘 github.com/openai/codex⁠(새 창에서 열림)에서 완전한 오픈 소스로 제공됩니다.

이와 함께 Codex CLI 및 OpenAI 모델을 사용하는 프로젝트를 지원하기 위해 1백만 달러 규모의 이니셔티브를 시작합니다. API 크레딧 형태로 25,000달러 단위의 보조금 신청서를 평가하고 수락할 것입니다. 제안서는 여기에서 제출할 수 있습니다.

접근성

ChatGPT Plus, Pro, Team 사용자는 오늘부터 모델 선택기에서 o1, o3-mini, o3-mini-high를 대체하는 o3, o4-mini, o4-mini-high를 볼 수 있습니다. ChatGPT Enterprise 및 Edu 사용자는 일주일 후에 접근 권한을 얻게 됩니다. 무료 사용자는 쿼리를 제출하기 전에 작성기에서 '생각하기(Think)'를 선택하여 o4-mini를 사용해 볼 수 있습니다. 모든 플랜의 속도 제한은 이전 모델 세트에서 변경되지 않았습니다.

몇 주 내에 전체 도구 지원을 갖춘 OpenAI o3-pro를 출시할 것으로 예상합니다. 현재 Pro 사용자는 여전히 o1-pro에 접근할 수 있습니다.

o3 및 o4-mini는 오늘부터 Chat Completions API 및 Responses API를 통해 개발자에게도 제공됩니다(일부 개발자는 이러한 모델에 접근하기 위해 조직을 확인⁠(새 창에서 열림)해야 할 수 있습니다). Responses API는 추론 요약, 더 나은 성능을 위해 함수 호출 주변의 추론 토큰을 보존하는 기능 등을 지원하며, 곧 모델의 추론 내에서 웹 검색, 파일 검색, 코드 인터프리터와 같은 내장 도구를 지원할 예정입니다. 시작하려면 저희 문서⁠⁠(새 창에서 열림)를 살펴보고 더 많은 업데이트를 기대해 주세요.

다음 단계

오늘의 업데이트는 저희 모델이 나아갈 방향을 반영합니다: o-시리즈의 특화된 추론 능력과 GPT-시리즈의 보다 자연스러운 대화 능력 및 도구 사용을 융합하고 있습니다. 이러한 강점을 통합함으로써 미래의 모델은 선제적인 도구 사용 및 고급 문제 해결과 함께 원활하고 자연스러운 대화를 지원할 것입니다.

- (오픈AI) o3 및 o4-mini 공개

2025년 4월 16일 | 출시 | 제품

OpenAI o3 및 o4-mini 공개: 역대 가장 스마트하고 유능하며 완전한 도구 접근성을 갖춘 모델

[ChatGPT에서 사용해 보기]

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662b284d464b468e89fb4340d7ad0f155a47e4cc181b5a61d68ed4

오늘, OpenAI는 o-시리즈의 최신 모델인 o3와 o4-mini를 출시합니다. 이 모델들은 응답하기 전에 더 깊이 사고하도록 훈련되었습니다. 현재까지 저희가 출시한 모델 중 가장 스마트하며, 호기심 많은 사용자부터 고급 연구원에 이르기까지 모든 이들에게 ChatGPT 역량의 획기적인 발전(step change)을 보여줍니다. 처음으로 저희 추론 모델들은 스스로 판단하여(agentically) ChatGPT 내의 모든 도구 – 웹 검색, Python을 이용한 파일 및 데이터 분석, 시각적 입력에 대한 심층 추론, 이미지 생성까지 – 를 활용하고 조합할 수 있습니다. 결정적으로, 이 모델들은 언제 어떻게 도구를 사용해야 할지 추론하여, 일반적으로 1분 이내에 정확한 출력 형식으로 상세하고 심도 있는 답변을 생성함으로써 더 복잡한 문제를 해결하도록 훈련되었습니다. 이를 통해 다면적인 질문을 더욱 효과적으로 처리할 수 있으며, 사용자를 대신하여 독립적으로 작업을 수행할 수 있는 더욱 주체적인(agentic) ChatGPT로 나아가는 한 걸음입니다. 최첨단 추론 능력과 완전한 도구 접근성의 결합은 학술 벤치마크와 실제 과제 전반에서 현저하게 향상된 성능으로 이어져, 지능과 유용성 모두에서 새로운 기준을 제시합니다.

무엇이 달라졌는가

OpenAI o3는 코딩, 수학, 과학, 시각 인식 등 전 분야에 걸쳐 기술의 한계를 넓히는 저희의 가장 강력한 추론 모델입니다. Codeforces, SWE-bench(맞춤형 모델별 스캐폴드 구축 없이), MMMU 등 벤치마크에서 새로운 최고 성능(SOTA)을 기록했습니다. 다면적 분석이 필요하고 답이 즉각적으로 명확하지 않은 복잡한 질의에 이상적입니다. 특히 이미지, 차트, 그래픽 분석과 같은 시각적 작업에서 강력한 성능을 보입니다. 외부 전문가 평가에서 o3는 어려운 실제 과제에서 OpenAI o1보다 주요 오류를 20% 적게 발생시켰으며, 특히 프로그래밍, 비즈니스/컨설팅, 창의적 아이디어 구상 분야에서 뛰어난 성과를 보였습니다. 초기 테스터들은 사고 파트너로서의 분석적 엄밀함을 높이 평가했으며, 특히 생물학, 수학, 공학 분야에서 새로운 가설을 생성하고 비판적으로 평가하는 능력을 강조했습니다.

OpenAI o4-mini는 빠르고 비용 효율적인 추론에 최적화된 소형 모델입니다. 크기와 비용 대비 놀라운 성능을 달성하며, 특히 수학, 코딩, 시각적 작업에서 뛰어납니다. AIME 2024 및 2025에서 새로운 최고 성능(SOTA)을 기록했습니다. 전문가 평가에서는 데이터 과학과 같은 영역뿐만 아니라 비 STEM 분야에서도 이전 모델인 o3-mini를 능가했습니다. 효율성 덕분에 o4-mini는 o3보다 훨씬 높은 사용 한도를 지원하므로, 추론 능력이 중요한 대량, 고처리량 질문에 강력한 옵션입니다.

외부 전문가 평가자들은 두 모델 모두 향상된 지능과 웹 소스 포함 덕분에 이전 모델들보다 개선된 지시 사항 준수 능력과 더 유용하고 검증 가능한 응답을 보여준다고 평가했습니다. 이전 버전의 추론 모델들과 비교하여, 이 두 모델은 특히 기억과 과거 대화를 참조하여 응답을 더욱 개인화되고 관련성 높게 만들기 때문에 더 자연스럽고 대화적인 느낌을 줄 것입니다.

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662b284d404b415fe48c852e7a0abdd15bc09dc8c585560deaf1

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d454ada399628382837f974a168062cbe07918df8bf44

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d4444562cb36bbaf7b70ceb0e5d422e345f4d22513031

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d474b40586e7e241ef5a3d41cb12e585689e62c359b97

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d464f57f2ca4f4f467158d651ac887f7fd2932ac13dbc

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d464b4a4a8d25c85236018057959a80311cebc7f676a6

모든 모델은 ChatGPT의 'o4-mini-high'와 유사한 높은 '추론 노력(reasoning effort)' 설정에서 평가되었습니다.

강화 학습의 지속적인 확장

OpenAI o3 개발 전반에 걸쳐, 저희는 대규모 강화 학습이 GPT 시리즈 사전 훈련에서 관찰된 것과 동일한 "더 많은 컴퓨팅 = 더 나은 성능" 추세를 보인다는 것을 관찰했습니다. 이번에는 강화 학습에서 스케일링 경로를 되짚어봄으로써, 훈련 컴퓨팅과 추론 시간 추론 모두에서 추가적인 자릿수(order of magnitude)만큼 확장했음에도 여전히 명확한 성능 향상을 확인했습니다. 이는 모델이 더 많이 생각하도록 허용할수록 성능이 계속 향상된다는 것을 입증합니다. OpenAI o1과 동일한 지연 시간 및 비용에서 o3는 ChatGPT에서 더 높은 성능을 제공하며, 더 오래 생각하게 하면 성능이 계속 상승한다는 것을 검증했습니다.

또한 저희는 강화 학습을 통해 두 모델이 도구를 사용하도록 훈련했습니다. 단순히 도구 사용법뿐만 아니라 언제 사용해야 할지 추론하는 능력을 가르쳤습니다. 원하는 결과에 따라 도구를 배치하는 능력은 특히 시각적 추론과 다단계 워크플로우를 포함하는 개방형 상황에서 모델을 더욱 유능하게 만듭니다. 이러한 개선은 초기 테스터들이 보고한 바와 같이 학술 벤치마크와 실제 과제 모두에 반영되었습니다.

이미지와 함께 사고하기

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d414f8942094bb2fdeb36b9c2b9d172c8afcc66d2c3b14b

처음으로 이 모델들은 이미지를 자신의 사고 과정(chain of thought)에 직접 통합할 수 있습니다. 단순히 이미지를 보는 것을 넘어, 이미지를 가지고 생각합니다. 이는 시각적 및 텍스트적 추론을 결합하는 새로운 종류의 문제 해결을 가능하게 하며, 다중 모드 벤치마크 전반에서 최첨단 성능으로 나타납니다.

사용자는 화이트보드 사진, 교과서 다이어그램 또는 손으로 그린 스케치를 업로드할 수 있으며, 이미지가 흐릿하거나, 뒤집혀 있거나, 저품질이더라도 모델은 이를 해석할 수 있습니다. 도구 사용을 통해 모델은 추론 과정의 일부로 이미지를 즉석에서 회전, 확대/축소 또는 변형하는 등 조작할 수 있습니다.

이 모델들은 시각 인식 작업에서 동급 최고의 정확도를 제공하여 이전에는 해결할 수 없었던 질문을 풀 수 있게 합니다. 자세한 내용은 시각적 추론 연구 블로그⁠를 확인하세요.

주체적인 도구 사용을 향하여

OpenAI o3 및 o4-mini는 ChatGPT 내의 도구뿐만 아니라 API의 함수 호출(function calling)을 통해 사용자의 자체 맞춤형 도구에도 완전한 접근 권한을 갖습니다. 이 모델들은 문제를 해결하는 방법을 추론하고, 언제 어떻게 도구를 사용하여 일반적으로 1분 이내에 정확한 출력 형식으로 상세하고 심도 있는 답변을 신속하게 생성할지 선택하도록 훈련되었습니다.

예를 들어, 사용자가 "캘리포니아의 여름철 에너지 사용량이 작년과 비교하여 어떻게 될까요?"라고 질문할 수 있습니다. 모델은 공공 유틸리티 데이터를 웹에서 검색하고, 예측 모델을 구축하기 위해 Python 코드를 작성하고, 그래프나 이미지를 생성하고, 예측의 주요 요인을 설명하는 등 여러 도구 호출을 연쇄적으로 수행할 수 있습니다. 추론 능력 덕분에 모델은 마주치는 정보에 따라 필요에 맞게 반응하고 방향을 전환할 수 있습니다. 예를 들어, 검색 제공자의 도움을 받아 웹을 여러 번 검색하고, 결과를 살펴보고, 더 많은 정보가 필요하면 새로운 검색을 시도할 수 있습니다.

이러한 유연하고 전략적인 접근 방식을 통해 모델은 내장된 지식을 넘어서는 최신 정보 접근, 확장된 추론, 종합, 그리고 여러 양식에 걸친 출력 생성이 필요한 작업을 처리할 수 있습니다.

모든 예시는 OpenAI o3로 완료되었습니다.

링크

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d404f3e84beb940a2ace2781c77eaa1301822f055120a8d

OpenAI o3는 검색을 사용하지 않고도 정확한 응답을 얻는 반면, o1은 정확한 응답을 제공하지 못합니다.

비용 효율적인 추론의 발전

비용 대비 성능: o3-mini 및 o4-mini

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c204d444997548cb9c5a65b71b25fe90c7893068afe0241f4a7

비용 대비 성능: o1 및 o3

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c204d474d77d0c19ce5c7ab29886d736166e035dcff922de548

OpenAI o3 및 o4-mini는 저희가 출시한 가장 지능적인 모델이며, 이전 모델인 OpenAI o1 및 o3-mini보다 종종 더 효율적입니다. 예를 들어, 2025년 AIME 수학 경시대회에서 o3의 비용-성능 경계선은 o1보다 확실히 개선되었으며, 마찬가지로 o4-mini의 경계선도 o3-mini보다 확실히 개선되었습니다. 더 일반적으로, 대부분의 실제 사용 사례에서 o3와 o4-mini는 각각 o1과 o3-mini보다 더 스마트하고 저렴할 것으로 예상합니다.

안전성

모델 능력의 모든 개선에는 그에 상응하는 안전성 개선이 필요합니다. OpenAI o3 및 o4-mini를 위해 저희는 안전 훈련 데이터를 완전히 재구축하여 생물학적 위협(바이오리스크), 악성 코드 생성, 탈옥(jailbreaks)과 같은 영역에서 새로운 거부 프롬프트를 추가했습니다. 이 새로워진 데이터 덕분에 o3와 o4-mini는 내부 거부 벤치마크(예: 지시 계층 구조⁠, 탈옥)에서 강력한 성능을 달성했습니다. 모델 거부에 대한 강력한 성능 외에도, 저희는 최전선 위험 영역에서 위험한 프롬프트를 탐지하기 위한 시스템 수준의 완화 조치도 개발했습니다. 이미지 생성⁠에서의 이전 작업과 유사하게, 인간이 작성하고 해석 가능한 안전 사양에 따라 작동하는 추론 LLM 모니터를 훈련했습니다. 바이오리스크에 적용했을 때, 이 모니터는 인간 레드팀 캠페인에서 대화의 약 99%를 성공적으로 탐지했습니다.

저희는 현재까지 가장 엄격한 안전 프로그램을 통해 두 모델을 스트레스 테스트했습니다. 업데이트된 준비 상태 프레임워크⁠에 따라, 저희는 프레임워크에서 다루는 추적된 세 가지 능력 영역인 생물학 및 화학, 사이버 보안, AI 자가 개선에 걸쳐 o3와 o4-mini를 평가했습니다. 이러한 평가 결과에 기초하여, 저희는 o3와 o4-mini 모두 세 가지 범주 모두에서 프레임워크의 "높음(High)" 임계값 미만으로 유지된다고 판단했습니다. 이러한 평가의 자세한 결과는 첨부된 시스템 카드⁠⁠에서 발표했습니다.

Codex CLI: 터미널에서의 최첨단 추론

저희는 또한 새로운 실험인 Codex CLI를 공유합니다. 이는 터미널에서 실행할 수 있는 경량 코딩 에이전트입니다. 사용자의 컴퓨터에서 직접 작동하며 o3 및 o4-mini와 같은 모델의 추론 능력을 극대화하도록 설계되었으며, 곧 GPT-4.1⁠과 같은 추가 API 모델도 지원할 예정입니다.

스크린샷이나 간단한 스케치를 모델에 전달하고 로컬 코드에 접근하여 명령줄에서 다중 모드 추론의 이점을 얻을 수 있습니다. 저희는 이를 모델과 사용자 및 사용자 컴퓨터를 연결하는 최소한의 인터페이스로 생각합니다. Codex CLI는 오늘 github.com/openai/codex⁠에서 완전히 오픈 소스로 공개됩니다.

이와 함께, 저희는 Codex CLI 및 OpenAI 모델을 사용하는 프로젝트를 지원하기 위해 1백만 달러 규모의 이니셔티브를 시작합니다. 미화 25,000달러 단위의 API 크레딧 형태로 보조금 신청서를 평가하고 수락할 것입니다. 제안서는 여기에서 제출할 수 있습니다.

이용 안내

ChatGPT Plus, Pro, Team 사용자는 오늘부터 모델 선택기에서 o1, o3-mini, o3-mini-high를 대체하는 o3, o4-mini, o4-mini-high를 볼 수 있습니다. ChatGPT Enterprise 및 Edu 사용자는 일주일 후에 이용할 수 있습니다. 무료 사용자는 쿼리를 제출하기 전에 작성기에서 '생각하기(Think)'를 선택하여 o4-mini를 사용해 볼 수 있습니다. 모든 요금제의 속도 제한은 이전 모델 세트와 동일하게 유지됩니다.

몇 주 안에 완전한 도구 지원을 갖춘 OpenAI o3-pro를 출시할 것으로 예상합니다. 현재 Pro 사용자는 여전히 o1-pro에 접근할 수 있습니다.

o3와 o4-mini 모두 오늘부터 Chat Completions API 및 Responses API를 통해 개발자에게도 제공됩니다(일부 개발자는 이러한 모델에 접근하기 위해 조직 인증⁠이 필요할 수 있습니다). Responses API는 추론 요약, 더 나은 성능을 위해 함수 호출 주변의 추론 토큰을 보존하는 기능 등을 지원하며, 곧 모델의 추론 내에서 웹 검색, 파일 검색, 코드 인터프리터와 같은 내장 도구를 지원할 예정입니다. 시작하려면 저희 문서⁠⁠를 살펴보고 추가 업데이트를 기다려 주십시오.

다음 단계

오늘의 업데이트는 저희 모델이 나아갈 방향을 반영합니다: 저희는 o-시리즈의 전문화된 추론 능력과 GPT-시리즈의 보다 자연스러운 대화 능력 및 도구 사용을 융합하고 있습니다. 이러한 강점을 통합함으로써, 저희의 미래 모델은 선제적인 도구 사용 및 고급 문제 해결과 함께 원활하고 자연스러운 대화를 지원할 것입니다.

원문 링크

- o3 사용 후기 (vs 2.5 pro)

7af3c028e2f206a26d81f6e34685706e

75f3c028e2f206a26d81f6ed4e84746a

OAI에 좀 편향되게 평가하는 아저씨긴한데 그래도 참고하삼

biomedical scientist임

- o3 문제퓰이 개지리는데??? (vs 2.5 pro)

1ebec223e0dc2bae61abe9e74683716d90d520a0be029ef5fd50d4b0b7e255a7ec92dfea5f426189d0115fc2dc27dd65b959

위 문제 이미지로 넣고 풀게 시킴

1ebec223e0dc2bae61abe9e74683716d90d520a0be029ef1f95bd4b0b7e255a79370a77bb9b877c6674443789a563b37e69e

1ebec223e0dc2bae61abe9e74683716d90d520a0be029ef0fd55d4b0b7e255a773ec59dbeda1d71a942864bd4b8bea285a34

1ebec223e0dc2bae61abe9e74683716d90d520a0be029ef0ff53d4b0b7e255a71ae4af3bb784bdefe37f16099a1369f3edfc

O3 원큐에 정답

1ebec223e0dc2bae61abe9e74683716d90d520a0be029efdf956d4b4b0ec468c361ffd8aa8c07eda1f772a010030984d52bb

2.5 pro: 밑에 잘렸는데 답 9 라고함 = ㅂㅅ

39b5d535ecdc3fb362bec4bc02c8696fb256f44f73920dade12f07d4422a1eb621fb9859998dd69cf3998437a1cd1f8c81b3

추가로 o1 pro, o3 mini, grok3 다 못풀었었음

옛날에 이미 다 시켜봄

- dc official App

- 속보) 애니프사의 o3 / o4mh 사용후기...jpg

24b0d121e09c28a8699fe8b115ef0464d289e0cf

24b0d121e09c28a8699fe8b115ef046c65f32e479f

24b0d121e09c28a8699fe8b115ef0468e6adedbb

24b0d121e09c28a8699fe8b115ef046ec840caf7

24b0d121e09c28a8699fe8b115ef046f5c45989fa8

24b0d121e09c28a8699fe8b115ef0464de89e6cd

24b0d121e09c28a8699fe8b115ef0468e3a2edb2

24b0d121e09c28a8699fe8b115ef046c67f02d4c9c

- 속보) o3 시간맞추기 최초성공

지금까지 시계보고 시간맞추는 모델은 없었는데 o3가 최초 통과함. o4미니는 실패

1ebec223e0dc2bae61abe9e74683716d90d520a0bf069bf7f955d4b0b7e255a74642e1bbf66df8fbd581eb1ccee34299fd70

- dc official App

출처: 특이점이 온다 갤러리 [원본 보기]

고정닉 33

원본 첨부파일 10본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	술 마시면 실수가 많을 것 같은 스타는?	운영자	25/04/14	-	-
공지	실시간베스트 갤러리 이용 안내 [3091/2]	운영자	21.11.18	11630973	537
323630	[야갤] 관세 때문에 물가 오른다...트럼프 가짜뉴스 ㄹㅇ...jpg [49]	Adidas	16:50	5251	170
323629	[싱갤] 싱글벙글 서울대 출신 산부인과 의사가 알려주는 난임 [68]	유스테이스	16:40	13488	51
323627	[카연] (지최대)전도사 0화 [24]	우르항	16:30	1303	29
323625	[이갤] 키와 얼굴크기는 미와 무관하다는 이탈리아 [75]	ㅇㅇ(169.150)	16:20	5075	16
323624	[야갤] “군부대라길래 철석같이 믿고 만들었는데”…삼계탕 80인분 ‘노쇼’ [195]	감돌	16:10	6594	22
323620	[무갤] 이기자 부대 해제 후 무너져버린 최전방 시골마을.jpg [260]	조선인의안락사	15:50	12125	240
323619	[싱갤] 싱글벙글 누구를 위한 결혼식인가 [254]	ㅇㅇ	15:40	10853	58
323617	[스갤] 군복무 중 손목 절단 사고.. 국가유공자 등록 불허..ㄹㅇ [278]	수능디	15:30	10391	254
323615	[특갤] 제미니 2.5 절대 손가락 6개 인식 못하네 [151]	동경화	15:20	10090	91
323614	[국갤] 코로나는 중국이 만들었다.(백악관피셜) [357]	백골단반대2(1.229)	15:10	11995	488
323612	[싱갤] 싱글벙글 검지 약지 를 보면 음경의 크기를 알 수 있다 [331]	ㅇㅇ	15:00	18643	60
323610	[미갤] "대공황 사태 날까 걱정" 떨고 있는 트럼프 [319]	포만한	14:50	20171	115
323609	[싱갤] 유치유치 요즘 디지몬 강함 순위 [278]	ㅇㅇ	14:40	22842	111
323607	[미갤] 해외사이트에 불법촬영 영상 유포해버린 남자친구 jpg [380]	ㅇㅇ(211.235)	14:30	18992	100
323605	[이갤] 특검법 11건 통과되면 김건희·명태균·해병… 특검 5개 동시에 가동 [99]	묘냥이	14:20	5808	33
323602	[필갤] 산 찍어옴 그런데 F5를 들고 [15]	잡상인	14:01	4586	10
323600	[야갤] "너도 수모 느껴봐"…헬스장서 힘 키워 전 남편 살해한 60대 [395]	감돌	13:50	22771	131
323599	[야갤] 문항 1개당 '50만 원'... 100명 무더기 송치 [143]	마스널	13:40	12061	68
323597	[싱갤] 싱글벙글 인스타 여초감성 햄스터 모음.jpg [364]	ㅇㅇ	13:30	36406	184
323595	[위갤] 위고비 7일차 상세 후기 [252]	ㅇㅇ	13:20	25550	97
323594	[미갤] 트럼프, 우크라 협상 지연에 격노 "바보멍청한 인간이라 할것" [363]	포만한	13:10	16333	75
323592	[야갤] 하루에 음식 200만원어치 판매...PC방 ㄹㅇ...jpg [358]	Adidas	13:00	42912	297
323590	[싱갤] 안싱글벙글 어제 있었던 미국-일본 협상 결과...jpg [661]	수류탄이야	12:50	25109	148
323587	[이갤] 북한에서 만든 시리얼 리뷰 [297]	ㅇㅇ(62.197)	12:30	20966	41
323585	[군갤] 짱개, 서해에 헬기장 갖춘 구조물 만듬 ㄷㄷㄷ [711]	ㅇㅇ	12:20	18346	275
323584	[싱갤] 싱글벙글 논란터진 친엄마 고소한 이대남..jpg [766]	ㅇㅇ	12:10	40639	174
323582	[인갤] 출근을 포기하고 쓰는 템페스트 라이징 찍먹 후기 [36]	Ludrik	12:00	9525	15
323580	[이갤] 한국인이 일냈다…? 암세포 치료 실마리 찾은 KAIST 연구팀. [521]	갈베	11:50	15954	56
323579	[싱갤] 사람 안구해지는 조선소 [662]	부타코	11:40	25146	304
323577	[중갤] 헐...권성동에게 건진법사가 봉화군수 공천청탁 의혹 [128]	나무	11:30	11256	174
323575	[이갤] 요즘 청년들이 연애를 안 하는 이유 [1160]	ㅇㅇ(93.152)	11:20	57946	125
323574	[무갤] 승무원도 튼튼해야 뽑는다.. 테이저건 훈련까지ㄷㄷ [242]	ㅇㅇ	11:10	19874	103
323572	[이갤] 급증하는 오토바이 교통위반… 오토바이충의 현실 [156]	갈베	11:00	12599	52
323569	[싱갤] 싱글벙글 뭔가말이되는manhwa [108]	ㅇㅇ	10:40	27668	231
323567	[잡갤] 이재명 "당선되면 용산 쓴다, 이후 청와대 거쳐 세종으로" [485]	묘냥이	10:30	21676	152
323565	[싱갤] 싱글벙글 요즘 대학생들은 모르는 추억의 만화영화들 [196]	knb143	10:20	20572	58
323564	[이갤] 학교 급식노동자들이 일하는 노동환경 [560]	ㅇㅇ(80.246)	10:10	17416	50
323562	[스갤] "아무 여대생 데려다주기" 대학교에서 유행중인 정신나간 챌린지... [570]	깐부	10:00	31214	124
323560	[미갤] 유튜브 검열도 이제 못할 예정ㅋ [338]	cold1984	09:50	47481	575
323559	[싱갤] 싱글벙글 고척돔은 21세기 최악의 돔 [211]	니지카엘	09:40	33557	241
323557	[이갤] 품종견을 샀던 유튜버가 유기견을 입양하게 된 과정 [130]	ㅇㅇ(146.70)	09:30	17888	34
323556	[야갤] 길가던 여성 따라가며 '묻지마 폭행'한 10대 [625]	야떡이	09:21	29662	343
323552	[중갤] ‘헌재 알박기’ 진압된 한덕수, 대망론 폭삭 일장춘몽 수순 [논썰] [246]	조희대	09:00	17932	85
323550	[싱갤] 약 스압) 싱글벙글 슈퍼히어로 영화의 역사 [53]	ㅇㅇ	08:50	11053	26
323548	[미갤] 세상에서 가장 큰 박쥐에 대해 알아보자 [105]	ㅇㅇ(185.236)	08:40	14247	71
323546	[우갤] 사진많음주의) 말붕이 새 렌즈사고 동물원 다녀온 후기 [69]	이문정주	08:30	5786	29
323545	[이갤] 무식한 미국인 참교육하는 일본인.... [213]	갈베	08:21	27496	59
323542	[케갤] 홍대 일식 맛집 (개인적) [211]	지옥에서돌아온아즈냥	08:10	15810	31
323540	[싱갤] 싱글벙글 엉뚱맞은 일본 가챠들 [77]	재앙	08:00	19181	70
뉴스	“23년 만 변화, 울컥”…최은경, ‘동치미’ 하차→새 소속사行	디시트렌드	14:00