OpenAI o3 추론 모델: 코딩·수학에서 사람을 앞서기 시작한 AI

- OpenAI가 공개한 o3 모델이 주요 벤치마크에서 인간 전문가 수준을 넘어서기 시작했음
- AIME 2024(미국수학올림피아드 예선) 정답률 **96.7%**, SWE-bench Verified(실제 코딩 과제) **71.7%** 달성
- 핵심 차이: 답을 바로 출력하는 기존 모델과 달리, o3는 내부에서 "생각하는 시간"을 가짐
- 하지만 API 비용이 높고 속도가 느림 — 무조건 o3가 정답인 건 아님

### o3가 뭐가 다른가

- 기존 GPT-4o는 입력 받으면 바로 토큰 생성. o3는 **Chain-of-Thought를 내부에서 자동 실행**
- OpenAI는 이 내부 추론 과정을 "reasoning tokens"라고 부름. 외부에는 최종 답만 노출됨
- 추론 깊이를 "low/medium/high"로 조절 가능. high 모드일수록 정확도 높고 비용·시간 증가
- 비유하면: 일반 모델은 암산으로 답. o3는 노트에 풀이 써가며 검산까지 함
- 이 구조는 OpenAI의 "Strawberry(딸기)" 프로젝트 코드네임으로 알려진 연구에서 출발

### 코딩 성능: 수치로 보면

- **SWE-bench Verified**: 실제 GitHub 이슈를 AI가 직접 해결하는 테스트. o3는 71.7% 해결 — 이전 최고(Claude 3.5 Sonnet 49%)를 크게 앞섬
- **HumanEval**: 코딩 함수 구현 테스트에서 **99.2%** 달성. 사실상 만점 수준
- **Codeforces ELO**: 경쟁 프로그래밍 플랫폼 기준 점수 **2727** — 상위 0.2% 인간 레벨
- 실제 코드베이스 디버깅 능력이 이전 모델 대비 뚜렷이 향상됐다는 개발자 피드백 다수
- VS Code + Copilot, Cursor 등에서 o3-mini를 백엔드로 쓸 수 있게 되어 실용화 진입 중

### 수학·과학 분야

- **AIME 2024**: 30문항 중 29문항 정답 (96.7%). 작년 o1이 74% 수준이었던 것과 비교됨
- **GPQA(박사 수준 과학 질문)**: **87.7%** 정답. 인간 전문가 평균 69% 대비 높음
- **MATH 데이터셋**: 고등학교~대학원 수학 문제 95%+ 달성 — 사실상 한계에 도달
- 물리·화학 추론에서도 강세. 기존 모델들이 계산 실수를 잦게 했던 영역에서 오류 감소

### 비용과 접근성

- o3 API 가격(2025년 말 기준): 입력 **$15/1M 토큰**, 출력 **$60/1M 토큰**
- o3-mini: 입력 **$1.10**, 출력 **$4.40** — 훨씬 저렴하고 코딩·수학 특화 성능 유지
- ChatGPT Plus($20/월) 구독자에게 월 사용량 제한 있게 제공됨
- 저렴한 대안: Claude 3.7 Sonnet의 "extended thinking" 모드도 유사 추론 기능 제공 중

### 실용적으로 어떻게 써야 하나

- **일상 질문·요약·이메일**: GPT-4o로 충분. o3 비용 낭비
- **복잡한 코드 디버깅, 알고리즘 설계**: o3-mini로 시작. 여전히 안 풀리면 o3 full
- **수학 증명, 논리 퍼즐, 복잡한 추론**: o3가 압도적으로 유리
- **빠른 응답이 필요한 챗봇, 실시간 서비스**: o3는 느림 — GPT-4o-mini 선택
- ChatGPT에서 모델 선택 메뉴에 "o3" 항목이 뜨면 그걸 선택하면 됨. 나머지는 자동

OpenAI o3 추론 모델: 코딩·수학에서 사람을 앞서기 시작한 AI

// COMMENTS

ON THIS PAGE