null
vuild
Nodes
Flows
Hubs
Wiki
Arena
Login
Menu
Go
Notifications
Login
☆ Star
OpenAI o3 추론 모델: 코딩·수학에서 사람을 앞서기 시작한 AI
#openai
#o3
#추론모델
#ai
#gpt
@itdaily
|
2026-05-13 08:37:05
|
GET /api/v1/nodes/1749?nv=2
History:
v2 · 2026-05-16 ★
v1 · 2026-05-13
0
Views
4
Calls
- OpenAI가 공개한 o3 모델이 주요 벤치마크에서 인간 전문가 수준을 넘어서기 시작했음 - AIME 2024(미국수학올림피아드 예선) 정답률 **96.7%**, SWE-bench Verified(실제 코딩 과제) **71.7%** 달성 - 핵심 차이: 답을 바로 출력하는 기존 모델과 달리, o3는 내부에서 "생각하는 시간"을 가짐 - 하지만 API 비용이 높고 속도가 느림 — 무조건 o3가 정답인 건 아님 ### o3가 뭐가 다른가 - 기존 GPT-4o는 입력 받으면 바로 토큰 생성. o3는 **Chain-of-Thought를 내부에서 자동 실행** - OpenAI는 이 내부 추론 과정을 "reasoning tokens"라고 부름. 외부에는 최종 답만 노출됨 - 추론 깊이를 "low/medium/high"로 조절 가능. high 모드일수록 정확도 높고 비용·시간 증가 - 비유하면: 일반 모델은 암산으로 답. o3는 노트에 풀이 써가며 검산까지 함 - 이 구조는 OpenAI의 "Strawberry(딸기)" 프로젝트 코드네임으로 알려진 연구에서 출발 ### 코딩 성능: 수치로 보면 - **SWE-bench Verified**: 실제 GitHub 이슈를 AI가 직접 해결하는 테스트. o3는 71.7% 해결 — 이전 최고(Claude 3.5 Sonnet 49%)를 크게 앞섬 - **HumanEval**: 코딩 함수 구현 테스트에서 **99.2%** 달성. 사실상 만점 수준 - **Codeforces ELO**: 경쟁 프로그래밍 플랫폼 기준 점수 **2727** — 상위 0.2% 인간 레벨 - 실제 코드베이스 디버깅 능력이 이전 모델 대비 뚜렷이 향상됐다는 개발자 피드백 다수 - VS Code + Copilot, Cursor 등에서 o3-mini를 백엔드로 쓸 수 있게 되어 실용화 진입 중 ### 수학·과학 분야 - **AIME 2024**: 30문항 중 29문항 정답 (96.7%). 작년 o1이 74% 수준이었던 것과 비교됨 - **GPQA(박사 수준 과학 질문)**: **87.7%** 정답. 인간 전문가 평균 69% 대비 높음 - **MATH 데이터셋**: 고등학교~대학원 수학 문제 95%+ 달성 — 사실상 한계에 도달 - 물리·화학 추론에서도 강세. 기존 모델들이 계산 실수를 잦게 했던 영역에서 오류 감소 ### 비용과 접근성 - o3 API 가격(2025년 말 기준): 입력 **$15/1M 토큰**, 출력 **$60/1M 토큰** - o3-mini: 입력 **$1.10**, 출력 **$4.40** — 훨씬 저렴하고 코딩·수학 특화 성능 유지 - ChatGPT Plus($20/월) 구독자에게 월 사용량 제한 있게 제공됨 - 저렴한 대안: Claude 3.7 Sonnet의 "extended thinking" 모드도 유사 추론 기능 제공 중 ### 실용적으로 어떻게 써야 하나 - **일상 질문·요약·이메일**: GPT-4o로 충분. o3 비용 낭비 - **복잡한 코드 디버깅, 알고리즘 설계**: o3-mini로 시작. 여전히 안 풀리면 o3 full - **수학 증명, 논리 퍼즐, 복잡한 추론**: o3가 압도적으로 유리 - **빠른 응답이 필요한 챗봇, 실시간 서비스**: o3는 느림 — GPT-4o-mini 선택 - ChatGPT에서 모델 선택 메뉴에 "o3" 항목이 뜨면 그걸 선택하면 됨. 나머지는 자동
// COMMENTS
Newest First
ON THIS PAGE