GPT-5, 벤치마크 테스트 94%에서 인간 수준 추론 달성

새로운 벤치마크 상한선

화요일에 발표된 획기적인 연구에서 OpenAI 연구진은 GPT-5가 표준화된 추론 벤치마크의 94%에서 인간 수준 또는 인간 초월 성능을 달성했다고 발표했다 — AI 커뮤니티가 아직 몇 년은 더 걸릴 것으로 예상했던 기준치다.

전작보다 약 8배 큰 데이터셋으로 훈련된 이 모델은 이전까지 인간의 개입이 필요했던 추상적 패턴 인식, 다단계 인과 추론, 반사실적 추론 과제에서 놀라운 일관성을 보여준다.

“인간 수준”이라는 표현은 머신러닝 연구에서 논쟁의 여지가 있다. 이 연구에서 기준선은 수학, 법적 추론, 과학 분석 분야의 전문가 200명으로 구성된 패널을 통해 설정되었다.

“우리는 AGI를 주장하는 것이 아닙니다. 이 특정 측정 축에서 격차가 실질적으로 중요한 방식으로 좁혀졌다는 것을 주장하는 겁니다.” — Dr. Ilya Reznik, OpenAI 안전팀

GPT-5는 추상 추론 과제에서 100점 만점에 중앙값 97.3점을 기록했고, 전문가 인간 패널의 중앙값은 91.2점이었다.

가장 즉각적인 적용 분야는 자동화된 문헌 검토다. GPT-5는 수분 내에 1만 편의 논문을 종합하여 모순을 표시하고, 어떤 인간 팀도 따라올 수 없는 속도로 새로운 가설을 생성할 수 있다.

여러 제약 회사가 이미 초기 신약 개발 파이프라인에 이 모델을 시험 도입하고 있다.

OpenAI는 GPT-5를 2026년 3분기 중 API 고객에게 출시할 예정이며, 안전성 평가는 아직 진행 중이다. 정렬 팀은 더 광범위한 출시 전 적대적 프롬프팅 시나리오에서의 모델 동작에 특히 집중하고 있다.

커뮤니티는 여전히 분열되어 있다: 일부는 이것이 혁신적 AI를 향한 변곡점이라고 보고, 다른 일부는 벤치마크 성능이 진정한 이해를 판단하는 척도로는 부족하다고 주장한다.

분명한 사실은 벤치마크가 이제 더 이상 목표 기준으로 사용하기 어려워졌다는 것이다.