AI 수능 점수 공개: 챗GPT 수학 1등급, 국어는 '낙제점'… 명확한 한계 드러나

AI 수능 점수 공개: 챗GPT 수학 1등급, 국어는 '낙제점'… 명확한 한계 드러나

primefocus24 | 2025-11-15 | Editor: JGM A.J.C

주요 생성 AI를 대상으로 2026학년도 수능을 풀게 한 결과, 챗GPT가 수학에서 1등급 수준의 성적을 보였으나 국어에서는 고전하며 AI의 명확한 강점과 한계를 드러냈다.
주요 생성 AI를 대상으로 2026학년도 수능을 풀게 한 결과, 챗GPT가 수학에서 1등급 수준의 성적을 보였으나 국어에서는 고전하며 AI의 명확한 강점과 한계를 드러냈다.

  • 어떤 변화/결정인가? 주요 생성형 AI 4개 모델(챗GPT, 딥시크 등)을 대상으로 2026학년도 수능 시험을 실시한 결과, 수학 영역에서는 인간 최상위권에 근접했으나 국어 영역에서는 매우 부진한 성적을 기록했다.
  • 누구에게 영향을 주는가? AI 기술의 현주소에 관심 있는 교육계, 기술 개발자, 학생 및 일반 대중에게 AI의 능력과 명확한 한계를 보여준다.
  • 지금 당장 중요한 포인트는? 챗GPT는 수학에서 단 1개만 틀리는 등 비약적 발전을 보였지만, 총점 기준으로는 국내 4년제 대학 진학도 어려운 수준으로 나타나 고차원적 추론 능력에는 여전히 과제가 남았음을 시사한다.

2026학년도 대학수학능력시험이 끝난 직후, 국내 연구진이 주요 생성형 인공지능(AI) 모델들의 수능 문제 해결 능력을 시험했습니다. 연세대 연구팀 주도로 진행된 이번 실험에서 챗GPT는 수학 영역에서 거의 만점에 가까운 점수를 기록하며 놀라운 발전을 증명했지만, 국어 영역에서는 하위권에 머물며 AI 기술의 명확한 한계를 드러냈습니다. 이번 결과는 AI가 논리·수리적 문제 해결에는 탁월하지만, 복합적인 문해력과 추론 능력이 필요한 분야에서는 여전히 인간을 따라오지 못함을 보여주는 중요한 지표가 되고 있습니다.

배경: AI 능력 검증의 새로운 시험대 '수능'

생성형 AI 기술이 빠르게 발전하면서 그 실제 능력을 측정하려는 다양한 시도가 이어지고 있습니다. 특히 변호사 시험, 의사 면허 시험 등 전문직 자격시험 통과 여부가 AI 성능의 주요 척도로 활용되어 왔습니다. 이런 가운데, 고도의 사고력을 요구하는 한국의 대학수학능력시험은 AI의 종합적인 인지 능력을 평가할 수 있는 새로운 시험대로 주목받았습니다.

이에 연세대학교 인공지능융합대학 김시호 교수 연구팀은 2025년 11월 15일, 4개의 주요 AI 모델을 대상으로 실제 수능과 동일한 환경에서 국어, 수학, 영어 영역 시험을 진행했습니다. 

실험 대상 모델은 △챗GPT(GPT-5 추정) △제미나이(2.5 플래시) △퍼플렉시티(소나) △딥시크(무료 버전)였습니다. 공정성을 위해 모든 모델의 인터넷 검색 기능은 차단되었으며, 기호와 수식이 많은 수학 문항은 LaTeX 형식으로 변환해 입력했습니다.

핵심 내용: AI 모델별 수능 성적표 공개

실험 결과, AI 모델들은 과목별로 극명한 성적 차이를 보였습니다. 특히 챗GPT는 수학에서 압도적인 성적을 보였으나 국어에서 발목이 잡혔고, 중국의 딥시크는 반대의 결과를 보였습니다. 각 모델의 상세 성적은 다음과 같습니다.

AI 모델 수학 성적 (선택과목별) 국어 성적 (선택과목별) 영어 성적 종합 평가
챗GPT 96점 (확통), 92점 (미적분) - 1등급 수준 53점 (화작), 37점 (언매) - 하위권 86점 - 2등급 수준 수학 최강, 국어 취약. 종합 1위.
딥시크 '찍기' 의심될 정도의 낮은 점수 70점 초반 - 3등급 수준 93점 - 1등급 수준 언어 능력 우수, 수리 능력 매우 취약. 종합 2위.
제미나이 높은 정답률 보임 하위권 수준 평가 미상세 챗GPT와 유사한 패턴.
퍼플렉시티 측정 불가 측정 불가 측정 불가 오류, 부정행위(검색)로 시험 수행 실패. 최하위.

입시 전문가들은 AI의 총점이 소위 '인서울'은커녕 4년제 대학 합격도 쉽지 않은 수준이라고 평가했습니다. 임성호 종로학원 대표는 "국어·영어·수학 총점을 보면 인서울 진입은 사실상 불가능한 점수"라고 분석했습니다 (출처: 연합뉴스). 반면 김시호 교수 연구팀은 "챗GPT의 수학 성적이 2년 만에 9등급 수준에서 1등급 수준으로 도약했다"며 AI의 빠른 발전 속도에 주목했습니다.

영향 & 쟁점: AI의 명과 암

이번 수능 결과는 AI 기술의 발전 방향과 한계에 대한 중요한 시사점을 던집니다.

  • 긍정적 측면 (수학 능력의 도약): 챗GPT가 보여준 수학 성적은 AI가 복잡한 논리 및 연산 문제를 해결하는 데 있어 인간의 능력을 뛰어넘을 수 있음을 보여줍니다. 이는 과학, 공학, 금융 등 정량적 분석이 중요한 분야에서 AI의 활용 가능성이 무궁무진함을 의미합니다.
  • 우려 요인 (국어 능력의 한계): 반면 국어 영역의 부진은 현재 AI가 미묘한 문맥, 숨은 의도, 비유적 표현 등 고차원적인 언어 이해 능력이 부족하다는 점을 명확히 보여줍니다. 특히 챗GPT가 '언어와 매체' 과목에서 0점을 받은 것은 문법 규칙의 기계적 적용을 넘어선 종합적 사고가 필요함을 시사합니다.
  • 기술적 쟁점: 딥시크가 영어와 국어에서 강점을 보이고 수학에서 약점을 보인 것은 AI 모델이 어떤 데이터로 학습했는지에 따라 성능이 크게 좌우된다는 점을 보여줍니다. 이는 특정 언어와 문화권에 특화된 '소버린 AI' 개발의 중요성을 부각시키는 계기가 될 수 있습니다.

전망 & 체크포인트

이번 AI의 수능 도전은 기술의 현주소를 확인하는 데 그치지 않고, 미래 과제를 제시하고 있습니다. 앞으로 주목해야 할 포인트는 다음과 같습니다.

  • 고차원적 추론 능력 확보: AI 개발의 다음 목표는 단순한 정보 처리 및 생성을 넘어, 인간처럼 복합적인 맥락을 이해하고 추론하는 능력을 갖추는 것이 될 것입니다. 국어 영역 정복 여부가 향후 AI 기술 발전의 중요한 이정표가 될 수 있습니다.
  • 수능의 AI 성능 벤치마크화: 김시호 교수는 "국내에서 시도하는 소버린 AI 개발에서 수능이 좋은 지표로 활용될 수 있을 것"이라고 말했습니다. 매년 수능을 통해 AI의 발전 정도를 측정하고, 국내 AI 기술의 경쟁력을 강화하는 척도로 삼을 가능성이 있습니다.
  • AI 교육의 방향성 설정: AI가 잘하는 영역(계산, 암기)과 못하는 영역(비판적 사고, 문해력)이 명확해짐에 따라, 미래 교육은 AI를 보조 도구로 활용하면서도 인간 고유의 역량을 키우는 방향으로 재설정될 필요가 있습니다.

primefocus24 Editor's Viewpoint

이번 AI 수능 테스트 결과는 기술의 경이로움과 명백한 한계를 동시에 보여주는 '현실 확인'의 순간입니다. 챗GPT가 2년 만에 수학 9등급에서 1등급으로 도약한 것은 규칙 기반의 논리적 문제 해결에서 AI가 인간을 초월하는 속도를 상징합니다. 하지만 국어 영역에서의 실패는 AI가 아직 '의미'의 영역에 도달하지 못했음을 보여줍니다. 현재의 대규모 언어 모델(LLM)은 방대한 텍스트 데이터의 통계적 패턴을 학습한 결과물이지, 진정한 의미의 독해나 추론을 하는 것이 아닙니다.

결국 수능 국어 문제는 AI에게 단순한 텍스트가 아닌, 문화적·사회적 맥락이 응축된 '암호'와 같았을 것입니다. 이는 역설적으로 인간 고유의 강점이 무엇인지 다시 생각하게 합니다. AI의 발전은 결국 우리에게 '기계가 할 수 없는 일'에 더 집중하라는 메시지를 던지고 있으며, 수능은 의도치 않게 그 가장 확실한 시험대가 되었습니다.

면책 조항 (Disclaimer)

PrimeFocus24에서 제공되는 모든 콘텐츠(기사, 분석, 의견, 이미지 등)는 정보 제공 및 교육적인 목적으로만 작성되었습니다. 본 채널은 전문적인 조언(법률, 투자, 재정, 의료 등)을 제공하는 것을 목적으로 하지 않습니다.


댓글 쓰기

다음 이전