AI Research Math 'Substandard', Language Model 'Unable to Innovate', Hindering Scientific Progress
AI가 연구수준 수학 풀이에 ‘수준 이하’ 평가를 받았고 언어모델(LLM)의 한계에서 ‘새 아이디어 불가’로 나왔다.
공동 저자중 한 명은 “인공지능이 과학적 발전을 늦춘다”고 평가했다.
세계적 여러 수학자들이 공동 집필한 신간 논문 <First Proof>"에 대한 논의에서 저자들이 "상업용 인공지능 시스템이 이미 수학자들에게 유용한 도구로서 유용한 수준에 도달했음에도 불구하고, 전문가가 개입하지 않는 상태에서 연구 수준의 수학 문제를 스스로 해결하는 데 아직 어떤 위치에 있는지는 명확하지 않다"고 썼다.
저자 중에 헤이어러 박사는 "나는 수학이 사실 꽤 '안전하다'고 믿는다"라며, “챗봇의 핵심 기술인 대형 언어 모델(LLM)이 이제 조작된 문제를 해결하는 데 꽤 능숙해졌다”면서도, 하지만 "LLM이 진정으로 새로운 아이디어나 개념을 내놓은 그럴듯한 사례는 본 적이 없다"고 말했다.
현재 인공지능 회사들은 일부 수학자들이 '인위적'이거나 '제한적인' 문제라고 표현하는 문제를 인공지능 연구소가 인간의 도움 없이 작동할 때 얼마나 잘 작동하는지 평가하고 투자자들로부터 거대 자금을 끌어 들이는 벤치마킹하는 데 사용한다.
AI 회사들이 가끔 수학자들이 참여 초청을 해서 검증하고 이에 대해 문제당 약 5,000달러를 지급하는 것으로 알려졌다.
이번 논문에서 첫 번째 증명 프로젝트 저자들 중 누구도 인공지능 회사와 연관이 없다.
온라인에 <tgkolda/1stproof>으로 7일 올라 온 파일은 <Upload files to "2026-02-batch">이다.
저자들을 취재한 뉴욕타임스는 “이 논문은 최근 시작된 실험을 설명하며, 저자들이 미발표 연구에서 추출한 진짜 시험 문제를 수집하여 인공지능의 수학적 역량을 의미 있게 측정하려는 시도를 했다”면서 “저자들은 이번 조사가 수학 분야가 인공지능에 의해 '해결된다'는 과장된 이야기에 미묘한 차이를 보이면서, AI에 대한 과대광고의 결과를 축소해 차세대 학생들을 겁주거나 연구 자금 지원자들을 위축시키길 희망한다”고 7일 밝혔다.
저자에는 2014년 수학 분야에서 가장 권위 있는 상인 필즈 메달을 수상했고, 2021년에는 고액의 새로운 경지를 개척한 공로상을 수상한 헤이어러 박사는 스위스 로잔 연방공과대학과 임페리얼 칼리지 런던에서 강의하고 있다.
헤이어러 박사는 2017년 뉴 호라이즌스 수학상 수상자인 스탠퍼드 대학의 모하메드 아부자이드 교수를 포함한 여러 수학자들과 공동 집필한 논문 "First Proof"를 냈고, 공동 저자에는 하버드 대학교의 로렌 윌리엄스 교수, 그리고 샌프란시스코 베이 지역에서 컨설팅 회사인 MathSci.ai 를 운영하는 타마라 콜다 박사 등이 올라있다.
실험을 위해 다양한 수학 분야를 대표하는 저자들은 각자 자신들이 진행 중이지만 아직 출판하지 않은 연구에서 나온 ‘시험 질문’ 하나를 제출했다.
NYT는 “그들은 이미 답을 정했다”며 “이 솔루션들은 온라인으로 암호화되어 있으며 2월 13일에 공개될 예정이다”고 밝혔다.
공동의 시험 질문에 대해 국립공학아카데미 회원으로 선출된 몇 안 되는 수학자 중 한 명인 콜다 박사는 "여기서 목표는 한계를 이해하는 것이다“며 ”AI가 훈련 데이터와 온라인에서 찾은 기존 해법을 얼마나 넘어설 수 있을까요?"라고 NYT에 말했다.
공동 연구팀은 OpenAI의 ChatGPT-5.2 Pro와 구글의 Gemini 3.0 Deep Think에 대한 예비 테스트를 진행했다.
저자들은 한 번의 기회에 답을 내놓을 기회가 주어졌을 때에 대해, "공개적으로 이용 가능한 최고의 인공지능 시스템들도 우리의 많은 문제를 해결하기 어렵다"고 썼다.
NYT가 밝힌 논문의 서문은 제목부터가 이에 대한 설명을 제공한다.
"베이킹에서 첫 번째 발효 과정, 즉 대량 발효 과정은 반죽 전체를 한 덩어리로 발효시키고, 그것을 나누어 빵으로 모양을 만드는 중요한 단계이다."
NYT가 밝힌 연구 진행과 결과는 대략 다음과 같다.
취재기자는 저자들과 화상회의와 이메일로 대화를 진행했고, 명확성을 위해 요약 및 편집했다.
질문 <"First Proof" 방법은 다른 벤치마킹 노력과 비교했을 때 어떻게 새로운가?>
모하메드 아부자이드 교수: 가장 큰 새로움은 시험 문제들이 실제로 우리 자신의 연구에서 가져왔다는 점이다.
우리리가 관심 있는 것부터 시작한다. 그 공간 안에서 우리는 시험할 수 있는 질문을 만들려고 노력한다.
질문 <검증 가능한 질문은 무엇인가?>
저자 답변: 현재 인공지능 시스템에는 잘 알려진 한계가 있다. 우선, 그들은 시각적 추론에 매우 약해서 그런 질문을 피했다; 만약 우리의 목표가 대립적인 것이라면, 우리는 그림을 포함한 질문을 했을 것이다. 또한 기업들은 답변 품질이 일정 수준을 넘어 저하되기 때문에 한 번에 모델의 응답 길이를 제한하므로, 답변이 5페이지 이상 필요한 쿼리는 피하도록 했다.
질문 <논문은 "수학 연구가 무엇인지"를 명확히 하는 데 신중을 기하고 있다. 이건 무슨 의미인가?>
아부자이드 교수: 현대 연구에서 핵심 단계는 가장 큰 동기 부여 질문, 즉 문제를 접근해야 할 방향을 파악하는 것이다. 모든 종류의 예비 작업이 필요하며, 바로 여기서 수학적 창의성이 일어난다.
문제가 해결되면, 수학자들은 연구 기여의 중요성을 제기되는 질문들에 따라 평가하는 경향이 있다. 때때로 추측을 한 방향으로 해결하는 것이 실망스럽게 여겨지는데, 이는 새로운 질문이 생길 가능성을 차단하기 때문이다..
로렌 윌리엄스 교수: 느슨한 비유를 하나 해보겠다. 실험 과학에서는 연구의 구성 요소를 세 부분으로 나눌 수 있다. 첫째, 우리 분야에 대한 통찰을 제시하고자 하는 큰 질문을 제시한다. 둘째, 질문에 답할 실험을 설계하도록 한다. 셋째, 실험을 수행하고 결과를 분석하는 것이다.
나도 수학 연구를 평행 부분으로 나눌 수 있다: 첫째, 우리가 이 분야를 이끌기를 바라는 큰 질문을 제시한다. 둘째, 큰 질문을 더 작고 다루기 쉬운 문제들로 나누어 해결책을 찾는 틀을 개발하는 것이다 — 예를 들어 우리의 시험 문제처럼. 셋째, 이 작은 질문들에 대한 해답을 찾아 그것이 옳음을 증명하는 것이다.
세 가지 모두 필수적이다. 첫 번째 증명 프로젝트에서는 세 번째 요소에 집중했는데, 이는 가장 측정 가능하기 때문이다.
작고 명확한 질문으로 인공지능 모델을 쿼리한 후, 그 답변이 맞는지 평가할 수 있다. 만약 우리가 AI 모델에 큰 질문이나 프레임워크를 내달라고 한다면, 그 성능을 평가하는 것은 훨씬 더 어려워질 것이다.
질문 <인공지능 시스템은 "첫 번째 증명" 평가에서 어떻게 평가됐나?>
윌리엄스 교수: 내 문제에 대한 한 테스트에서 흥미로운 일련의 반응이 나왔다. 모델(AI)은 답을 내놓고 "좋아, 이것이 최종 해답이다“고 말했다.
그리고 나서 "잠깐, 그만, 이건 어때?"라고 말하며 답을 어떤 식으로든 수정했다.
이런 식으로 계속된다: "좋아, 이것이 최종 해답이다. 잠깐, 함정이 있어!" 그것은 무한 루프에 빠졌다.
또 다른 답변은 밀접하게 관련되었지만 다른 질문에 대한 답변을 주었다.
타마라 콜다 박사: 예비 결과는 실망스러웠다. 인공지능이 문제를 혼란스러워하며 답변의 일부 핵심 정보를 무시했고, 일관성도 없었다.
이후 문제 설명을 수정하고 인공지능에게 더 나은 기회를 주기 위해 좀 더 명확한 지침을 추가했다. 최종 결과가 어떻게 될지 지켜봐야겠다.
마틴 헤이어러 교수: 내가 일반적으로 느낀 점 중 하나는, 모델이 쉬운 부분에 대해 많은 세부 정보를 주는 경향이 있다는 점이다.
즉, "네, 좋아요, 조금 더 빨리 해보세요. 네가 하는 말 듣고 지루해." 그리고 논쟁의 핵심에 대한 세부 정보는 거의 제공되지 않을 것이다.
때로는 형편없는 학부생의 논문을 읽는 것과 같아요. 어디서부터 시작하고 어디로 가고 싶은지는 알지만, 어떻게 거기에 도달할지 잘 모르는 상태다.
그래서 그들은 여기저기 떠돌다가 어느 순간 "그리고 그러므로" 안에 머물며 기도한다.
질문 <고전적인 손짓 같은 말이다 — 엄격함이 부족하고 복잡함을 건너뛰는 것인가?>
헤이어러 교수: 네, 대충 설명하는 데 꽤 능숙하다.
질문 <그래서 감명받지 못했나?>
헤이어러 교수: 아니다, 그렇게 말하진 않겠다. 때로는 꽤 감탄하기도 했는데, 예를 들어 여러 알려진 논거들을 몇 가지 계산과 함께 연결하는 방식에 대해서, 그 부분을 제대로 해내는 데 정말 능숙했다,
질문 <당신의 꿈속 세계에서, 인공지능(AI)은 당신을 위해 무엇을 해주고 있을 것인가?>
헤이어러 교수: 현재 LLM의 출력은 신뢰하기 어렵다.
그들은 절대적인 자신감을 보여주지만, 그들의 답변이 맞는지 아닌지 스스로를 설득하는 데 많은 노력이 필요하다.
지적으로 고통스럽게 느껴진다. 다시 말하지만, 대학원생이 강한지 아니면 그냥 학사 수준이 좋은 건지 잘 모르는 것과 비슷하다.
이상적인 것은 신뢰할 수 있는 모델이다.
콜다 박사: AI는 동료나 협력자 같은 존재라고 홍보되지만, 나는 그게 사실이라고 생각하지 않는다.
나의 인간 동료들은 특별한 관점을 가지고 있으며, 나는 특히 서로 다른 관점을 토론할 때 즐긴다.
AI는 내가 시키는 관점을 가지고 있는데, 전혀 흥미롭지 않다!
내가 점점 더 걱정하는 것 중 하나는 인공지능이 의도치 않게 과학 진보를 늦출 수 있다는 점이다.
이론물리학자 막스 플랑크는 종종 "과학은 한 번에 한 번의 장례식을 발전시킨다"고 말한 것으로 알려져 있다.
내 관점이 꽤 틀릴 수도 있다는 점을 인지하고 있다.
하지만 내 의견이 인공지능 시스템에 새겨져 무한히 지속된다면, 새로운 과학적 아이디어의 발전에 방해가 될 것인가?
NYT 기사 제목은 <이 수학자들은 인공지능을 시험하고 있다>에 <대형 언어 모델은 연구 수준의 수학 문제를 푸는 데 어려움을 겪는다. 그들이 얼마나 형편없는지 평가하려면 인간이 필요하다> 부제목이다.
<AI 궤도 벗어나면 하던일 잊어버리고 집중못해 ‘투자거품 강화’, 2025년 12월 28일자>
<AI로 뇌 부패 챗봇 사용자 기억 ‘제로’ SNS 어린이 어휘력 '최악' 2025년 11월 10일자> 참조