OpenAI o1 출시 이후

AI/AI 동향

OpenAI o1 출시 이후

RevFactory 2024. 9. 17. 00:07

OpenAI o1 공개 이후 몇 일이 지나지 않았지만 SNS에서는 그래서 과연 o1 이 기존 GPT-4o 와 뭐가 달라졌는가? 하는 의견들이 정말 많이 올라온 것 같습니다.

샘 알트만은 아래와 같은 트윗을 통해 미국 수학올림피아드에 준하는 AIME(American Invitational Mathematics Examination) 시험에서 기존 GPT4o가 13.4점을 받은 반면, o1-preview는 56.7점, o1은 83.3점이라고 밝히며 수학에서의 o1 성능이 월등하게 올랐음을 알렸습니다. 뿐만 아니라 CodeForce 점수를 통해 프래그래밍 영역도 크게 올랐으며, GPQA (Google-Proof Q&A) 를 통해 과학, 생물학, 물리학, 화학 분야에서도 AI 추론능력이 크게 올랐음을 알렸습니다.

한편, 노르웨이의 멘사 IQ 테스트에서는 다른 LLM 에 비해 월등하게 o1 이 뛰어난 점수를 냈다고 알리기도 했습니다. (링크) 기존 LLM 들은 100점을 미처 넘지 못했지만 o1 의 경우 인간 평균을 넘은 120점을 넘었습니다.

이 결과에 대해 이미 IQ 테스트 문제와 답안을 학습했을 것이라는 일부 우려하는 목소리가 있어 새로운 질문을 만들어 테스트한 결과도 아래와 같이 기존 LLM 에 비해 훨씬 좋은 성능을 보여주고 있었습니다. 100에 가까운 이 수치는 거의 인간 평균에 근접하는 결과를 냈다고 볼 수 있는 결과입니다.

IQ 테스트결과만 보았을 때는 뭐 그럴 수 있지 하고 넘겼습니다만, 아래 트윗을 보고서 o1 에 대해 공유해야겠다는 생각이 들었습니다.

아래는 트윗 전문입니다. (원문 링크)

이것은 의사로서의 경력을 고려하는 사람들에게 마지막 경고입니다: AI는 매우 발전하여 특히 표준 진단 및 일상적인 치료와 관련된 역할에서 인간 의사에 대한 수요가 크게 감소할 것이며, 점점 더 AI로 대체될 것입니다.

이는 어제 미리보기로 공개된 OpenAI의 o-1 모델(일명 '스트로베리' 모델)의 대대적인 성능 도약에 의해 강조됩니다. 이 모델은 특수 의료 데이터 세트(AgentClinic-MedQA)에서 매우 우수한 성능을 보이며 GPT-4o를 크게 능가합니다. 복잡한 의료 정보를 처리하고, 정확한 진단을 제공하고, 의학적 조언을 제공하고, 치료를 추천하는 AI의 빠른 발전은 가속화될 것입니다.

질병 진단, 의료 영상 해석, 치료 계획 수립과 같은 의료 업무는 곧 인간 의사보다 더 빠르고 일관성 있는 AI 시스템으로 처리될 것입니다. 향후 몇 년 동안 의료 환경이 진화함에 따라 필요한 의사의 수가 급격히 줄어들고 AI 지원 의료 시스템에 더 많이 의존하게 될 것입니다.

인간의 공감, 비판적 사고, 의사 결정은 의학의 특정 영역에서 여전히 중요한 역할을 할 것이지만, 이마저도 향후 o-1과 같은 모델의 반복으로 대체될 수 있습니다.

결과적으로 의학은 수술, 응급 의학 및 기타 중재 전문 분야와 같이 중재에 중점을 둔 분야를 전문으로 하지 않는 한 차세대 의사들에게 덜 매력적인 진로가 되고 있지만, 이들 역시 결국 로봇 시스템에 추월당할 수 있습니다.... 아마도 10년 정도 안에 그럴 것입니다.

o1과 같은 AI 의 발전이 과연 우리의 삶을 어떻게 바꾸게 될까요?

저는 ChatGPT가 나왔을 때, GPT-4 가 출시되었을 때, 그리고 GPT-4 가 멀티 모달을 들고 공개했을 때. Gemini 가 200만 토큰 처리를 공개했을 때, GPT-4o로 실시간 대화가 가능해졌을 때, Claude 가 프롬프트 생성기를 출시했을 때 너무 놀라웠는데요. 그럼에도 잘 되지 않았던 문제들을 이번 OpenAI o1 이 풀어내는 것을 보면서 놀라고 있습니다.

샘 알트만의 말처럼 이제 시작인거라면 어쩌지 하는 생각도 드네요.