본문 바로가기
AI관련 소식

AI 전쟁: 오픈AI 'o1' vs 딥시크 'R1', 최강자는?

by free-don 2025. 2. 2.
반응형

1. 개요

오픈AI의 'o1'과 딥시크 'R1'은 모두 뛰어난 추론 능력을 갖춘 AI 모델이지만, 실제 활용도 면에서 차이가 있다는 평가가 있다. 두 모델은 벤치마크 테스트에서 높은 점수를 받았으나, 실제 사용에서는 한계를 보였다.

2. 모델의 실수 파악 중요성

사용자가 모델의 추론 과정을 이해하는 것은 모델의 실수를 파악하고 수정하는 데 필수적이다. 이를 통해 AI의 신뢰성과 활용도를 높일 수 있다.

3. 벤치마크 테스트 목적

벤처비트(VentureBeat)는 '퍼플렉시티 프로 서치(Perplexity Pro Search)'를 활용하여 o1과 R1을 비교 테스트하였다. 이 테스트의 목표는 단순한 성능 비교가 아니라, 실제 모델 활용에서 어느 쪽이 더 유용한지를 평가하는 것이다.

4. 주요 테스트 결과

4.1 첫 번째 테스트: ROI 계산

테스트 내용:

모델이 **투자 수익률(ROI)**을 올바르게 계산할 수 있는지를 평가하였다. 가정한 시나리오는 2024년 1월부터 12월까지 "매그니피센트 7"에 140달러를 투자하는 것이었다.

모델의 반응:

  • o1: 주식 가격 목록과 계산 공식을 도출했지만, "ROI가 없다"라는 잘못된 응답을 제공함.
  • R1: 2024년 1월의 투자만 고려하고, 2025년 1월의 수익률만 계산하는 실수를 범함.

4.2 두 번째 테스트: 데이터 입력 방식

테스트 내용:

웹에서 정보를 검색하는 대신, 사용자가 직접 제공한 HTML 테이블 데이터를 기반으로 모델이 분석하는 방식으로 진행되었다.

모델의 성능:

  • o1: HTML 테이블에서 데이터를 추출하는 데는 성공했으나, ROI 계산은 수동으로 하라고 응답함.
  • R1: HTML 데이터를 정확하게 분석했으나, 최종 계산값이 실제 답변에 포함되지 않는 오류 발생.

4.3 세 번째 테스트: NBA 선수 통계 분석

테스트 내용:

모델이 4명의 NBA 센터의 통계를 제공받고, 2022/2023 시즌과 2023/2024 시즌을 비교하여 **필드골 성공률(FG%)**이 가장 많이 개선된 선수를 찾는 실험을 진행함.

모델의 반응:

  • o1 & R1: 두 모델 모두 정답인 야니스 아데토쿤보를 도출함.
  • R1: 비교표와 자료 링크를 제공하여 사용자가 프롬프트를 수정할 수 있는 힌트를 제시함.

5. 모델의 한계 및 유용성

5.1 성능 평가

  • o1과 R1 모두 뛰어난 추론 성능을 보였으나, 실제 사용에서는 제한점이 존재함.
  • 정확한 결과를 얻기 위해서는 상세하고 구체적인 프롬프트가 필수적임.

5.2 R1의 강점

  • R1은 추론 과정을 보다 투명하게 보여주며, 사용자가 모델의 한계를 이해하고 데이터를 수정할 수 있도록 돕는 강점을 가짐.

6. 전문가 의견 및 결론

6.1 전문가의 중요성

전문가들은 AI 모델이 추론 과정을 노출하는 것이 신뢰성을 높일 수 있다고 강조함.

6.2 오픈AI의 대응

오픈AI의 CEO 샘 알트먼은 모델의 사고 과정을 더 많이 보여줄 방법을 모색하고 있다고 밝힘. 이를 통해 AI 모델이 보다 신뢰할 수 있는 방향으로 발전할 가능성이 높음.

7. 결론

  • o1은 논리적 추론에서 강점을 보이지만, 실제 활용도는 제한적임.
  • R1은 사용자의 데이터를 더 잘 활용하지만, 최종 답변에 중요한 정보를 누락하는 실수를 범함.
  • AI 모델을 효과적으로 활용하려면, 상세한 프롬프트 작성과 결과 검토가 필수적임.
  • AI 모델의 신뢰성을 높이기 위해서는 추론 과정을 더 명확히 공개하는 것이 필요함.
반응형