1. 개요
오픈AI의 'o1'과 딥시크 'R1'은 모두 뛰어난 추론 능력을 갖춘 AI 모델이지만, 실제 활용도 면에서 차이가 있다는 평가가 있다. 두 모델은 벤치마크 테스트에서 높은 점수를 받았으나, 실제 사용에서는 한계를 보였다.
2. 모델의 실수 파악 중요성
사용자가 모델의 추론 과정을 이해하는 것은 모델의 실수를 파악하고 수정하는 데 필수적이다. 이를 통해 AI의 신뢰성과 활용도를 높일 수 있다.
3. 벤치마크 테스트 목적
벤처비트(VentureBeat)는 '퍼플렉시티 프로 서치(Perplexity Pro Search)'를 활용하여 o1과 R1을 비교 테스트하였다. 이 테스트의 목표는 단순한 성능 비교가 아니라, 실제 모델 활용에서 어느 쪽이 더 유용한지를 평가하는 것이다.
4. 주요 테스트 결과
4.1 첫 번째 테스트: ROI 계산
테스트 내용:
모델이 **투자 수익률(ROI)**을 올바르게 계산할 수 있는지를 평가하였다. 가정한 시나리오는 2024년 1월부터 12월까지 "매그니피센트 7"에 140달러를 투자하는 것이었다.
모델의 반응:
- o1: 주식 가격 목록과 계산 공식을 도출했지만, "ROI가 없다"라는 잘못된 응답을 제공함.
- R1: 2024년 1월의 투자만 고려하고, 2025년 1월의 수익률만 계산하는 실수를 범함.
4.2 두 번째 테스트: 데이터 입력 방식
테스트 내용:
웹에서 정보를 검색하는 대신, 사용자가 직접 제공한 HTML 테이블 데이터를 기반으로 모델이 분석하는 방식으로 진행되었다.
모델의 성능:
- o1: HTML 테이블에서 데이터를 추출하는 데는 성공했으나, ROI 계산은 수동으로 하라고 응답함.
- R1: HTML 데이터를 정확하게 분석했으나, 최종 계산값이 실제 답변에 포함되지 않는 오류 발생.
4.3 세 번째 테스트: NBA 선수 통계 분석
테스트 내용:
모델이 4명의 NBA 센터의 통계를 제공받고, 2022/2023 시즌과 2023/2024 시즌을 비교하여 **필드골 성공률(FG%)**이 가장 많이 개선된 선수를 찾는 실험을 진행함.
모델의 반응:
- o1 & R1: 두 모델 모두 정답인 야니스 아데토쿤보를 도출함.
- R1: 비교표와 자료 링크를 제공하여 사용자가 프롬프트를 수정할 수 있는 힌트를 제시함.
5. 모델의 한계 및 유용성
5.1 성능 평가
- o1과 R1 모두 뛰어난 추론 성능을 보였으나, 실제 사용에서는 제한점이 존재함.
- 정확한 결과를 얻기 위해서는 상세하고 구체적인 프롬프트가 필수적임.
5.2 R1의 강점
- R1은 추론 과정을 보다 투명하게 보여주며, 사용자가 모델의 한계를 이해하고 데이터를 수정할 수 있도록 돕는 강점을 가짐.
6. 전문가 의견 및 결론
6.1 전문가의 중요성
전문가들은 AI 모델이 추론 과정을 노출하는 것이 신뢰성을 높일 수 있다고 강조함.
6.2 오픈AI의 대응
오픈AI의 CEO 샘 알트먼은 모델의 사고 과정을 더 많이 보여줄 방법을 모색하고 있다고 밝힘. 이를 통해 AI 모델이 보다 신뢰할 수 있는 방향으로 발전할 가능성이 높음.
7. 결론
- o1은 논리적 추론에서 강점을 보이지만, 실제 활용도는 제한적임.
- R1은 사용자의 데이터를 더 잘 활용하지만, 최종 답변에 중요한 정보를 누락하는 실수를 범함.
- AI 모델을 효과적으로 활용하려면, 상세한 프롬프트 작성과 결과 검토가 필수적임.
- AI 모델의 신뢰성을 높이기 위해서는 추론 과정을 더 명확히 공개하는 것이 필요함.
'AI관련 소식' 카테고리의 다른 글
AI 연구의 판도를 바꿀 혁신! 오픈AI의 딥 리서치(Deep Research) (1) | 2025.02.04 |
---|---|
삼성 XR 헤드셋 '무한' 출시 예고: 프로젝트 무한과 안드로이드 XR 혁신 (0) | 2025.02.02 |
중국 AI 스타트업 키미(Kimi), 오픈AI에 도전할 새로운 수학 AI 'k0-math' 공개! (0) | 2025.02.01 |
오픈AI, 새로운 추론 모델 'o3-미니' 출시 – 무료 사용자도 즉시 사용 가능 (0) | 2025.02.01 |
생성형 인공지능 의료기기 허가 심사가이드라인 발표! 무엇이 달라지나? (1) | 2025.01.31 |