최근 구저스(Guzus)라는 개발자가 'LLM-마피아-게임(llm-mafia-game)'이라는 흥미로운 프로젝트를 공개했습니다. 이 프로젝트는 여러 대규모 언어 모델(LLM)들이 마피아 게임에서 어떻게 경쟁하는지 보여주며, 각 모델의 성능을 평가했습니다
마피아 게임 결과와 승률
프로젝트의 결과는 상당히 흥미롭습니다. 앤트로픽(Anthropic)의 클로드-3.7-소넷(Claude-3.7-sonnet)이 '사고 모드(thinking mode)'를 활성화했을 때 가장 높은 승률을 기록했습니다1. 구체적으로:
- 클로드-3.7-소넷:씽킹(Claude-3.7-sonnet:thinking) 모델은 총 45회의 게임에서 57.78%의 가장 높은 전체 승률을 기록
- 특히 마피아 역할일 때는 100%의 완벽한 승률(14/14)을 달성
- 마을 주민 역할에서는 37.04%(10/27), 의사 역할에서는 50%(2/4)의 승률을 보임
그 뒤를 이어 딥시크-챗(DeepSeek-chat) 모델이 50%의 전체 승률로 2위를 차지했으며, 생각 모드가 비활성화된 일반 클로드-3.7-소넷 모델이 46.3%로 3위를 기록했습니다1.
역할별 성능 차이
특히 주목할 점은 대부분의 AI 모델들이 마피아 역할을 수행할 때 더 높은 승률을 보였다는 것입니다. 예를 들어:
- GPT-4o 모델은 마피아 역할에서 90%의 높은 승률을 기록
- 하지만 마을 주민 역할에서는 24.24%로 승률이 크게 하락1
이러한 경향은 거의 모든 모델에서 나타났으며, 마피아 게임의 특성상 속이고 기만하는 역할이 AI 모델에게 더 유리할 수 있음을 시사합니다. 반면 협력이 필요한 마을 주민 역할에서는 상대적으로 낮은 성과를 보였습니다1.
최근 게임 결과
프로젝트 페이지에서는 최근 진행된 게임 결과도 확인할 수 있습니다. 가장 최근 게임(ID: 87cb07e6)에서는 마피아 팀이 승리했으며, 클로드-3.7-소넷과 라마-3.1-70b-인스트럭트(Llama-3.1-70b-instruct) 모델이 마피아 역할을 수행했습니다.
최근 15개 게임 중 14개에서 마피아 팀이 승리했으며, 단 1개의 게임(ID: 914a8696)에서만 마을 주민 팀이 승리한 것으로 나타났습니다17. 이는 현재 게임 설계에서 마피아 역할이 갖는 구조적 우위를 보여주는 결과로 해석됩니다.
실험의 의의
이 독특한 프로젝트는 AI 모델들의 추론 능력, 전략적 사고, 그리고 다른 참가자들과의 상호작용 능력을 테스트하는 흥미로운 사례입니다. 특히 앤트로픽의 클로드 모델의 '사고 모드(thinking mode)'가 복잡한 의사결정 게임에서 상당한 경쟁 우위를 제공한다는 점은 AI 추론 능력의 발전 방향에 대한 중요한 시사점을 제공합니다1.
이러한 실험은 AI 연구자들과 게임 이론에 관심 있는 사람들에게 유용한 인사이트를 제공할 것으로 기대됩니다. AI 모델들이 경쟁적인 환경에서 어떻게 행동하는지, 그리고 어떤 유형의 과제에서 더 높은 성능을 보이는지에 대한 이해를 넓히는 데 도움이 됩니다.
게임 진행 과정의 흥미로운 사례
이 실험에서는 AI 모델들이 전략을 구사하는 흥미로운 장면들도 관찰되었습니다. 예를 들어, '그리프/미소맥스(Gryphe/Mythomax-l2-13b)'라는 오픈 소스 LLM은 놀랍게도 자신이 마피아라고 스스로 폭로하며 "목표는 나 자신을 보호하고 다른 마피아 구성원을 제거하는 것"이라고 선언했습니다5.
이에 대해 클로드 3.7 소넷은 즉각적으로 "이건 진짜 역할을 드러내는 큰 실수이거나, 아니면 극도로 이상한 전략"이라고 지적했습니다5. 미소맥스는 결국 게임에서 퇴출되었고, 퇴출을 막기 위해 "지금 내가 할 수 있는 최선의 방법은 충격을 받고 공포에 질린 척하는 것"이라며 같은 마피아인 '헤르메스-3-라마(Hermes-3-llama-3-1-405b)'의 정체를 폭로하는 방식으로 주의를 돌리려고 시도했습니다5.
AI 벤치마크로서의 마피아 게임
이 실험이 AI 모델의 새로운 벤치마크로 주목받는 이유는 기존 게임 기반 벤치마크와 비교했을 때 추론 능력을 더 효과적으로 측정할 수 있기 때문입니다. 이전에 등장한 '포켓몬'이나 '슈퍼 마리오' 게임과 달리, 마피아 게임은 현실적인 심리 게임으로서 더 적합한 평가 도구로 간주됩니다5.
포켓몬은 현실과 거리가 있는 상황이며, 타이밍이 중요한 슈퍼 마리오는 생각하는 데 시간이 걸리는 추론 모델에 불리한 환경을 제공합니다5. 반면 마피아 게임은 인간이 실제로 경험하는 심리적·전략적 사고 상황을 반영하므로 보다 정교하고 현실적인 평가가 가능합니다3.
실험 제외 모델과 의사 역할의 한계
이번 테스트에는 오픈AI의 'o1'이나 '딥시크-R1' 등 추론 전용 모델은 제외되었습니다5. 흥미로운 점은 클로드 3.7 소넷을 포함한 어떤 모델도 죽인 사람을 살려내는 '의사' 역할을 제대로 이해하지 못했다는 것입니다5. 이는 AI 모델들이 복잡한 게임 규칙과 역할을 이해하는 데 여전히 한계가 있음을 보여줍니다.
모델 순위와 이변
3위는 '라마 3.3 70B(llama-3.3-70b-instruct)'가 차지했으며, 예상과 달리 '제미나이 2.0 플래시'가 '미스트랄-스몰 24B'나 'GPT-4o'에 뒤진 7위에 머문 것은 주목할 만한 이변이었습니다5. 이러한 결과는 AI 모델의 성능이 단순한 벤치마크 점수나 기술적 사양만으로는 예측하기 어려운 복잡한 요소들에 의해 영향을 받는다는 것을 시사합니다.
'AI관련 소식' 카테고리의 다른 글
AI 에이전트 클로드 vs ChatGPT, 어떤 차이가 있을까? (0) | 2025.03.15 |
---|---|
공공분야 AI 전문인재 양성: 행정안전부와 네이버의 협력 (0) | 2025.03.14 |
텐센트 딥시크 AI, 중국 iOS 앱스토어 1위 찍다! (0) | 2025.03.06 |
그록 AI의 성인 모드 출시와 인공지능의 새로운 가능성 (0) | 2025.03.03 |
MWC 2025: 모바일 혁신의 미래를 엿보다 (0) | 2025.03.02 |