Microsoft, AI 모델 'Magma' 공개

마이크로소프트 리서치는 새로운 AI 기반 모델인 'Magma'를 발표했다. 'Magma'는 시각적 처리와 언어 처리 기능을 결합하여 소프트웨어 인터페이스 및 로봇 시스템 제어를 목표로 개발된 통합형 AI 모델이다. 이는 다목적 멀티모달 AI 연구의 중요한 진전을 의미하며, 현실과 디지털 공간에서의 상호작용을 가능케 한다.

멀티모달 데이터 처리 가능

'Magma'는 최초로 텍스트, 이미지, 비디오 등의 멀티모달 데이터를 처리하고 이를 기반으로 작동할 수 있는 AI 모델로 알려져 있다. 이 AI 모델은 마이크로소프트와 한국과학기술원(KAIST), 메릴랜드 대학, 위스콘신 매디슨 대학, 워싱턴 대학 등의 연구자들이 협력하여 개발되었다.

통합된 모델로 자율계획 가능

기존의 멀티모달 AI 시스템은 인식과 제어를 위한 별도의 모델이 필요했지만 'Magma'는 이를 단일 기반 모델로 통합했다. 마이크로소프트는 이를 인간의 입력을 기반으로 자율적으로 계획을 세우고 다단계 작업을 수행할 수 있는 '에이전틱 AI'로의 진입점이라고 설명한다.

공간 지능 결합한 모듈형 구성

'Magma'는 전통적인 비전-언어 모델을 넘어서 '공간 지능'을 결합하여 행동을 계획하고 실행할 수 있다. 이미지를 비롯한 비디오, 사용자 인터페이스 상호작용 등 다양한 데이터로 학습된 'Magma'는 진정한 멀티모달 에이전트로 자리잡고 있다.

주요 기능: Set-of-Mark와 Trace-of-Mark

'Magma' 모델의 주요 구성 요소인 'Set-of-Mark'는 환경 내에서 조작 가능한 물체를 식별하며, 'Trace-of-Mark'는 비디오 데이터에서 움직임 패턴을 학습한다. 이러한 기능들은 모델이 사용자 인터페이스를 탐색하고 로봇 팔을 지도하는데 도움을 준다.

성능 및 향후 과제

보고된 바에 따르면, 'Magma'는 사용자 인터페이스 탐색 및 로봇 조작 작업의 벤치마크에서 경쟁력 있는 성능을 보여주었으며, 시각 질문 응답 및 로봇 조작 분야에서 다른 모델들과의 비교에서도 강력한 결과를 나타냈다. 그러나 복잡한 다단계 의사결정에서 여전히 한계를 보인다. 마이크로소프트는 이 영역에서의 개선을 지속적으로 모색하고 있으며, 외부 연구자들이 접근할 수 있도록 모델의 학습 및 추론 코드를 GitHub에 공개할 계획이다.

AI 연구 문화 변화 선도

'Magma'는 에이전틱 AI에 대한 논의가 일반화되고 잠재적 부정적 결과에 대한 우려가 줄어드는 등 AI 연구 문화의 변화를 선도하고 있다.

출처 : 원문 보러가기

By AI NEXT