Thinking Machines 인터랙션 모델

01

핵심 개요 — 무슨 발표인가

발표 주체	Thinking Machines Lab — 미라 무라티가 2025년 2월 설립
공개물	인터랙션 모델(Interaction model) — 사용자를 보고 들으며 실시간 반응하는 AI
현재 상태	프리뷰 버전 — 아직 정식 제품(퍼블릭 프로덕트) 아님
한 줄 정의	AI가 말하는 도중에도 새 입력을 받아 실시간 반응
왜 중요한가	AI 모델만의 변화가 아니라, 그 모델을 쓰는 모든 앱이 재편될 수 있는 사건

미라
무라티

오픈AI 전 CTO(기술총괄책임자) — ChatGPT·DALL·E 개발을 이끌어 'ChatGPT의 어머니'로 불림. 2023년 샘 알트먼 해임 사태 때 잠시 임시 CEO를 맡았고, 2024년 오픈AI 퇴사 후 Thinking Machines Lab 설립. 오픈AI·메타·미스트랄 출신 연구자를 영입했다.

02

인터랙션 모델이 하는 것 — 데모로 본 동작

Thinking Machines가 노리는 것은 더 좋은 모델이 아니라 AI와 사람이 협업하는 방식 자체를 바꾸는 것이다. (첫 제품은 파인튜닝 도구 '팅커(Tinker)', 이번이 인터랙션 모델)

▶ 3:41

조용히 기다리기

사용자가 커피를 마시는 등 말이 끊기면, 바로 답하지 않고 조용히 기다리며 이어지는 말을 인지한다.

▶ 4:13

순간 변화 캐치

사용자가 갑자기 움직여도 프레임과 프레임 사이의 변화를 인지한다(자세 교정 등).

▶ 4:36

먼저 끊기

AI가 사용자 말을 끊고 "그만 말해" 같은 개입을 한다. 이상한 소리를 하면 멈춰 세운다.

▶ 6:13

동시 통역

상대 말이 끝나길 기다리지 않고, 실시간 통역사처럼 겹쳐서 동시에 말한다.

핵심은 "언제 답해야 하는가"의 타이밍을 모델이 스스로 안다는 점이다. 사용자가 생각 중인지, 말을 더 들어야 하는지, 끊어야 하는지를 계속 듣고 보면서 판단한다.

03

기술적 맥락 — '단일 쓰레드' 문제와 해법

문제 · 협업 병목(Collaboration bottleneck)

"오늘날의 모델은 단일 쓰레드(single-thread)에서 현실을 경험한다." 답을 생성하는 동안에는 새 입력을 못 받고, 사용자가 뭘 하는지 모른 채 기다린다.

→

해법 · 인터랙션 모델

시간의 흐름 자체를 문맥(context)으로 사용. 말하면서도 계속 보고 듣는 구조로 전환한다.

없음

별도의 대화 관리 장치 없음

"there is no separate dialog management component" — 끼어들기 감지·발화 종료 감지 로직을 따로 넣지 않고, 그냥 모델을 돌리는 것만으로 처리한다.

200
ms

200밀리초(ms) 단위의 짧은 턴

입력→출력을 반복하는 턴 기반 구조는 유지하되, 턴을 0.2초라는 매우 짧은 단위로 잘게 쪼개 실시간성을 확보한다.

시간
정렬

음성·영상의 마이크로 단위 시간 정렬(time-align)

비디오와 오디오를 마이크로 단위로 시간축에 맞춰 모델이 인지 → 제스처·겹치는 발화·화면 변화까지 문맥으로 활용한다.

04

기존 음성 AI vs 인터랙션 모델

구분	기존 (ChatGPT Voice·Gemini Live)	인터랙션 모델
출발점	텍스트 → 실시간 기능 추가	처음부터 실시간 추구
입력 처리	답 생성 중 새 입력 못 받음	말하면서도 계속 입력 받음
끼어들기	가능하나 흐름 깨지면 답 품질 저하	흐름을 문맥으로 활용 → 품질 유지
대화 제어	발화 종료·인터럽트 로직 별도 탑재	별도 장치 없이 모델이 내장 판단
턴 단위	비교적 긴 턴	200ms 단위로 잘게 쪼갬
처리 방식	청크(chunk) 단위 배치 처리	스트리밍 처리

05

전략적 의미 — 경쟁의 축이 바뀐다

기존 프론티어 AI 경쟁축

어려운 문제 풀이 · 긴 컨텍스트 · 리즈닝(추론) · 도구 사용 · 자율 에이전트

→

새로운 경쟁축

사람과 AI의 실시간 상호작용 · 어느 인터페이스(글래스·이어폰·로봇)를 장악하느냐

인터랙션 모델이 보편화되면 앱 구조 자체가 재편된다. 사용자가 그냥 쓰고 있으면 AI가 옆에서 보고 듣다가 필요할 때만 끼어드는 형태가 된다. AI 인프라 경쟁의 '브릿지'에 해당하는 인터페이스를 누가 강하게 쥐느냐의 싸움이 시작됐다.

06

활용 시나리오

최대 수혜AI 글래스 / 스마트 글래스
옆에서 계속 보고 듣다가 필요할 때만 끼어드는 비서. 메타·애플 모두 글래스 출시를 예고한 상황이라 수혜가 가장 클 분야.

시나리오

로봇 / 휴머노이드

복잡한 작업은 백그라운드 모델이 처리하고 결과가 나오면 자연스럽게 끼어드는 식 — 시스템1/시스템2로 작업을 나누는 구조.

시나리오

실시간 통역

상대 말을 멈추거나 고치게 하지 않고, 동시에 통역하는 실시간 통역사 역할. 이어폰 안에 들어가면 바로 통역기.

시나리오

인터페이스 레이어별 역할 분화

채팅창=검색 보조, 이어폰=실시간 통역, 글래스=상황 인지 비서. 어느 레이어에 들어가느냐에 따라 디바이스·OS·앱 설계가 모두 달라진다.

07

현황 및 전망

1

아직 프리뷰 단계 — 정식 제품이 아닌 기술성 입증 단계. 레이턴시(지연 시간)는 기존보다 확실히 빠르지만, 실제 서빙(서비스 운영) 시 성능은 지켜봐야 한다.
2

인프라 약속 — 2026년 3월 Thinking Machines는 엔비디아 베라 루빈(Vera Rubin) 시스템 기반 최소 1GW(기가와트) 규모 컴퓨팅 사용을 약속하는 파트너십을 발표했다.
3

인프라 경쟁 양상 변화 — 큰 모델을 한 번 잘 돌리는 영역에서, 수많은 사람의 실시간 세션을 어떻게 유지하느냐로 이동. 빠른 SRAM·캐시 중심 메모리, 네트워크 지연 관리, 로컬-클라우드 역할 분담(하이브리드 AI)이 중요해진다.
4

팔로업 포인트 — AI 글래스·휴머노이드 분야에서 이런 모델이 어떻게 산업적으로 퍼지는지, 어떤 제품과 반도체가 필요해지는지를 계속 추적할 필요가 있다.