GPT-5급 추론 내장 음성↔음성 모델. 도구 호출(MCP, Function) 지원. 기존 다단계 파이프라인을 단일 모델로 통합.
실시간 통번역 전용. 70개 입력 언어 → 13개 출력 언어. 귀에 꽂고 외국어 행사에서 실시간 통역 가능.
음성 → 텍스트 전용. 스트리밍 자막 생성. 유튜브 영상 실시간 자막, 회의록 자동화 활용 가능.
| 방식 | 파이프라인 | 특징 |
|---|---|---|
| 기존 | 음성 → STT → GPT-5 텍스트 → TTS → 음성 | 다단계, 레이턴시 높음 |
| 신규 Realtime-2 | 음성 → (내부 처리) → 음성 | 단일 모델, 빠른 응답, GPT-5급 추론 내장 |
Realtime Whisper로 자막 생성 + 말한 내용을 슬라이드로 실시간 자동 작성. 오토프레소 오픈소스 공개.
Realtime-2 + Codex 연동 → 음성 명령으로 코드 자동 작성. "목소리만으로 만들 수 있는 자비스"
크롬 확장 프로그램으로 영상 시청 중 한국어·일본어 실시간 번역 구현.