01핵심 개요
| 항목 | 내용 |
|---|
| 채널 | 안될공학 (패치) |
| 주제 | 구글 플로우(Flow) 대형 업데이트 — 제미나이 옴니 모델 + 에이전트 + 툴 |
| 새 모델 | 제미나이 옴니(Gemini Omni), 첫 버전 '옴니 플래시'가 플로우에 탑재 |
| 기술 핵심 | 프롬프트로 영상의 특정 부분만 고치는 '고차원 부분 편집(인페인팅)' |
| 3대 축 | ① 옴니(이해·수정 엔진) ② 플로우 에이전트(제작 파트너) ③ 플로우 툴(도구 자작) |
| 메시지 | "기능이 아니라 플랫폼" — 전문가의 벽이 아닌 전문성의 문턱이 낮아짐 |
02핵심 내용 구조
- 발표의 본질: 옴니의 편집 기능은 절반일 뿐, 구글이 깔고 있는 건 '기능'이 아니라 '플랫폼'.
- 기존 한계: 소라 등 생성형 비디오는 프롬프트로 영상을 뽑되, 의도를 100% 통제 반영 불가 — 디테일 하나 고치려 해도 처음부터 다시 생성.
- 옴니의 엣지: 영상의 특정 부분만 골라 고치는 인페인팅을 정교하게 구현.
- 두 기둥: ① 멀티모달 컨텍스트 완벽 유지(영상·이미지·정지영상 어떤 포맷도 소스로 입력) ② 일관성(컨시스턴시) 엔진(배경·인물 정체성·카메라 무빙·광원은 유지, 지정 객체/환경만 자연스럽게 재생성).
03기술적 맥락
- 부분 편집 데모: 서핑 원본에서 카메라 시선은 유지한 채 백상아리 등장·배경을 사막/하늘/눈으로 전환 — 빛 굴절·눈 입자·볼륨감까지 물리 법칙을 계산해 재구성.
- 일관성 입증: 인플루언서 브이로그의 배경만 맨해튼→금문교로 바꿔도 인물 얼굴·옷차림·어안렌즈 왜곡 특성까지 그대로 계승.
- 배치 편집: "모든 책상을 바로크 원목으로" 같은 일괄 명령을 모션·벽면 구조 변화 없이 적용(단발 생성 모델로는 구조적으로 불가).
- 비용: 영상 1개 생성에 약 15크레딧 — 일반 유저는 원활한 사용에 부담.
04전략적 의미
- 자판기 → 제작팀: 과거 생성형 AI는 결과를 기다리는 자판기. 플로우는 피드백을 주고받으며 깎아 나가는 제작팀에 가까워짐.
- 전문성 문턱 하락: 전문가가 사라지는 게 아니라 누구나 출발선에 서게 됨 → '무엇을 만들지 결정하는 사람'의 가치 상승.
- 동일 공식의 확장: 창작(플로우)과 코딩(안티그래비티) 양쪽에 '에이전트 + 내가 만드는 도구' 공식을 까는 것은 우연이 아닌 구글 전략.
- 컴퓨팅 수요 폭증: 누구나 만들기 시작하면 생성량이 폭발 → 토큰·전력 수요로 귀결. 구글 월간 처리 토큰은 9.7조→480조→3,200조 수준으로 급증, TPU로 전력 효율적 추론 시스템을 독자 구축.
05핵심 워크플로우/방법론
- 옴니 부분 편집: 원본 영상 입력 → 고칠 부분만 프롬프트로 지정 → 주변 요소 유지한 채 해당 객체/환경만 재생성.
- 플로우 에이전트: 한 번에 명령 1개만 처리하던 방식에서 다단계 작업을 통째로 수행. 브레인스토밍·플롯 제안·여러 버전 생성·배치 편집까지 창작 파트너로 동행(예: "미니멀·파스텔·빈티지 3버전 변주" → "원본 포함 전부 제주풍으로" 일괄 적용).
- 플로우 툴: 코딩 한 줄 없이 자연어로 도구를 자작(리사이즈·색감 에디터·커스텀 셰이더). 구글은 이를 '바이브 코딩'으로 표현 — 플랫폼 위에서 사용자가 도구를 만들고 작업을 자동화.
06활용 시나리오
- 광고·콘텐츠 제작: 컨셉 한 줄로 다버전 시안을 일괄 생성·비교 → 시안 뽑는 반복 노동 제거.
- 영상 리터칭: 재촬영·프레임 단위 마스킹 없이 소품·배경·앵글·계절을 프롬프트로 교체.
- 1인 창작자: 에이전트와 협업해 기획→제작→편집 전 과정을 혼자 수행.
07현황 및 전망
- 플로우 에이전트는 AI 구독자뿐 아니라 전 세계 모든 플로우 유저에게 공개(단, 크레딧 소모로 일반 사용은 제한적).
- 옴니가 영상·이미지를 이해·수정하는 엔진이라면, 에이전트는 계획·수행하는 제작 파트너, 툴스는 작업 환경 확장 도구 — 셋의 결합으로 플로우의 성격 자체가 변화.
- 벽이 무너지면 생성량이 폭발하고 전력·컴퓨팅 수요로 돌아오므로, 칩(TPU)·전력 효율 추론 경쟁이 다음 화두로 부상할 전망.
08용어 사전
| 용어 | 한줄 설명 | 비유/예시 |
|---|
| 제미나이 옴니 | 영상·이미지를 이해하고 부분 수정하는 구글 멀티모달 모델 | 사진을 알아보고 일부만 고쳐주는 편집 두뇌 |
| 인페인팅 | 이미지·영상에서 특정 영역만 골라 자연스럽게 다시 그리는 기술 | 사진 속 한 사람만 지우고 메우기 |
| 일관성 엔진 | 주변은 그대로 두고 지정 부분만 바꿔 영상 톤을 유지하는 기능 | 무대는 그대로, 배우 의상만 갈아입히기 |
| 멀티모달 | 텍스트·이미지·영상 등 여러 형식을 함께 다루는 방식 | 글·그림·영상을 한 입에 이해 |
| 플로우(Flow) | 구글의 AI 영상 제작·실험 플랫폼 | 영상 만드는 통합 작업실 |
| 플로우 에이전트 | 다단계 작업을 함께 기획·수행하는 AI 제작 파트너 | 옆에서 거드는 보조 편집자 |
| 플로우 툴 | 자연어로 직접 만드는 맞춤 편집 도구 | 말로 주문하는 나만의 연장 |
| 바이브 코딩 | AI에게 자연어로 지시해 도구·코드를 만드는 방식 | 말로 시키면 도구가 뚝딱 |
| 배치 편집 | 여러 클립·요소를 한 명령으로 일괄 수정 | 사진 100장 색감을 한 번에 |
| TPU | 구글이 만든 AI 추론·학습 전용 칩 | AI 연산만 잘하는 맞춤 엔진 |