Google이 2026-06-09 공개한 Gemini 3.5 Live Translate를 미팅에 적용하는 방법 — 오픈소스(LiveKit), Google Meet, 기타 화상툴별 최적 경로와 실비용·구현·로드맵 정리
gemini-3.5-live-translate-preview. 발화를 끊지 않고 몇 초 뒤를 따라가며 연속 통역(턴 단위 X), 화자의 억양·속도·피치 보존. 현재 Public Preview.gemini-live-translate-livekit 레퍼런스가 있어 봇이 룸에 들어가 양방향 통역. 자체 호스팅·제품화 모두 가능.기존 STT→번역→TTS 파이프라인을 하나의 speech-to-speech 모델로 대체. 끊김 없는 동시통역에 가깝습니다.
| 항목 | 내용 |
|---|---|
| 모델 ID | gemini-3.5-live-translate-preview |
| 방식 | Speech → Speech (음성 입력 → 번역 음성 출력). 화자 종료를 기다리지 않고 연속 스트리밍, 평균 수 초 지연 |
| 언어 | 70+ 개 자동 감지. 한국어·일본어 포함 양방향 |
| 음성 품질 | 원 화자의 인토네이션·속도·피치 유지(목소리 복제는 일관성 편차 있음) |
| 입력 오디오 | Raw 16-bit PCM · 16kHz · mono · little-endian (100ms 청크) |
| 출력 오디오 | Raw 16-bit PCM · 24kHz · mono · little-endian |
| 접근 | Gemini Live API (WebSocket / google-genai SDK) · Google AI Studio. 파트너: LiveKit, Agora, Grab |
| 워터마크 | 모든 생성 음성에 SynthID 삽입(AI 생성 식별) |
| 제약 | ① 번역은 오디오 입력만 지원 ② 강한 억양은 언어 감지 저하 ③ Preview 단계(SLA 미보장) |
오디오는 초당 25토큰으로 과금. 입력 $3.50 / 출력 $21.00 (백만 토큰). 침묵 구간은 과금되지 않는 점이 핵심.
| 시나리오 | 입력 | 출력(번역) | 시간당 합계 |
|---|---|---|---|
| 1시간 연속 발화 (이론 최대) | $0.32 | $1.89 | ≈ $2.2 (3,000원) |
| 실제 미팅 (발화 ~50%, 침묵 과금X) | $0.16 | $0.95 | ≈ $1.1 (1,500원) |
| 양방향 동시 세션 2개 (드묾) | — | — | ≈ $2.2~4.4 |
환율 ≈ 1,380원/$ 가정. 콜리그가 말한 “3천원 / 1500원대”와 정확히 일치합니다. 인간 통역사 반나절 대비 수백분의 1 수준.
“어떤 화상툴을 쓰느냐 / 직접 만들 것이냐”로 갈립니다. RINDA 상황 기준 권장도 순.
| 방법 | 개발량 | 제어/커스텀 | 적합도 |
|---|---|---|---|
| A. LiveKit Agents + 공식 예제 | 중 (1~3일 PoC) | ★★★ 완전 | 제품화·자체호스팅 권장 |
| B. Google Meet 내장 통역 | 0 | ★ 낮음 | 가장 빠름(엔터프라이즈 한정) |
| C. Google Meet Media API 봇 | 높음 | ★★ 높음 | Meet 고정 + 프리뷰 제약 큼 |
| D. 가상오디오 + 자막(MVP) | 낮음 | ★★ 중 | 어떤 툴이든 즉시 PoC |
Google이 직접 공개한 레퍼런스 google-gemini/gemini-live-api-examples/gemini-live-translate-livekit. 서버 봇이 LiveKit 룸에 참가자로 들어가 발표자 음성을 구독 → Gemini로 전송 → 번역 음성을 새 트랙으로 republish. 청자는 원하는 언어 트랙만 구독해 듣습니다.
@livekit/rtc-node / Gemini Live API / 배포: Cloud RuntranslationConfig로 방향 지정, auto-detect로 양방향왜 RINDA에 최적인가: 통역사 없이 한·일 미팅을 자체 운영, 데이터·녹취·자막을 자사 인프라에 보관, 추후 “린다 미팅 통역” 기능으로 제품화 여지까지 한 번에.
Google Meet 엔터프라이즈에 이번 달부터 private preview로 동일 모델이 내장 탑재됩니다. 별도 봇/코드 없이 회의 설정에서 통역 활성화. 가장 빠르지만 — 조직(Workspace)·참가자 단위 프리뷰 승인이 필요하고 커스텀(자막 저장·UI·자사 제품 연동)은 불가.
추천: RINDA가 Workspace Enterprise라면 IT 관리자가 지금 신청해 두는 것이 무손해. PoC와 병행.
Meet Media API(Developer Preview)로 봇이 추가 참가자 없이 raw 오디오에 first-class 접근 → Gemini로 통역. 단 회의의 모든 참가자·OAuth 주체·GCP 프로젝트가 Developer Preview Program에 등록되어야 동작 → 외부 일본 거래처가 낀 미팅엔 사실상 부적합.
회의 시스템 오디오를 가상 입력장치로 캡처 → Gemini Live로 보내고 번역 음성/자막을 브라우저에 출력. Zoom·Teams·Meet 무엇이든 적용 가능하고 가장 단순. 단 음질·라우팅이 거칠고 멀티 청자·언어 선택 같은 정교함은 약함 → “되는지 보는 용” 또는 1:1 미팅에 적합.
참고: Zoom은 RTMS(Realtime Media Streams), MS Teams는 Bot Media API로 동일하게 Gemini에 연결 가능. 회의 플랫폼이 Zoom/Teams로 고정이라면 이 경로를 A 대신 사용.
탭 종료 시 navigator.sendBeacon()으로 세션 정리, 자막은 LiveKit 데이터 채널로 별도 전송(신뢰성↑).
Gemini Live 세션 연결 + 번역 설정 + 오디오 스트리밍의 최소 골격(Python SDK).
from google import genai from google.genai import types client = genai.Client() model = "gemini-3.5-live-translate-preview" config = types.LiveConnectConfig( # 목표 언어 = 일본어. 자동 언어감지로 한↔일 양방향 translation_config=types.TranslationConfig( target_language_code="ja", # BCP-47 echo_target_language=True, ), ) async with client.aio.live.connect(model=model, config=config) as session: # 1) 회의 오디오를 16kHz PCM 100ms 청크로 송신 async def pump_mic(): async for chunk in mic_frames(): # 16-bit PCM 16k mono await session.send_realtime_input( audio=types.Blob(data=chunk, mime_type="audio/pcm;rate=16000") ) # 2) 번역된 24kHz PCM 음성을 회의 스피커/트랙으로 재생 async for response in session.receive(): if response.data: await play_to_room(response.data) # 24k PCM republish
wss://generativelanguage.googleapis.com/ws/...BidiGenerateContent)를 직접 써도 되지만, LiveKit 공식 예제를 fork해서 룸·세션 관리·republish를 그대로 쓰는 편이 가장 빠릅니다. 위 코드는 그 내부 Bridge 로직의 핵심입니다.
Workspace 관리자가 Developer/Enterprise Preview 신청. 승인되면 코드 없이 즉시 사용 가능 — 가장 빠른 백업 경로.
gemini-live-translate-livekit fork → API 키 설정 → Cloud Run 배포. 사내 한·일 모의 미팅 1회로 지연·정확도·음질 체감 검증.
통역사 동석 상태에서 병행 비교(안전망). 자막 로그·만족도 수집. 비용 실측(예상 미팅당 1,000~3,000원).
품질 OK → 통역사 단계적 축소. 자막 저장·발화자 분리·용어집(고정 번역) 추가. 추후 “린다 미팅 통역” 기능 제품화 검토.
| 리스크 | 대응 |
|---|---|
| Preview 단계 (SLA·안정성 미보장) | 중요 거래처 미팅은 초기엔 통역사 안전망 병행. GA 전까지 비핵심 미팅부터 적용 |
| 강한 억양·전문용어 오역 | 용어집/프롬프트 보정, 핵심 숫자·계약 조건은 화면 공유·문서로 이중 확인 |
| 목소리 복제 일관성 편차 | 음성 동일성보다 “정확·자연스러움” 우선. 화자 구분은 자막 라벨로 보완 |
| SynthID 워터마크 | 녹취 음성에 AI 식별자 포함됨 — 외부 공유 시 안내(법적 이슈 없음) |
| 개인정보·기밀 (미팅 음성 외부 전송) | 유료 등급은 데이터 학습 미사용. 그래도 NDA 거래처는 사전 고지·동의 권장 |