실시간 화상미팅 AI 통역 적용 가이드

핵심 결론 (TL;DR)

모델 — gemini-3.5-live-translate-preview. 발화를 끊지 않고 몇 초 뒤를 따라가며 연속 통역(턴 단위 X), 화자의 억양·속도·피치 보존. 현재 Public Preview.
비용 검증 완료 — 콜리그 추산이 맞습니다. 연속 발화 1시간 ≈ $2.2(≈3,000원), 실제 미팅처럼 침묵 구간이 많으면 ~1,500원. (통역사 1회 수십만 원 대비 압도적)
최적 경로 = LiveKit Agents + 공식 예제. Google이 직접 만든 gemini-live-translate-livekit 레퍼런스가 있어 봇이 룸에 들어가 양방향 통역. 자체 호스팅·제품화 모두 가능.
개발 0 옵션 — RINDA가 Google Workspace 엔터프라이즈면 Meet 내장 Live Translate(private preview) 신청이 가장 빠름. 단, 조직 단위 승인 필요.
권장 액션 — ① Meet 엔터프라이즈 통역 프리뷰 신청(무개발) + ② LiveKit 공식 예제를 Cloud Run에 1~2일 PoC 배포해 한·일 미팅 1회 검증 후 결정.

01 Gemini 3.5 Live Translate 란?

기존 STT→번역→TTS 파이프라인을 하나의 speech-to-speech 모델로 대체. 끊김 없는 동시통역에 가깝습니다.

항목	내용
모델 ID	`gemini-3.5-live-translate-preview`
방식	Speech → Speech (음성 입력 → 번역 음성 출력). 화자 종료를 기다리지 않고 연속 스트리밍, 평균 수 초 지연
언어	70+ 개 자동 감지. 한국어·일본어 포함 양방향
음성 품질	원 화자의 인토네이션·속도·피치 유지(목소리 복제는 일관성 편차 있음)
입력 오디오	Raw 16-bit PCM · 16kHz · mono · little-endian (100ms 청크)
출력 오디오	Raw 16-bit PCM · 24kHz · mono · little-endian
접근	Gemini Live API (WebSocket / google-genai SDK) · Google AI Studio. 파트너: LiveKit, Agora, Grab
워터마크	모든 생성 음성에 SynthID 삽입(AI 생성 식별)
제약	① 번역은 오디오 입력만 지원 ② 강한 억양은 언어 감지 저하 ③ Preview 단계(SLA 미보장)

02 실비용 분석 — RINDA 일본 미팅 기준

오디오는 초당 25토큰으로 과금. 입력 $3.50 / 출력 $21.00 (백만 토큰). 침묵 구간은 과금되지 않는 점이 핵심.

시나리오	입력	출력(번역)	시간당 합계
1시간 연속 발화 (이론 최대)	$0.32	$1.89	≈ $2.2 (3,000원)
실제 미팅 (발화 ~50%, 침묵 과금X)	$0.16	$0.95	≈ $1.1 (1,500원)
양방향 동시 세션 2개 (드묾)	—	—	≈ $2.2~4.4

왜 양방향에 세션 1개로 충분한가 미팅은 보통 한 번에 한 명만 말합니다. Live Translate는 입력 언어를 자동 감지하므로, 한 세션이 한국어→일본어·일본어→한국어를 번갈아 처리. 동시 발화가 잦은 경우만 언어별 세션을 분리(비용 2배).

환율 ≈ 1,380원/$ 가정. 콜리그가 말한 “3천원 / 1500원대”와 정확히 일치합니다. 인간 통역사 반나절 대비 수백분의 1 수준.

03 적용 방법 4가지 — 비교

“어떤 화상툴을 쓰느냐 / 직접 만들 것이냐”로 갈립니다. RINDA 상황 기준 권장도 순.

방법	개발량	제어/커스텀	적합도
A. LiveKit Agents + 공식 예제	중 (1~3일 PoC)	★★★ 완전	제품화·자체호스팅 권장
B. Google Meet 내장 통역	0	★ 낮음	가장 빠름(엔터프라이즈 한정)
C. Google Meet Media API 봇	높음	★★ 높음	Meet 고정 + 프리뷰 제약 큼
D. 가상오디오 + 자막(MVP)	낮음	★★ 중	어떤 툴이든 즉시 PoC

A. LiveKit Agents + Gemini Live Translate 권장

Google이 직접 공개한 레퍼런스 google-gemini/gemini-live-api-examples/gemini-live-translate-livekit. 서버 봇이 LiveKit 룸에 참가자로 들어가 발표자 음성을 구독 → Gemini로 전송 → 번역 음성을 새 트랙으로 republish. 청자는 원하는 언어 트랙만 구독해 듣습니다.

스택: Node.js 18+ / Next.js / @livekit/rtc-node / Gemini Live API / 배포: Cloud Run
핵심설계: 언어당 Gemini 세션 1개 공유(싱글톤) → 청자 N명이어도 비용은 언어 수에 비례
한·일: translationConfig로 방향 지정, auto-detect로 양방향
규모: 기본 구조 ~15언어·200~300청자. 대규모는 3계층(수집/언어별워커/언어별배송)으로 확장

왜 RINDA에 최적인가: 통역사 없이 한·일 미팅을 자체 운영, 데이터·녹취·자막을 자사 인프라에 보관, 추후 “린다 미팅 통역” 기능으로 제품화 여지까지 한 번에.

B. Google Meet 내장 Live Translate 개발 0

Google Meet 엔터프라이즈에 이번 달부터 private preview로 동일 모델이 내장 탑재됩니다. 별도 봇/코드 없이 회의 설정에서 통역 활성화. 가장 빠르지만 — 조직(Workspace)·참가자 단위 프리뷰 승인이 필요하고 커스텀(자막 저장·UI·자사 제품 연동)은 불가.

추천: RINDA가 Workspace Enterprise라면 IT 관리자가 지금 신청해 두는 것이 무손해. PoC와 병행.

C. Google Meet Media API 봇 프리뷰 제약

Meet Media API(Developer Preview)로 봇이 추가 참가자 없이 raw 오디오에 first-class 접근 → Gemini로 통역. 단 회의의 모든 참가자·OAuth 주체·GCP 프로젝트가 Developer Preview Program에 등록되어야 동작 → 외부 일본 거래처가 낀 미팅엔 사실상 부적합.

D. 가상 오디오 + 브라우저 자막/TTS 빠른 MVP

회의 시스템 오디오를 가상 입력장치로 캡처 → Gemini Live로 보내고 번역 음성/자막을 브라우저에 출력. Zoom·Teams·Meet 무엇이든 적용 가능하고 가장 단순. 단 음질·라우팅이 거칠고 멀티 청자·언어 선택 같은 정교함은 약함 → “되는지 보는 용” 또는 1:1 미팅에 적합.

참고: Zoom은 RTMS(Realtime Media Streams), MS Teams는 Bot Media API로 동일하게 Gemini에 연결 가능. 회의 플랫폼이 Zoom/Teams로 고정이라면 이 경로를 A 대신 사용.

04 권장 아키텍처 (LiveKit 경로)

발표자(한국어) 청자(일본어 선택) │ mic ▲ 번역 오디오 구독 ▼ │ ┌─────────────────────────────────────────────┐ │ LiveKit Room (SFU) │ └───────┬──────────────────────────▲──────────┘ │ 음성 구독 │ 번역 트랙 republish ▼ │ ┌──────────────────────────────────┴──────────┐ │ Translation Bot (@livekit/rtc-node, 서버) │ │ ├ TranslationSessionManager (언어당 1세션) │ │ └ TranslationBridge ── PCM 16k ──▶ Gemini Live │ │ ◀── PCM 24k ── Translate │ └──────────────────────────────────────────────┘ 언어 추가 시 Bridge만 spawn · 세션은 공유

탭 종료 시 navigator.sendBeacon()으로 세션 정리, 자막은 LiveKit 데이터 채널로 별도 전송(신뢰성↑).

05 핵심 구현 코드

Gemini Live 세션 연결 + 번역 설정 + 오디오 스트리밍의 최소 골격(Python SDK).

from google import genai
from google.genai import types

client = genai.Client()
model = "gemini-3.5-live-translate-preview"

config = types.LiveConnectConfig(
    # 목표 언어 = 일본어. 자동 언어감지로 한↔일 양방향
    translation_config=types.TranslationConfig(
        target_language_code="ja",      # BCP-47
        echo_target_language=True,
    ),
)

async with client.aio.live.connect(model=model, config=config) as session:
    # 1) 회의 오디오를 16kHz PCM 100ms 청크로 송신
    async def pump_mic():
        async for chunk in mic_frames():           # 16-bit PCM 16k mono
            await session.send_realtime_input(
                audio=types.Blob(data=chunk, mime_type="audio/pcm;rate=16000")
            )
    # 2) 번역된 24kHz PCM 음성을 회의 스피커/트랙으로 재생
    async for response in session.receive():
        if response.data:
            await play_to_room(response.data)        # 24k PCM republish

실전 팁 WebSocket 엔드포인트(wss://generativelanguage.googleapis.com/ws/...BidiGenerateContent)를 직접 써도 되지만, LiveKit 공식 예제를 fork해서 룸·세션 관리·republish를 그대로 쓰는 편이 가장 빠릅니다. 위 코드는 그 내부 Bridge 로직의 핵심입니다.

06 RINDA 권장 로드맵

Day 0 — Meet 엔터프라이즈 통역 프리뷰 신청 (병행, 무개발)

Workspace 관리자가 Developer/Enterprise Preview 신청. 승인되면 코드 없이 즉시 사용 가능 — 가장 빠른 백업 경로.

Day 1~2 — LiveKit 공식 예제 PoC 배포

gemini-live-translate-livekit fork → API 키 설정 → Cloud Run 배포. 사내 한·일 모의 미팅 1회로 지연·정확도·음질 체감 검증.

Day 3~5 — 실제 일본 거래처 미팅 1건 파일럿

통역사 동석 상태에서 병행 비교(안전망). 자막 로그·만족도 수집. 비용 실측(예상 미팅당 1,000~3,000원).

Day 6+ — 결정 & 내재화

품질 OK → 통역사 단계적 축소. 자막 저장·발화자 분리·용어집(고정 번역) 추가. 추후 “린다 미팅 통역” 기능 제품화 검토.

07 리스크 · 체크포인트

리스크	대응
Preview 단계 (SLA·안정성 미보장)	중요 거래처 미팅은 초기엔 통역사 안전망 병행. GA 전까지 비핵심 미팅부터 적용
강한 억양·전문용어 오역	용어집/프롬프트 보정, 핵심 숫자·계약 조건은 화면 공유·문서로 이중 확인
목소리 복제 일관성 편차	음성 동일성보다 “정확·자연스러움” 우선. 화자 구분은 자막 라벨로 보완
SynthID 워터마크	녹취 음성에 AI 식별자 포함됨 — 외부 공유 시 안내(법적 이슈 없음)
개인정보·기밀 (미팅 음성 외부 전송)	유료 등급은 데이터 학습 미사용. 그래도 NDA 거래처는 사전 고지·동의 권장