이번 포스트는 2026년 5월 7일에 공개된 OpenAI의 새 실시간 음성 모델군, GPT-Realtime-2에 관한 것이다.
제목은 의도적으로 어그로성으로 뽑았다. 진짜로 성우 업계가 사라진다는 뜻은 아니다. (강은애 성우님 절대 지켜) 다만 이번 릴리즈를 직접 들여다보면, "음성 에이전트가 사람과 구분 안 되는 시점"이 더 이상 미래 시제가 아니라는 감각이 분명히 든다.
Realtime API 자체가 베타에서 정식 출시(GA)로 전환됐고, 그 위에서 세 개의 모델이 같이 풀렸다. gpt-realtime-2, gpt-realtime-translate, gpt-realtime-whisper. 각자 역할이 다르다.
세 개의 모델, 각각의 역할
이슈: 음성 파이프라인을 만들 때 보통 STT → LLM → TTS 세 단계를 직접 엮어야 했다. 지연시간, 에러 누적, 상태 동기화 같은 문제가 매 단계마다 끼어들었다.
이번 릴리즈는 그 세 단계를 OpenAI가 자기네 모델로 각각 갈아치웠다.
- gpt-realtime-2 — 입출력이 모두 음성/텍스트/이미지인 네이티브 speech-to-speech 추론 모델. 컨텍스트 128K, 최대 출력 32K. 지식 컷오프는 2024년 9월 30일.
- gpt-realtime-translate — 라이브 동시통역. 70개 이상 언어를 입력으로, 13개 언어로 출력. 힌디·타밀·텔루구에서 경쟁사 대비 WER이 12.5% 낮다고 한다.
- gpt-realtime-whisper — 스트리밍 STT. 기존 Whisper v2 대비 환각이 약 90% 줄었고,
gpt-4o-transcribe대비도 약 70% 줄었다는 게 OpenAI 측 수치다.
핵심은 두 가지다. 첫째, gpt-realtime-2의 컨텍스트가 전작 대비 4배인 128K가 됐다는 것. 둘째, reasoning effort라는 다이얼이 세션 단위로 붙었다는 것.
Reasoning Effort — 지연시간과 지능의 트레이드오프
gpt-realtime-2에는 reasoning.effort 옵션이 있다. 호출마다 추론 강도를 골라 끼울 수 있다.
매체별로 보도된 enum 값이 갈리는데, 더 디테일하게 다룬 쪽 기준으로는 다섯 단계다:
minimal | low (default) | medium | high | xhigh
값을 올릴수록 Big Bench Audio 점수가 올라가는 대신 첫 음성이 나오기까지 시간이 늘어난다. 보고된 수치 기준으로 minimal에서 약 1.12초, high에서 약 2.33초 정도다.
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
{
headers: {
Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
"OpenAI-Beta": "realtime=v1",
},
}
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "alloy",
modalities: ["audio", "text"],
reasoning: { effort: "medium" }, // 단계별로 응답 속도 vs 지능
turn_detection: { type: "server_vad" },
tools: [/* function definitions */],
},
}));
});
위 코드는 Realtime API의 기존 컨벤션을 따른 예시다. 실제 필드명은 출시 직후라 변경될 여지가 있으니, OpenAI 공식 changelog에서 한 번 더 확인하는 게 안전하다.
설계 관점에서 이게 왜 의미 있냐면, 콜센터 메인 라인은 minimal로 빠르게 받고, 복잡한 약관 안내 같은 분기에서만 high로 끌어올리는 식의 분기 라우팅이 가능해진다는 것이다.
병렬 도구 호출과 Preamble
gpt-realtime-2는 한 턴 안에서 여러 함수를 동시에 호출할 수 있다. 그리고 그 사이에 "잠깐만 확인해볼게요" 같은 preamble(필러 멘트)를 음성으로 흘려보낸다.
ws.send(JSON.stringify({
type: "session.update",
session: {
tool_choice: "auto",
parallel_tool_calls: true,
instructions: "Speak a short preamble before any tool call so the caller hears you working.",
},
}));
이게 왜 중요하냐면, 전화 응대의 가장 큰 어색함이었던 "긴 침묵 → 갑작스러운 답변" 패턴을 끊을 수 있기 때문이다. 사람이 검색하고 있는 듯한 소리가 중간에 들어가니, 사용자 입장에서는 "지금 처리 중이구나"라고 자연스럽게 받아들이게 된다.
거기에 Interruption recovery까지 붙었다. 사용자가 중간에 끼어들어도 모델이 직전 맥락을 잃지 않고 이어서 답한다. 종합하면 turn-taking 벤치마크인 Conversational Dynamics에서 minimal 티어 기준 96.1%가 나온다.
스트리밍 STT와 라이브 번역
gpt-realtime-whisper는 일반 Whisper와는 다른 모델이다. 배치 전사가 아니라 라이브 캡셔닝 용도로 튜닝됐다.
curl https://api.openai.com/v1/realtime/transcription_sessions \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-realtime-whisper",
"input_audio_format": "pcm16",
"input_audio_transcription": { "language": "en" }
}'
요금은 분당 $0.017. 회의록이나 긴 인터뷰 통째로 떠야 한다면 여전히 기존 Whisper나 gpt-4o-transcribe가 적합하다. 라이브 자막용으로 만들어진 모델이라는 점을 짚고 가야 한다.
gpt-realtime-translate는 결제 인터뷰나 글로벌 콜센터 같은 동시통역 시나리오를 노린다.
curl https://api.openai.com/v1/realtime/translations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-realtime-translate",
"source_language": "ko",
"target_language": "en"
}'
여기서 한 가지 주의할 점은 입출력 비대칭이다. 받을 수 있는 언어는 70개 이상이지만, 내보낼 수 있는 언어는 13개뿐이다. 양방향 대화 시나리오라면 양쪽 다 출력 가능한 언어인지 미리 확인해야 한다.
가격은 어떻게 매겨졌나
가격 보도가 매체마다 조금씩 다르게 나왔다.
OpenAI 개발자 문서 페이지 기준으로 gpt-realtime-2는 다음과 같다.
| 항목 | 가격 |
|---|---|
| 오디오 입력 | $32 / 1M tokens |
| 오디오 출력 | $64 / 1M tokens |
| 오디오 캐시 입력 | $0.40 / 1M tokens |
| 텍스트 입력 | $4 / 1M tokens |
| 텍스트 출력 | $24 / 1M tokens |
Latent Space는 같은 가격을 시간당으로 환산해서 오디오 입력 약 $1.15/hr, 출력 약 $4.61/hr이라고 정리했고, 이는 전작 gpt-realtime-1.5의 시간당 단가와 동일하다고 설명했다. 둘 다 모순되는 정보는 아니지만, 글로 인용할 때는 공식 pricing 페이지를 한 번 더 확인하는 걸 권장한다. Realtime API가 정식 GA로 풀린 직후라 가격 동결 보장이 없는 상태다.
알아둬야 할 제약
gpt-realtime-2는 streaming, fine-tuning, structured outputs, predicted outputs를 지원하지 않는다. Function calling만 지원된다. 여기서 말하는 "streaming"은 Chat Completions 식 토큰 스트리밍이고, Realtime 자체의 오디오 스트리밍은 당연히 된다.- 128K 컨텍스트는 세션 단위다. 한 통화가 길어지면 누적 토큰을 서버에서 관리해야 한다.
- 지식 컷오프가 2024년 9월 30일이다. 2025년 이후 사실은 무조건 도구 호출로 끌어와야 한다.
- SIP 연동이 1급 트랜스포트로 추가됐지만 공식 문서가 아직 빈약하다. 실제 SIP 트렁크 구성은 changelog를 파고들어야 할 가능성이 높다.
마무리
이번 릴리즈에서 가장 인상적인 건 모델 자체의 점수보다 운용 가능한 인터페이스로 다듬어진 정도다.
Reasoning effort 다이얼로 비용을 조절하고, parallel tool calling으로 답변 사이 침묵을 메우고, interruption recovery로 사람처럼 끼어듦을 흡수하고, SIP로 곧장 전화망에 꽂힌다. 음성 에이전트를 만들 때 일일이 직접 짜야 했던 UX 디테일을 OpenAI가 모델 레벨에서 가져갔다.
배운 것: 실시간 음성 분야는 이제 "모델 성능 경쟁"에서 "통합 운용 경쟁"으로 한 단계 옮겨갔다. STT, LLM, TTS, 통역, 전화 트렁크까지 한 벤더가 묶어주는 시대에, 음성 인터페이스를 붙이려는 서비스 입장에서는 직접 파이프라인을 짜는 비용이 빠르게 사라지고 있다.
성우가 망했다는 건 농담이지만, 합성 음성을 "특수 자산"으로 분리해서 다루던 시대가 끝나가고 있다는 건 농담이 아니다.
참고 자료
- gpt-realtime-2 Model — OpenAI API docs
- OpenAI launches new voice intelligence features in its API — TechCrunch
- OpenAI Releases Three Realtime Audio Models — MarkTechPost
- AINews: GPT-Realtime-2, -Translate, and -Whisper — Latent Space
- GPT-Realtime-2: OpenAI Voice AI Models 2026 — BuildFastWithAI
- Advancing voice intelligence with new models in the API — OpenAI