OpenAI выпустила GPT-Realtime-Translate: живой перевод 70 языков за $0,034 в минуту
OpenAI запустила Realtime-Translate — модель живого перевода с 70+ языков на 13 в темпе говорящего. Плюс Realtime-2 с reasoning уровня GPT-5 и Realtime-Whisper для транскрипции.

7 мая OpenAI тихо обновила раздел Realtime API, а к концу прошлой недели разработчики наконец распробовали, что именно лежит в обновлении. Три модели сразу: GPT-Realtime-2 с reasoning уровня GPT-5 для голосовых агентов, GPT-Realtime-Whisper для live-транскрипции и — самое интересное для не-разработчиков — GPT-Realtime-Translate, моделька, которая переводит голос с более чем 70 языков на 13 целевых, не отставая от темпа говорящего.
Что нового
GPT-Realtime-Translate — это не «надиктовал предложение, услышал перевод». Это streaming-модель, которая выдаёт перевод параллельно речи: вы говорите по-русски, ваш собеседник слышит синхронный английский с задержкой в полсекунды-секунду, а на экране одновременно идёт двуязычная транскрипция. Поддерживается 70+ языков на вход (включая русский, украинский, японский, хинди, арабский, тамильский, телугу, тагальский — практически все, на которых хоть что-то писалось в интернете). Выход — пока 13 языков: английский, испанский, французский, немецкий, итальянский, португальский, китайский (упрощённый), японский, корейский, хинди, арабский, голландский и польский.
Главное конкурентное отличие от Whisper + DeepL и подобных пайплайнов — это «pacing». Модель не ждёт окончания предложения; она вычисляет вероятную грамматическую конструкцию говорящего и начинает переводить, корректируя себя на лету. Для конференц-связи и кол-центров это решает старую боль: 3-секундная задержка убивает живой диалог.
Параллельно вышли два соседних релиза. GPT-Realtime-2 — флагман голосовых агентов: 128k контекстного окна (было 32k), reasoning-режимы от minimal до xhigh, параллельные tool calls с озвучиванием — модель сама говорит «проверяю календарь», пока реально дергает API. GPT-Realtime-Whisper — streaming-транскрипция для титров и митингов, по сути open-source Whisper в облачной обвязке с низкой задержкой.
Что это значит на практике
Главная новость не в том, что синхронный перевод стал технически возможен — Google и Microsoft показывали подобное ещё в 2023-м. Главная — в цене. $0,034 за минуту работы GPT-Realtime-Translate означает, что часовое совещание на 10 языков обойдётся примерно в $2 на участника. Живой переводчик-синхронист стоит от $150 в час и работает максимум 30 минут подряд. У OpenAI ограничений по непрерывной работе нет, и качество — по показателям, которые опубликовала компания, — на индийских языках на 12,5% ниже Word Error Rate, чем у ближайших коммерческих конкурентов.
Несколько компаний уже названы как пилотные. Deutsche Telekom тестирует модель для мультиязычной поддержки в кол-центрах: клиент звонит и говорит на своём языке, оператор слышит немецкий, отвечает по-немецки, клиент слышит свой родной. Vimeo встраивает её в продуктовые туториалы — видео автоматически дублируются в реальном времени для глобальной аудитории. Priceline делает «travel by voice»: бронирование рейсов и отелей на одном языке, а уже в стране назначения — синхронный перевод диалогов с местными.
В сторону домашнего пользователя OpenAI пока не идёт — это API-релиз. Но шаг очевидный: оборачивание Realtime-Translate в ChatGPT-приложение для iOS — вопрос недель. Сам Realtime API теперь поддерживает EU Data Residency, что снимает значительный регуляторный риск для европейских корпоративных клиентов.
Изображение: OpenAI — официальный анонс
Архитектура и ограничения
Модель построена поверх той же базы, что и GPT-Realtime-2, но дообучена специально на parallel speech-to-speech данных. Никакого custom prompting и выбора голоса для перевода нет — это сделано намеренно: задача узко-специальная, и компания не хочет, чтобы разработчики ухудшали качество tweaking-ом параметров. Голос на выходе — нейтральный мужской/женский на каждый из 13 языков, регулировке не подлежит.
Главные ограничения, на которые сразу обратили внимание разработчики:
- 13 выходных языков — это меньше, чем у Google Translate или DeepL Voice
- Кастомных prompt'ов и system instructions для перевода не предусмотрено
- Для редких пар языков (например, тагальский → польский) качество заметно падает; OpenAI прямо рекомендует тестировать конкретную пару перед продакшеном
- 128k контекста — общий лимит сессии; длинный синхрон-марафон может упереться в потолок
OpenAI ведёт активные классификаторы поверх Realtime-сессий: если разговор уходит в нарушение политики использования (угрозы, противозаконные инструкции), модель может остановить сессию. Это значит, что для использования в военных переговорах или, скажем, в журналистской работе с чувствительными темами модель не подходит — её просто отрубят на ходу.
Цены и доступность
Прайс-лист трёх моделей:
- GPT-Realtime-2: $32 за 1M аудио-инпут токенов ($0,40 за кешированные), $64 за 1M аудио-аутпут токенов
- GPT-Realtime-Translate: $0,034 за минуту
- GPT-Realtime-Whisper: $0,017 за минуту
Все три доступны через стандартный Realtime API. Попробовать без кода можно в Playground OpenAI. Готовый рецепт для интеграции в собственное приложение — в OpenAI Cookbook, там есть пример WebRTC-приложения с голосовым ввод-выводом.
Для сравнения: голосовой кол через ElevenLabs обходится примерно в $0,20 за минуту с синтезом, а Whisper-only пайплайн с GPT-4o-mini и Coqui для синтеза — около $0,08. То есть OpenAI поставила цену так, чтобы выдавить как low-end конкурентов на дешёвой транскрипции, так и проды-конкурентов на премиальном TTS.
Что это меняет
Самый интересный сдвиг происходит в layer'е голосовых ассистентов. До этой недели стандартный стек для voice-агента выглядел так: STT (Whisper или ElevenLabs) → LLM (GPT-4o или Claude) → TTS (ElevenLabs или Cartesia). Три модели, три API-запроса, латентность 1,5–3 секунды на цикл. OpenAI с Realtime-2 заменяет это одной моделью, у которой задержка от 200 мс. Для UX живых диалогов это огромная разница: на 1,5 секундах люди ещё мирятся и ждут, на 3 секундах — кладут трубку.
GPT-Realtime-Translate — частный случай этого же сдвига. Раньше синхронный перевод собирали из трёх моделей, и каждая добавляла свою задержку и свои ошибки. Теперь это монолитный поток. И, что важно для индустрии, — это публичный API, а не проприетарная фича внутри ChatGPT. Любой разработчик может прикрутить синхрон-перевод к своему продукту за вечер.
Что это значит для индустрии переводов — отдельный, болезненный разговор. Синхронистов в мире несколько десятков тысяч, и работа премиальная. До этой недели казалось, что профессия защищена нюансом, культурным контекстом и качеством. Realtime-Translate пока не дотягивает до синхрониста-человека на сложных тематических конференциях. Но для 80% сценариев — деловые звонки, поддержка клиентов, туризм, образование — он уже сегодня дешевле и достаточно хорош. Через год, когда выйдет GPT-Realtime-3, разговор будет совсем другой.
Итог
OpenAI закрыла нишу, в которой пытались закрепиться сразу несколько стартапов: Vapi, Ultravox, Mistral Voxtral. Голосовые модели OpenAI теперь покрывают reasoning, перевод и транскрипцию в одном пакете с одной интеграцией. Для разработчиков это означает упрощение архитектуры и снижение latency. Для рынка voice-AI это означает, что окно для независимых решений сильно сузилось: конкурировать с OpenAI по цене и качеству одновременно теперь могут только две-три компании. Для конечного пользователя это значит, что ваш следующий звонок в поддержку с большой вероятностью пройдёт через эти модели — и вы об этом даже не догадаетесь.

