Microsoft выпустила три модели MAI: голос, транскрипция и генерация изображений
Microsoft представила MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2 — собственные модели для речи и изображений, уже работающие в Copilot и PowerPoint.

Microsoft давно использует чужие модели — от OpenAI до Mistral — в своей платформе Azure. Но 2 апреля компания сделала заявку на собственную мультимедийную линейку: три модели под брендом MAI, каждая из которых уже работает в продуктах Microsoft и теперь доступна разработчикам через Microsoft Foundry.
Что в линейке
MAI-Transcribe-1 — модель распознавания речи, которая поддерживает 25 языков и стоит примерно вдвое дешевле по GPU-ресурсам, чем ведущие альтернативы, при сопоставимой точности. Microsoft уже использует её для транскрипции в голосовом режиме Copilot и для диктовки.
MAI-Voice-1 генерирует речь: 60 секунд выразительного аудио меньше чем за секунду на одном GPU. Модель уже стоит за функцией Audio Expressions в Copilot и озвучкой подкастов. Для разработчиков важно, что обе голосовые модели доступны через Azure Speech с галереей из 700+ голосов.
MAI-Image-2 — генерация изображений по тексту. На момент анонса модель дебютировала на третьем месте в рейтинге Arena.ai среди семейств image-моделей. Она уже работает в Bing Image Creator и Microsoft Designer.
Характеристики:
- MAI-Transcribe-1: 25 языков, ~50% дешевле конкурентов по GPU
- MAI-Voice-1: 60 секунд аудио за менее 1 секунды, один GPU
- MAI-Image-2: #3 на Arena.ai, text-to-image
- Статус: public preview в Microsoft Foundry
- Доступ: Azure Speech, Microsoft Foundry API
Зачем Microsoft собственные модели
До сих пор мультимедийный стек Microsoft строился на партнёрских моделях. DALL-E от OpenAI для изображений, Whisper для транскрипции. Выпуск собственных MAI-моделей — это ход к независимости. Если отношения с OpenAI изменятся (а они уже становятся сложнее), у Microsoft будет собственная альтернатива для критических продуктов.
Есть и практическая сторона: модели оптимизированы под инфраструктуру Azure, что даёт преимущество в стоимости и латентности. MAI-Transcribe-1 с заявленной экономией в 50% GPU — это прямой аргумент для enterprise-клиентов, которые считают каждый доллар на инференсе.
Кому это пригодится
Линейка MAI закрывает три основных сценария: голосовые интерфейсы для AI-агентов (транскрипция + генерация речи в связке), создание контента (изображения) и accessibility (субтитры, озвучка). Все три модели доступны через единую платформу Foundry, что упрощает интеграцию.
Пока это public preview, и Microsoft наверняка будет итерировать. Но сам факт появления first-party мультимедийных моделей — сигнал, что компания строит полный AI-стек, не зависящий от одного партнёра.


