Microsoft выпустила три модели MAI: голос, транскрипция и генерация изображений

Microsoft представила MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2 — собственные модели для речи и изображений, уже работающие в Copilot и PowerPoint.

Влад Макаровпроверил и опубликовал

4 апреля 2026 г.

5 мин чтения

Microsoft выпустила три модели MAI: голос, транскрипция и генерация изображений

Microsoft давно использует чужие модели — от OpenAI до Mistral — в своей платформе Azure. Но 2 апреля компания сделала заявку на собственную мультимедийную линейку: три модели под брендом MAI, каждая из которых уже работает в продуктах Microsoft и теперь доступна разработчикам через Microsoft Foundry.

Что в линейке

MAI-Transcribe-1 — модель распознавания речи, которая поддерживает 25 языков и стоит примерно вдвое дешевле по GPU-ресурсам, чем ведущие альтернативы, при сопоставимой точности. Microsoft уже использует её для транскрипции в голосовом режиме Copilot и для диктовки.

MAI-Voice-1 генерирует речь: 60 секунд выразительного аудио меньше чем за секунду на одном GPU. Модель уже стоит за функцией Audio Expressions в Copilot и озвучкой подкастов. Для разработчиков важно, что обе голосовые модели доступны через Azure Speech с галереей из 700+ голосов.

MAI-Image-2 — генерация изображений по тексту. На момент анонса модель дебютировала на третьем месте в рейтинге Arena.ai среди семейств image-моделей. Она уже работает в Bing Image Creator и Microsoft Designer.

Характеристики:

MAI-Transcribe-1: 25 языков, ~50% дешевле конкурентов по GPU
MAI-Voice-1: 60 секунд аудио за менее 1 секунды, один GPU
MAI-Image-2: #3 на Arena.ai, text-to-image
Статус: public preview в Microsoft Foundry
Доступ: Azure Speech, Microsoft Foundry API

Зачем Microsoft собственные модели

До сих пор мультимедийный стек Microsoft строился на партнёрских моделях. DALL-E от OpenAI для изображений, Whisper для транскрипции. Выпуск собственных MAI-моделей — это ход к независимости. Если отношения с OpenAI изменятся (а они уже становятся сложнее), у Microsoft будет собственная альтернатива для критических продуктов.

Есть и практическая сторона: модели оптимизированы под инфраструктуру Azure, что даёт преимущество в стоимости и латентности. MAI-Transcribe-1 с заявленной экономией в 50% GPU — это прямой аргумент для enterprise-клиентов, которые считают каждый доллар на инференсе.

Кому это пригодится

Линейка MAI закрывает три основных сценария: голосовые интерфейсы для AI-агентов (транскрипция + генерация речи в связке), создание контента (изображения) и accessibility (субтитры, озвучка). Все три модели доступны через единую платформу Foundry, что упрощает интеграцию.

Пока это public preview, и Microsoft наверняка будет итерировать. Но сам факт появления first-party мультимедийных моделей — сигнал, что компания строит полный AI-стек, не зависящий от одного партнёра.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Microsoft выпустила три модели MAI: голос, транскрипция и генерация изображений

Что в линейке

Зачем Microsoft собственные модели

Кому это пригодится

Похожие новости

VS Code 1.120: Agents Window вышла из инсайдеров и стала отдельным инструментом

Microsoft составил список 40 профессий, которые AI заменит первыми

GPT Image 2 на горизонте: утечки, «до и после», и закат DALL-E