Gemma 3n E2B
МультимодальнаяGemma 3n — это мультимодальная модель, разработанная для локального запуска на оборудовании, поддерживающая входные данные в виде изображений, текста, аудио и видео. Она включает языковой декодер, аудио-энкодер и визуальный энкодер, и доступна в двух размерах: E2B и E4B. Модель оптимизирована для эффективного использования памяти, что позволяет запускать её на устройствах с ограниченным объёмом GPU RAM. Gemma — это семейство лёгких, современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались для создания моделей Gemini. Модели Gemma хорошо подходят для различных задач понимания контента, включая ответы на вопросы, реферирование и логические рассуждения. Их относительно небольшой размер позволяет развёртывать их в средах с ограниченными ресурсами, таких как ноутбуки, настольные компьютеры или собственная облачная инфраструктура, демократизируя доступ к современным моделям ИИ и способствуя инновациям для всех. Модели Gemma 3n разработаны для эффективного выполнения на устройствах с низкими ресурсами. Они способны обрабатывать мультимодальные входные данные, работая с текстом, изображениями, видео и аудио, и генерируют текстовые выходные данные, с открытыми весами для вариантов, настроенных на следование инструкциям. Эти модели были обучены на данных на более чем 140 разговорных языках.
Основные характеристики
Временная шкала
Технические характеристики
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках