/ Source

Google представил полную версию Gemma 3n — мультимодальной модели, специально разработанной для работы на мобильных устройствах. Модель поддерживает изображения, аудио, видео и текст, при этом работает с памятью всего 2-3 ГБ благодаря архитектурным инновациям.

Ключевая особенность — архитектура MatFormer по принципу матрёшки, где большая модель содержит внутри себя меньшую, полнофункциональную версию. Это позволяет разработчикам выбирать между моделями E2B (эффективные 2 млрд параметров) и E4B (4 млрд) в зависимости от задач и ограничений устройства.

Технология Per-Layer Embeddings позволяет размещать основную часть параметров в обычной памяти CPU, оставляя в видеопамяти только ключевые веса трансформера. Для обработки аудио используется энкодер на базе Universal Speech Model с поддержкой распознавания и перевода речи, особенно эффективный для романских языков.

Новый визуальный энкодер MobileNet-V5 обеспечивает обработку до 60 кадров в секунду на Google Pixel, превосходя предыдущие решения в 13 раз по скорости при значительно меньшем размере.

Модель имеет открытые веса, поэтому её уже можно скачать на HuggingFace или попробовать в AI Studio.