Интернет для ИИ на вашем смартфоне больше не нужен: новая модель от Google работает на телефонах без интернета и использует всего 2 ГБ памяти

Корпорация Google официально представила Gemma 3n, свою новейшую разработку в области искусственного интеллекта, дебют которой состоялся в мае 2025 года. Эта ИИ-модель предоставляет расширенные мультимодальные возможности, охватывая обработку аудио, изображений, видео и текста, предназначенные для смартфонов и других устройств с ограниченным объёмом памяти и без доступа к сети. Теперь разработчики получили возможность применять функции искусственного интеллекта, которые ранее требовали мощной облачной инфраструктуры, непосредственно на мобильных телефонах и устройствах с низким энергопотреблением.
В основе Gemma 3n лежит инновационная архитектура, получившая название MatFormer, или Matryoshka Transformer. Google объясняет, что, подобно традиционным русским матрёшкам, модель включает в себя компактные, но полнофункциональные подмодели, вложенные друг в друга. Такая структура позволяет разработчикам гибко настраивать производительность в зависимости от доступных аппаратных ресурсов. Например, Gemma 3n предлагается в двух вариантах: E2B, работающая с всего лишь 2 ГБ памяти, и E4B, требующая около 3 ГБ.
Несмотря на то, что обе версии содержат от 5 до 8 миллиардов необработанных параметров, с точки зрения потребления ресурсов они функционируют как модели с гораздо меньшим количеством параметров. Такая эффективность обеспечивается за счёт передовых решений, таких как встраивание на уровне слоёв (Per-Layer Embeddings, PLE), которое переносит часть вычислительной нагрузки с графического процессора телефона на центральный процессор, освобождая дефицитную память.
В Gemma 3n также реализован механизм совместного использования кэша KV, что существенно ускоряет обработку длинных аудио- и видеопоследовательностей. По информации от Google, это позволяет вдвое сократить время отклика, делая приложения, работающие в режиме реального времени, такие как голосовые ассистенты или системы анализа видео, значительно более быстрыми и удобными в использовании на мобильных устройствах.
Для обработки речевых данных в Gemma 3n интегрирован аудиокодер, созданный на основе универсальной модели речи Google. Это обеспечивает выполнение таких задач, как транскрибация речи в текст и языковой перевод, непосредственно на телефоне. Предварительные испытания показали особенно хорошие результаты при переводе с английского языка на европейские языки, такие как испанский, французский, итальянский и португальский.
Визуальная составляющая Gemma 3n базируется на MobileNet-V5, новом облегчённом кодировщике изображений от Google. Эта система способна обрабатывать видеопотоки со скоростью до 60 кадров в секунду на таких устройствах, как Google Pixel, обеспечивая плавный анализ видео в режиме реального времени. Несмотря на меньший размер и более высокую скорость работы, она превосходит предыдущие модели по скорости и точности.
Разработчики могут получить доступ к Gemma 3n с помощью популярных инструментов, включая Hugging Face Transformers, Ollama, MLX, llama.cpp и другие. Google также объявил о проведении конкурса «Gemma 3n Impact Challenge», в рамках которого разработчики могут создавать инновационные приложения, используя автономные возможности модели. Победители получат денежный приз в размере 150 000 долларов.
Важно отметить, что модель способна функционировать полностью автономно, то есть без подключения к интернету. Это открывает новые возможности для разработки ИИ-приложений в удалённых регионах или в ситуациях, где требуется повышенная конфиденциальность и использование облачных моделей неприемлемо. Благодаря поддержке более 140 языков и способности понимать контент на 35 языках, Gemma 3n устанавливает новые стандарты для эффективного и доступного искусственного интеллекта на устройствах.