Активное развитие искусственного интеллекта в Google не замедлилось в 2026 году. Компания уже объявила о партнёрстве с Apple, представила новые инструменты и протоколы для онлайн-покупок, внедрила функцию Personal Intelligence в Gemini и добавила чат-бота на сайт Google Trends. Теперь Google сместила фокус в сторону открытого сообщества, выпустив модели TranslateGemma. Эти многоязычные ИИ-модели предназначены для поддержки перевода между большим числом языков как для текстовых, так и для визуальных входных данных (изображения — только на вход).
В публикации в блоге компания из Маунтин-Вью представила три различных варианта моделей TranslateGemma. Модели доступны для загрузки на странице Google в Hugging Face и на сайте Kaggle. Кроме того, разработчики и корпоративные пользователи могут получить доступ к ним через Vertex AI — облачный центр ИИ-решений компании. Все версии распространяются по разрешительной лицензии, допускающей как академическое, так и коммерческое использование.
TranslateGemma доступна в размерах 4B, 12B и 27B (где 4B означает четыре миллиарда параметров). Самая компактная модель оптимизирована для мобильных устройств и edge-развёртываний, версия 12B предназначена для потребительских ноутбуков, а крупнейшая модель 27B обеспечивает максимальную точность и может запускаться локально на одном GPU Nvidia H100 или TPU.
Обучение и производительность

Модели построены на базе Gemma 3. Исследователи использовали контролируемую донастройку (Supervised Fine-Tuning, SFT) с разнообразным набором данных. По заявлению компании, это позволило добиться широкого языкового охвата, включая языки с ограниченными ресурсами (с дефицитом данных). Дополнительно модели были улучшены с помощью обучения с подкреплением (Reinforcement Learning, RL), что повысило качество перевода.
Google утверждает, что модель TranslateGemma 12B превосходит Gemma 3 27B в бенчмарке World Machine Translation 2024 (WMT24++). По словам компании, такая производительность позволяет разработчикам достигать сопоставимого качества при использовании менее чем половины параметров базовой модели.
Поддержка языков и работа с изображениями

Последние модели, ориентированные на перевод, были обучены и протестированы на 55 языковых парах, включая испанский, французский, китайский, хинди и другие. Компания также заявила, что дополнительно обучила модели почти на 500 языковых парах.
Помимо прямого перевода текста, модели принимают изображения в качестве входных данных и могут распознавать и переводить текст, содержащийся на изображениях.
