
Конференция Google для разработчиков прошла с лавиной анонсов новых ИИ.
Благодаря обновлениям модели Gemini, новой модели генерации видео, агентам искусственного интеллекта и многому другому, технологический гигант просто вывел все на совершенно новый уровень.
Обновления модели Gemini:
- Новые обновления версии 1.5 Pro включают значительное расширение контекстного окна на 2 М и повышенную производительность в коде, логике и понимании изображений.
- Gemini 1.5 Pro также может использовать длинный контекст для анализа различных типов мультимедиа, включая документы, видео, аудио и кодовые базы.
- Google анонсировала Gemini 1.5 Flash , новую модель, оптимизированную по скорости и эффективности с контекстным окном из 1 млн токенов.
- Подписчики Gemini Advanced вскоре смогут создавать собственные персоны под названием «Gems» из простого текстового описания, аналогично GPT ChatGPT.
Обновления моделей видео и изображений:
- Google представил новую видеомодель под названием Veo , способную генерировать более 60-секундные видеоролики с разрешением 1080p из текста, изображений и видеоподсказок.
- Также была представлена новая модель преобразования текста в изображение Imagen 3 , обеспечивающая лучшую детализацию, генерацию текста и понимание естественного языка, чем ее предшественница.
- Инструмент преобразования текста в видео VideoFX, обеспечивающий поэтапное создание раскадровки и возможность добавления музыки к генерации.
Теперь сейчас Sora официально конкурирует с впечатляющей демо-версией Veo, но какая из них появится в публичном доступе первой?
Прогресс в работе с ИИ-агентами:
- Google анонсировала Project Astra , прототип ИИ-агента, работающего в режиме реального времени, который может видеть, слышать и предпринимать действия от имени пользователя.
- В демо-версии был продемонстрирован голосовой помощник, реагирующий на то, что он видит и слышит, включая код, изображения и видео, — способный к расширенным рассуждениям и запоминанию.
- Публичный доступ к Astra ожидается через приложение Gemini позднее в этом году.
- Google также продемонстрировал «товарищей по команде ИИ», агентов, которые могут отвечать на вопросы по электронной почте, встречам и другим данным в Workspace.
- Сервис общения Live также будет запущен в ближайшие месяцы, что позволит пользователям разговаривать и общаться с Gemini практически в реальном времени.
Обновление поиска:
- В Google Поиске теперь представлены расширенные обзоры ИИ , расширенные возможности планирования и результаты поиска, организованные ИИ. Это уже работает в России с американским VPN.
- Gemini сможет выполнять более сложное планирование, например планирование, ведение и обновление маршрутов поездок.
- Поиск также получит возможности «многоэтапного рассуждения» , что позволит Gemini разбивать вопросы и ускорять выдачу поисковых запросов.
- Теперь пользователи также могут задавать вопросы с помощью видео, что позволяет Поиску анализировать визуальный контент и предоставлять полезные обзоры ИИ.
Почему это важно: Началась новая битва голосовых помощников: OpenAI и Google продемонстрировали крутые новые возможности только за последние два дня.
Таким образом, несмотря на слухи о поисковом продукте OpenAI и ажиотаж вокруг таких платформ, как Perplexity, будет сложно свергнуть Google (короля поиска). Тем более, что они крутым образом интегрируют передовой искусственный интеллект во всю экосистему.