Когда OpenAI делает объявление, это часто сбивает нас с толку.
Многие обозреватели признают, что по историческим меркам релиз новой модели ИИ был относительно скромным по сравнению, скажем, с прошлогодним запуском GPT-4.

Тем не менее, некоторые новые функции по-настоящему интересны. Что еще более важно, они многое рассказывают нам о стратегии и дорожной карте продукта OpenAI: выбить носки из рядового потребителя бесплатно.

На неделе компания анонсировала три новинки:

GPT-4o, большая языковая модель, которая может обрабатывать видео, аудио и текст одновременно.
Настольное приложение (сначала появится на Mac —странно, что без Microsoft)
Доступ API к GPT-4o, который в два раза быстрее, на 50 процентов дешевле, чем его предыдущая версия.

Что все это значит со стратегической, технической и потребительской точки зрения. И что это значит для бизнеса.

Стратегия OpenAI в области продуктов для потребителей

Можно сказать одним предложением: OpenAI выпустила модель, которая лучше, быстрее и дешевле.

GPT-4o не является огромным шагом вперед с точки зрения интеллекта — возможно, он он немного выше GPT-4 Turbo по таким возможностям, как знание, рассуждение и понимание — но это самая удобная модель, которую компания когда-либо выпускала и это доступно каждому бесплатно ( с определенными ограничениями).

OpenAI уже является мировым доминирующим чат-ботом, и эти функции направлены на поддержание его позиций. Он придерживается классической схемы Кремниевой долины:

Выпустить замечательную технологию
Собрать много денег, чтобы сделать эту технологию как можно дешевле
Добиться как можно большего распространения и как можно быстрее.
В долгосрочной перспективе OpenAI хочет, чтобы ChatGPT продолжал оставаться синонимом этого поколения продуктов искусственного интеллекта, одновременно расширяя границы возможностей этой технологии.

Благодаря этой стратегии OpenAI не обязательно расширять технические границы с каждым выпуском. GPT-4 уже достаточно интеллектуален для большинства повседневных потребительских задач, но раньше он стоил 20 долларов в месяц.
Для большинства пользователей ИИ, которые ранее использовали бесплатную версию ChatGPT 3.5, переход на GPT-4o станет большим обновлением.

Это скачок в интеллекте, сравнимый с тем, который большинство энтузиастов искусственного интеллекта испытали год назад с GPT-4. Это будет иметь огромное значение.

Чем GPT-4o интересен с технической точки зрения

Объединение видео, аудио и текста в одну «омнимодель» — или то, что обычно называют «мультимодальной» моделью — является удивительно мощным инструментом. Чтобы понять почему, давайте сначала поговорим о том, как раньше работали голосовые промпты.

До сих пор, когда вы разговаривали с ChatGPT, он записывал вас и расшифровывал звук с помощью модели преобразования речи в текст под названием Whisper. Затем он отправлял транскрипцию в GPT-4, получал ответ и читал ответ вслух с помощью модели преобразования текста в речь. Это как минимум четыре шага! Так что это было медленно.

Например, если вы захотите прервать модель, пока она говорит, или спросить, какая песня играет на заднем плане, это не сработает. Почему? Модель преобразования речи в текст Whisper отделена от GPT-4 и недостаточно интеллектуальна, чтобы понимать, что от нее требуется. В случае прерывания сначала придется перевести ваш голос в текст, что занимает много времени, поэтому прерывания будут случайными.

Теперь, благодаря GPT-4o, голос обрабатывается изначально без необходимости предварительного преобразования в текст.

Это одноэтапный процесс. Так что теперь он может естественным образом обрабатывать прерывания, обрабатывать песни или делать множество других вещей. Если вы захотите, он может говорить быстрее или даже петь вам.

У других модальностей есть множество других тонких преимуществ. Например, в предыдущих моделях было невозможно последовательно генерировать один и тот же визуальный персонаж (например, изображение персонажа с определенным внешним видом) на разных изображениях ИИ. Также было сложно заставить ИИ выводить изображения с разборчивым текстом. Теперь, если вы попросили его создать здание с вывеской над ним «Кафе», он может грамотно написать «Кафе», поскольку генерация изображений и интеллект используются в одной модели.

Видео также добавляет новый уровень интерактивности.

GPT-4o может рассказать вам о том, что он видит через камеру вашего телефона. Если вы хотите, чтобы гид объяснил вам достопримечательности нового города, GPT-4o может увидеть то, что вы видите, и рассказать вам об этом. Возможности для использования бесконечны. И, что немаловажно, это очень быстро.

Важность настольного приложения OpenAI

Я провожу много времени на своем компьютере, переключаясь между ChatGPT, другими открытыми вкладками и различными настольными приложениями. Но теперь у ChatGPT есть настольное приложение.

Вы можете поделиться с ним экраном, чтобы он мог видеть все на вашем компьютере.

Вы также можете легко вызвать его в любое время, когда используете компьютер, нажав команду горячей клавиши. Мой рабочий процесс будет значительно упрощен.

И хотя это шаг вперед в плане удобства, нынешнее состояние настольного приложения менее интересно, чем его будущее. OpenAI вышел из изолированной среды вкладок браузера. Теперь он попал на ваш компьютер.

Это критично по трем причинам:

Он имеет доступ к значительно большему количеству данных. Частные данные делают ИИ намного умнее. ChatGPT может получить доступ к вашим файлам в дополнение ко всему, что открыто в вашем браузере: чем больше контекста вы можете дать ему о задаче, которую он должен выполнить, тем лучше он должен работать.
Он приобретает способность быть проактивным, а не реактивным. Возможно, вам не придется так много думать о том, когда использовать ChatGPT, если он может использовать контекст, чтобы знать, когда всплывать и быть полезным.
Он получает возможность управлять вашим компьютером за вас. OpenAI еще ничего не сказал, но теоретически он может выполнять за вас обычные задачи рабочего процесса на вашем компьютере, такие как проведение поиска, покупка продуктов или разборка вашей электронной почты. Этот шаг явно предназначен для того, чтобы сделать будущих агентов ИИ гораздо мощнее.

Десктопное приложение является стратегическим шагом еще и по другой причине: Google и Apple почти гарантированно интегрируют ИИ в свои браузеры и операционные системы. Это мощная угроза для OpenAI.

Но настольное приложение может помочь OpenAI защититься от этой уязвимости: даже если вы не часто открываете браузер, вы можете просто использовать команду горячей клавиши для доступа к ChatGPT.

Корпоративные контракты

Возможно, самая интригующая часть анонса новой модели взята не из маркетинговых материалов OpenAI, а из блога Сэма Альтмана :

« Теперь похоже, что мы создадим ИИ, а затем другие люди будут использовать его для создания всевозможных удивительных вещей, от которых мы все выиграем. Мы — бизнес, и мы найдем множество вещей, за которые можно взимать плату, и это поможет нам предоставить бесплатные, выдающиеся услуги искусственного интеллекта миллиардам людей».

OpenAI уже уникален среди стартапов LLM не только потому, что у него лучшая модель, но и потому, что он делает что-то еще более редкое — зарабатывает деньги. В декабре 2023 года компания достигла годового дохода2 миллиарда долларов (умножив выручку за последний месяц на 12). Комментарии Альтмана указывают на то, что OpenAI планирует зарабатывать деньги, делая ставку на корпоративные подписки ChatGPT и платный доступ через API к базовым моделям — и использовать бесплатный GPT-4o как лучшую в мире воронку продаж, чтобы позволить всем остальным подсесть на этот сервис.

Уровень бесплатного пользования имеет смысл для бизнеса. Хотя ChatGPT — это мощный инструмент общего назначения, он еще не обладает достаточным контекстом или специфичностью для большинства рабочих процессов.
Вот почему можно с оптимизмом смотреть на будущее таких приложений как редактирование с помощью искусственного интеллекта Lex . Или вот почему самая убедительная демонстрация OpenAI была не от OpenAI, а от стороннего приложения для слепых Be me eyes , которое использовало функцию видео.
Вы познакомитесь с генеративным искусственным интеллектом от ChatGPT и начнете пользоваться им через многочисленные приложения, когда вам понадобиться..

Многие ИИ-стартапы являются производным от ChatGPT, но ChatGPT не может делать все то, что могут его производные.

Разработчики софта смогут воспользоваться техническими преимуществами GPT4o и применить их к проблемам, требующим контекста, выходящего за рамки ChatGPT. В этом отношении для многих стартапов наиболее важной новостью вполне может стать то, что API стал в два раза быстрее, на 50 процентов дешевле.

ChatGPT как метаслой поверх всех ваших приложений.

Если присмотреться, то можно увидеть, как все эти части соединяются воедино.

Расширенное контекстное окно и память позволят ChatGPT понять вас и ваши рабочие процессы.
Настольное приложение станет метаслоем поверх всех ваших приложений.
Генерация изображения, звука и текста будет точной и высокоинтеллектуальной, управляемой всем этим контекстом.

ChatGPT значительно приблизился к тому, чтобы стать метауровнем, собирающим ценность поверх всех существующих технологий.

Во многом реализация этого видения зависит от того, сможет ли GPT-5 обеспечить значительный шаг вперед в области интеллекта — и быстро, чтобы конкуренты, такие как Apple или Google, не успели сделать это первыми.

Все, что мы можем сделать, это подождать и посмотреть, кто будет в выигрыше.

Александр Соловьев

ChatGPT-4o: в погоне за юзерами

Стратегия OpenAI в области продуктов для потребителей

Чем GPT-4o интересен с технической точки зрения

Корпоративные контракты

ChatGPT как метаслой поверх всех ваших приложений.

ChatGPT-4o: в погоне за юзерами

Стратегия OpenAI в области продуктов для потребителей

Чем GPT-4o интересен с технической точки зрения

Корпоративные контракты

ChatGPT как метаслой поверх всех ваших приложений.

Поделиться ссылкой: