Всего 232 миллисекунды требуется новой модели GPT-4o, чтобы отреагировать на голосовой запрос пользователя, что сопоставимо со скоростью человеческой реакции в живом диалоге. Компания OpenAI презентовала флагманский алгоритм, который объединяет текст, зрение и аудио в единой нейросети, стирая границы между цифровым помощником и реальным собеседником.
Новая архитектура «omni» позволяет модели напрямую обрабатывать аудиосигнал, минуя стадию транскрибации в текст. Это сохранило эмоциональную окраску речи, позволило ИИ распознавать интонации и даже имитировать пение или шепот. В ходе демонстрации GPT-4o успешно справилась с ролью переводчика в реальном времени и помогла решить математическое уравнение, «увидев» его через камеру смартфона.Доступность для всех В отличие от предыдущих релизов, компания открыла доступ к возможностям GPT-4o пользователям бесплатной версии ChatGPT. Ограничения коснутся лишь количества сообщений, в то время как подписчики Plus сохранят преимущество в виде пятикратного лимита. OpenAI также выпустила десктопное приложение для macOS, которое интегрирует нейросеть в рабочее пространство. Сейчас модель постепенно развертывается на всех рынках, а обновленный голосовой режим станет доступен широкой публике в течение ближайшего месяца.





Комментарии (0)
Пока нет комментариев. Будьте первым!