Это обновление значительно расширяет функциональные возможности модели, позволяя создавать более точные и адаптированные приложения.
Что такое файнтюнинг?
Файнтюнинг — это процесс адаптации модели искусственного интеллекта под специфические задачи или требования с помощью специализированных данных. Ранее разработчики могли улучшать GPT-4o только с помощью текстовых наборов данных. Теперь же добавление изображений позволяет значительно повысить качество понимания визуальной информации моделью.
Как работает файнтюнинг с изображениями?
Процесс файнтюнинга с изображениями аналогичен настройке с текстом. Разработчики подготавливают набор изображений в требуемом формате и загружают его на платформу OpenAI. Для достижения заметного улучшения модели достаточно всего 100 изображений, однако при использовании большего объема данных можно добиться еще более высокой производительности. Модель GPT-4o способна эффективно обучаться на комбинированных наборах данных, включающих как текст, так и изображения.
Примеры применения
1. Улучшение навигации для автономных автомобилей
Компания Grab, ведущий игрок в сфере доставки еды и вызова такси в Юго-Восточной Азии, использует файнтюнинг GPT-4o для анализа уличных изображений, собираемых их водителями. С помощью всего 100 примеров они обучили модель правильно локализовать дорожные знаки и считать разделители полос. Это позволило повысить точность определения количества полос на 20% и точность локализации знаков ограничения скорости на 13%, что значительно улучшило автоматизацию картографирования.
2. Автоматизация бизнес-процессов
Компания Automat, специализирующаяся на автоматизации бизнес-процессов с помощью программных агентов, применила файнтюнинг GPT-4o с использованием набора скриншотов. Это позволило модели находить элементы интерфейса на экране по описанию на естественном языке, повысив успешность выполнения задач ботом с 16,60% до 61,67%. Также, обработка неструктурированных страховых документов с помощью модели улучшила точность извлечения информации на 7%.
3. Создание цифрового контента
Coframe разрабатывает ассистента для создания и тестирования вариаций веб-сайтов и пользовательских интерфейсов. С помощью файнтюнинга GPT-4o на основе изображений и кода, Coframe повысила способность модели генерировать новые разделы сайта, соответствующие стилю и макету существующего контента, на 26%.
Безопасность и конфиденциальность
OpenAI уделяет особое внимание безопасности и конфиденциальности данных. Все файнтюнинг-модели проходят автоматическую проверку на соответствие стандартам безопасности, а доступ к данным контролируется в соответствии с корпоративными политиками. Вся информация, используемая при настройке моделей, остается под полным контролем разработчиков, и OpenAI не использует эти данные без явного разрешения.
Доступность и ценообразование
Новая функция файнтюнинга доступна для всех разработчиков на платных тарифных планах. До 31 октября 2024 года предоставляется бесплатный пакет в 1 миллион обучающих токенов в день для файнтюнинга GPT-4o с изображениями. После этой даты стоимость настройки модели составляет 25 долларов за 1 миллион токенов, а стоимость использования — 3,75 доллара за 1 миллион входных токенов и 15 долларов за 1 миллион выходных токенов. Изображения сначала преобразуются в токены в зависимости от их размера, а затем тарифицируются по тем же ставкам, что и текстовые данные.
Чтобы начать работу, разработчикам нужно посетить панель управления файнтюнингом на платформе OpenAI, выбрать базовую модель GPT-4o-2024-08-06 и следовать инструкциям по загрузке данных. Подробные руководства доступны в официальной документации OpenAI.
Заключение
Введение возможности файнтюнинга GPT-4o с использованием изображений открывает новые перспективы для разработчиков и бизнеса. Улучшенные визуальные возможности модели позволяют создавать более точные и функциональные приложения, от повышения безопасности на дорогах до автоматизации сложных бизнес-процессов. OpenAI продолжает расширять границы искусственного интеллекта, предоставляя мощные инструменты для решения реальных задач.
Источник: OpenAI