OpenAI запускает BrowseComp: новый стандарт для оценки способности ИИ к веб-серфингу

OpenAI открывает BrowseComp: новый стандарт для оценки способности ИИ-агентов к интернет-серфингу

Несмотря на успехи больших языковых моделей (LLMs), ИИ-агенты всё ещё сталкиваются с серьёзными ограничениями в поиске сложной информации в открытом интернете. Хотя многие модели показывают отличные результаты на статичных тестах знаний, они часто недобирают при выполнении задач по нахождению тонких, контекстуально зависимых фактов из различных источников.

Что такое BrowseComp?

OpenAI выпустила BrowseComp — стандарт, созданный для оценки способности ИИ-агентов постоянно искать информацию в интернете. Этот стандарт включает 1,266 задач на поиск фактов, каждая из которых имеет короткий и однозначный ответ. Для решения этих задач необходим навык работы с несколькими веб-страницами и фильтрация актуальной информации из шумов.

Методология создания BrowseComp

BrowseComp разработан с использованием методики обратного проектирования вопросов: начинается с конкретного, проверяемого факта и затем создаётся вопрос, который усложняет получение ответа. Такие вопросы не могут быть решены простым поиском, что ставит вызов как для извлечения информации, так и для логического рассуждения.

Оценка моделей и результаты

OpenAI проанализировала несколько моделей на платформе BrowseComp, включая GPT-4o и Deep Research. Результаты показали, что модели без продвинутых стратегий поиска и рассуждений продемонстрировали низкую эффективность. В то же время, Deep Research достиг 51.5% точности благодаря своей архитектуре и методам обучения.

Человеческая производительность и сложность задач

Человеческие тренеры пытались решить задачи без помощи ИИ. Около 71% из 1,255 задач были признаны неразрешимыми в отведённое время, что подчеркивает сложность стандарта и выводит на первый план недостатки существующих ИИ-моделей.

Выводы

BrowseComp представляет собой сложный тест для оценки ключевых способностей ИИ-агентов по интернет-серфингу. Он демонстрирует, что, несмотря на неравномерную работу текущих моделей, существует потенциал для улучшения за счёт специализированных архитектур, способных справляться с подобными задачами.

Практические решения для бизнеса

Изучите, как технологии искусственного интеллекта могут изменить ваш подход к работе. Определите процессы, которые можно автоматизировать, и моменты в взаимодействии с клиентами, где ИИ может принести наибольшую ценность.

Определите важные KPI

Убедитесь, что ваши инвестиции в ИИ оказывают положительное влияние на бизнес, устанавливая ключевые показатели эффективности (KPI).

Выбор инструмента

Подберите инструменты, соответствующие вашим потребностям, и настройте их под ваши цели. Начните с небольшого проекта, собирайте данные о его эффективности и постепенно расширяйте использование ИИ в своих процессах.

Контакт и поддержка

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы оставаться в курсе последних новостей ИИ, подписывайтесь на наш Telegram здесь.

Пример ИИ-решения

Ознакомьтесь с практическим примером решения на основе ИИ: бот для продаж от itinai.ru, разработанный для автоматизации разговоров с клиентами и управления взаимодействиями на всех этапах пути клиента.

Новости в сфере искусственного интеллекта