Расширение результатов LLM: роль AgentWrite и набор данных LongWriter-6k

Itinai.com two developers coding side by side in a minimalist 9e46852c 56ad 43df b8ce 5a8451c13b63 2

«`html

Увеличение выходной ёмкости моделей языкового моделирования: роль AgentWrite и набор данных LongWriter-6k

Долгие контекстные языковые модели (LLM) требуют достаточного окна контекста для выполнения сложных задач, аналогично рабочей памяти человека. Исследования сосредотачиваются на расширении длины контекста, что позволяет лучше обрабатывать более длинный контент. Методы нулевой настройки и тонкая настройка увеличивают объём памяти. Несмотря на прогресс в обработке ввода (до 100 000 слов), существующие LLM имеют ограничение в 2 000 слов на вывод, что указывает на пробел в возможностях. Обучение выравнивания помогает LLM приоритизировать инструкции и соблюдать ограничения по длине.

Расширение возможностей

Методы нулевой настройки и тонкая настройка увеличивают объём памяти. Несмотря на прогресс в обработке ввода (до 100 000 слов), существующие LLM имеют ограничение в 2 000 слов на вывод, что указывает на пробел в возможностях. Обучение выравнивания помогает LLM приоритизировать инструкции и соблюдать ограничения по длине.

Решение

Для решения этой проблемы был создан агентный пайплайн AgentWrite, который разбивает задачи ультрадлинного поколения на подзадачи, позволяя использовать стандартные LLM для создания согласованных выводов объемом более 20 000 слов. Авторы разработали набор данных LongWriter-6k с 6 000 точками данных для надзорной тонкой настройки с длиной вывода от 2 000 до 32 000 слов. Их модель с 9 миллиардами параметров, улучшенная через DPO, достигла лучших показателей на новом бенчмарке для возможностей ультрадлинного поколения, показывая потенциал существующих LLM при соответствующих тренировочных данных.

Практическое применение

AgentWrite успешно увеличил выходную ёмкость модели GPT-4o с 2 000 до примерно 20 000 слов, демонстрируя эффективность в обработке задач ультрадлинного поколения. Оценка с использованием бенчмарка LongBench-Write показала повышение общих оценок качества для модели, обученной с набором данных LongWriter-6k, особенно в задачах с выводом от 2 000 до 4 000 слов. Самое значительное улучшение наблюдалось в измерении «Объём и глубина», с 18% абсолютным улучшением по сравнению с базовой моделью.

Заключение

Эта статья решает существенное ограничение в текущих LLM путём предложения фреймворка AgentWrite для расширения объёма вывода свыше типичного ограничения в 2 000 слов. Модель LongWriter-6k, разработанная с использованием этой схемы, успешно создаёт качественные выводы объемом более 10 000 слов путём включения длинных данных вывода в процесс выравнивания. Обширные эксперименты и абляционные исследования демонстрируют эффективность данного подхода. Авторы предлагают направления для расширения фреймворка, улучшения качества данных и решения проблем эффективности вывода. Они подчеркивают, что у текущих LLM есть неиспользуемый потенциал для больших окон вывода, который можно разблокировать путем стратегической тренировки на длинных данных вывода. Это исследование является значительным прогрессом в области создания ультрадлинных текстов и предоставляет основу для дальнейших разработок в этой области.

Подробности о работе и доступ к репозиторию на GitHub доступны по ссылке. Вся заслуга за это исследование принадлежит исследователям проекта.

Не забудьте следить за нами в Twitter и присоединиться к нашим Telegram-каналу и группе в LinkedIn. Если вам понравилась наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу в Reddit и следить за предстоящими вебинарами по искусственному интеллекту.

Arcee AI представляет Arcee Swarm: новаторское сочетание агентов, вдохновленное кооперативным интеллектом, обнаруженным в самой природе.

Оригинальная статья: Scaling LLM Outputs: The Role of AgentWrite and the LongWriter-6k Dataset

Источник: MarkTechPost

«`

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Сотрудничество

Бесплатный ИИ текст генератор

Спросить ИИ чат

Заказать разработку

17.08.2024

Владимир Дьячков PhD

Лучшие ИИ

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ

31.05.2024

Лучшие ИИ

Microsoft представляет Pytorch-Wildlife: открытую платформу глубокого обучения на основе PyTorch.

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
27.03.2024

Лучшие ИИ

Исследователи из Стэнфордского университета обнаружили системные предубеждения в языковых моделях искусственного интеллекта.

AI tools, AI Новости, Innovation, LLM, ИИ
06.05.2025

Готовые ИТ решения

Платформа для анализа данных о продажах с Power BI и ИИ-прогнозом спроса

Сколько стоит платформа для анализа продаж с Power BI и ИИ-прогнозом: разрабатывать с нуля или взять готовое решение от itinai.ru? В современном бизнесе, где скорость реакции на изменения…
21.05.2025

Бесплатный ИИ

Как обработать отказ клиента без потери отношения: искусственный интеллект предложит текст “мягкого завершения”

Как работает чатбот «Мягкое завершение» Этот инструмент создан для менеджеров по работе с клиентами, которые хотят сохранить лояльность даже при отказе. Просто введите причину отказа в чат —…

Менеджер по работе с клиентами
11.04.2025

Лучшие ИИ

Новая методика сжатия LLM: доступность и экономия для бизнеса

Новые Возможности для Бизнеса с Использованием LLM Исследователи из MIT, KAUST, ISTA и Яндекса разработали новый подход к быстрому сжатию больших языковых моделей (LLM) без значительной потери качества…
22.11.2024

Лучшие ИИ

Jina AI представила Jina-CLIP v2: многоязычная модель, связывающая изображения и текст на 89 языках

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
31.03.2025

КП

Интеграция AI для роста и эффективности Mamontov.top

Уникальное предложение для Mamontov.top: интеграция AI для роста и эффективности Уважаемые коллеги из Mamontov.top! Мы рады представить вам уникальное коммерческое предложение, разработанное специально для вашего агентства. С учетом…
11.05.2024

Лучшие ИИ

Отчет о новых стратегиях борьбы с галлюцинациями в многомодальных крупных языковых моделях

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ

Расширение результатов LLM: роль AgentWrite и набор данных LongWriter-6k

Увеличение выходной ёмкости моделей языкового моделирования: роль AgentWrite и набор данных LongWriter-6k

Расширение возможностей

Решение

Практическое применение

Заключение

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

Монетизация блога по саморазвитию через AI

AI для начинающего психолога без сайта

Монетизация для фитнес тренера с помощью искусственного интеллекта

Как эксперт по маркетингу может начать с AI

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Специалист по кибербезопасности : анализ фишинговых атак и уязвимостей

ИИ-Оптимизатор складских запасов : прогнозирование потребностей и минимизация издержек

ИИ-Агент для анализа данных о транспорте : оптимизация графиков и маршрутов

ИИ-Консультант по персонализации CRM : сегментация и рекомендации

Как построить SEO-ядро для блога: ИИ подберет 30 ключевых слов по поисковым запросам ЦА

Как удержать клиента на стадии размышлений: искусственный интеллект предложит email-сценарии с усилением оффера

Как организовать сбор дефектов в формате RCA: ИИ предложит шаблон анализа корневых причин

Как рассчитать точку безубыточности: ИИ проведет расчет BEP и покажет чувствительность к цене

Как сократить длительность звонка и уложиться в KPI: искусственный интеллект предложит структуру без лишнего

Как закрывать тикеты быстрее: искусственный интеллект предложит шаблон ответа под частые вопросы

Лучший ИИ онлайн

Microsoft представляет Pytorch-Wildlife: открытую платформу глубокого обучения на основе PyTorch.

Исследователи из Стэнфордского университета обнаружили системные предубеждения в языковых моделях искусственного интеллекта.

Платформа для анализа данных о продажах с Power BI и ИИ-прогнозом спроса

Как обработать отказ клиента без потери отношения: искусственный интеллект предложит текст “мягкого завершения”

Новая методика сжатия LLM: доступность и экономия для бизнеса

Jina AI представила Jina-CLIP v2: многоязычная модель, связывающая изображения и текст на 89 языках

Интеграция AI для роста и эффективности Mamontov.top

Отчет о новых стратегиях борьбы с галлюцинациями в многомодальных крупных языковых моделях

Политика комментариев

Доступность

Карта сайта

Партнеры

О нас

Контакты