✅ Новый подход к обучению больших языковых моделей: векторы в контексте (ICV) от исследователей из Стэнфорда

«`html

Исследователи из Стэнфорда представляют In-Context Vectors (ICV): масштабный и эффективный подход к настройке крупных языковых моделей

Большие языковые модели (LLM) сыграли решающую роль в развитии искусственного интеллекта и обработки естественного языка, демонстрируя выдающиеся способности в понимании и генерации человеческого языка. Однако им необходимо улучшить эффективность и контроль в контекстном обучении. Традиционные методы контекстного обучения часто приводят к неравномерной производительности и значительной вычислительной нагрузке из-за необходимости обширных контекстов, что ограничивает их адаптивность и эффективность.

Существующие исследования включают:

Методы улучшения контекстного обучения за счёт улучшения выбора примеров.
Обратное обучение.
Шумоподавляющее подталкивание.
Использование метода K-ближайших соседей для присваивания меток.

Эти подходы сосредотачиваются на улучшении шаблонов, выборе примеров и адаптации моделей к различным задачам. Однако они часто сталкиваются с ограничениями по длине контекста, вычислительной эффективности и адаптивности к новым задачам, что подчеркивает необходимость более масштабных и эффективных решений.

Исследовательская группа из Стэнфордского университета представила инновационный подход под названием In-Context Vectors (ICV) как масштабную и эффективную альтернативу традиционному контекстному обучению. Этот метод использует управление латентным пространством путем создания вектора в контексте на основе примеров. ICV сдвигает латентные состояния LLM, обеспечивая более эффективную адаптацию к задачам без необходимости обширных контекстов.

Метод ICV включает два основных этапа. Во-первых, примеры обработываются для создания вектора в контексте, который захватывает основную информацию о задаче. Этот вектор затем используется для сдвига латентных состояний LLM в процессе обработки запросов, управляя процессом генерации и включая контекстную информацию о задаче. Этот метод значительно сокращает вычислительные затраты и улучшает контроль над процессом обучения. Формирование вектора в контексте включает получение латентных состояний каждой позиции токена для входной и целевой последовательностей. Эти латентные состояния затем объединяются для создания одного вектора, который содержит ключевую информацию о задаче. Во время вывода этот вектор добавляется к латентным состояниям модели на всех уровнях, гарантируя, что вывод модели соответствует задаче без необходимости исходных примеров.

Исследование показало, что ICV превосходит традиционное контекстное обучение и методы тонкой настройки на различных задачах, включая безопасность, перенос стиля, ролевые игры и форматирование. ICV достиг значительного снижения токсичности на 49,81% и более высокой семантической схожести в задачах детоксикации языка, демонстрируя его эффективность и эффективность в улучшении производительности LLM. Квалификационные оценки также показали существенное улучшение метрик производительности. Например, в задаче детоксикации языка с использованием модели Falcon-7b, ICV снизил токсичность до 34,77% по сравнению с 52,78% при тонкой настройке LoRA и 73,09% с использованием стандартного контекстного обучения. Оценка ROUGE-1 для схожести содержания также была выше, что указывает на лучшее сохранение исходного текста. Кроме того, ICV улучшил показатель формальности при переносе формальности до 48,30%, по сравнению с 32,96% с контекстным обучением и 21,99% с тонкой настройкой LoRA.

Дополнительный анализ показал, что эффективность ICV растет с увеличением числа примеров, поскольку она не ограничивается ограничениями длины контекста. Это позволяет включать больше примеров, дополнительно улучшая производительность. Также было показано, что метод наиболее эффективен, когда он применяется ко всем уровням модели Transformer, а не к отдельным уровням. Это подтверждено исследованием по отсечению конкретного уровня, подчеркивая всеобъемлющее воздействие ICV на обучение.

Метод ICV был применен к различным LLM в экспериментах, включая LLaMA-7B, LLaMA-13B, Falcon-7B и Vicuna-7B. Результаты последовательно показали, что ICV улучшает производительность на индивидуальных задачах и повышает способность модели обрабатывать одновременно несколько задач путем простых арифметических операций над векторами. Это демонстрирует универсальность и надежность подхода ICV в адаптации LLM к различным применениям.

В заключение, исследование подчеркивает потенциал In-Context Vectors в улучшении эффективности и контроля контекстного обучения в крупных языковых моделях. Путем сдвига латентных состояний с помощью краткого вектора ICV решает ограничения традиционных методов, предлагая практическое решение для адаптации LLM к различным задачам с уменьшенными вычислительными затратами и улучшенной производительностью. Этот инновационный подход от исследовательской группы Стэнфордского университета представляет собой значительный шаг в области обработки естественного языка, подчеркивая потенциал для более эффективного и эффективного использования крупных языковых моделей в различных областях применения.

Проверьте статью и репозиторий GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе LinkedIn.

Если вам понравилась наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему SubReddit ML с более чем 46 тысячами подписчиков.

The post Researchers at Stanford Introduces In-Context Vectors (ICV): A Scalable and Efficient AI Approach for Fine-Tuning Large Language Models appeared first=»on MarkTechPost.

«`

Новый подход к обучению больших языковых моделей: векторы в контексте (ICV) от исследователей из Стэнфорда

Исследователи из Стэнфорда представляют In-Context Vectors (ICV): масштабный и эффективный подход к настройке крупных языковых моделей

Существующие исследования включают:

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

Как вести Telegram-канал с юмором и зарабатывать

AI для риелторов — как увеличить заявки без менеджера

AI-бот в канале про финансы и инвестиции

AI в нише животных — бизнес для зоомагазина и блогера

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Агент для анализа данных о продажах : прогноз выручки и стратегий

ИИ-Специалист по автоматизации электронной коммерции : оптимизация карточек товаров

ИИ-Аналитик социальных сетей : генерация стратегий контента

ИИ-Консультант по закупкам : оптимизация выбора поставщиков

Как оформить возврат товара покупателем: искусственный интеллект подскажет, как избежать конфликта и оформить всё по правилам

Как рассчитать точку безубыточности: ИИ проведет расчет BEP и покажет чувствительность к цене

Как оформить паспорт корпоративной программы обучения: ИИ предложит разделы и формулировки

Как вести чек-лист открытия и закрытия смены: искусственный интеллект подскажет, что не забыть при открытии и закрытии магазина

Как организовать сбор дефектов в формате RCA: ИИ предложит шаблон анализа корневых причин

Как обработать отказ клиента без потери отношения: искусственный интеллект предложит текст “мягкого завершения”

Лучший ИИ онлайн

Открытое решение Perplexica для поисковых инструментов искусственного интеллекта.

Новая модель машинного обучения для улучшения диффузионных моделей: преимущества для клиник и врачей.

Искусственный интеллект Hamming: быстрый способ сделать ваши запросы, RAG и AI-агенты более надежными

Alibaba released a small MoE model, Qwen1.5-MoE-A2.7B, with only 2.7B activated parameters. Despite its size, it matches the performance of larger 7B models like Mistral 7B.

Hunyuan-T1: Революционный языковой модель от Tencent с улучшенным глубоким рассуждением и эффективностью обработки контекста

Знакомьтесь с AIArena: Децентрализованная платформа для обучения ИИ на блокчейне

ChunkRAG: AI-рамка для улучшения систем RAG путем оценки и фильтрации информации на уровне фрагментов

Лучшие браузеры для защиты от обнаружения в 2024 году

Отказ от ответственности

Новости

Партнеры

Редакционная политика

Подписка

FAQ