Улучшение больших языковых моделей для кратких и точных ответов с помощью ограниченного цепного подсказывания мыслей

 Optimizing Large Language Models for Concise and Accurate Responses through Constrained Chain-of-Thought Prompting

“`html

Оптимизация больших языковых моделей для кратких и точных ответов с помощью ограниченного цепного мышления

LLM показали впечатляющие способности в решении сложных задач вопросно-ответного характера, поддерживаемые усовершенствованиями в архитектуре моделей и методах обучения. Техники, такие как цепное мышление (CoT) при подсказке, стали популярны для улучшения объяснения и точности ответов путем направления модели через промежуточные логические шаги. Однако цепное мышление при подсказке может привести к увеличению объема вывода, что увеличивает время генерации ответа из-за пошагового декодирования авторегрессивных трансформеров. Это создает вызовы в поддержании интерактивных бесед, подчеркивая необходимость метрик для оценки краткости вывода и стратегий для сокращения чрезмерно длинных логических цепочек.

Исследователи из Департамента превосходства в робототехнике и искусственном интеллекте в Scuola Superiore Sant’Anna и Mediavoice Srl проанализировали, как длина вывода влияет на время вывода LLM. Они предложили новые метрики для оценки краткости и правильности. Они представили усовершенствованную стратегию подсказки, ограниченное цепное мышление (CCoT), которая ограничивает длину вывода для улучшения точности и времени ответа. Эксперименты с LLaMA2-70b на наборе данных GSM8K показали, что ограничение логического вывода до 100 слов улучшило точность и сократило объем вывода. Исследование подчеркивает необходимость краткости в логическом мышлении LLM и выделяет различную эффективность CCoT в разных размерах моделей.

Недавние исследования по LLM сосредоточились на улучшении точности, часто приводя к более длинным и подробным ответам. Эти расширенные выводы могут вызывать галлюцинации, когда модель генерирует правдоподобную, но неверную информацию и чрезмерно длинные объяснения, затрудняющие ключевую информацию. Были разработаны различные техники подсказки, включая цепное мышление при подсказке, которое улучшает логическое мышление, но увеличивает время ответа. В исследовании предлагаются метрики для оценки как краткости, так и правильности, а также предлагается усовершенствованный подход CoT, CCoT, для контроля длины вывода при сохранении качества.

Время генерации вывода LLM зависит от таких факторов, как архитектура модели, предварительная обработка, декодирование и используемая подсказка. Обычно более длинные выводы увеличивают время ответа из-за итеративной природы авторегрессивных моделей. Тесты на различных моделях (Falcon-7b/40b, Llama2-7b/70b) показали, что с увеличением длины вывода увеличивается время генерации. Цепное мышление при подсказке, улучшающее правильность ответа, также увеличивает длину вывода и время генерации. Для решения этой проблемы предлагается подход CCoT, который ограничивает длину вывода при сохранении точности, что эффективно сокращает время генерации.

Эксперименты оценивают эффективность подхода CCoT по сравнению с классическим CoT, с акцентом на эффективность, точность и возможность контроля длины вывода. С использованием набора данных GSM8K были протестированы различные LLM (например, Llama2-70b, Falcon-40b). Результаты показывают, что CCoT сокращает время генерации и может улучшать или поддерживать точность. Исследование также представляет новые метрики (HCA, SCA, CCA) для оценки производительности модели, учитывая правильность и краткость. Большие модели, такие как Llama2-70b, больше выигрывают от CCoT, в то время как меньшие модели испытывают затруднения. CCoT демонстрирует улучшенную эффективность и краткую точность, особенно для больших LLM.

Исследование подчеркивает важность краткости в генерации текста LLM и представляет CCoT как технику подсказки для контроля длины вывода. Эксперименты показывают, что большие модели, такие как Llama2-70b и Falcon-40b, выигрывают от CCoT, но меньшие модели нуждаются в помощи для соблюдения ограничений по длине. Исследование также предлагает новые метрики для оценки баланса между краткостью и правильностью. Будущие исследования будут исследовать интеграцию этих метрик в настройку модели и изучать, как краткость влияет на явления, такие как галлюцинации или неверное логическое мышление в LLM.

Ознакомьтесь с статьей. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему подразделению по машинному обучению на Reddit.

Найдите предстоящие вебинары по ИИ здесь.

Arcee AI выпустила DistillKit: открытый и простой в использовании инструмент для дистилляции моделей для создания эффективных и высокопроизводительных маленьких языковых моделей

Это сообщение было опубликовано на MarkTechPost.

“`

Полезные ссылки: