Новая система Patronus AI для обнаружения галлюцинаций Lynx превосходит GPT-4o и другие современные модели AI.

 Patronus AI Introduces Lynx: A SOTA Hallucination Detection LLM that Outperforms GPT-4o and All State-of-the-Art LLMs on RAG Hallucination Tasks

“`html

Patronus AI представляет Lynx: передовую модель для обнаружения галлюцинаций

Patronus AI объявила о выпуске Lynx. Эта передовая модель обнаружения галлюцинаций обещает превзойти существующие решения, такие как GPT-4, Claude-3-Sonnet и другие модели, используемые в закрытых и открытых источниках. Lynx, представляющая собой значительный прорыв в области искусственного интеллекта, была представлена при поддержке ключевых интеграционных партнеров, включая Nvidia, MongoDB и Nomic.

Проблема галлюцинаций в больших языковых моделях

Галлюцинации в больших языковых моделях (LLM) означают генерацию информации, не подтвержденной или противоречащей предоставленному контексту. Это представляет серьезные риски в приложениях, где точность является ключевым фактором, таких как медицинская диагностика или финансовые консультации. Традиционные методы, такие как Retrieval Augmented Generation (RAG), направлены на смягчение этих галлюцинаций, но они не всегда успешны. Lynx решает эти недостатки с безупречной точностью.

Уникальные особенности Lynx

Одним из ключевых отличий Lynx является его производительность на HaluBench, комплексном бенчмарке для оценки галлюцинаций, состоящем из 15 000 образцов из различных областей реального мира. Lynx продемонстрировал высокую эффективность в обнаружении галлюцинаций в различных областях, включая медицину и финансы. Например, на датасете PubMedQA версия Lynx с 70 миллиардами параметров была на 8,3% точнее GPT-4 в идентификации медицинских неточностей. Такой уровень точности критичен для обеспечения надежности AI-решений в чувствительных областях.

Инновационные подходы и развитие Lynx

Разработка Lynx включала несколько инновационных подходов, включая Chain-of-Thought рассуждения, которые позволяют модели выполнять сложные задачи рассуждения. Этот подход значительно улучшил способности Lynx к обнаружению трудно обнаружимых галлюцинаций, делая ее выводы более объяснимыми и интерпретируемыми, подобно человеческому рассуждению. Эта функция особенно важна, поскольку позволяет пользователям понять процесс принятия решений моделью, увеличивая доверие к ее выводам.

Также Lynx была настроена на основе модели Llama-3-70B-Instruct, что обеспечивает уровень интерпретируемости, критически важный для реальных приложений. Интеграция модели с NeMo-Guardrails от Nvidia обеспечивает ее возможность развертывания в качестве детектора галлюцинаций в приложениях чат-ботов, повышая надежность взаимодействия с ИИ.

Доступность HaluBench и дальнейшее развитие

Patronus AI выпустила датасет HaluBench и код оценки для общественного доступа, что позволяет исследователям и разработчикам изучать и вносить свой вклад в эту область. Датасет доступен на Nomic Atlas, визуализационном инструменте, помогающем выявлять закономерности и идеи из крупномасштабных датасетов, что делает его ценным ресурсом для дальнейших исследований и разработок.

Заключение

В заключение, Patronus AI запустила Lynx для разработки ИИ-моделей, способных обнаруживать и смягчать галлюцинации. С ее выдающейся производительностью, инновационными способностями рассуждения и поддержкой ведущих технологических партнеров, Lynx готова стать угловым камнем в следующем поколении ИИ-приложений. Этот релиз подчеркивает приверженность Patronus AI к развитию технологий ИИ и их эффективному применению в критических областях.

Проверьте статью и блог. Вся заслуга за этот исследовательский проект принадлежит исследователям. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему Telegram-каналу и LinkedIn-группе.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу ML SubReddit с 46 тыс. подписчиков.

Оригинал статьи: MarkTechPost


“`

Полезные ссылки: