✅ Сотрудники лаборатории искусственного интеллекта Tencent представляют Persona-Hub: базу из миллиарда разнообразных персон для создания синтетических данных.

«`html

Создание синтетических данных для обучения больших языковых моделей

Создание синтетических данных стало ключевым элементом обучения больших языковых моделей (LLM). Это направление сосредотачивается на создании искусственных наборов данных, имитирующих реальные данные, что позволяет исследователям эффективно обучать и оценивать модели машинного обучения без ущерба для конфиденциальности или необходимости обширного сбора данных. Методология создания синтетических данных направлена на предоставление разнообразных и масштабируемых наборов данных для улучшения устойчивости и производительности LLM в различных приложениях.

Основные вызовы в создании синтетических данных

Основной вызов в создании синтетических данных заключается в создании разнообразных данных в масштабе. Традиционные методы часто сталкиваются с проблемой поддержания как разнообразия, так и масштабируемости. Подходы, основанные на экземплярах, ограничены разнообразием исходного набора данных. Методы, основанные на ключевых точках, пытаются разнообразить синтетические данные, используя отобранный список ключевых точек, но этот процесс сложно масштабировать на различные области из-за необходимости исчерпывающего отбора. В результате эти методы часто не могут создавать наборы данных, охватывающие широкий спектр сценариев и применений.

Методы создания синтетических данных

Текущие методы создания синтетических данных обычно включают подходы, основанные на экземплярах и ключевых точках. Методы, основанные на экземплярах, используют исходный корпус для создания новых экземпляров, но их разнообразие ограничено начальным корпусом. Методы, основанные на ключевых точках, полагаются на обширный список ключевых точек, что затрудняет их полный отбор и ограничивает применение только к определенным областям. Эти методы, хотя и полезны, часто не могут обеспечить достаточно разнообразные и масштабируемые синтетические наборы данных, необходимые для продвинутого обучения и применения LLM.

Persona Hub: новаторская методология синтеза данных

Исследователи из Tencent AI Lab представили Persona Hub, новаторскую методологию синтеза данных на основе персон. Этот подход использует коллекцию из одного миллиарда разнообразных персон, автоматически собранных из веб-данных, для генерации синтетических данных. Persona Hub позволяет LLM создавать данные с различных точек зрения, улучшая разнообразие и масштабируемость. Ассоциируя синтетические данные с конкретными персонами, данная методология может направлять LLM к созданию разнообразных и контекстно насыщенных наборов данных, преодолевая ограничения предыдущих методов.

Persona Hub включает в себя один миллиард персон, представляющих 13% населения мира, каждая из которых ассоциирована с уникальными знаниями, опытом, интересами и профессиями. Эта коллекция позволяет генерировать синтетические данные для различных сценариев, направляя LLM с использованием конкретных персон. Персоны выступают в качестве распределенных носителей мировых знаний, направляя LLM на создание разнообразных и контекстно насыщенных синтетических данных. Исследователи разработали масштабируемые подходы к выводу этих персон из обширных веб-данных, используя методы текст-к-персоне и персона-к-персоне. Подход текст-к-персоне выводит персоны из конкретных текстов, в то время как подход персона-к-персоне расширяет разнообразие персон через межличностные отношения.

Персона-ориентированный подход показал впечатляющие количественные результаты. Исследователи создали 50 000 математических задач, 50 000 задач на логическое мышление, 50 000 инструкций, 10 000 текстов с обширными знаниями, 10 000 игровых NPC и 5 000 инструментов. В рамках оценки модель, настроенная на 1,07 миллиона синтетических математических задач, достигла точности 79,4% на тестовом наборе из 11 600 экземпляров, превзойдя все протестированные открытые LLM. На тесте MATH модель достигла точности 64,9%, сравнимой с производительностью gpt-4-turbo-preview, демонстрируя значительные улучшения возможностей LLM благодаря персона-ориентированному синтезу данных.

Исследователи подчеркнули значительные улучшения производительности LLM и глубокое влияние персона-ориентированного синтеза данных на обучение и развитие LLM. Благодаря использованию 1 миллиарда персон в Persona Hub, исследователи смогли создать разнообразные синтетические наборы данных, значительно улучшающие возможности LLM. Эта методология оказалась эффективной в различных сценариях синтеза данных, демонстрируя свой потенциал стать стандартной практикой в создании синтетических данных.

Перспективы применения методологии

Методология персона-ориентированного синтеза данных исследователей из Tencent AI Lab решает ограничения традиционных методов путем внедрения масштабируемого и разнообразного подхода. Обширная коллекция персон в Persona Hub облегчает создание богатых и разнообразных синтетических данных, продвигая область обучения и применения LLM. Этот инновационный метод обещает улучшить возможности LLM и расширить их применимость в реальном мире. Предоставляя надежное решение для вызовов создания синтетических данных, данное исследование имеет потенциал для значительных достижений в области искусственного интеллекта и машинного обучения.

Подробнее о статье и проекте вы можете узнать на нашем сайте. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе LinkedIn.

Если вам понравилась наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу 45 тыс. подписчиков на ML SubReddit.

«`

Сотрудники лаборатории искусственного интеллекта Tencent представляют Persona-Hub: базу из миллиарда разнообразных персон для создания синтетических данных.

Создание синтетических данных для обучения больших языковых моделей

Основные вызовы в создании синтетических данных

Методы создания синтетических данных

Persona Hub: новаторская методология синтеза данных

Перспективы применения методологии

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

Как вести Telegram-канал с юмором и зарабатывать

Как зарабатывать на блоге в Instagram про стиль жизни

AI-помощник для дизайнера-фрилансера

Как блогеру о психологии начать зарабатывать

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Аналитик для страховых компаний : автоматизация оценки рисков

ИИ-Агент для анализа данных о транспорте : оптимизация графиков и маршрутов

ИИ-Специалист по кибербезопасности : анализ фишинговых атак и уязвимостей

ИИ-Агент по анализу отзывов : мониторинг мнений в соцсетях и на маркетплейсах

Как HR составить KPI для офисной должности: искусственный интеллект предложит набор метрик и формулировок

Как не упустить клиента после демо: искусственный интеллект составит follow-up письмо с вопросом и призывом

Как ответить клиенту на негатив в мессенджере: искусственный интеллект подскажет 5 фраз для деэскалации

Как отследить сроки хранения документов: ИИ предложит таблицу с типами и нормативами

Как провести интервью с пользователями для сбора требований: ИИ предложит 10 ключевых вопросов

Как построить модель DCF за 15 минут: ИИ предложит структуру и расчетные формулы по шагам

Лучший ИИ онлайн

Лучшее руководство по AI-агентам: архитектуры, фреймворки и реальные приложения для бизнеса

Многофункциональная платформа FunAudioLLM для естественного, многоязычного и эмоционального голосового взаимодействия

Инновационный стартап Reducto: создание моделей обработки изображений для преобразования сложных документов в данные для LLM

Как оформить карту бизнес-процессов компании: ИИ сгенерирует список процессов по функциям

Новая работа из Китая о TinyChart: эффективные мультимодальные модели для понимания графиков с всего 3 миллиардами параметров

CoSyn: Инновационная система генерации синтетических данных для обработки текстово-насыщенного визуального контента

Запуск Devstral 2507: Новые возможности AI для разработки программного обеспечения

Новый поисковый движок OpenPerPlex: открытый искусственный интеллект, использующий передовые технологии для поиска в интернете

Новости

Отказ от ответственности

FAQ

Реклама

Контакты

Авторские права