“`html
Большие языковые модели (LLM), обученные на огромных объемах данных, показали удивительные способности в генерации и понимании естественного языка.
Они могут быть применены в различных областях, но для специализированных доменов требуются модели, учитывающие специфическую лексику и контекст.
INDUS: набор специализированных LLM
INDUS – набор LLM, специализированных для научных областей, таких как науки о Земле, астрономия, физика, астрофизика, гелиофизика, планетные науки и биология. Он включает в себя несколько моделей, разработанных для различных потребностей:
- Модель-кодировщик: обучена на домен-специфической лексике для задач понимания естественного языка.
- Модель встраивания общего текста на основе контрастного обучения: использует разнообразные наборы данных для улучшения производительности в задачах информационного поиска.
- Уменьшенные версии моделей: созданы с использованием техник дистилляции знаний для применения в условиях ограниченных ресурсов.
Новые научные наборы данных
Команда также разработала три новых научных набора данных для продвижения исследований в междисциплинарных областях:
- CLIMATE-CHANGE NER: набор данных для распознавания сущностей, связанных с изменением климата.
- NASA-QA: набор данных, посвященный темам, связанным с NASA, используемый для извлечения ответов на вопросы.
- NASA-IR: набор данных для информационного поиска в контенте, связанном с NASA.
Основные результаты
Экспериментальные исследования показали, что модели INDUS проявляют высокую производительность как на новых бенчмарках, так и на существующих домен-специфических задачах.
Заключение
INDUS представляет собой значительный прогресс в области искусственного интеллекта, предоставляя профессионалам и исследователям в различных научных областях мощный инструмент для выполнения точных и эффективных задач обработки естественного языка.
Подробнее ознакомьтесь с научной статьей и блогом.
Вся заслуга за это исследование принадлежит исследователям этого проекта.
Также не забудьте подписаться на наш Twitter.
Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наш новостной бюллетень.
Не забудьте присоединиться к нашему SubReddit с более чем 46 тысячами подписчиков.
Источник: MarkTechPost.
“`