AI-модель Poro 34B обучена на 1 триллионе токенов финского, английского и языков программирования, включая 8 триллионов токенов пар перевода с финского на английский.

 Poro 34B: A 34B Parameter AI Model Trained for 1T Tokens of Finnish, English, and Programming languages, Including 8B Tokens of Finnish-English Translation Pairs

Представляем Poro 34B: Прорывная модель искусственного интеллекта

Революционные языковые модели

Современные языковые модели требуют огромных объемов текстовых данных для предварительного обучения, что представляет вызов для менее распространенных языков. Мультиязычное обучение предлагает практическое решение для улучшения моделей для менее распространенных языков, смягчая проблемы нехватки данных.

Практические решения и ценность

Исследователи разработали Poro 34B, модель с 34 миллиардами параметров, обученную на 1 триллионе токенов финского, английского и языков программирования. Этот подход значительно улучшает возможности существующих финских моделей, превосходит в переводе и остается конкурентоспособным в английских и программных задачах.

Процесс обучения

Набор данных прошел предварительную обработку для удаления текстов низкого качества и дубликатов, а также фильтрации токсичных контекстов. Токенизация включала в себя специальный токенизатор на основе байтового уровня BPE с словарем из 128 тысяч токенов. Модель была обучена на 1 триллионе токенов, превысив предполагаемую оптимальную вычислительную мощность для эффективности.

Производительность и универсальность

Poro 34B демонстрирует высокую производительность в английских, финских и кодовых задачах, обладая низкой перплексией на уровне символов и замечательной связностью и грамматической корректностью в задачах генерации открытого текста. Его впечатляющие возможности превосходят специализированные модели перевода, даже Google Translate.

Будущие последствия

Выпуск Poro 34B нацелен на то, чтобы служить шаблоном для создания более крупных моделей для других менее распространенных языков, способствуя дальнейшим исследованиям и разработкам.

Разблокируйте силу искусственного интеллекта с Poro 34B

ИИ для трансформации бизнеса

Узнайте, как ИИ может переопределить ваш способ работы, выявить возможности автоматизации, определить KPI, выбрать ИИ-решение и постепенно внедрить его, чтобы оставаться конкурентоспособным и развивать свою компанию.

Практические решения в области искусственного интеллекта

Свяжитесь с нами для консультаций по управлению KPI в области ИИ и изучите практические решения в области ИИ, такие как бот для продаж, разработанный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах путешествия клиента.

Список полезных ссылок:

Лаборатория ИИ в Telegram @aiscrumbot – бесплатная консультация

Poro 34B: 34-миллиардная модель ИИ, обученная на 1 триллионе токенов финского, английского и языков программирования, включая 8 миллиардов токенов пар финско-английского перевода

MarkTechPost

Twitter – @itinaicom

Полезные ссылки: