Itinai.com llm large language model graph clusters quant comp c6b83a0d 612d 42cd a727 844897af033a 1

2026-05-11 Обзор ИИ новостей: Дайджест ключевых событий

Itinai.com llm large language model graph clusters quant comp c6b83a0d 612d 42cd a727 844897af033a 1

11 мая 2026: Обзор ИИ новостей

Sakana AI и NVIDIA представляют TwELL с CUDA-ядрами для ускорения LLM на 20.5% в inference и 21.9% в training

Исследователи из Sakana AI и NVIDIA разработали новый подход к ускорению больших языковых моделей через использование несжатой разреженности в feedforward-слоях. Вместо изменения архитектуры модели, они предлагают формат TwELL (Tile-wise ELLPACK), который позволяет строить разреженные представления непосредственно в эпилоге существующих ядер умножения матриц, устраняя накладные расходы на дополнительные проходы ядер и чтение памяти. Для обучения предлагается заменить функцию активации SiLU на ReLU и добавить L1-регуляризацию с коэффициентом 2×10⁻⁵ на скрытые активации feedforward-слоев. Бенчмарки показывают сохранение точности при значительном повышении эффективности: для модели в 2B параметров наблюдается ускорение inference на 20.5% и training на 21.9% при снижении потребления энергии на токен на 17.0%. Исходная работа доступна на arXiv: arXiv:2603.23198.

Memori выпускает Python SDK 3.3.3 для создания постоянной памяти в LLM-приложениях

Memori Labs представил обновленную версию своего Python SDK (3.3.3) для создания агентной инфраструктуры памяти в LLM-приложениях. Библиотека позволяет автоматически перехватывать и обогащать вызовы chat completion, сохраняя факты, предпочтения и контекст пользователей между сессиями. Ключевые возможности включают multi-tenant изоляцию (разделение памяти между разными пользователями), поддержку разных agent personas через process_id, управление сессиями для группировки связанных turnов, а также работу с потоковыми и асинхронными вызовами. SDK требует Python >=3.10 и доступен через PyPI. Официальная документация и примеры использования доступны на странице проекта: memori · PyPI.

Нумерованный обзор векторных баз данных 2026: цены, пределы масштабирования и архитектурные компромиссы

Экспертный обзор девяти ведущих векторных баз данных, используемых в качестве основы для RAG-пipeline, семантического поиска и agentic AI workflows. Анализ охватывает архитектуру, производительность, модели ценообразования и оптимальные варианты использования для каждого решения. Выделены лидеры в различных категориях: Pinecone как лучший полностью управляемый вариант с нулевыми операционными издержками, Milvus/Zilliz Cloud для развертываний миллиардного масштаба с GPU-ускорением, Qdrant как лучший вариант по соотношению цена-производительность с компасируемым векторным поиском, Weaviate для гибридного поиска (BM25 + dense + filters), pgvector для команд PostgreSQL-native, MongoDB Atlas Vector Search для команд MongoDB-native, Chroma для LLM-нативной разработки и прототипирования, LanceDB для серверлесс и мультимодального поиска, а также Faiss как библиотека для исследований и пользовательских пайплайнов. Обновленные данные о рыночном размере показывают рост с $1.97B в 2024 до projected $10.6B к 2032 с CAGR 23.38%.

OpenClaw теряет первое место в глобальном рейтинге OpenRouter агентам Nous Research Hermes

Согласно данным OpenRouter за 10 мая 2026 года, Hermes Agent от Nous Research обошел OpenClaw по дневному объему генерации токенов, став новым лидером среди открытых исходных кодов AI агентов. Hermes генерирует 224 миллиарда токенов в день против 186 миллиардов у OpenClaw, хотя OpenClaw все еще лидирует по общему объему сгенерированных токенов за всё время (9.17T против 6.35T у Hermes). Разница в философии дизайна: OpenClaw оптимизирован для breadth of reach через центральный WebSocket Gateway, соединяющий 50+ каналов связи, тогда как Hermes фокусируется на depth of learning через самоулучшающийся цикл «do, learn, improve» с автоматическим генерированием skill-файлов на основе анализа собственной производительности. Последний релиз Hermes v0.13.0 «Tenacity» (7 мая 2026) включает Kanban-доску для multi-agent задач, обнаружение zombie-процессов, восстановление после галлюцинаций, команду /goal для фиксации на цели, и улучшения безопасности включая redaction по умолчанию.

NadirClaw выпускает локальный классификатор для стоимостно-aware маршрутизации LLM запросов

NadirClaw представлен как интеллектуальный маршрутизатор, который классифицирует промпты на простые и сложные задачи перед отправкой к наиболее подходящей модели, тем самым оптимизируя стоимость и производительность. Система использует локальный эмбеддинг-based классификатор с предобученными центроидами для простых и сложных задач, позволяя принимать решения о маршрутизации без вызова дорогих LLM. Для простых запросов (например, «Что такое 2+2?» или форматирование JSON) предлагается использовать более быстрые и дешевые модели, тогда как сложные задачи (проектирование распределенных систем, доказательство алгоритмов) направляются к более мощным модекам. Маршрутизатор включает настраиваемый порог уверенности (по умолчанию 0.06) для управления компромиссом между производительностью и стоимостью. При наличии API ключа Gemini возможно живые тестирования маршрутизации через прокси-сервер с оценкой экономии против всегда-Pro baseline. Требования включают Python-пакеты: nadirclaw, openai, sentence-transformers, matplotlib, scikit-learn, pandas и requests.

Запустите свой ИИ проект бесплатно

ИИ-агенты искусственный интеллект онлайн для бизнеса

Лучший ИИ онлайн