Генеративные модели текст-в-изображение (T2I) и текст-в-видео (T2V) сделали значительные шаги вперед. Однако, если модели T2I могут хорошо контролировать идентичность объекта, то расширение этой способности на T2V остается сложной задачей. Усилия по использованию достижений T2I для генерации видео требуют помощи в …
Проблема предубеждения в больших языковых моделях (LLM) является критической, поскольку эти модели, играющие важную роль в различных сферах, таких как здравоохранение, образование и финансы, в своей основе отражают предубеждения в их обучающих данных, в основном полученных из интернета. Потенциал этих …
Появление многомодальных больших языковых моделей (MLLM), таких как GPT-4 и Gemini, вызвало значительный интерес к объединению понимания языка с различными модальностями, такими как зрение. Это объединение предлагает потенциал для различных приложений, от инкорпорированного интеллекта до агентов с графическим интерфейсом. Несмотря …
…
Исследователи Токийского института технологий представили ProtHyena: быструю и эффективную модель для изучения белков на основе аминокислот с разрешением в одну аминокислоту. Разработка имеет потенциал для улучшения анализа белковых последовательностей и прогнозирования их структуры.…
Стэнфордские исследователи представили PEPSI – новый метод искусственного интеллекта для выявления взаимодействий опухоли и иммунных клеток по изображениям тканей. Этот инновационный подход открывает новые возможности в изучении рака и развитии персонализированных терапий.…
ByteDance представляет MagicVideo-V2: уникальный конвейер для создания видео высокого качества из текстовых описаний. Инновационный подход к генерации видео открывает новые возможности для креативного контента и визуальной коммуникации. #ByteDance #MagicVideo…
Исследователи из UCLA и Snap представили инновационный подход в области восстановления персонального изображения лица с использованием искусственного интеллекта. #AI #facialimagerestoration #UCLA #Snap…
Рад представить вам Unified-IO 2 – мультимодальную модель искусственного интеллекта, способную понимать и генерировать текст, изображения, звуки и действия. Этот инновационный подход открывает новые перспективы в развитии AI и его применении в различных областях. #ИИ…
Meta GenAI Research представляет ControlRoom3D: новый метод искусственного интеллекта для создания высококачественных 3D-моделей помещений по текстовому описанию стиля комнаты. Уникальное решение для дизайнеров интерьера и архитекторов. #technologymadeeasy…
OpenVoice – выпустил обновленную версию библиотеки OpenVoice, которая теперь доступна для использования в MyShell. Теперь ваш голос может разнообразиться и говорить на различных языках благодаря этой инновационной технологии.…
Познакомьтесь с LLM360: первой полностью открытой и прозрачной крупномасштабной моделью языка. Это новое достижение в развитии искусственного интеллекта, которое открывает новые возможности для коллективного развития и применения языковых моделей. #LLM360 #OpenSource #AI…
Исследователи Alibaba представили серию аудио-языковых моделей Qwen-Audio: универсальные модели с широкими способностями к пониманию аудиоматериалов. Новинка обещает значительный прорыв в области понимания различных языков и аудио контента. #Alibaba #QwenAudio…
HyperDreamer – инновационный подход к созданию 3D-контента с передовым текстурированием, моделированием на 360 градусов и интерактивным редактированием. Это открывает новые перспективы для виртуальной реальности и гейм-дизайна.…
Исследователи из Китайского университета Линпоанга (SJTU) представили TransLO – новую систему на основе оконного маскирующего трансформера для шкалируемой лидарной одометрии. Интересно увидеть, как эта технология справится с большими объемами данных. #TransLO #Лидар #Одометрия …