В мире быстро развивающихся технологий, где инновации часто опережают человеческое взаимодействие, LAION и их партнеры из Института ELLIS в Тюбингене, Collabora и Tübingen AI Center делают гигантский шаг в направлении развития общения с искусственным интеллектом. Их творение, BUD-E (Buddy for Understanding and Digital Empathy), нацелено на преодоление барьеров неестественных, механических ответов, которые долгое время мешали нашему погружению во взаимодействие с голосовыми помощниками на базе ИИ.
Путешествие началось с миссии создания голосового помощника, который не только реагирует в реальном времени, но и обладает естественным голосом, эмпатией и эмоциональным интеллектом. Команда увидела недостатки существующих моделей и сосредоточилась на снижении задержки и улучшении общего качества разговора. Результат? Тщательно протестированная модель обладает временем ответа всего 300-500 мс, создавая более плавное и отзывчивое взаимодействие.
Однако разработчики признают, что путь к по-настоящему эмпатичному и естественному голосовому помощнику все еще продолжается. Их инициатива с открытым исходным кодом приглашает к участию в разработке глобальное сообщество, подчеркивая необходимость решения текущих проблем и работы над общим видением.
Одной из ключевых областей внимания является снижение задержки и системных требований. Команда стремится достичь времени ответа менее 300 мс с помощью сложных техник квантования и настройки потоковых моделей, даже с более крупными моделями. Это стремление к взаимодействию в реальном времени заложило основу для создания голосового помощника на базе ИИ, который отражает плавность человеческого разговора.
Поиск естественности распространяется и на речь и ответы. Используя набор данных естественных диалогов, разработчики настраивают BUD-E на отвечать аналогично людям, включая прерывания, подтверждения и паузы для размышлений. Цель состоит в создании голосового помощника на базе ИИ, который не только понимает язык, но и отражает тонкости человеческого выражения.
Память BUD-E – еще одна замечательная функция в разработке. С помощью инструментов, таких как Retrieval Augmented Generation (RAG) и Conversation Memory, модель стремится отслеживать разговоры на протяжении продолжительных периодов, открывая новый уровень знакомства с контекстом.
Разработчики не останавливаются на достигнутом. BUD-E задуман как мультимодальный помощник, включающий визуальный ввод с помощью легкого видеоэнкодера. Введение изображений с веб-камеры для оценки эмоций пользователя добавляет слой эмоционального интеллекта, приближая голосового помощника на базе ИИ к пониманию и реагированию на человеческие чувства.
Создание удобного интерфейса для пользователя также является приоритетом. Команда планирует реализовать LLamaFile для удобной установки и развертывания на различных платформах, представив анимированный аватар, аналогичный Audio2Photoreal от Meta. Интерфейс на основе чата для записи разговоров и предоставления способов получения обратной связи направлен на то, чтобы взаимодействие было интуитивным и приятным.
Кроме того, BUD-E не ограничен языком или количеством говорящих. Разработчики расширяют потоковое преобразование речи в текст на большее количество языков, включая языки с ограниченными ресурсами, и планируют без проблем внедрить многоговорящие среды.
В заключение, разработка BUD-E представляет собой коллективное усилие по созданию голосовых помощников на базе ИИ, ведущих естественные, интуитивные и эмпатичные разговоры. Будущее разговорного ИИ выглядит многообещающим, поскольку BUD-E стоит как маяк, освещающий путь к следующей эре взаимодействия человека с технологией.
Если вам нужны рекомендации по управлению ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.com. Чтобы быть в курсе последних новостей об ИИ, подписывайтесь на наш Telegram-канал.
Посмотрите на практический пример решения на основе ИИ: бот для продаж от itinai.ru/aisales, созданный для автоматизации общения с клиентами круглосуточно и управления взаимодействием на всех этапах пути клиента.
Изучите, как искусственный интеллект может улучшить ваши продажи и общение с клиентами. Познакомьтесь с нашими решениями на сайте itinai.ru