
Современные вызовы в обработке данных
Современные рабочие процессы с данными сталкиваются с увеличением размеров наборов данных и сложностью распределенной обработки. Многие организации обнаруживают, что традиционные системы не справляются с длительными временами обработки, ограничениями памяти и эффективным управлением распределенными задачами. В этой ситуации ученые и инженеры данных часто тратят слишком много времени на обслуживание систем, а не на извлечение инсайтов из данных. Необходимость в инструменте, который упрощает эти процессы без ущерба для производительности, очевидна.
Решение от DeepSeek AI: Smallpond
DeepSeek AI недавно выпустила Smallpond, легковесный фреймворк для обработки данных, основанный на DuckDB и 3FS. Smallpond стремится расширить эффективную SQL-аналитику DuckDB в распределенной среде. Объединив DuckDB с 3FS — высокопроизводительной распределенной файловой системой, оптимизированной для современных SSD и RDMA-сетей — Smallpond предлагает практическое решение для обработки больших наборов данных без сложности долгосрочных сервисов или тяжелой инфраструктуры.
Технические детали и преимущества
Smallpond разработан для бесшовной работы с Python, поддерживая версии с 3.8 до 3.12. Его философия дизайна основана на простоте и модульности. Пользователи могут быстро установить фреймворк через pip и начать обработку данных с минимальной настройкой. Одной из ключевых функций является возможность ручного разбиения данных. Это позволяет пользователям адаптировать обработку под свои конкретные данные и инфраструктуру.
Smallpond использует DuckDB для обеспечения надежной производительности при выполнении SQL-запросов и интегрируется с Ray для параллельной обработки на распределенных вычислительных узлах. Это сочетание упрощает масштабирование и обеспечивает эффективное выполнение рабочих нагрузок на нескольких узлах. Кроме того, избегая постоянных сервисов, Smallpond снижает операционные затраты, обычно связанные с распределенными системами.
Установка
Поддерживаются версии Python 3.8 до 3.12.
pip install smallpond
Быстрый старт
# Загрузите пример данных
wget https://duckdb.org/data/prices.parquet
import smallpond
# Инициализация сессии
sp = smallpond.init()
# Загрузка данных
df = sp.read_parquet("prices.parquet")
# Обработка данных
df = df.repartition(3, hash_by="ticker")
df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df)
# Сохранение результатов
df.write_parquet("output/")
# Показать результаты
print(df.to_pandas())
Производительность и инсайты
В тестах производительности с использованием бенчмарка GraySort Smallpond продемонстрировал свою способность сортировать 110.5TiB данных всего за 30 минут, достигая средней пропускной способности 3.66TiB в минуту. Эти результаты показывают, как эффективно фреймворк использует объединенные силы DuckDB и 3FS для вычислений и хранения. Такие показатели производительности подтверждают, что Smallpond может удовлетворить потребности организаций, работающих с терабайтами и петабайтами данных. Открытый исходный код проекта также позволяет пользователям и разработчикам сотрудничать для дальнейшей оптимизации и адаптации фреймворка под различные случаи использования.
Заключение
Smallpond представляет собой значительный шаг вперед в распределенной обработке данных. Он решает основные проблемы, расширяя проверенную эффективность DuckDB в распределенной среде, поддерживаемой высокопроизводительными возможностями 3FS. С акцентом на простоту, гибкость и производительность, Smallpond предлагает практический инструмент для ученых и инженеров данных, занимающихся обработкой больших наборов данных. Как проект с открытым исходным кодом, он приглашает к сотрудничеству и постоянному улучшению со стороны сообщества, что делает его ценным дополнением к современным инструментальным наборам для обработки данных.
Посетите GitHub Repo. Все заслуги за это исследование принадлежат исследователям этого проекта. Также не забудьте подписаться на нас в Twitter и присоединиться к нашему ML SubReddit с более чем 80k участниками.
Как искусственный интеллект может преобразовать ваш подход к работе
Изучите, какие процессы можно автоматизировать. Найдите моменты в взаимодействии с клиентами, где искусственный интеллект может добавить наибольшую ценность. Определите важные KPI, чтобы убедиться, что ваши инвестиции в ИИ действительно оказывают положительное влияние на бизнес. Выберите инструменты, которые соответствуют вашим потребностям и позволяют вам настраивать их под ваши цели. Начните с небольшого проекта, соберите данные о его эффективности, а затем постепенно расширяйте использование ИИ в вашей работе.
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram.
Посмотрите практический пример решения на базе ИИ: продажный бот, предназначенный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.
“`