Создание эффективного рабочего процесса в Data Science с использованием машинного обучения и AI Gemini

Itinai.com it company office background blured chaos 50 v 74e4829b a652 4689 ad2e c962916303b4 0

Введение

В современном мире данные становятся основным активом бизнеса. Построение эффективного рабочего процесса в области науки о данных является ключевым моментом для достижения успеха. Но как создать полноценный рабочий процесс, который сочетает в себе машинное обучение, интерпретируемость и помощь ИИ, такой как Gemini? Давайте рассмотрим это на практике.

Построение рабочего процесса: шаг за шагом

Шаг 1: Подготовка данных

Первый шаг в любом проекте науки о данных — это подготовка данных. Загрузим набор данных о диабете, чтобы продемонстрировать процесс:

from sklearn.datasets import load_diabetes
raw = load_diabetes(as_frame=True)
df = raw.frame.rename(columns={"target": "disease_progression"})
X = df.drop(columns=["disease_progression"])
y = df["disease_progression"]

Шаг 2: Обучение модели

После подготовки данных мы можем приступать к созданию модели. Важно создать надежный конвейер, который включает в себя предварительную обработку:

from sklearn.model_selection import train_test_split
Xtr, Xte, ytr, yte = train_test_split(X, y, test_size=0.20, random_state=42)

from sklearn.ensemble import HistGradientBoostingRegressor
model = HistGradientBoostingRegressor(max_depth=3, learning_rate=0.07, max_iter=500)
model.fit(Xtr, ytr)

Шаг 3: Оценка модели

Теперь необходимо оценить производительность модели с помощью таких метрик, как RMSE и R²:

from sklearn.metrics import mean_squared_error, r2_score
pred_te = model.predict(Xte)
rmse_te = mean_squared_error(yte, pred_te) ** 0.5
r2_te = r2_score(yte, pred_te)

Шаг 4: Анализ важности признаков

Чтобы понять, какие признаки существенно влияют на предсказания, мы вычислим важность признаков:

from sklearn.inspection import permutation_importance
imp = permutation_importance(model, Xte, yte)

Шаг 5: Визуализация результатов

Визуализация результатов помогает лучше понять данные. Мы можем отобразить важность признаков и остатки предсказаний:

import matplotlib.pyplot as plt
plt.barh(range(len(imp.importances_mean)), imp.importances_mean)

Шаг 6: ИИ-поддержка анализа

С помощью Gemini мы можем генерировать сводные отчеты и предлагать следующие шаги в анализе через взаимодействие на естественном языке:

sys_msg = "Вы — специалист по данным. Верните сводный отчет и рекомендации."
summary = ask_llm(f"Метрики: {metrics}, Важность: {top_importances}", sys=sys_msg)

Заключение

Интеграция рабочих процессов машинного обучения с поддержкой ИИ, такой как Gemini, значительно улучшает как производительность моделей, так и их интерпретируемость. Это позволяет бизнесу принимать более обоснованные решения на основе данных.