Эффективный веб-скрейпинг и автоматизированное резюмирование с Firecrawl и Google Gemini

Введение

Быстрый рост веб-контента создает вызовы для эффективного извлечения и суммирования релевантной информации. В этом руководстве мы покажем, как использовать Firecrawl для веб-скрейпинга и обрабатывать извлеченные данные с помощью ИИ-моделей, таких как Google Gemini. Интегрируя эти инструменты в Google Colab, мы создаем полный рабочий процесс, который собирает веб-страницы, извлекает значимый контент и генерирует краткие резюме с использованием современных языковых моделей.

Установка необходимых библиотек

Сначала установим библиотеки, необходимые для этого руководства:

!pip install google-generativeai firecrawl-py

Библиотека google-generativeai предоставляет доступ к API Gemini для генерации текста на основе ИИ, а firecrawl-py позволяет выполнять веб-скрейпинг, извлекая контент с веб-страниц в структурированном формате.

Настройка API ключа

Теперь мы безопасно установим API ключ Firecrawl в качестве переменной окружения в Google Colab:

import os
from getpass import getpass

os.environ["FIRECRAWL_API_KEY"] = getpass("Введите ваш API ключ Firecrawl: ")

Использование функции getpass() позволяет вводить ключ без отображения, обеспечивая конфиденциальность.

Инициализация Firecrawl

Создадим экземпляр FirecrawlApp с помощью сохраненного API ключа:

from firecrawl import FirecrawlApp

firecrawl_app = FirecrawlApp(api_key=os.environ["FIRECRAWL_API_KEY"])
target_url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
result = firecrawl_app.scrape_url(target_url)
page_content = result.get("markdown", "")
print("Длина извлеченного контента:", len(page_content))

Мы извлекаем контент с указанной веб-страницы и выводим длину извлеченного контента для проверки успешности операции.

Настройка Google Gemini API

Теперь инициализируем API Google Gemini:

import google.generativeai as genai
GEMINI_API_KEY = getpass("Введите ваш API ключ Google Gemini: ")
genai.configure(api_key=GEMINI_API_KEY)

Это обеспечивает безопасную аутентификацию перед запросами к ИИ модели.

Выбор модели для генерации

Перечислим доступные модели в API Google Gemini:

for model in genai.list_models():
    print(model.name)

Этот шаг помогает пользователям подтвердить доступные модели для генерации текста или резюме.

Генерация резюме

Инициализируем модель Gemini 1.5 Pro для создания резюме извлеченного контента:

model = genai.GenerativeModel("gemini-1.5-pro")
response = model.generate_content(f"Суммируйте это:nn{page_content[:4000]}")
print("Резюме:n", response.text)

Модель обрабатывает запрос и возвращает краткое резюме, которое мы выводим для удобства.

Заключение

Сочетая Firecrawl и Google Gemini, мы создали автоматизированный процесс, который извлекает веб-контент и генерирует значимые резюме. Это решение позволяет эффективно извлекать и суммировать данные в большом объеме.

Дополнительные ресурсы

Не забудьте подписаться на наш Twitter, присоединиться к нашему Telegram каналу и LinkedIn группе. Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru.


Новости в сфере искусственного интеллекта