
Введение
Быстрый рост веб-контента создает вызовы для эффективного извлечения и суммирования релевантной информации. В этом руководстве мы покажем, как использовать Firecrawl для веб-скрейпинга и обрабатывать извлеченные данные с помощью ИИ-моделей, таких как Google Gemini. Интегрируя эти инструменты в Google Colab, мы создаем полный рабочий процесс, который собирает веб-страницы, извлекает значимый контент и генерирует краткие резюме с использованием современных языковых моделей.
Установка необходимых библиотек
Сначала установим библиотеки, необходимые для этого руководства:
!pip install google-generativeai firecrawl-py
Библиотека google-generativeai предоставляет доступ к API Gemini для генерации текста на основе ИИ, а firecrawl-py позволяет выполнять веб-скрейпинг, извлекая контент с веб-страниц в структурированном формате.
Настройка API ключа
Теперь мы безопасно установим API ключ Firecrawl в качестве переменной окружения в Google Colab:
import os
from getpass import getpass
os.environ["FIRECRAWL_API_KEY"] = getpass("Введите ваш API ключ Firecrawl: ")
Использование функции getpass() позволяет вводить ключ без отображения, обеспечивая конфиденциальность.
Инициализация Firecrawl
Создадим экземпляр FirecrawlApp с помощью сохраненного API ключа:
from firecrawl import FirecrawlApp
firecrawl_app = FirecrawlApp(api_key=os.environ["FIRECRAWL_API_KEY"])
target_url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
result = firecrawl_app.scrape_url(target_url)
page_content = result.get("markdown", "")
print("Длина извлеченного контента:", len(page_content))
Мы извлекаем контент с указанной веб-страницы и выводим длину извлеченного контента для проверки успешности операции.
Настройка Google Gemini API
Теперь инициализируем API Google Gemini:
import google.generativeai as genai
GEMINI_API_KEY = getpass("Введите ваш API ключ Google Gemini: ")
genai.configure(api_key=GEMINI_API_KEY)
Это обеспечивает безопасную аутентификацию перед запросами к ИИ модели.
Выбор модели для генерации
Перечислим доступные модели в API Google Gemini:
for model in genai.list_models():
print(model.name)
Этот шаг помогает пользователям подтвердить доступные модели для генерации текста или резюме.
Генерация резюме
Инициализируем модель Gemini 1.5 Pro для создания резюме извлеченного контента:
model = genai.GenerativeModel("gemini-1.5-pro")
response = model.generate_content(f"Суммируйте это:nn{page_content[:4000]}")
print("Резюме:n", response.text)
Модель обрабатывает запрос и возвращает краткое резюме, которое мы выводим для удобства.
Заключение
Сочетая Firecrawl и Google Gemini, мы создали автоматизированный процесс, который извлекает веб-контент и генерирует значимые резюме. Это решение позволяет эффективно извлекать и суммировать данные в большом объеме.
Дополнительные ресурсы
Не забудьте подписаться на наш Twitter, присоединиться к нашему Telegram каналу и LinkedIn группе. Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru.