Продвинутая реализация кода: Использование ИИ на основе браузера в Google Colab
В этом руководстве мы научимся использовать возможности ИИ-агента на основе браузера в Google Colab. Мы применим движок headless Chromium от Playwright, а также высокоуровневые абстракции Agent и BrowserContext из библиотеки browser_use для программной навигации по веб-сайтам, извлечения данных и автоматизации сложных рабочих процессов.
Настройка окружения
Первым делом обновим списки пакетов системы и установим необходимые компоненты для автоматизации браузера. Это включает в себя headless Chromium, его WebDriver и шрифты Liberation.
!apt-get update -qq !apt-get install -y -qq chromium-browser chromium-chromedriver fonts-liberation !pip install -qq playwright python-dotenv langchain-google-generative-ai browser-use !playwright install
Импорт необходимых библиотек
Импортируем основные библиотеки Python для управления окружением и асинхронного выполнения, а также инструменты для безопасного ввода и хранения API-ключей.
import os import asyncio from getpass import getpass from pydantic import SecretStr from langchain_google_genai import ChatGoogleGenerativeAI from browser_use import Agent, Browser, BrowserContextConfig, BrowserConfig
Настройка браузера
Создаем асинхронную функцию для инициализации экземпляра браузера и его контекста, который будет использоваться для выполнения задач агента.
async def setup_browser(headless: bool = True): browser = Browser(config=BrowserConfig(headless=headless)) context = BrowserContext( browser=browser, config=BrowserContextConfig( wait_for_network_idle_page_load_time=5.0, highlight_elements=True, save_recording_path="./recordings", ) ) return browser, context
Основной цикл агента
Создаем асинхронную функцию, которая управляет циклом работы агента, обрабатывает запросы и возвращает результаты.
async def agent_loop(llm, browser_context, query, initial_url=None): initial_actions = [{"open_tab": {"url": initial_url}}] if initial_url else None agent = Agent( task=query, llm=llm, browser_context=browser_context, use_vision=True, generate_gif=False, initial_actions=initial_actions, ) result = await agent.run() return result if result else None
Запуск основной программы
Запускаем основную программу, которая управляет всей сессией Colab, запрашивает API-ключ и обрабатывает пользовательские запросы.
async def main(): raw_key = getpass("Введите ваш GEMINI_API_KEY: ") api_key = SecretStr(raw_key) model_name = "gemini-2.5-flash-preview-04-17" llm = ChatGoogleGenerativeAI(model=model_name, api_key=api_key) browser, context = await setup_browser(headless=True) try: while True: query = input("\nВведите запрос (или оставьте пустым для выхода): ").strip() if not query: break url = input("Необязательный URL для открытия (или пустой для пропуска): ").strip() or None print("\nЗапуск агента…") answer = await agent_loop(llm, context, query, initial_url=url) print("\nРезультаты поиска\n" + "-"*40) print(answer or "Результаты не найдены") print("-"*40) finally: print("Закрытие браузера…") await browser.close()
Заключение
Следуя этому руководству, вы получили шаблон Colab, который интегрирует автоматизацию браузера, рассуждения LLM и безопасное управление учетными данными в единую связанную цепочку. Это решение можно использовать для извлечения данных, автоматизации отчетов и других задач.
Автоматизация процессов
Изучите, какие процессы можно автоматизировать и где ИИ может добавить наибольшую ценность в взаимодействии с клиентами. Определите важные KPI для оценки влияния инвестиций в ИИ на бизнес.
Контактная информация
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Подписывайтесь на наш Telegram здесь.