Nanobot으로 AI 웹 스크래핑 에이전트 구축하기

AI 에이전트는 자체적으로 실시간 웹 데이터에 접근할 수 없습니다. 다음 두 도구를 결합하여 에이전트에 접근 권한을 부여합니다:

– 내장 메모리, 스케줄링, 모델 컨텍스트 프로토콜(MCP) 을 지원하는 경량 AI 에이전트 프레임워크인Nanobot
Bright Data MCP 서버: 에이전트에게 검색, 스크래핑, 구조화된 데이터 추출, 브라우저 자동화를 위한 65가지 웹 도구 제공

에이전트는 일회성 질문에 답하는 것을 넘어 일정대로 웹사이트를 모니터링하고 변경 사항을 기억하며 자율적으로 보고합니다. Bright Data는 어려운 부분(IP 차단, 봇 탐지, 자바스크립트 렌더링)을 처리하고, MCP는 글루 코드 없이 에이전트와 연결합니다.

요약:

이 튜토리얼은 경량 AI 에이전트 프레임워크인 Nanobot과 Bright Data MCP 서버를 연결하여 검색, 스크래핑, 데이터 추출을 위한 65가지 웹 도구를 갖춘 자율 에이전트를 구축합니다.

기능 – Google 검색, 공개 웹사이트 스크래핑, Amazon 및 LinkedIn의 구조화된 제품 데이터 추출, 페이지 변경 사항의 시간별 모니터링
설정 – 사용자 정의 코드 없이 약 15분 만에 JSON 파일 1개 구성
데모 – 검색부터 실시간 페이지 모니터링까지 6가지 작동 예제 실행

Bright Data 무료 이용권 으로 시작하기 – 월 5,000회 요청 무료 제공.

나노봇이란?

나노봇은 홍콩대학교 HKUDS 연구실에서 개발한 개인용 AI 에이전트 프레임워크입니다. 30,000개 이상의 GitHub 스타와 약 4,000줄의 핵심 코드로 구성되며, 다음을 포함합니다:

도구 사용 – 웹 검색, 웹 데이터 수집, 파일 시스템 작업, 셸 명령어를 위한 내장 도구
메모리 – 세션 간 지속되는 장기적 사실 및 검색 가능한 대화 기록
크론 스케줄링 – 일정대로 자율 실행되는 반복 작업
서브에이전트 생성 – 위임된 작업을 위한 병렬 백그라운드 에이전트
다중 채널 지원 – 텔레그램, 디스코드, WhatsApp, 슬랙 통합
MCP 지원 – 모든 모델 컨텍스트 프로토콜 서버를 통한 외부 도구 접근

Bright Data MCP 서버란 무엇인가요?

Bright Data MCP 서버는 모델 컨텍스트 프로토콜을 통해 65개의 전문 웹 도구를 제공합니다. MCP 호환 에이전트가 연결되면 사용 가능한 모든 도구와 각 도구 호출 방법을 자동으로 탐지합니다. 본 튜토리얼은 Nanobot을 사용하지만, Bright Data MCP 서버는 해당 프로토콜을 지원하는 모든 프레임워크와 호환됩니다. (상세 비교는 MCP vs 기존 웹 스크래핑 참조)

카테고리	카테고리	주요 도구
검색 및 스크래핑	7	`search_engine`, `scrape_as_markdown`, `scrape_as_html`, `extract`, batch variants
전자 상거래	10	아마존(제품, 리뷰, 검색), 월마트(제품, 판매자), 이베이, 홈디포, 자라, 에츠이, 베스트바이
소셜 미디어	23	링크드인(5), 인스타그램(4), 페이스북(4), 틱톡(4), X/트위터(2), 유튜브(3), 레딧
비즈니스 인텔리전스	5	크런치베이스, 줌인포, 야후 파이낸스, 로이터, 깃허브
브라우저 자동화	14	탐색, 클릭, 입력, 스크린샷, 스크롤, 양식 작성, 텍스트/HTML 가져오기, 네트워크 요청
기타	6	Google 지도, Google 쇼핑, Zillow, Booking, Google Play, Apple App Store

무료 계정에는 검색 및 스크래핑 도구에 대해 월 5,000건의 요청이 포함됩니다. 프로 계정에서는 구조화된 데이터 추출기 및 브라우저 자동화를 포함한 모든 도구를 사용할 수 있습니다.

필수 사항

시작하기 전에 다음을 준비하세요:

Python 3.11 이상 설치 (다운로드)
Node.js 18 이상 및 npm 설치 (다운로드) – MCP 서버는 Node.js에서 실행됩니다
Bright Data API 토큰 – 무료 가입 후 계정 설정 > API 키에서 생성
대규모 언어 모델(LLM) 공급자 API 키 – 본 튜토리얼은 Anthropic(Claude) 을 사용합니다(API 크레딧 필요). Nanobot은 OpenAI, DeepSeek, Google Gemini, OpenRouter 및 LiteLLM을 통한 12개 공급자를 지원합니다

1단계: Nanobot 설치

이 단계에서는 Nanobot 명령줄 인터페이스(CLI)를 설치하고 에이전트 구성을 저장할 작업 공간을 초기화합니다.

nanobot-ai 패키지 설치:

pip install nanobot-ai

pip가 작동하지 않으면 pip3 install nanobot-ai를 시도하세요.

설치 확인:

nanobot --help

출력에는 onboard, agent, gateway, status, cron, channels, provider 등의 명령어가 나열됩니다.

작업 공간 초기화:

nanobot onboard

onboard 명령어는 기본 구성 및 작업 공간 파일과 함께 ~/.nanobot/ 디렉터리를 생성합니다.

Nanobot을 설치하고 작업 공간을 초기화했습니다. 다음으로 Bright Data MCP 서버 연결을 구성하세요.

2단계: 웹 스크래핑을 위한 AI 에이전트 구성

이 단계에서는 단일 JSON 구성 파일을 편집하여 Nanobot을 Bright Data MCP 서버에 연결합니다.

텍스트 편집기로 ~/.nanobot/config.json을 열고 내용을 다음과 같이 교체하세요. VS Code(code ~/.nanobot/config.json), nano(nano ~/.nanobot/config.json) 또는 선호하는 편집기를 사용하세요:

{
  "agents": {
    "defaults": {
      "model": "anthropic/claude-sonnet-4-6",
      "provider": "auto",
      "maxTokens": 8192,
      "temperature": 0.1,
      "maxToolIterations": 40,
      "memoryWindow": 100
    }
  },
  "providers": {
    "anthropic": {
      "apiKey": "YOUR_ANTHROPIC_API_KEY"
    }
  },
  "tools": {
    "mcpServers": {
      "brightdata": {
        "command": "npx",
        "args": ["-y", "@brightdata/mcp"],
        "env": {
          "API_TOKEN": "YOUR_BRIGHT_DATA_API_TOKEN",
          "PRO_MODE": "true"
        },
        "toolTimeout": 120
      }
    }
  }
}

YOUR_ANTHROPIC_API_KEY를 Anthropic API 키로, YOUR_BRIGHT_DATA_API_TOKEN을 Bright Data API 토큰으로 각각 대체하세요.

에이전트 동작을 제어하는 3가지 필드:

agents.defaults.model – 에이전트를 구동하는 LLM입니다. Claude Sonnet 4.6은 도구 사용에 적합합니다.
tools.mcpServers.brightdata – Nanobot이 npx를 통해 Bright Data MCP 서버를 실행하고 API 토큰을 전달하도록 지시합니다. PRO_MODE를 true로 설정하면 에이전트가 모든 도구를 사용할 수 있습니다.
toolTimeout: 120 – 구조화된 데이터 추출기(Amazon, LinkedIn)는 결과 반환에 시간이 소요될 수 있으므로 120초로 여유를 줍니다.

설정이 완료되었습니다. 다음으로 연결을 확인하고 에이전트를 실행하세요.

3단계: AI 에이전트 확인 및 실행

이 단계에서는 Nanobot이 LLM 공급자에 접근할 수 있고 Bright Data MCP 서버가 연결되는지 확인합니다.

모든 설정이 올바르게 구성되었는지 확인하세요:

nanobot status

출력 결과는 공급자 연결을 확인합니다:

🐈 nanobot 상태

구성: ~/.nanobot/config.json ✓
워크스페이스: ~/.nanobot/workspace ✓
모델: anthropic/claude-sonnet-4-6
Anthropic: ✓

이제 에이전트를 실행하세요:

nanobot agent

터미널에 MCP 서버 연결 및 프록시 존 설정이 표시됩니다:

🐈 대화형 모드 (종료하려면 exit 또는 Ctrl+C 입력)

필수 영역 확인 중...
필수 영역 "mcp_unlocker"를 찾을 수 없음, 생성 중...
필수 영역 "mcp_browser"를 찾을 수 없음, 생성 중...
서버 시작 중...

참고: 첫 실행 시 npx가 @brightdata/mcp 패키지를 다운로드합니다(다운로드에 1분 정도 소요될 수 있음). 이후 MCP 서버가 Bright Data 계정에 필요한 프록시 존을 생성합니다 (“존 생성 중…” 메시지 표시). 존 이름은 계정 설정에 따라 다릅니다. 이후 실행은 더 빠릅니다.

에이전트 준비 완료. 다음 데모는 6가지 실제 사례를 안내합니다.

데모 1: AI 기반 Google 검색

search_engine 도구는 Google을 쿼리하여 제목, URL, 설명이 포함된 구조화된 결과를 반환합니다.

에이전트에 다음을 입력하세요:

"2025년 최고의 AI 에이전트 프레임워크"를 검색하고 제목과 간단한 설명이 포함된 상위 5개 결과를 제공해 주세요

에이전트는 Bright Data의 search_engine 도구를 호출하여 195개국에 걸친 지리적 타겟팅이 적용된 Google 검색 결과를 반환합니다.

결과는 원시 HTML이 아닌 구조화된 데이터로 반환되며, 에이전트는 깔끔한 요약본을 제공합니다.

Nanobot AI agent returning Google search results for best AI frameworks using Bright Data SERP API

데모 2: 웹사이트 스크래핑 후 마크다운 정리

scrape_as_markdown 도구는 공개 웹 페이지를 가져와 깔끔한 마크다운으로 변환합니다.

실시간 페이지 스크래핑:

https://news.ycombinator.com를 스크랩하여 현재 Hacker News의 상위 5개 기사가 무엇인지 알려주세요

에이전트는 scrape_as_markdown을 호출하여 현재 Hacker News 첫 페이지의 깔끔한 요약본을 반환합니다. 내부적으로는 Bright Data Web Unlocker가 프록시 라우팅, 봇 방지 챌린지, 자바스크립트 렌더링을 처리합니다. scrape_as_markdown 도구는 대부분의 공개 웹사이트에서 작동합니다.

Nanobot AI agent scraping Hacker News in real time using Bright Data Web Unlocker

데모 3: 구조화된 아마존 제품 데이터

참고: 데모 3, 4, 5는 구조화된 데이터 추출기를 사용하며, 이는 Pro 계층이 필요합니다. 데모 1, 2, 6은 무료 계층에서 작동합니다 – 무료 계층 사용자는 데모 6으로 건너뛸 수 있습니다. 어떤 경우든 PRO_MODE를 true로 설정해 두세요; 무료 계층 사용자는 Pro 전용 도구를 호출할 때 오류가 발생합니다.

아마존은 스크래핑하기 가장 어려운 웹사이트 중 하나입니다. 레이아웃 변경으로 CSS 선택기가 깨지고, 봇 방지 시스템이 요청을 차단하며, 원시 HTML은 각 필드마다 맞춤형 파서가 필요합니다. Bright Data 구조화된 데이터 추출기는 이러한 모든 문제를 우회합니다. 다음 프롬프트를 전송하세요:

이 아마존 상품의 전체 상세 정보를 가져와 주세요: https://www.amazon.com/dp/B09468VZ5W

에이전트가 web_data_amazon_product를 호출하면 구조화된 JSON(제목, 가격, 평점, 리뷰 수, 판매자 정보, 제품 특징)을 반환합니다. 아마존이 레이아웃을 변경하면 Bright Data가 추출기를 업데이트합니다. 사용자가 직접 파서를 유지 관리할 필요가 없습니다.

Bright Data structured Amazon product data, pricing, ratings, reviews, and specifications extracted by the AI agent

Amazon product details continued, key features, compatibility info, and customer feedback summary

Bright Data는 Walmart, eBay, Best Buy를 포함한 120개 이상의 웹사이트에 대해 유사한 구조화된 데이터 추출기를 제공합니다.

데모 4: LinkedIn 기업 인텔리전스

일반 스크레이퍼로 LinkedIn에서 데이터를 가져오려 하면 몇 분 안에 로그인 벽, 봇 탐지, 속도 제한에 부딪히게 됩니다. Bright Data는 이를 위한 전용 도구를 보유하고 있습니다:

https://www.linkedin.com/company/bright-data/의 LinkedIn 회사 프로필을 가져와 주세요 - 직원 수, 업종, 본사 위치, 회사 설명을 표시해 주세요

AI agent extracting LinkedIn company data using Bright Data MCP, employee count, industry, and headquarters

web_data_linkedin_company_profile 도구는 회사 설명, 직원 수, 본사 위치, 전문 분야, 설립 연도, 소셜 링크를 반환합니다. 기타 LinkedIn 도구로는 web_data_linkedin_person_profile, web_data_linkedin_job_listings, web_data_linkedin_posts가 있습니다.

데모 5: 경쟁사 가격 분석

아마존에서 무선 마우스를 출시할 예정이며 경쟁 환경을 파악해야 한다고 가정해 보세요. 수동으로 처리하려면 3개의 제품 페이지를 열고 데이터를 스프레드시트에 복사한 후 비교표를 작성해야 합니다. 여기서는 단 한 번의 프롬프트로 해결됩니다:

아마존에서 무선 마우스를 출시합니다. 다음 3개 경쟁 제품의 가격, 평점, 리뷰 수를 비교해 주세요: https://www.amazon.com/dp/B004YAVF8I, https://www.amazon.com/dp/B015NBTAOW, https://www.amazon.com/dp/B098S48QWM. 목표 가격대 설정과 고객이 가장 중요하게 여기는 기능을 알려주세요.

Nanobot AI agent calling Bright Data Amazon product API three times for competitive price analysis

각 URL은 별도의 web_data_amazon_product 호출을 트리거합니다. 에이전트는 3개 결과를 모두 수집하여 가격 권장사항이 포함된 경쟁 분석을 구축합니다.

AI agent competitive analysis results, price range recommendation and key features comparison for wireless mice

데모 6: 메모리를 활용한 실시간 웹 모니터링

에이전트는 데이터를 한 번만 가져오는 것이 아닙니다. 시간 경과에 따른 변화를 추적합니다. 다음 프롬프트를 시도해 보세요:

5분마다 실행되는 크론 작업을 설정하여 https://news.ycombinator.com를 크롤링하고, 현재 1위 기사 제목과 URL을 가져와 메모리에 저장하세요. 각 확인 후, 1위 기사가 무엇인지, 그리고 이전과 변경되었는지 알려주세요.

에이전트는 반복 작업을 설정하고 첫 번째 확인을 실행한 후 현재 1위 기사를 보고합니다. 이후 실행에서는 메모리 내 데이터와 비교하여 변경 사항을 표시합니다.

여기서 3가지 시스템이 협력합니다. Bright Data가 페이지를 스크래핑하고, Nanobot 메모리가 결과를 저장하며, LLM이 기존 데이터와 새 데이터를 비교합니다. URL을 경쟁사 가격 페이지, 구인 게시판 또는 제품 목록으로 대체하면 자동 추적이 가능합니다.

Nanobot AI agent monitoring Hacker News with cron scheduling and persistent memory using Bright Data web scraping

다음 점검 시 에이전트는 페이지를 다시 스크래핑하고, 메모리와 비교하여 변경된 내용을 보고합니다:

Nanobot AI agent detecting changes on Hacker News by comparing current results against stored memory

문제 해결

MCP 서버 연결 실패

Bright Data MCP 서버는 npx를 통해 실행되며 Node.js(v18+) 및 npm이 필요합니다. node --version 명령어로 확인하세요.

구조화된 데이터 추출기에서 발생하는 타임아웃 오류

web_data_amazon_product 및 web_data_linkedin_company_profile과 같은 도구는 결과를 반환하는 데 30~90초가 소요될 수 있습니다. 타임아웃이 발생하면 구성 파일의 toolTimeout을 늘리십시오(2단계 구성 파일은 120초를 사용합니다).

“Zone not found” 또는 존 생성 오류

MCP 서버는 첫 실행 시 Bright Data 계정에 필요한 프록시 존(mcp_unlocker, mcp_browser)을 자동 생성합니다. 존 생성 실패 시 API 토큰의 권한을 확인하세요. 또는 Bright Data 대시보드에서 수동으로 존을 생성할 수 있습니다.

무료 티어에서 구조화된 데이터 추출기 오류 발생

무료 티어에는 검색 및 스크래핑 도구( search_engine 및 scrape_as_markdown 포함)만 포함됩니다. 구조화된 데이터 추출기(Amazon, LinkedIn, Instagram)는 Pro 티어가 필요합니다.

에이전트가 잘못된 도구를 선택하거나 Bright Data 도구를 무시함

maxToolIterations를 충분히 높게 설정하세요(40이 효과적임). 온도(temperature)는 낮게(0.1) 설정하세요. 온도가 높을수록 LLM의 도구 선택이 예측하기 어려워집니다.

FAQ

나노봇은 무료인가요?

예. Nanobot은 오픈 소스(MIT 라이선스)이며 무료로 사용 가능합니다. 프레임워크 자체에는 사용료나 속도 제한이 없습니다. LLM 공급자(예: Anthropic 또는 OpenAI)와 Bright Data용 API 키가 필요하며, 이들은 각각 별도의 요금제를 적용합니다.

Bright Data MCP 서버 비용은 얼마입니까?

무료 티어에는 검색 및 스크래핑 도구를 위한 월 5,000회 요청이 포함됩니다. 구조화된 데이터 추출기, 브라우저 자동화 및 더 많은 요청량은 프로 티어가 필요합니다. 가격은 요청 유형과 양에 따라 차등 적용됩니다. 현재 요금, 요청당 비용 및 양별 티어에 대한 전체 가격 내역을 참조하세요.

Claude 대신 GPT-4나 다른 LLM을 사용할 수 있나요?

네. Nanobot은 LiteLLM을 통해 OpenAI, Google Gemini, DeepSeek, OpenRouter 등 17개 LLM 공급자를 지원합니다. 설정 파일의 모델 필드(예: "openai/gpt-4o")를 변경하고 providers 섹션에 해당 공급자의 API 키를 추가하세요. 모델에 따라 도구 사용 성능이 다르므로 사용 사례에 맞춰 테스트해 보세요.

웹사이트가 요청을 차단하면 어떻게 되나요?

Bright Data 웹 언락커가 자동으로 처리합니다. 수백만 개의 주거용 및 데이터센터 IP를 순환하고, 브라우저 지문 정보를 관리하며, 백그라운드에서 CAPTCHA를 해결합니다. 한 방법이 실패하면 다른 구성으로 재시도합니다. 지원 웹사이트에서 성공률은 99%를 초과합니다.

스크래핑된 데이터는 실시간인가요, 캐시된 것인가요?

검색 및 스크래핑 도구(search_engine, scrape_as_markdown)는 모든 요청에 대해 실시간 데이터를 반환합니다. 구조화된 데이터 추출기(Amazon 및 LinkedIn 포함)는 더 빠른 응답 시간을 위해 캐시된 결과를 반환할 수 있습니다. Bright Data는 캐시를 순차적으로 새로 고칩니다. 보장된 최신 데이터가 필요한 경우, 스크래핑 도구는 항상 페이지를 실시간으로 가져옵니다.

다음 단계

다음 단계는 구축한 내용을 확장합니다:

메시징 채널에 배포 – nanobot 게이트웨이를 실행하여 텔레그램, 디스코드 또는 슬랙에 에이전트를 연결하세요
자동화 작업 예약 – 가격 추적, 뉴스 알림, 경쟁사 분석 등 24시간 모니터링을 위해 cron 작업을 활용하세요
사용자 정의 스킬 구축 – 에이전트가 따를 수 있는 재사용 가능한 워크플로를 마크다운 파일로 정의하세요. 예시는 스킬 문서에서 확인하세요

Bright Data MCP 서버를 사용하는 다른 에이전트 프레임워크( CrewAI, Google ADK, n8n + OpenAI)에 대한 가이드는 해당 가이드를 참조하세요.

Bright Data MCP 서버를 무료로 시작해 보세요.

문의하기 무료 체험 시작하기

Nanobot과 Bright Data로 AI 웹 스크래핑 에이전트 구축하기

요약: