AI

LlamaIndex를 사용하여 웹 데이터 접근이 가능한 AI 에이전트 구축

LlamaIndex와 Bright Data를 활용하여 실시간 웹 데이터 처리 기능을 갖춘 AI 에이전트를 만드는 방법을 알아보세요. 설정부터 Python 프로젝트 통합까지 단계별로 안내합니다.
1 분 읽기
Build AI Agents with LlamaIndex & Bright Data

이 가이드에서는 다음을 배울 수 있습니다:

  • 라마인덱스(LlamaIndex)란 무엇이며 왜 널리 사용되는지.
  • AI 에이전트 개발에 있어 LlamaIndex의 독보적인 장점, 특히 내장된 데이터 통합 지원 기능.
  • LlamaIndex를 활용하여 일반 사이트와 특정 검색 엔진 모두에서 데이터 검색 기능을 갖춘 AI 에이전트를 구축하는 방법.

자, 시작해 보겠습니다!

LlamaIndex란 무엇인가요?

LlamaIndex는 LLM 기반 애플리케이션 구축을 위한 오픈 소스 Python 데이터 프레임워크입니다.

관련 정보를 찾고 검색하고, 통찰력을 종합하고, 상세한 보고서를 생성하고, 자동화된 조치를 취하는 등, 생산에 바로 사용할 수 있는 AI 워크플로우와 에이전트를 만드는 데 도움이 됩니다.

LlamaIndex는 42,000개 이상의 GitHub 스타를 보유한 AI 에이전트 구축을 위한 가장 빠르게 성장하는 라이브러리 중 하나입니다:

The GitHub star evolution for LlamaIndex

LlamaIndex AI 에이전트에 데이터 통합하기

다른 AI 에이전트 구축 기술과 달리 LlamaIndex는 데이터에 중점을 둡니다. 그래서 이 프로젝트의 GitHub 저장소는 LlamaIndex를 “데이터 프레임워크”로 정의합니다.

특히 LlamaIndex는 대규모 언어 모델(LLM)의 가장 큰 한계점 중 하나인 실시간 사건에 대한 지식 부족 문제를 해결합니다. 이 한계는 LLM이 정적 데이터셋으로 훈련되며 최신 정보에 대한 내장적 접근성을 갖추지 못했기 때문에 발생합니다.

이 문제를 해결하기 위해 LlamaIndex는 다음과 같은 기능을 지원하는 도구를 도입합니다:

  • API, PDF, 워드 문서, SQL 데이터베이스, 웹 페이지 등에서 데이터를 수집하기 위한 데이터 커넥터를 제공합니다.
  • 인덱스, 그래프 및 LLM 소비에 최적화된 기타 형식을 사용하여 데이터를 구조화합니다.
  • 고급 검색 기능을 지원하여 LLM 프롬프트를 입력하면 관련 맥락에 기반한 지식 강화 응답을 받을 수 있습니다.
  • LangChain, Flask, Docker, ChatGPT 등 외부 프레임워크와의 원활한 통합을 지원합니다.

다시 말해, LlamaIndex로 구축한다는 것은 일반적으로 핵심 라이브러리와 사용 사례에 맞춤화된 플러그인/통합 세트를 결합하는 것을 의미합니다. 예를 들어, LlamaIndex 웹 스크래핑 시나리오를 살펴보세요.

현재 웹은 지구상에서 가장 방대하고 포괄적인 데이터 소스입니다. 따라서 AI 에이전트는 응답의 근거를 마련하고 작업을 더 효과적으로 수행하기 위해 웹에 접근할 수 있어야 합니다. 바로 여기서 LlamaIndex Bright Data 도구가 활용됩니다!

Bright Data 도구를 통해 LlamaIndex AI 에이전트는 다음과 같은 기능을 획득합니다:

  • 모든 웹페이지에서 실시간 웹 스크래핑 기능.
  • Amazon, LinkedIn, Zillow, Facebook 등 다양한 사이트의 구조화된 제품 및 플랫폼 데이터.
  • 모든 검색 쿼리에 대한 검색 엔진 결과 검색 능력.
  • 요약이나 시각적 분석에 유용한 전체 페이지 스크린샷을 통한 시각적 데이터 캡처.

다음 장에서 이 통합이 어떻게 작동하는지 확인해 보세요!

Bright Data 도구를 사용하여 웹 소스를 확보할 수 있는 LlamaIndex 에이전트 구축하기

이 단계별 섹션에서는 LlamaIndex를 사용하여 Bright Data 도구에 연결하는 Python AI 에이전트를 구축하는 방법을 배웁니다.

이 통합을 통해 에이전트에 강력한 웹 데이터 접근 기능을 부여할 수 있습니다. 구체적으로, AI 에이전트는 모든 웹 페이지에서 콘텐츠를 추출하고, 실시간 검색 엔진 결과를 가져오는 등의 기능을 획득하게 됩니다. 자세한 내용은 공식 문서를 참조하십시오.

아래 단계를 따라 LlamaIndex를 사용하여 Bright Data 기반 AI 에이전트를 구축하세요!

필수 조건

이 튜토리얼을 따라하려면 다음이 필요합니다:

  • 컴퓨터에 설치된Python 3.9 이상 (최신 버전 권장).
  • BrightDataToolSpec 통합을 위한 Bright Data API 키.
  • 지원되는 LLM 공급자의 API 키 (이 가이드에서는 API를 통해 무료로 사용 가능한 Gemini를 사용합니다. LlamaIndex에서 지원하는 다른 공급자를 자유롭게 사용해도 됩니다).

아직 Gemini 또는 Bright Data API 키가 없더라도 걱정하지 마세요. 다음 단계에서 두 키를 생성하는 방법을 안내해 드리겠습니다.

1단계: Python 프로젝트 생성

터미널을 열고 LlamaIndex AI 에이전트 프로젝트용 새 폴더를 생성하세요:

mkdir llamaindex-bright-data-agent

llamaindex-bright-data-agent/ 폴더에는 Bright Data로 구동되는 웹 데이터 검색 기능을 갖춘 AI 에이전트 코드가 포함됩니다.

다음으로 프로젝트 디렉터리로 이동하여 가상 환경을 생성합니다:

cd llamaindex-bright-data-agent
python -m venv venv

이제 선호하는 Python IDE에서 프로젝트 폴더를 엽니다. Visual Studio Code(Python 확장 기능 포함) 또는 PyCharm Community Edition을 권장합니다.

폴더 루트에 agent. py라는 새 파일을 생성하세요. 프로젝트 구조는 다음과 같아야 합니다:

llamaindex-bright-data-agent/
├── venv/
└── agent.py

터미널에서 가상 환경을 활성화하세요. Linux 또는 macOS에서는 다음 명령어를 실행합니다:

source venv/bin/activate

Windows에서는 다음과 같이 실행하세요:

venv/Scripts/activate

다음 단계에서는 필요한 패키지 설치 방법을 안내해 드리겠습니다. 하지만 지금 모두 설치하고 싶다면 다음 명령어를 실행하세요:

pip install python-dotenv llama-index-tools-brightdata llama-index-llms-google-genai llama-index

참고: 본 튜토리얼은 Gemini를 LLM 공급자로 사용하므로 llama-index-llms-gemini를 설치합니다. 다른 공급자를 사용할 계획이라면 해당 공급자에 맞는 LlamaIndex 통합 모듈을 설치하세요.

이제 모든 준비가 완료되었습니다! LlamaIndex와 Bright Data 도구를 사용하여 AI 에이전트를 구축할 수 있는 Python 개발 환경이 준비되었습니다.

2단계: 환경 변수 설정

LlamaIndex 에이전트는 Gemini 및 Bright Data와 같은 외부 서비스에 API 키를 통해 연결됩니다. 보안상의 이유로 Python 코드에 API 키를 직접 하드코딩하지 마십시오. 대신 환경 변수를 사용하여 비공개로 유지하세요.

환경 변수 작업을 쉽게 하려면 python-dotenv 라이브러리를 설치하세요. 활성화된 가상 환경에서 다음 명령을 실행하세요:

pip install python-dotenv

그런 다음 agent.py 파일을 열고 상단에 다음 줄을 추가하여 .env 파일에서 변수를 로드하세요:

from dotenv import load_dotenv

load_dotenv()

load_dotenv() 함수는 프로젝트 루트 디렉터리에서 .env 파일을 찾아 그 값들을 자동으로 환경에 로드합니다.

이제 agent.py 파일과 동일한 위치에 다음과 같은 .env 파일을 생성하세요:

llamaindex-bright-data-agent/
├── venv/
├── .env # <-------------
└── agent.py

완벽합니다! 이제 타사 서비스의 민감한 API 자격 증명을 안전하게 관리할 수 있는 방법을 설정했습니다. .env 파일에 필요한 환경 변수를 채워 초기 설정을 계속해 보세요.

3단계: Bright Data 시작하기

현재 시점에서 BrightDataToolSpec 은 LlamaIndex 내에서 다음과 같은 도구들을 제공합니다:

  • scrape_as_markdown: 웹페이지의 원본 콘텐츠를 스크랩하여 마크다운 형식으로 반환합니다.
  • get_screenshot: 웹페이지 전체 화면 스크린샷을 캡처하여 로컬에 저장합니다.
  • search_engine: Google, Bing, Yandex 등 검색 엔진에서 검색 쿼리를 수행합니다. 전체 SERP 또는 해당 데이터의 JSON 구조화된 버전을 반환합니다.
  • web_data_feed: 유명 플랫폼에서 구조화된 JSON 데이터를 가져옵니다.

첫 세 가지 도구(scrape_as_markdown, get_screenshot, search_engine) 는 Bright Data의 Web Unlocker API를 사용합니다. 이 솔루션은 엄격한 봇 방지 기능이 적용된 사이트를 포함해 모든 사이트에서 웹 스크래핑 및 스크린샷 촬영을 가능하게 합니다. 또한 모든 주요 검색 엔진의 SERP 웹 데이터 접근을 지원합니다.

반면 web_data_feed는 Bright Data의 Web Scraper API를 활용합니다. 이 엔드포인트는 Amazon, Instagram, LinkedIn, ZoomInfo 등 사전 정의된 지원 플랫폼 목록에서 미리 구조화된 데이터를 반환합니다.

이 도구들을 통합하려면 다음을 수행해야 합니다:

  1. Bright Data 대시보드에서 Web Unlocker 솔루션을 활성화하세요.
  2. Web Unlocker와 Web Scraper API 모두에 대한 접근 권한을 부여하는 Bright Data API 토큰을 가져옵니다.

설정을 완료하려면 아래 단계를 따르세요!

먼저, Bright Data 계정이 없다면 [계정 생성](https://brightdata.com/sign-up)하세요. 계정이 있다면 로그인 후 대시보드를 엽니다. “프록시 제품 받기” 버튼을 클릭하세요:

Clicking the “Get proxy products” button in your Bright Data account

“프록시 및 스크래핑 인프라” 페이지로 이동합니다:

Note the Web Unlocker API zone

위와 같이 활성 상태의 웹 언락커 API 영역이 이미 표시된다면 준비 완료입니다. 영역 이름(이 경우unlocker)은 나중에 코드에서 필요하므로 중요합니다.

아직 없는 경우, 아래로 스크롤하여 “Web Unlocker API” 섹션에서 “Create zone”을 클릭하세요:

Clicking the “Create zone” on the “Web Unlocker API” card

새 영역에 unlocker와 같은 이름을 지정하고, 성능 향상을 위해 고급 기능을 활성화한 후 “추가”를 클릭하세요:

Configuring your new Web Unlocker API zone

존이 생성되면 해당 존의 구성 페이지로 자동 이동됩니다:

The “unlocker” Web Unlocker API zone page

활성화 토글이 “Active”로 설정되어 있는지 확인하세요. 이는 영역이 올바르게 구성되어 사용 준비가 되었음을 의미합니다.

다음으로 공식 Bright Data 가이드에 따라 API 키를 생성하세요. 생성된 키는 다음과 같이 .env 파일에 안전하게 저장하세요:

BRIGHT_DATA_API_KEY="<YOUR_BRIGHT_DATA_API_KEY>"

<YOUR_BRIGHT_DATA_API_KEY> 자리 표시자를 실제 API 키 값으로 대체하세요.

훌륭합니다! 이제 Bright Data 도구를 LlamaIndex 에이전트 스크립트에 통합할 차례입니다.

4단계: LlamaIndex Bright Data 도구 설치 및 구성

agent.py 파일에서 환경 변수에서 Bright Data API 키를 불러오는 것으로 시작하세요:

BRIGHT_DATA_API_KEY = os.getenv("BRIGHT_DATA_API_KEY")

Python 표준 라이브러리에서os를 임포트하는 것을 잊지 마세요:

import os

가상 환경을 활성화한 상태에서 LlamaIndex Bright Data 도구 패키지를 설치하세요:

pip install llama-index-tools-brightdata

agent.py 파일에서 BrightDataToolSpec 클래스를 임포트하세요:

from llama_index.tools.brightdata import BrightDataToolSpec

그런 다음 API 키와 존 이름을 사용하여 BrightDataToolSpec 인스턴스를 생성합니다:

brightdata_tool_spec = BrightDataToolSpec(
    api_key=BRIGHT_DATA_API_KEY,
    zone="<BRIGHT_DATA_WEB_UNLOCKER_API_ZONE_NAME>", # 실제 값으로 대체
    verbose=True, # 개발 중 유용함
)

<BRIGHT_DATA_WEB_UNLOCKER_API_ZONE_NAME> 자리 표시자를 앞서 설정한 Web Unlocker API 영역 이름으로 대체하세요. 이 경우 unlocker입니다:

brightdata_tool_spec = BrightDataToolSpec(
    api_key=BRIGHT_DATA_API_KEY,
    zone="unlocker",
    verbose=True,
)

verbose 옵션이 True로 설정되었음을 유의하십시오. 이는 LlamaIndex 에이전트가 Bright Data를 통해 요청을 수행할 때 발생하는 유용한 정보를 출력하므로 개발 중에 도움이 됩니다.

그런 다음 에이전트에서 사용 가능한 도구 목록으로 도구 사양을 변환합니다:

brightdata_tools = brightdata_tool_spec.to_tool_list()

훌륭합니다! Bright Data 도구가 이제 통합되어 LlamaIndex 에이전트를 구동할 준비가 되었습니다. 다음 단계는 LLM을 연결하는 것입니다.

단계 #5: LLM 모델 준비

선택한 LLM 공급자인 Gemini를 사용하려면 필요한 통합 패키지를 설치하세요:

pip install llama-index-llms-google-genai

다음으로 설치된 패키지에서 GoogleGenAI 클래스를 임포트합니다:

from llama_index.llms.google_genai import GoogleGenAI

이제 Gemini LLM을 다음과 같이 초기화합니다:

llm = GoogleGenAI(
    model="models/gemini-2.5-flash",
)

이 예시에서는 gemini-2.5-flash 모델을 사용합니다. 필요에 따라 다른 지원되는 Gemini 모델로 교체할 수 있습니다.

GoogleGenAI는 백그라운드에서 GEMINI_API_KEY라는 환경 변수를 자동으로 검색합니다. 설정하려면 .env 파일을 열고 다음 줄을 추가하세요:

GEMINI_API_KEY="<YOUR_GEMINI_API_KEY>"

<YOUR_GEMINI_API_KEY> 자리 표시자를 실제 Gemini API 키로 대체하세요. 키가 없다면 공식 가이드를 따라 무료로 발급받을 수 있습니다.

참고: 다른 LLM 제공자를 선호하는 경우, LlamaIndex는 다양한 옵션을 지원합니다. 설정 방법은 공식 LlamaIndex 문서를 참조하세요.

잘하셨습니다! 이제 웹 데이터 검색 기능을 갖춘 LlamaIndex 에이전트를 구축하기 위한 핵심 구성 요소들이 모두 연결되었습니다.

6단계: LlamaIndex 에이전트 생성

먼저, 메인 LlamaIndex 패키지를 설치하세요:

pip install llama-index

그런 다음 agent.py 파일에서 FunctionAgent 클래스를 임포트하세요:

from llama_index.core.agent.workflow import FunctionAgent

FunctionAgent는 LlamaIndex AI 에이전트의 특수 유형으로, 앞서 구성한 Bright Data 도구와 같은 외부 도구와 상호작용할 수 있습니다.

다음과 같이 LLM 및 Bright Data 도구로 에이전트를 초기화하세요:

agent = FunctionAgent(
    tools=brightdata_tools,
    llm=llm,
    verbose=True, # 개발 중 유용함
)

이렇게 하면 LLM을 사용하여 사용자 입력을 처리하고 필요에 따라 Bright Data 도구를 호출하여 정보를 검색할 수 있는 AI 에이전트가 설정됩니다. verbose=True 플래그는 개발 중에 에이전트가 각 요청에 어떤 도구를 사용하는지 표시하므로 유용합니다.

잘하셨습니다! LlamaIndex와 Bright Data의 통합이 완료되었습니다. 다음 단계는 대화형 사용을 위한 REPL을 구축하는 것입니다.

7단계: REPL 구현

REPL은 “Read-Eval-Print Loop(읽기-평가-출력 루프)”의 약자로, 명령어를 입력하면 즉시 평가되어 결과를 확인할 수 있는 대화형 프로그래밍 패턴입니다. 이 맥락에서 여러분은:

  1. 명령어나 작업을 입력합니다.
  2. AI 에이전트가 이를 평가하고 처리하도록 합니다.
  3. 응답을 확인합니다.

이 루프는 "exit"를 입력할 때까지 무한히 계속됩니다.

AI 에이전트와 작업할 때, 단편적인 프롬프트를 보내는 것보다 REPL이 더 실용적인 경향이 있습니다. 그 이유는 LlamaIndex 에이전트가 세션 컨텍스트를 유지할 수 있게 하여, 이전 상호작용에서 학습함으로써 응답 품질을 향상시킬 수 있기 때문입니다.

이제 agent. py에 아래와 같이 REPL 로직을 구현하세요:

async def main():
    print("웹 데이터 검색을 위한 Bright Data 도구를 탑재한 Gemini 기반 에이전트입니다. 종료하려면 'exit'를 입력하세요.n")

    while True:
        # CLI에서 AI 에이전트에 대한 사용자 요청 읽기
        request = input("요청 -> ")

        # 사용자가 "exit" 입력 시 종료
        if request.strip().lower() == "exit":
            print("n에이전트 종료됨")
            break

        try:
            # 요청 실행
            response = await agent.run(request)
            print(f"n응답 ->:n{response}n")
        except Exception as e:
            print(f"n오류: {str(e)}n")

if __name__ == "__main__":
    asyncio.run(main())

이 REPL:

  1. input()을 사용하여 명령줄에서 사용자 입력을 읽습니다.
  2. Gemini와 Bright Data가 제공하는 LlamaIndex 에이전트를 agent.run()으로 활용하여 평가합니다.
  3. 응답을 콘솔에 다시 출력합니다.

asyncio를 반드시 import하세요:

import asyncio

훌륭합니다! LlamaIndex AI 에이전트가 준비되었습니다.

8단계: 모든 것을 통합하고 에이전트 실행하기

이제 agent.py 파일에 다음 내용이 포함되어야 합니다:

from dotenv import load_dotenv
import os
from llama_index.tools.brightdata import BrightDataToolSpec
from llama_index.llms.google_genai import GoogleGenAI
from llama_index.core.agent.workflow import FunctionAgent
import asyncio

# .env 파일에서 환경 변수 로드
load_dotenv()

# 환경 변수에서 Bright Data API 키 읽기
BRIGHT_DATA_API_KEY = os.getenv("BRIGHT_DATA_API_KEY")

# Bright Data 도구 설정
brightdata_tool_spec = BrightDataToolSpec(
    api_key=BRIGHT_DATA_API_KEY,
    zone="unlocker",
    verbose=True, # 개발 시 유용함)

brightdata_tools = brightdata_tool_spec.to_tool_list()

# Gemini 연결 구성
llm = GoogleGenAI(
    model="models/gemini-2.5-flash",
)

# Gemini 기반이며 Bright Data 도구와 연결된 LlamaIndex 에이전트 생성
agent = FunctionAgent(
    tools=brightdata_tools,
    llm=llm,
    verbose=True, # 개발 중 유용함)


async def main():
    print("웹 데이터 검색을 위한 Bright Data 도구를 갖춘 Gemini 기반 에이전트. 종료하려면 'exit' 입력.n")

    while True:
        # CLI에서 AI 에이전트에 대한 사용자 요청 읽기
        request = input("요청 -> ")

        # 사용자가 "exit" 입력 시 실행 종료
        if request.strip().lower() == "exit":
            print("n에이전트 종료됨")
            break

        try:
            # 요청 실행
            response = await agent.run(request)
            print(f"n응답 ->:n{response}n")
        except Exception as e:
            print(f"n오류: {str(e)}n")

if __name__ == "__main__":
    asyncio.run(main())

다음 명령어로 에이전트 스크립트를 실행하세요:

python agent.py

스크립트가 시작되면 다음과 같은 내용이 표시됩니다:

The REPL of your agent printed in the terminal

터미널에 다음과 같이 프롬프트를 입력하세요:

아마존 페이지 "https://www.amazon.com/Death-Stranding-2-Beach-PlayStation-5/dp/B0F19GPDW3/"의 데이터를 사용하여 "Death Stranding 2" 제품에 대한 가장 중요한 정보를 요약한 보고서를 생성하세요.

결과는 다음과 같습니다:

How the LlamaIndex + Bright Data AI agent addresses the prompt

꽤 빠르게 처리되었으니, 어떤 과정이 진행되었는지 살펴보겠습니다:

  1. 에이전트는 작업에 아마존 제품 데이터가 필요함을 인식하여 web_data_feed 도구를 다음과 같은 입력값으로 호출합니다: {"source_type": "amazon_product", "url": "https://www.amazon.com/Death-Stranding-2-Beach-PlayStation-5/dp/B0F19GPDW3/"}
  2. 해당 도구는 Bright Data의 Amazon Web Scraper API를 비동기적으로 호출하여 구조화된 제품 데이터를 가져옵니다.
  3. JSON 응답이 반환되면 에이전트가 이를 Gemini LLM에 공급합니다.
  4. Gemini는 최신 데이터를 처리하여 명확하고 정확한 요약본을 생성합니다.

즉, 프롬프트를 제공받으면 에이전트가 최적의 도구를 지능적으로 선택합니다. 이 경우 web_data_feed가 해당 도구입니다. 이 도구는 비동기 방식으로 지정된 아마존 페이지에서 실시간 상품 데이터를 가져옵니다. 이후 LLM은 이를 활용해 의미 있는 요약문을 생성합니다.

이 경우 AI 에이전트는 다음과 같이 응답했습니다:

아마존 제품 페이지를 기반으로 한 "Death Stranding 2: On The Beach - PS5" 요약 보고서입니다:

**제품 보고서: Death Stranding 2: On The Beach - PS5**

*   **제목:** Death Stranding 2: On The Beach - PS5
*   **브랜드/제조사:** Sony Interactive Entertainment
*   **가격:** 69.99 USD
*   **출시일:** 2026년 6월 26일
*   **구매 가능 여부:** 사전 주문 가능.

**설명:**
"데스 스트랜딩 2: 온 더 비치"는 전설적인 게임 제작자 코지마 히데오의 차기작으로, 플레이스테이션 5 전용 타이틀입니다. 플레이어는 샘과 동료들과 함께 인류의 멸종을 막기 위한 새로운 여정을 시작하며, 초자연적인 적과 장애물로 가득한 세계를 가로지르게 됩니다. 이 게임은 인간적 유대라는 주제를 탐구하며, 독특한 스토리와 게임플레이를 통해 다시 한번 세상을 바꿀 것을 약속합니다.

**주요 특징:**
*   **사전 예약 보너스:** 콴카 홀로그램, 배틀 스켈레톤 실버(LV1, LV2, LV3), 부스트 스켈레톤 실버(LV1, LV2, LV3), 보카 실버(LV1, LV2, LV3) 포함.
*   **오픈 월드:** 독특한 도전 과제가 있는 광활하고 다양한 오픈 월드 환경을 제공합니다.
*   **게임플레이 선택:** 전투와 은신에 대한 다양한 접근 방식을 제공하여 공격적인 전술, 은신, 위험 회피 중 선택할 수 있습니다.
*   **새로운 스토리:** 원작 데스 스트랜딩의 이야기를 이어가며, 예상치 못한 반전이 있는 샘의 새로운 여정을 따라갑니다.
*   **플레이어 상호작용:** 플레이어의 행동이 다른 플레이어들이 게임 세계와 상호작용하는 방식에 영향을 미칠 수 있습니다.

**카테고리 및 순위:**
*   **카테고리:** 비디오 게임, 플레이스테이션 5, 게임
*   **베스트셀러 순위:** 비디오 게임 부문 10위, 플레이스테이션 5 게임 부문 1위

**판매 실적:**
*   **지난 한 달간 판매량:** 7,000개

AI 에이전트가 Bright Data 도구 없이는 이러한 결과를 달성할 수 없음을 주목하십시오. 그 이유는 다음과 같습니다:

  1. 선택된 아마존 상품은 신제품이며, 대규모 언어 모델(LLM)은 이러한 최신 데이터로 훈련되지 않았습니다.
  2. LLM은 자체적으로 실시간 웹 페이지를 스크래핑하거나 접근하지 못할 수 있습니다.
  3. 악명 높은 아마존 CAPTCHA와 같은 강력한 봇 방지 시스템으로 인해아마존 제품 스크래핑은 특히 어렵습니다.

중요: 다른 프롬프트를 시도하면 에이전트가 지상 기반 응답을 생성하는 데 필요한 데이터를 검색하기 위해 자동으로 구성된 적절한 도구를 선택하여 사용함을 확인할 수 있습니다.

자, 이제 Bright Data와의 통합으로 구동되는 최상급 웹 데이터 접근 기능을 갖춘 LlamaIndex AI 에이전트를 보유하게 되었습니다.

결론

이 글에서는 Bright Data 도구를 활용하여 LlamaIndex로 웹 데이터에 실시간으로 접근할 수 있는 AI 에이전트를 구축하는 방법을 배웠습니다.

이 통합을 통해 에이전트는 공개 웹 콘텐츠를 마크다운 형식, 구조화된 JSON 형식, 심지어 스크린샷 형태로도 가져올 수 있습니다. 이는 웹사이트와 검색 엔진 모두에서 가능합니다.

여기서 소개한 통합은 기본적인 예시에 불과하다는 점을 명심하세요. 더 고급 에이전트를 구축하려면 실시간 웹 데이터를 검색, 검증, 변환할 수 있는 신뢰할 수 있는 도구가 필요합니다. 바로 이를 위해 Bright Data의 AI 인프라가 구축되었습니다.

지금 바로 무료 Bright Data 계정을 생성하고 AI 활용이 가능한 데이터 도구를 탐색해 보세요!