Evaluations & Observability - Measure What Matters

평가 및 가시성 – 중요한 것을 측정하라

런칭 위크의 마지막 날을 맞이했습니다. 지난 4일간 여러분께 프로덕션 등급 AI 에이전트 구축 도구를 제공했습니다:

1일차: 컨텍스트 오염을 제거하는 도구 그룹
2일차: 정밀한 맞춤 설정을 위한 커스텀 도구
3일차: 효율 극대화를 위한 토큰 최적화
4일차: 사일로를 허무는 엔터프라이즈 통합

오늘은 고객들로부터 가장 많이 요청받은 사항 중 하나를 다룹니다: 에이전트가 예상대로 작동하는지 어떻게 알 수 있을까요?

이번에 출시하는 기능: 평가 프레임워크 와 가시성 대시보드.

과제: 에이전트 동작에 대한 가시성 확보

전자상거래 에이전트를 구축했습니다. 적절한 도구를 선정했습니다. 토큰 사용을 최적화했습니다. 이제 프로덕션 환경에서 가시성이 필요합니다:

실제로 호출되는 도구는 무엇인가요?
도구가 올바르게 사용되고 있는가?
에이전트는 어디에서 실패하고 있나요?
실제 사용량과 비용은 얼마인가요?
새로운 도구 구성이 성공률에 어떤 영향을 미치나요?

가시성이 없다면, 당신은 눈감고 비행하는 것과 같습니다. 측정할 수 없는 것은 최적화할 수 없습니다.

특히 도구 그룹을 사용할 때 이는 매우 중요합니다. groups=ecommerce에서 사용자 지정 도구 선택으로 전환할 때 중요한 워크플로를 실수로 중단시키지 않았습니까? 고객이 불만을 제기하기 전까지는 알 수 없습니다.

해결책: 이중 가시성

두 가지 상호 보완적인 시스템으로 완벽한 가시성 스택을 구축했습니다:

1. MCP 평가 프레임워크 (개발 및 테스트)

mcpjam 기반 자동화 테스트 프레임워크로, 프로덕션 배포 전 에이전트 동작 검증

2. 가시성 대시보드 (프로덕션 모니터링)

Bright Data 제어판 내 실시간 사용 분석 대시보드로, 프로덕션 환경의 모든 API 호출을 추적합니다

각 계층을 자세히 살펴보겠습니다.

레이어 1: MCP 평가 프레임워크

mcpjam이란 무엇인가요?

mcpjam은 모델 컨텍스트 프로토콜 서버를 위한 공식 평가 CLI입니다. “AI 에이전트 통합 테스트”라고 생각하시면 됩니다.

테스트 케이스를 자연어 쿼리로 작성하고 호출할 도구를 지정하면 mcpjam이 에이전트를 자동으로 워크플로에 실행합니다.

사용 방법

출시 첫날부터 제공된 모든 도구 그룹에 대한 포괄적인 평가 스위트를 구축했습니다. 새로운 도구 선택을 구성할 때 배포 전에 모든 것이 제대로 작동하는지 확인하기 위해 이러한 평가를 실행할 수 있습니다.

프로젝트 구조

mcp-evals/
├── server-configs/           # 도구 그룹별 서버 연결 구성
│   ├── server-config.ecommerce.json
│   ├── server-config.social.json
│   ├── server-config.business.json
│   ├── server-config.browser.json
│   └── ...
├── tool-groups.json/         # 도구 그룹별 테스트 케이스
│   ├── tool-groups.ecommerce.json
│   ├── tool-groups.social.json
│   ├── tool-groups.business.json
│   ├── tool-groups.browser.json
│   └── ...
└── llms.json                 # LLM 제공자 API 키

각 도구 그룹은 에이전트가 처리할 수 있어야 하는 실제 쿼리로 구성된 자체 테스트 스위트를 갖습니다.

예시: 전자상거래 평가

mcp-evals/tool-groups.json/tool-groups.ecommerce.json에서 발췌:

{
  "title": "전자상거래 테스트 - 아마존 제품 검색",
  "query": "아마존에서 무선 헤드폰을 검색하고 리뷰가 있는 상위 제품들을 보여주세요",
  "runs": 1,
  "model": "gpt-5.1-2025-11-13",
  "provider": "openai",
  "expectedToolCalls": ["web_data_amazon_product_search"],
  "selectedServers": ["ecommerce-server"],
  "advancedConfig": {
    "instructions": "당신은 사용자가 아마존에서 제품을 찾을 수 있도록 돕는 쇼핑 어시스턴트입니다",
    "temperature": 0.1,
    "maxSteps": 5,
    "toolChoice": "required"
  }
}

이 테스트는 다음을 검증합니다:

에이전트가 사용자 질의를 올바르게 해석하는지
올바른 도구(web_data_amazon_product_search)를 호출합니다
적절한 매개변수(제품 키워드, 아마존 URL)를 전달하는지
설정된 시간 제한 내에 완료하는지
일관된 응답을 반환하는지

실행 평가: 빠른 시작

mcpjam 설치:

npm install -g @mcpjam/cli

전자상거래 도구 그룹 테스트 실행:

mcpjam evals run 
  -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json 
  -e mcp-evals/server-configs/server-config.ecommerce.json 
  -l mcp-evals/llms.json

예상 출력:

테스트 실행 중
서버 1개 연결됨: ecommerce-server
총 13개 도구 발견됨
테스트 2개 실행 중

테스트 1: 전자상거래 테스트 - 아마존 제품 검색
openai:gpt-5.1-2025-11-13 사용

실행 1/1
사용자: 아마존에서 무선 헤드폰을 검색하고 리뷰가 있는 상위 제품들을 보여주세요
[tool-call] web_data_amazon_product_search
{
  "keyword": "wireless headphones",
  "url": "https://www.amazon.com"
}
[tool-result] web_data_amazon_product_search
{
  "content": [...]
}
어시스턴트: 현재 아마존에서 인기 있는 무선 헤드폰 몇 가지를 소개해 드릴게요...

예상: [web_data_amazon_product_search]
실제:   [web_data_amazon_product_search]
PASS (23.8초)
토큰 • 입력 20923 • 출력 1363 • 총 22286

테스트 대상

우리는 첫날부터 총 8개 도구 그룹에 대한 평가 스위트를 구축했습니다:

도구 그룹	테스트 커버리지	예시 쿼리
전자상거래	아마존, 월마트, 베스트바이 제품 검색	“소매업체별 아이폰 15 가격 비교”
소셜	틱톡 콘텐츠, 인스타그램 게시물, 트위터 트렌드	“AI 관련 인기 틱톡 동영상 찾기”
비즈니스	LinkedIn 프로필, Crunchbase 자금 조달 데이터, Google Maps 위치	“마이크로소프트 CEO의 LinkedIn 프로필 찾기”
연구	GitHub 저장소, 로이터 뉴스, 학술 자료	“웹 스크래핑용 파이썬 저장소 중 1,000개 이상 스타를 받은 것 찾기”
금융	주식 데이터, 시장 동향, 금융 뉴스	“NVIDIA의 최신 주가 확인하기”
앱 스토어	iOS 앱 스토어, Google Play 리뷰 및 평점	“iOS에서 최고 평점을 받은 명상 앱 찾기”
브라우저	스크래핑 브라우저 자동화 워크플로우	“Amazon으로 이동하여 장바구니에 상품 추가하기”
고급 스크래핑	일괄 작업, 사용자 지정 스크래핑	“사용자 지정 웹사이트에서 제품 데이터 스크래핑”

각 테스트 스위트에는 해당 도메인에서 가장 일반적인 에이전트 워크플로를 다루는 2~5개의 핵심 테스트 케이스가 포함됩니다.

중요성

에벌은 다음과 같은 기능을 제공합니다:

회귀 테스트: 구성 변경 후 매번 에벌을 실행하여 기존 워크플로우가 손상되지 않았는지 확인
성능 벤치마킹: 다양한 LLM 모델 간 토큰 사용량 및 지연 시간 추적
도구 검증: 도구 선택 로직이 올바르게 작동하는지 확인합니다.
문서화: 테스트 케이스가 에이전트가 수행할 수 있는 실행 가능한 예시로 활용됩니다

Day 1의 도구 그룹 이전에는 groups=ecommerce에서 groups=ecommerce,social로 전환 시 에이전트 동작이 중단되는지 체계적으로 테스트할 방법이 없었습니다. 이제 가능합니다.

레이어 2: 가시성 대시보드

실시간 프로덕션 모니터링

평가 기능이 배포 전 테스트를 처리하는 동안, 가시성 대시보드는 프로덕션 사용에 대한 실시간 가시성을 제공합니다.

Bright Data의 제어판 에 새로운 MCP 사용량 패널을 통합하여 MCP 서버를 통해 이루어지는 모든 API 호출을 추적합니다.

표시되는 내용

대시보드에는 다음과 같은 포괄적인 사용량 테이블이 표시됩니다.

날짜	도구	클라이언트 이름	URL	상태
2025-11-26 14:32:15	web_data_amazon_product	my-ecommerce-agent	https://amazon.com/…	성공
2025-11-26 14:31:52	search_engine	my-research-bot	해당 없음	성공
2025-11-26 14:30:18	웹 데이터 링크드인 개인 프로필	리드 생성 에이전트	https://linkedin.com/in/…	성공
2025-11-26 14:29:03	스크래핑_브라우저_네비게이트	자동화 에이전트	https://example.com	실패

주요 지표

1. 도구 사용 현황 분석

가장 자주 호출되는 도구를 확인하세요:

web_data_amazon_product:        1,243회 호출
search_engine:                    892회 호출
web_data_linkedin_person_profile: 634회 호출
scrape_as_markdown:              421회 호출

이는 에이전트에게 가장 가치 있는 데이터셋이 무엇인지 알려줍니다. 사용하지 않는 도구 그룹에 비용을 지불하고 있다면 여기서 확인할 수 있습니다.

2. 클라이언트 식별

각 에이전트 인스턴스는 연결 URL의 client_name 매개변수를 통해 클라이언트 이름으로 태그 지정할 수 있습니다:

npx -y @brightdata/mcp

대시보드는 클라이언트별로 사용량을 그룹화하므로 에이전트/워크플로별 비용을 추적할 수 있습니다.

3. 성공률 대 실패률

에이전트 신뢰성 모니터링:

총 요청 수:     3,190
성공:         3,102 (97.2%)
실패:                88 (2.8%)

실패한 요청을 클릭하면 오류 세부 정보를 확인하고 문제를 디버깅할 수 있습니다.

4. URL 추적

데이터셋 도구의 경우 대시보드에서 어떤 URL/리소스에 접근했는지 표시됩니다. 이를 통해 다음을 수행할 수 있습니다:

– 속도 제한 문제 식별 (동일 도메인에 대한 과도한 요청)
스크래핑 대상 제품/프로필/페이지 추적
규정 준수 감사(에이전트가 제한된 사이트에 접근하지 않도록 확인)

접근 방법

Bright Data 제어판에 로그인
MCP 사용량 (사이드바의 새 섹션)으로 이동
모든 MCP 연결에 대한 실시간 사용량 데이터 확인

필터:

날짜 범위 (지난 24시간, 7일, 30일, 사용자 지정)
도구 이름 (특정 도구별 필터링)
클라이언트 이름(에이전트 인스턴스별 필터링)
상태 (성공/실패)

내보내기:

사용량 데이터를 CSV로 다운로드하여 심층 분석 또는 BI 도구 통합에 활용하세요.

통합 워크플로: 개발 → 프로덕션

두 시스템이 함께 작동하는 방식은 다음과 같습니다:

1단계: 개발(배포 전)

Day 1의featurenpx -y @brightdata/mcp를 사용하여도구 그룹 구성
도구선택을 검증하기 위해평가 실행mcpjamevals run -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json -e mcp-evals/server-configs/server-config.ecommerce.json -l mcp-evals/llms.json
결과 검토: 모든 테스트 통과 확인
- 토큰 사용량이 예산 범위 내인지 확인
- 올바른 도구가 호출되고 있음
- 응답이 정확한지
반복: 테스트 실패 시 도구 선택 또는 시스템 프롬프트 조정

2단계: 프로덕션(배포 후)

클라이언트 이름태깅이 포함된에이전트 배포npx -y @brightdata/mcp
모니터링 대시보드: 실시간 사용량 확인
- 성공률이 평가 결과와 일치하는가?
- 예상치 못한 도구가 호출되고 있나요?
- 속도 제한 또는 인증 문제가 발생했는가?
추세 분석: 시간 경과에 따른 다음 사항 확인:
- 사용량 급증 (확장 필요?)
- 실패 패턴 변화 (도구 성능 저하?)
- 비용 이상 현상 (토큰 사용량 최적화)
최적화: 대시보드 인사이트를 활용하여 도구 선택 개선
- 미사용 도구 제거 (토큰 비용 절감)
- 누락된 도구 추가 (성공률 향상)
- 속도 제한 조정 (스로틀링 방지)
평가 재실행: 구성 변경 후 평가를 다시 실행하여 성능 저하가 없는지 확인

성능 통계: 출시 주간 요약

모든 내용을 종합해 보겠습니다. 5일간의 누적 영향은 다음과 같습니다:

1일차: 도구 그룹

영향: 시스템 프롬프트 토큰 60% 감소
예시: 전체 제품군(200개 이상 도구) → 단일 그룹(25개 도구)
토큰 절감 효과: 요청당 약 8,000 토큰 (시스템 프롬프트)

2일차: 맞춤형 도구

효과: 4개 특정 도구 선택 시 전체 제품군 대비 85% 감소
예시: 전체 제품군(200개 이상 도구) → 맞춤(4개 도구)
토큰 절감: 요청당 약 9,500 토큰 (시스템 프롬프트 기준)

3일차: 토큰 최적화

효과: 도구 응답 토큰 30~60% 감소
예시: 단일 워크플로우 내 웹 스크래핑 + 데이터셋 도구
토큰 절감 효과: 요청당 약 10,250 토큰 (도구 출력)

종합 효과: 전자상거래 에이전트 워크플로

시나리오: “100달러 미만 아마존 헤드폰 상위 5개 찾기, 리뷰 요약”

구성	시스템 프롬프트	도구 출력	총 토큰 수	요청당 비용
전체 제품군 (최적화 없음)	15,000	22,500	37,500	0.45달러
+ 도구 그룹	6,000	22,500	28,500	$0.34
+ 맞춤형 도구	2,250	22,500	24,750	$0.30
+ 토큰 최적화	2,250	12,250	14,500	$0.17

총 절감 효과: 토큰 61.3% 감소, 비용 62.2% 절감

하루 1,000건의 요청으로 계산하면 하루 280달러, 연간 102,200달러를 절약할 수 있습니다.

4일차: 엔터프라이즈 통합

효과: 맞춤형 ETL 오버헤드 제거
시간 절감: 엔지니어링 작업 수주 → 구성 몇 분
유지보수: 제로 (Bright Data에서 처리)

5일차: 평가 도구 + 가시성

효과: 사전적 품질 관리 + 운영 가시성 확보
실패 감소: 성공률 10-15% 향상 (조기 문제 탐지 통해)
비용 절감: 프로덕션 이전에 회귀 현상 포착 (수백 건의 실패 요청 방지)

지금 바로 시작해 보세요

1단계: 첫 평가 실행

# mcpjam 설치
npm install -g @mcpjam/cli

# 웹 MCP 저장소 복제
git clone https://github.com/brightdata/brightdata-mcp-sse.git
cd brightdata-mcp-sse

# mcp-evals/llms.json에서 API 키 구성
# 서버 구성에서 Bright Data 토큰 설정

# 이커머스 평가 실행
mcpjam evals run 
  -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json 
  -e mcp-evals/server-configs/server-config.ecommerce.json 
  -l mcp-evals/llms.json

2단계: 관측 가능성 대시보드에 접근하기

Bright Data에 가입하세요
제어판에서 MCP 사용량 으로 이동
에이전트 배포 후 실시간 사용량 데이터 확인

단계 3: 반복 실행

eval을 사용하여 구성을 테스트하세요. 대시보드를 사용하여 프로덕션을 모니터링하세요. 반복하세요.

리소스

MCP 평가:

mcpjam GitHub — 공식 평가 CLI
모델 컨텍스트 프로토콜 — 공식 MCP 사양

가시성 대시보드:

Bright Data 제어판 — 사용량 대시보드 접근
API 문서 — 전체 API 참조

웹 MCP 서버:

GitHub 저장소 — 오픈소스 서버 코드
NPM 패키지 — npm을 통한 설치

출시 주간 요약:

1일차: 도구 그룹— 컨텍스트 오염 제거
2일차: 맞춤형 도구— 정밀한 도구 선택
3일차: 토큰 최적화— 효율 극대화
4일차: 엔터프라이즈 통합— 사일로 해체
5일차: 평가 및 가시성 — 중요한 것 측정하기 (현재 위치)

출시 주간: 마지막 한마디

5일. 5개의 주요 릴리스. 하나의 사명: AI 에이전트를 생산 환경에 즉시 적용 가능하게 만들기.

우리는 컨텍스트 오염이 에이전트 워크플로의 가장 큰 병목 현상이라는 통찰에서 시작했습니다. 컨텍스트 범위를 설정할 수 있는 도구 그룹을 제공했습니다.

그러나 그룹조차도 정확도가 부족하다는 점을 깨달았습니다. 정밀한 제어를 위한 커스텀 툴을 출시했습니다.

다음으로 출력 측면, 즉 토큰이 과다한 응답을 해결했습니다. Strip-Markdown을 통한 마크다운 제거와 Parsed Light를 통한 지능형 페이로드 정리를 통합했습니다.

이후 Bright Data를 기업이 실제로 사용하는 플랫폼(Google ADK, IBM watsonx, Databricks, Snowflake)에 도입했습니다.

그리고 오늘, 평가와 가시성으로 루프를 완성했습니다. 측정할 수 없는 것은 개선할 수 없기 때문입니다.

이것이 바로 프로덕션 AI 에이전트를 위한 풀 스택입니다:

도구 그룹 → 컨텍스트 오염 감소
커스텀 도구 → 정밀도 극대화
토큰 최적화 → 비용 최소화
엔터프라이즈 통합 → 어디서나 배포
평가 + 가시성 → 품질 유지

감사합니다

이번 주 함께해 주신 모든 분께 감사드립니다.

차세대 AI 에이전트를 구축하는 개발자 여러분께: 여러분이 만들어낼 결과물이 기대됩니다.

대규모로 AI를 배포하는 기업 여러분께: 저희가 그 신뢰성을 보장하겠습니다.

MCP를 가능하게 한 오픈소스 커뮤니티 여러분께: 이것은 시작에 불과합니다.

함께 AI의 미래를 만들어 갑시다.