크롤러 인덱스
웹사이트에 의해 차단되는 크롤러의 대규모 샘플.
71.6%
웹사이트의 상당수는 최소한 부분적인 disallow 명령어를 포함하고 있습니다.
71.6%
웹사이트의 상당수는 최소한 부분적인 disallow 명령어를 포함하고 있습니다.
| 사용자 에이전트를 명시적으로 차단하는 웹사이트 비율 | 명시적으로 차단하는 웹사이트 비율 및 * 명령어 사용 | 회사 | 목적 | 사용자 에이전트 |
|---|---|---|---|---|
| 2.5% | 62.5% | Open AI | GPT | GPTBot |
| 2.1% | 62.5% | Common Crawl Foundation | 공개 웹 아카이브 | CCBot |
| 1.6% | 62.5% | Bard/Gemini/PaLM/Bison | Google-Extended | |
| 0.6% | 62.2% | OpenAI | Chat GPT | chatgpt-user |
| 1.8% | 63.7% | Amazon | Alexa | amazonbot |
| 0.5% | 61.9% | Meta AI | LIaMA | FacebookBot |
| 0.5% | 64.9% | Brandwatch | Magpie Crawler | magpie-crawler |
| 1.8% | 64.9% | ByteDance | ByteDance LLM N/A | Bytespider |
| 0.5% | 61.8% | Anthropic | Claude | Anthropic-AI |
| 1.6% | 63.5% | Anthropic | Claude | claudebot |
| 0.3% | 62.5% | Anthropic | Claude | claude-web |
| 0.4% | 62.5% | Perplexity | 챗봇 | perplexitybot |
| 0.3% | 62.0% | Cohere | Cohere Command | Cohere-AI |
| 1.3% | 62.8% | Apple | Apple의 기초 모델 | Applebot-Extended |
| 0.3% | 64.7% | Apple | Siri | Applebot |
| 0.3% | 64.7% | Diffbot | 훈련 데이터 | diffbot |
| 1.4% | 63.6% | Meta | 모든 메타 AI | meta-externalagent |
| 0.2% | 64.6% | OpenAI | SearchGPT | oai-searchbot |
| 0.2% | 64.7% | Timpi | Wilson AI | timpibot |
| 0.1% | 64.7% | webz.io | webzio-extended | webzio-extended |
| 0.1% | 64.1% | Bard/Gemini/PaLM/Bison | googleother | |
| 0.01% | 65.0% | Perplexity | perplexity-ai | perplexity-ai |
| 0.1% | 64.7% | Meta | 모든 메타 AI | meta-externalfetcher |
| 사용자 에이전트를 명시적으로 차단하는 웹사이트 비율 | 명시적으로 차단하는 웹사이트 비율 및 * 명령어 사용 | 회사 | 목적 | 사용자 에이전트 |
|---|---|---|---|---|
| 20.5% | 83.5% | Open AI | Chat GPT | gptbot |
| 17.1% | 84.1% | Common Crawl Foundation | 공개 웹 아카이브 | ccbot |
| 13.5% | 84.8% | Bard/Gemini/PaLM/Bison | google-extended | |
| 11.7% | 83.4% | Open AI | Chat GPT | chatgpt-user |
| 12.2% | 83.6% | Anthropic | Claude | anthropic-ai |
| 14.1% | 83.4% | Anthropic | Claude | claudebot |
| 10.2% | 83.8% | Anthropic | Claude | claude-web |
| 8.9% | 83.6% | Meta | LIaMA | facebookbot |
| 12.4% | 84.2% | ByteDance | ByteDance LLM N/A | bytespider |
| 11.8% | 83.4% | Perplexity | 챗봇 | perplexitybot |
| 10.3% | 84.2% | Cohere | Cohere Command | cohere-ai |
| 8.9% | 84.4% | Apple.com | Apple의 기초 모델 | applebot-extended |
| 4.9% | 86.1% | Brand Watch | Magpie Crawler | magpie-crawler |
| 7.3% | 83.7% | Amazon | Alexa | amazonbot |
| 3.3% | 85.1% | Apple | Siri | applebot |
| 1.8% | 85.5% | Bard/Gemini/PaLM/Bison | googleother | |
| 2.9% | 85.6% | Webz | webzio-extended | webzio-extended |
| 4.2% | 85.5% | Timpi | Wilson AI | timpibot |
| 1.4% | 86.4% | Perplexity | perplexity-ai | perplexity-ai |
| 4.8% | 85.9% | Meta | 모든 메타 AI | meta-externalfetcher |
| 7.0% | 83.6% | Open AI | Search GPT | OAI-searchbot |
| 4.8% | 85.9% | Meta | 모든 메타 AI | meta-externalagent |
방법론
Bright Data는 수십억 개의 주요 웹사이트에서 세계적으로 가장 수요가 많은 공개 웹 데이터를 수집합니다. 당사의 컴플라이언스 제품인 Bright Shield를 통해 수집 대상 웹사이트의 robot.txt에서 사용자 에이전트에 대한 허용 및 차단 명령을 수집합니다. 현재 웹사이트 샘플 크기는 9,832,187개이며 약 33,000개의 고유 사용자 에이전트를 수집했습니다.
연구팀은 샘플 내에서 각 관심 사용자 에이전트가 명시적으로 차단되는 비율과 (*) 명령어로 차단되는 사용자 에이전트를 식별했습니다. 또한 모든 크롤러를 차단하는 웹사이트의 전체 비율도 추적합니다. 각 사용자 에이전트는 회사, 용도, 차단 방법 등 추가 정보가 포함된 링크를 통해 최대한 정확하게 식별됩니다.
사용자 에이전트에 대한 의견이 있으신가요? 의견을 [email protected]으로이메일 보내주세요 .
마지막 업데이트: 2025년 12월 2일