>
검색 엔진 크롤러를 위한 robots.txt 파일을 쉽게 생성하세요
활성화하면 다음 AI 크롤러들이 차단됩니다:
# robots.txt generated by 블로그매니져 # https://example.com/robots.txt User-agent: * Allow: /
robots.txt는 검색 엔진 크롤러에게 웹사이트의 어떤 부분을 크롤링할 수 있는지 알려주는 텍스트 파일입니다. 올바른 robots.txt 설정은 SEO의 기본이며, 최근에는 ChatGPT, Claude 등 AI 크롤러 관리에도 필수가 되었습니다. 블로그매니져의 Robots.txt 생성기를 사용하면 코딩 지식 없이도 쉽게 robots.txt 파일을 만들 수 있습니다.
robots.txt는 로봇 배제 표준(Robots Exclusion Standard)에 따라 웹사이트 루트 디렉토리에 위치하는 텍스트 파일입니다. 1994년에 처음 도입되어 30년 가까이 웹의 표준으로 사용되고 있습니다.
검색 엔진 크롤러(Googlebot, Bingbot, Yeti 등)가 웹사이트를 방문하면 가장 먼저 /robots.txt 파일을 확인합니다. 이 파일에 명시된 규칙에 따라 어떤 페이지를 수집할지 결정합니다.
검색 엔진이 접근할 수 있는 페이지와 차단할 페이지를 세밀하게 제어합니다. 불필요한 페이지 인덱싱을 방지합니다.
검색 엔진은 각 사이트에 크롤 버짓(Crawl Budget)을 할당합니다. 중요하지 않은 페이지를 차단하면 중요 페이지가 더 빨리 인덱싱됩니다.
불필요한 크롤링을 방지하여 서버 리소스를 절약합니다. 특히 대규모 사이트에서 중요합니다.
관리자 페이지, 테스트 환경, 내부 문서 등 검색 결과에 노출되지 않아야 하는 경로를 차단합니다.
GPTBot(OpenAI), Claude-Web, CCBot 등 AI 학습 목적의 크롤러 접근을 제어할 수 있습니다.
robots.txt에 사이트맵 위치를 명시하면 검색 엔진이 사이트 구조를 더 빨리 파악합니다.
robots.txt는 권고 사항입니다. 구글, 네이버 등 주요 검색 엔진은 이를 준수하지만, 악의적인 크롤러나 스팸봇은 무시할 수 있습니다. 따라서 민감한 정보(개인정보, 결제 정보 등)는 robots.txt가 아닌 서버 인증(로그인)이나 방화벽으로 보호해야 합니다. robots.txt로 차단된 페이지도 URL이 알려지면 직접 접근은 가능합니다.
| 지시어 | 설명 | 예시 | 지원 크롤러 |
|---|---|---|---|
| User-agent | 규칙을 적용할 크롤러 지정. *는 모든 크롤러를 의미 | User-agent: Googlebot |
전체 |
| Disallow | 크롤링을 차단할 경로. 빈 값은 모두 허용 | Disallow: /admin/ |
전체 |
| Allow | Disallow 내에서 예외로 허용할 경로 | Allow: /admin/public/ |
Google, Bing, Yandex |
| Sitemap | 사이트맵 XML 파일의 전체 URL | Sitemap: https://example.com/sitemap.xml |
전체 |
| Crawl-delay | 크롤링 요청 간 대기 시간(초) | Crawl-delay: 10 |
Bing, Yandex (Google 미지원) |
다양한 상황에 맞는 robots.txt 예시입니다:
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /tmp/
Disallow: /*.pdf$
Sitemap: https://example.com/sitemap.xml
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: *
Allow: /
| 크롤러 이름 | 운영사 | 용도 |
|---|---|---|
| Googlebot | 웹 검색 인덱싱 | |
| Bingbot | Microsoft | Bing 검색 인덱싱 |
| Yeti | Naver | 네이버 검색 인덱싱 |
| Daumoa | Kakao (Daum) | 다음 검색 인덱싱 |
| GPTBot | OpenAI | AI 모델 학습 |
| ChatGPT-User | OpenAI | ChatGPT 웹 브라우징 |
| anthropic-ai / Claude-Web | Anthropic | Claude AI |
| CCBot | Common Crawl | 오픈 데이터셋 수집 |
| Google-Extended | Bard/Gemini AI 학습 |
robots.txt로 저장하세요. Robots.txt나 ROBOTS.TXT는 인식되지 않습니다.robots.txt가 없거나 404 에러를 반환하면, 검색 엔진은 사이트 전체를 크롤링할 수 있다고 가정합니다. 기본 동작은 "모두 허용"입니다.
아니요. robots.txt로 Disallow된 페이지도 URL 자체는 검색 결과에 나타날 수 있습니다(다른 사이트에서 링크된 경우). 완전히 숨기려면 페이지에 <meta name="robots" content="noindex"> 태그를 추가해야 합니다.
검색 엔진마다 다르지만, 보통 24시간 내에 새 robots.txt를 확인합니다. 구글의 경우 Google Search Console에서 "robots.txt 제출"을 통해 빠르게 반영을 요청할 수 있습니다.
네. 각 서브도메인은 별도의 robots.txt가 필요합니다. example.com과 blog.example.com은 각각 다른 robots.txt를 가집니다.
GPTBot, CCBot 등 AI 학습용 크롤러를 차단해도 Google, Naver 등 검색 순위에는 영향이 없습니다. 이들은 검색 인덱싱과는 별개입니다. 다만 Google-Extended를 차단하면 Bard/Gemini에서 사이트 콘텐츠가 덜 참조될 수 있습니다.