>

Robots.txt 생성기

검색 엔진 크롤러를 위한 robots.txt 파일을 쉽게 생성하세요

기본 설정

검색 엔진별 설정

AI 크롤러 설정

활성화하면 다음 AI 크롤러들이 차단됩니다:

GPTBot (OpenAI) ChatGPT-User CCBot (Common Crawl) anthropic-ai Claude-Web Google-Extended Bytespider (ByteDance)

사이트맵 설정

크롤 딜레이

생성된 robots.txt

# robots.txt generated by 블로그매니져
# https://example.com/robots.txt

User-agent: *
Allow: /

robots.txt 사용 안내

  • 파일 위치: robots.txt 파일은 반드시 웹사이트 루트 디렉토리에 위치해야 합니다. (예: https://example.com/robots.txt)
  • 대소문자: 파일명은 반드시 소문자로 작성해야 합니다.
  • 적용 시간: 검색 엔진이 변경사항을 반영하는 데 며칠이 걸릴 수 있습니다.
  • 주의사항: robots.txt는 권고 사항이며, 악의적인 크롤러는 이를 무시할 수 있습니다.
  • 민감한 정보: 민감한 데이터는 robots.txt 대신 인증을 통해 보호하세요.
완료되었습니다!

Robots.txt 완벽 가이드

robots.txt는 검색 엔진 크롤러에게 웹사이트의 어떤 부분을 크롤링할 수 있는지 알려주는 텍스트 파일입니다. 올바른 robots.txt 설정은 SEO의 기본이며, 최근에는 ChatGPT, Claude 등 AI 크롤러 관리에도 필수가 되었습니다. 블로그매니져의 Robots.txt 생성기를 사용하면 코딩 지식 없이도 쉽게 robots.txt 파일을 만들 수 있습니다.

robots.txt란 무엇인가?

robots.txt는 로봇 배제 표준(Robots Exclusion Standard)에 따라 웹사이트 루트 디렉토리에 위치하는 텍스트 파일입니다. 1994년에 처음 도입되어 30년 가까이 웹의 표준으로 사용되고 있습니다.

검색 엔진 크롤러(Googlebot, Bingbot, Yeti 등)가 웹사이트를 방문하면 가장 먼저 /robots.txt 파일을 확인합니다. 이 파일에 명시된 규칙에 따라 어떤 페이지를 수집할지 결정합니다.

robots.txt가 중요한 이유

크롤링 제어

검색 엔진이 접근할 수 있는 페이지와 차단할 페이지를 세밀하게 제어합니다. 불필요한 페이지 인덱싱을 방지합니다.

크롤 버짓 최적화

검색 엔진은 각 사이트에 크롤 버짓(Crawl Budget)을 할당합니다. 중요하지 않은 페이지를 차단하면 중요 페이지가 더 빨리 인덱싱됩니다.

서버 부하 감소

불필요한 크롤링을 방지하여 서버 리소스를 절약합니다. 특히 대규모 사이트에서 중요합니다.

민감 정보 보호

관리자 페이지, 테스트 환경, 내부 문서 등 검색 결과에 노출되지 않아야 하는 경로를 차단합니다.

AI 크롤러 관리

GPTBot(OpenAI), Claude-Web, CCBot 등 AI 학습 목적의 크롤러 접근을 제어할 수 있습니다.

사이트맵 알림

robots.txt에 사이트맵 위치를 명시하면 검색 엔진이 사이트 구조를 더 빨리 파악합니다.

반드시 알아야 할 사항

robots.txt는 권고 사항입니다. 구글, 네이버 등 주요 검색 엔진은 이를 준수하지만, 악의적인 크롤러나 스팸봇은 무시할 수 있습니다. 따라서 민감한 정보(개인정보, 결제 정보 등)는 robots.txt가 아닌 서버 인증(로그인)이나 방화벽으로 보호해야 합니다. robots.txt로 차단된 페이지도 URL이 알려지면 직접 접근은 가능합니다.

robots.txt 지시어 상세 설명

지시어 설명 예시 지원 크롤러
User-agent 규칙을 적용할 크롤러 지정. *는 모든 크롤러를 의미 User-agent: Googlebot 전체
Disallow 크롤링을 차단할 경로. 빈 값은 모두 허용 Disallow: /admin/ 전체
Allow Disallow 내에서 예외로 허용할 경로 Allow: /admin/public/ Google, Bing, Yandex
Sitemap 사이트맵 XML 파일의 전체 URL Sitemap: https://example.com/sitemap.xml 전체
Crawl-delay 크롤링 요청 간 대기 시간(초) Crawl-delay: 10 Bing, Yandex (Google 미지원)

robots.txt 작성 예시

다양한 상황에 맞는 robots.txt 예시입니다:

1. 모든 크롤링 허용

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

2. 특정 폴더 차단

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /tmp/
Disallow: /*.pdf$

Sitemap: https://example.com/sitemap.xml

3. AI 크롤러 차단

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Allow: /

주요 검색엔진 및 AI 크롤러 목록

크롤러 이름 운영사 용도
Googlebot Google 웹 검색 인덱싱
Bingbot Microsoft Bing 검색 인덱싱
Yeti Naver 네이버 검색 인덱싱
Daumoa Kakao (Daum) 다음 검색 인덱싱
GPTBot OpenAI AI 모델 학습
ChatGPT-User OpenAI ChatGPT 웹 브라우징
anthropic-ai / Claude-Web Anthropic Claude AI
CCBot Common Crawl 오픈 데이터셋 수집
Google-Extended Google Bard/Gemini AI 학습

robots.txt 전문가 팁

  • 파일 위치: 반드시 웹사이트 루트 디렉토리에 위치해야 합니다 (https://example.com/robots.txt)
  • 파일명: 반드시 소문자 robots.txt로 저장하세요. Robots.txtROBOTS.TXT는 인식되지 않습니다.
  • UTF-8 인코딩: 파일은 UTF-8로 저장하고, BOM 없이 저장하세요.
  • 사이트맵 포함: 사이트맵 URL을 함께 명시하면 검색 엔진이 사이트 구조를 더 빨리 파악합니다.
  • 테스트: Google Search Console의 robots.txt 테스터로 설정을 검증하세요.
  • 주의: Disallow로 차단된 페이지도 다른 사이트에서 링크되면 URL이 검색 결과에 나타날 수 있습니다. 완전히 숨기려면 noindex 메타 태그를 사용하세요.

자주 묻는 질문 (FAQ)

robots.txt가 없으면 어떻게 되나요?

robots.txt가 없거나 404 에러를 반환하면, 검색 엔진은 사이트 전체를 크롤링할 수 있다고 가정합니다. 기본 동작은 "모두 허용"입니다.

robots.txt로 페이지를 검색 결과에서 완전히 숨길 수 있나요?

아니요. robots.txt로 Disallow된 페이지도 URL 자체는 검색 결과에 나타날 수 있습니다(다른 사이트에서 링크된 경우). 완전히 숨기려면 페이지에 <meta name="robots" content="noindex"> 태그를 추가해야 합니다.

robots.txt 변경은 언제 적용되나요?

검색 엔진마다 다르지만, 보통 24시간 내에 새 robots.txt를 확인합니다. 구글의 경우 Google Search Console에서 "robots.txt 제출"을 통해 빠르게 반영을 요청할 수 있습니다.

서브도메인에도 별도의 robots.txt가 필요한가요?

네. 각 서브도메인은 별도의 robots.txt가 필요합니다. example.com과 blog.example.com은 각각 다른 robots.txt를 가집니다.

AI 크롤러를 차단하면 SEO에 영향이 있나요?

GPTBot, CCBot 등 AI 학습용 크롤러를 차단해도 Google, Naver 등 검색 순위에는 영향이 없습니다. 이들은 검색 인덱싱과는 별개입니다. 다만 Google-Extended를 차단하면 Bard/Gemini에서 사이트 콘텐츠가 덜 참조될 수 있습니다.

관련 키워드

robots.txt 로봇츠 파일 크롤러 설정 SEO 최적화 AI 크롤러 차단 Googlebot GPTBot ChatGPT 크롤러 검색엔진 크롤링 사이트맵 크롤 버짓 로봇 배제 표준