티스토리 뷰

반응형
Google이 내 웹페이지를 크롤링, 등록(인덱싱)해놨는지 확인하는 4가지 방법을 알아보고 정리해봤습니다.

 

Google이 내 사이트를 크롤링했는지 확인하는 방법은 Google Search Console(GSC)의 URL 검사 도구를 이용하는 것입니다. 이 도구를 사용하면 특정 URL에 대한 마지막 크롤링 날짜, 크롤링 오류, 색인 생성 상태 등에 대한 정보를 빠르게 확인할 수 있습니다. 이 도구가 Google이 내 사이트를 크롤링했는지 여부를 가장 확실하게 확인할 수 있는 가장 근본적인 방법입니다.

Google의 크롤링 작업은 새로운 페이지와 업데이트된 페이지를 지속적으로 찾는 'URL 검색' 단계를 통해 이루어집니다. Googlebot이라는 프로그램을 통해 페이지를 크롤링하며, 그러한 과정에서 페이지 렌더링과 JavaScript 실행도 포함됩니다. 그런데 항상 크롤링이 가능한 것은 아니며, 로그 파일 분석, 'site:' 명령어 또는 다른 도구를 통해서 확인할 수 있습니다.

내 사이트가 구글에 언제 크롤링됐는지 확인하는 네 가지 방법

1. Google Search Console (URL 검사 도구)

  • Google 검색 콘솔에 로그인합니다. 
  • 왼쪽 메뉴에서 'URL 검사' 도구를 찾습니다.
  • 확인하고 싶은 페이지의 URL을 입력합니다.

  • '페이지 색인 생성' 섹션에는 페이지가 마지막으로 크롤링된 시기와 색인 생성 여부가 표시됩니다.

  • '검색됨 - 현재 색인이 생성되지 않음' - Google이 알고는 있지만 아직 크롤링하지 않은 페이지입니다.

2. 'site:' 명령어를 통한 구글 검색:

  • Google 검색창에 'site:'와 함께 웹사이트 URL을 입력합니다. 예를 들면 "site: yahoo.com"을 치면 구글이 yahoo.com 에 인덱싱해서 가지고 있는 전체 리스트를 보여줍니다. yahoo.com대신 내 사이트 도메인을 대신 넣어주면 됩니다. 
  • 검색 결과에 표시되면 해당 페이지가 크롤링되고 색인이 생성된 것입니다.
  • 편합니다. 한 번 해보세요.

3. 로그 파일 분석:

  • 웹사이트의 로그 파일에 액세스합니다. 호스팅 제공업체에 문의하여 얻을 수 있습니다.
  • 로그 파일을 열어서 Google이 웹사이트를 마지막으로 크롤링한 정확한 시간을 확인합니다.
  • 예시와 설명

  • 66.249.66.1: 요청하는 IP 주소입니다. Google은 웹을 크롤링하는 데 사용하는 다양한 IP 주소를 보유하고 있으며 이 주소는 알려진 Googlebot 주소입니다.
  • -: 클라이언트의 식별자와 사용자 ID에 대한 자리 표시자입니다. 이 경우 둘 다 기록되지 않습니다.
  • [01/Jul/2023:12:01:27 -0700]: 요청 날짜 및 시간입니다. 이 경우 요청은 2023년 7월 1일 태평양 일광절약시간 기준 오후 12시 01분 27초에 이루어졌습니다.
  • “GET /your-page.html HTTP/1.1”: 요청 라인입니다. "GET"은 페이지를 요청하는 데 사용되는 방법이고 "/your-page.html"은 요청된 페이지의 URL이며 "HTTP/1.1"은 사용되는 프로토콜입니다.
  • 200: 응답의 상태 코드입니다. 200 상태 코드는 요청이 성공했고 페이지가 전달되었음을 의미합니다.
  • 4523: 응답의 크기(바이트)입니다.
  • “-“: 요청한 페이지에 링크된 페이지인 리퍼러입니다. 이 경우 리퍼러가 없습니다.
  • "Mozilla/5.0 (호환 가능; Googlebot/2.1; +http://www.google.com/bot.html)": 요청하는 소프트웨어를 식별하는 사용자 에이전트입니다 사용자 에이전트는 크롤러를 Googlebot으로 식별합니다.

4. 타사 도구 활용:

  • JetOctopus나 Semrush 로그 파일 분석기와 같은 타사 도구를 사용할 수 있습니다. 공짜가 아닙니다. ^^;
  • 이러한 도구를 사용하면 로그 파일을 업로드하고 도구가 분석하여 Googlebot의 방문 시간과 빈도를 확인할 수 있습니다.

 

 

** 이미지 출처 : https://seosly.com/blog/

반응형
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
글 보관함