programing

Google의 색인 생성 중지

nasanasas 2020. 11. 16. 21:36
반응형

Google의 색인 생성 중지


Google의 사이트 색인 생성을 중지 할 수있는 방법이 있습니까?


robots.txt

User-agent: *
Disallow: /

이렇게하면 모든 검색 봇의 색인 생성이 차단됩니다.

자세한 내용은 http://www.google.com/support/webmasters/bin/answer.py?hl=ko&answer=40360을 참조하세요.


받아 들여진 대답은 실제로 문제를 제대로 다루지 않기 때문에 여기에 대답을 추가해야합니다. 또한 Google의 크롤링을 차단한다고해서 콘텐츠를 비공개로 유지할 수있는 것은 아닙니다.

내 답변은 https://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling- -인덱싱 --- 순위

robots.txt파일은 크롤링을 제어하지만 인덱싱은 제어하지 않습니다! 이 두 가지는 완전히 다른 작업이며 별도로 수행됩니다. 일부 페이지는 크롤링되지만 색인이 생성 되지 않을 수 있으며 일부는 색인이 생성 되지만 크롤링되지 않을 수도 있습니다 . 크롤링되지 않은 페이지에 대한 링크가 다른 웹 사이트에 존재할 수 있으며, 이로 인해 Google 색인 생성기가 해당 페이지를 따라 가며 색인을 생성하려고합니다.

질문은 검색 결과를 통해 사용할 수 있도록 페이지에 대한 데이터를 수집하는 인덱싱에 관한 것입니다. 메타 태그 추가를 차단할 수 있습니다.

<meta name="robots" content="noindex" />

또는 응답에 HTTP 헤더 추가 :

X-Robots-Tag: noindex

질문이 크롤링에 관한 것이라면 물론 robots.txt파일을 만들고 다음 줄을 넣을 수 있습니다 .

User-agent: *
Disallow: /

크롤링은 특정 웹 사이트의 구조에 대한 정보를 수집하기 위해 수행되는 작업입니다. 예를 들어 Google 웹 마스터 도구를 통해 사이트를 추가했습니다. 크롤러는이를 고려하여 귀하의 웹 사이트를 방문하여 robots.txt. 아무것도 찾지 못하면 무엇이든 크롤링 할 수 있다고 가정합니다 ( sitemap.xml이 작업을 지원하고 우선 순위를 지정하고 변경 빈도를 정의하려면 파일도 가지고있는 것이 매우 중요합니다 ). 파일을 찾으면 규칙을 따릅니다. 성공적으로 크롤링 한 후에는 어느 시점에서 크롤링 된 페이지에 대한 색인 생성이 실행되지만 언제인지 알 수 없습니다.

중요 :이 모든 것은 귀하의 페이지가에 관계없이 Google 검색 결과에 계속 표시 될 수 있음을 의미합니다 robots.txt.

실제로 어떤 일이 발생하는지 아는 것이 중요하기 때문에 적어도 일부 사용자 가이 답변을 읽고 명확하게 이해하기를 바랍니다.


apache conf에서 전역 적으로 아래 설정을 추가하여이 서버 전체를 비활성화하거나 특정 가상 호스트에 대해서만 비활성화하기 위해 가상 호스트에서 동일한 매개 변수를 사용할 수 있습니다.

헤더 세트 X-Robots-Tag 'noindex, nofollow'

이 작업이 완료되면 반환 된 아파치 헤더를 확인하여 테스트 할 수 있습니다.

curl -I staging.mywebsite.com HTTP / 1.1 302 발견 날짜 : 2016 년 11 월 26 일 토요일 22:36:33 GMT 서버 : Apache / 2.4.18 (Ubuntu) 위치 : / pages / X-Robots-Tag : noindex, nofollow 콘텐츠 유형 : text / html; charset = UTF-8


웹 사이트 크롤링 및 색인 생성을 중지하기 위해 Google을 포함하여 크롤러를 중지하는 방법에는 여러 가지가 있습니다.

헤더를 통해 서버 수준에서

Header set X-Robots-Tag "noindex, nofollow"

robots.txt 파일을 통해 루트 도메인 수준에서

User-agent: *
Disallow: /

로봇 메타 태그를 통한 페이지 수준

<meta name="robots" content="nofollow" />

하지만 웹 사이트가 오래되고 기존 페이지 / URL이 아닌 경우 Google이 다음 크롤링에서 해당 URL의 색인을 자동으로 해제 할 때까지 기다려야합니다. https://support.google.com/webmasters/answer/1663419?hl을 읽어보세요. = en


Microsoft의 Bing 용 크롤러는 robots.txt를 준수한다고 주장하지만 항상 그렇게하는 것은 아닙니다.

Google 서버 통계에 따르면 robots.txt를 준수하지 않는 크롤러를 실행하는 IP와이를 수행하는 여러 IP가 있습니다.


간단한 aspx 페이지를 사용하여 한 번에 100 개의 결과를 얻는 가짜 'Pref'쿠키를 사용하여 Google의 결과를 내 브라우저로 릴레이하고 Google이이 릴레이 페이지를 보지 않기를 원했기 때문에 IP 주소를 확인하고 시작되는지 확인합니다. 66.249를 사용하면 단순히 리디렉션을 수행합니다.

프라이버시를 중요시하고 사본을 원하면 내 이름을 클릭하십시오.

내가 사용하는 또 다른 트릭은 대부분의 (전부는 아님) 웹봇이 자바 스크립트를 실행하지 않기 때문에 세션에서 플래그를 설정하기 위해 페이지를 호출하는 자바 스크립트를 사용하는 것입니다. 그래서 자바 스크립트가 꺼진 브라우저이거나 더 좋아하는 것입니다. 봇.


또한 다음과 같은 방법으로 메타 로봇을 추가 할 수 있습니다.

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

그리고 또 다른 추가 레이어는 .htaccess를 수정하는 것이지만 깊이 확인해야합니다.


nofollow 메타 태그 사용 :

<meta name="robots" content="nofollow" />

링크 수준에서 nofollow를 지정하려면 값이 nofollow 인 rel 속성을 링크에 추가합니다.

<a href="example.html" rel="nofollow" />

Google이 사이트의 색인을 생성하지 못하도록하는 방법이 있습니까?

Google 크롤링을 중지하려면 모든 페이지에 다음 meta태그를 추가하면 head됩니다.

<meta name="googlebot" content="noindex, nofollow">

참고 URL : https://stackoverflow.com/questions/390368/stop-google-from-indexing

반응형