서치엔진(robot.txt )을 피하는 방법

리눅스/APACHE|2015. 1. 16. 16:37
반응형

1

robot.txt 을 생성후 http://hbkr.net/robot.txt 위치에 업로드 한다.

# robot.txt 의 적당한 작성법 - 모든 robot의 /temp/ 디렉토리의 화일에 대해서 서치엔진으로부터 노출하지않음
User-agent: *
Disallow: /temp/


http://hbkr.net/temp/ 이후의 화일에 대해서는 노출을 하지 않는다.

# robot.txt - i hate robots
User-agent: *
Disallow: /


http://hbkr.net/ 이후의 화일에는 역시 노출하지 않음



2
meta tag 를 이용해서도 어느정도 노출을 줄이거나 늘릴수도 있다.

<META name=”robots” content=”noindex,nofollow”>


메타 테그에서 컨텐츠의 noindex는 모든 페이지에서 인덱스 하지 못하게 하는것이고 nofloow 는 메타테그가 들어간 웹페이지의 링크된 페이지를 인덱스 를 못하게 하는것

<meta name="keywords” content="키워드1; 키워드2;” />



자신의 키워드를 노출함으로서 그 페이지가 어떤 키워드를 가지고 있는지 알려주는것

대부분의 키워드 서치 엔진에서는 robot.txt 의 약속을 지킨다

robot.txt 에 대한 사이트: http://www.robotstxt.org
구굴을 피하는 방법 (via sirocco)


[출처] 컴퓨터로 놀기 | 소꿉친구 (http://cafe.naver.com/comil/1142)

반응형

댓글()