2016 년에 Google은 3 조 2 천억 개 이상의 검색어를 처리했지만 검색 엔진이 제공 한 결과는 온라인에서 사용 가능한 콘텐츠의 일부에 불과했습니다. 온라인에서 사용할 수있는 대부분의 정보는 검색 엔진에서 액세스 할 수 없으므로 이러한 숨겨진 페이지를 찾으려면 특수 도구를 사용하거나 웹 사이트를 직접 조사해야합니다. 딥 웹으로 알려진이 숨겨진 정보는 일반적인 검색 기술을 사용하여 사용할 수있는 정보의 최대 5,000 배를 차지합니다.
숨겨진 콘텐츠 유형
웹 사이트의 숨겨진 페이지는 검색 엔진에서 보이지 않는 이유를 설명하는 카테고리로 분류됩니다.
일부는 방문자가 데이터베이스 기반 코드를 사용하여 타겟 결과를 제시하는 웹 사이트에서 특정 요청을 할 때만 제공되는 동적 콘텐츠를 구성합니다. 예를 들어 이러한 페이지에는 특정 제품 기준 조합을 기반으로 한 쇼핑 결과가 포함될 수 있습니다. 검색 엔진은 이러한 데이터베이스에 저장된 정보를 추적하고 저장하도록 설계되지 않았습니다. 이러한 페이지를 찾으려면 웹 사이트로 이동하여 찾고있는 특정 정보를 검색하거나 Bright Planet과 같은 데이터베이스 지향 검색 서비스를 사용해야합니다.
일부 페이지에는 검색 가능한 소스로 연결되는 링크가 없습니다. 저개발 웹 사이트의 여러 버전과 같은 임시 리소스는 잘못 설계된 웹 사이트와 마찬가지로이 범주에 속할 수 있습니다. 예를 들어, 누군가 웹 페이지를 만들어 웹 사이트의 서버에 업로드했지만 웹 사이트의 현재 페이지에 링크를 추가하지 못하면 검색 엔진을 포함하여 아무도 그 웹 페이지가 거기에 있는지 알 수 없습니다.
구독 사이트처럼 더 많은 페이지를 보거나 연결하려면 로그인 자격 증명이 필요합니다. 웹 디자이너는 사이트의 페이지와 섹션을 검색 엔진에 대한 제한으로 지정하여 기존의 수단을 통해 찾을 수 없도록 효과적으로 제거합니다. 이러한 페이지에 액세스하려면 일반적으로 액세스 권한을 부여 받기 전에 계정을 만들어야합니다.
Robots.txt 파일 사용
검색 엔진은 웹 사이트의 페이지를 크롤링하고 콘텐츠를 색인화하여 쿼리에 대한 응답으로 표시 할 수 있도록합니다. 웹 사이트 소유자가 이러한 색인 생성 절차에서 자신의 도메인 일부를 제외하고자 할 때, 사이트의 루트에 저장된 robots.txt라는 특수 텍스트 파일에 이러한 디렉토리 또는 페이지의 주소를 추가합니다. 대부분의 웹 사이트에는 제외 항목을 추가하는지 여부에 관계없이 로봇 파일이 포함되어 있기 때문에 예측 가능한 문서 이름을 사용하여 해당 내용을 표시 할 수 있습니다.
브라우저의 위치 입력란에 따옴표없이 "[도메인 이름] /robots.txt"를 입력하고 "[도메인 이름]"을 사이트 주소로 바꾸면 로봇 파일의 내용이 다음과 같이 브라우저 창에 자주 나타납니다. "Enter"키를 누릅니다. "disallow"또는 "nofollow"로 시작하는 항목은 검색 엔진을 통해 액세스 할 수없는 사이트 부분을 나타냅니다.
Do-It-Yourself 웹 사이트 해킹
robot.txt 파일 외에도 웹 브라우저에서 특정 페이지 및 폴더의 웹 주소를 입력하여 숨겨진 콘텐츠를 찾을 수 있습니다. 예를 들어, 아티스트의 웹 사이트에서 각 페이지가 동일한 이름 지정 규칙 (예 : gallery1.html, gallery2.html, gallery4.html)을 사용하는 것을 발견 한 경우 페이지 "를 입력하여 숨겨진 갤러리를 찾을 수 있습니다. gallery3.html. " 웹 브라우저에서.
마찬가지로 웹 사이트에서 폴더를 사용하여 페이지를 구성하는 경우 (예 : example.com/content/page1.html, "/ content"가 폴더 임)-웹 사이트와 폴더를 입력하여 폴더 자체를 볼 수 있습니다. , 웹 브라우저에 "example.com/content/"와 같이 페이지가 없습니다. 폴더에 대한 액세스가 비활성화되지 않은 경우에는 포함 된 페이지와 하위 폴더의 페이지를 탐색하여 숨겨진 콘텐츠를 찾을 수 있습니다.