El poder del fichero robots.txt

Conceptos importantes para comprender el texto:

Motor de búsqueda:

Un motor de búsqueda, también conocido como buscador, es un sistema informático quebuscaarchivos almacenados en servidores web gracias a su «spider» (o Web crawler). Un ejemplo son los buscadores de Internet (algunos buscan únicamente en la web, pero otros lo hacen además en noticias, servicios como GopherFTP, etc.) cuando se pide información sobre algún tema. Las búsquedas se hacen con palabras clave o con árboles jerárquicos por temas; el resultado de la búsqueda es un listado de direcciones web en los que se mencionan temas relacionados con las palabras clave buscadas.

araña_cibernetica

Wiquipedia: http://es.wikipedia.org/wiki/Motor_de_b%C3%BAsqueda

Indezar una web:

En terminología de internet, indexar hace referencia a la acción de agregar una o más páginas web a las bases de datos de los buscadores de internet, para que estas aparezcan en los resultados de búsquedas de los mismos.

Indexar sitios web, es fundamental para que las mismas sean encontradas por los usuarios  de los buscadores de internet. De hecho, gran cantidad de sitios reciben la mayoría de sus visitantes a través de los buscadores.

Concept internet communication

http://www.alegsa.com.ar/Dic/indexar.php

¿Qué es el archivo ROBOTS.TXT?

Es un fichero de texto donde viene la configuración de indexación de una web. Cuando una araña llega a un sitio web lo primero que hace es buscar este fichero para saber que paginas debe indexar y que sitios no debe recorrer.

¿Qué tipo de configuración podemos hacer con este fichero?

Impedir la indexación de una pagina para algunos robots, que puedan verse solo las carpetas que tu desees, indicar la frecuencia de paso a un robot, indicar el sitio de sitemap.xml…

  • Impedir el acceso a ciertas carpetas o a toda la web a ciertos robots: las restricciones se hacen a cada robot individualmente.

User-Agent: *
Disallow:

User-Agent: Googlebot-Mobile
Disallow: /images
Disallow: /logs

User-Agent: Googlebot-Image
Disallow: /*/image?
Disallow: /*.php$

¿Qué es el SITEMAP.XML?

El archivo de sitemaps viene definido por un protocolo definido en http://www.sitemaps.org/es/protocol.php y está compuesto por una serie de etiquetas XML, un lenguaje que sirve para estructurar la información. Con ese archivo podemos facilitar de forma opcional a los buscadores datos adicionales de cada una de las páginas que se incluyen en nuestro sitio web:

  • URL de la página
  • Última fecha de modificación
  • Frecuencia de modificación
  • Importancia relativa respecto al resto de páginas del sitio.

Fuente:

http://www.arsys.info/comercio-electronico/archivo-sitemapxml-que-es-y-para-que-se-utiliza/

Para que neustro ROBOTS.TXT indique la ubicación de nuestro archivo SITEMAP.XML lo unico que debemos es incluir esta linea en el texto:

Sitemap: http://www.tuweb.es/sitemap.xml

 

Fuente: websec.es

*