curso avanzado seo sem.pdf

Vista previa de texto
10
Funcionamiento actual de los buscadores
Desde que se crea una página web hasta que aparece en los resultados de un buscador, se
tienen que realizar ciertos pasos, que se resumen en tres: rastreo o crawleo de la página,
indexación o inclusión de la página en los índices del buscador, y valoración en cada
búsqueda realizada por los usuarios.
Rastreo
El rastreo es el proceso mediante el cual un buscador obtiene toda la información que necesita
de tu página web tales como url, título, descripción, texto, enlaces, metadatos, ubicación del
servidor, etc. Este proceso lo realiza un robot automatizado de la propia compañía del
buscador, que navega por los enlaces de tu página, obteniendo dicha información del código
fuente (HTML).
El proceso de rastreo se inicia si accede a tu página a través de algún enlace, o porque
directamente se lo hayas indicado mediante su página de inclusión de enlaces, o mediante un
sitemap específico.
Puedes ‘prohibir’ a éstos robots entrar en parte o toda tu página web, mediante un archivo
llamado
robots.txt,
que
se
situará
en
el
raíz
de
tu
página
web
(Ejemplo:
http://www.quieru.com/robots.txt), y también se les puede indicar la ubicación de tus sitemap
para que encuentren donde rastrearte.
Un ejemplo de la configuración del archivo robots.txt sería:
User-Agent: *
Disallow: /*.action
Disallow: /foro/
Sitemaps: http://www.ejemplo.com/sitemap.xml
(Más ejemplos de configuración en http://es.wikipedia.org/wiki/Estándar_de_exclusión_de_robots y
http://www.squidoo.com/robotsengines)
En el caso de Google, tampoco rastreará los enlaces que lleven una etiqueta rel=”nofollow”
entre sus atributos, las páginas que contengan la meta-etiqueta de nombre “robots” o
“googlebot” y contenido “noindex” (index o vacío en caso contrario), y evitará que se sigan los
enlaces de toda la página si se añade “nofollow” (follow o nada en caso contrario). A
continuación se muestran unos ejemplos:
<meta name=”robots” content=”noindex,nofollow” />
<a href=”http://www.google.com” rel=”nofollow” alt=”Google”>Google</a>
