¿Qué es un Crawler?

El Crawler es un programa que visita sitios web y lee sus páginas y otra información con el fin de crear entradas para un índice de motores de búsqueda.

¿Qué es un crawler?

La araña o crawler es un programa que visita sitios Web y lee sus páginas y otra información con el fin de crear entradas para un índice de motores de búsqueda. Los principales motores de búsqueda en la Web todos tienen un programa de este tipo, que también se conoce como una “araña” o un “bot”. Los rastreadores suelen estar programados para visitar sitios que han sido enviados por sus propietarios como nuevos o actualizados. Sitios enteros o páginas específicas pueden ser visitados e indexados selectivamente. Las arañas aparentemente ganaron el nombre porque se arrastran a través de un sitio página por página, siguiendo los enlaces a otras páginas del sitio hasta que todas las páginas hayan sido leídas.

Recolección de información

Los rastreadores web recopilan información como la URL del sitio web, la información de metaetiquetas, el contenido de la página web, los enlaces en la página web y los destinos que conducen a esos enlaces, el título de la página web y cualquier otra información relevante. Realizan un seguimiento de las URLs que ya han sido descargadas para evitar volver a descargar la misma página. Una combinación de políticas como la política de visitas, la política de selección, la política de palatalización y la política de cortesía determinan el comportamiento del rastreador web. Existen muchos desafíos para los rastreadores web, a saber, la amplia y en continua evolución de la World Wide Web, las compensaciones de selección de contenido, las obligaciones sociales y el trato con los adversarios.

Componentes clave

Los rastreadores web son los componentes clave de los motores de búsqueda Web y los sistemas que investigan las páginas Web. Ayudan en la indexación de las entradas de la Web y permiten a los usuarios enviar consultas contra el índice y proporcionan las páginas web que coinciden con las consultas. Otro uso del Web crawler es en el archivado web, que implica grandes conjuntos de páginas web que se recopilan y archivan periódicamente. Las arañas web también se utilizan en la minería de datos, en la que las páginas se analizan en busca de diferentes propiedades, como las estadísticas, y luego se realizan análisis de datos en ellas.

ebook-tráfico-web

Guía definitiva para incrementar tu tráfico web y conseguir más ventas

Menu