Cómo bloquear los motores de búqueda con robots.txt disallow
¿Buscas una manera de controlar cómo rastrean tu sitio web los bots de los motores de búsqueda? ¿O quieres hacer privadas algunas partes de tu sitio web? Puedes hacerlo modificando el archivo robots.txt con el comando disallow.
En este artículo, aprenderás lo que robots.txt puede hacer por tu sitio web. También te mostraremos cómo utilizarlo para bloquear los rastreadores de los motores de búsqueda.
Tabla de Contenidos
¿Qué es exactamente robots.txt?
Robots.txt es un archivo de texto plano que se utiliza para comunicarse con los rastreadores web. El archivo se encuentra en el directorio root o raíz de un sitio web.
Funciona indicando a los robots qué partes del sitio deben y no deben ser escaneadas. Depende de robots.txt si se permite o no que los robots rastreen un sitio web.
En otras palabras, puedes configurar el archivo para evitar que los motores de búsqueda escaneen e indexen páginas o archivos de tu sitio.
¿Por qué debo bloquear un motor de búsqueda?
Si tienes páginas que contienen información sensible, querrás hacerlas privadas. Por desgracia, los robots o bots de los buscadores no pueden distinguir automáticamente entre el contenido público y el privado. En este caso, es necesario restringir el acceso.
También puedes impedir que los bots rastreen todo tu sitio. Especialmente si tu sitio web está en modo de mantenimiento o en fase de pruebas.
Otro uso de robots.txt es evitar los problemas de contenido duplicado que se producen cuando las mismas entradas o páginas aparecen en diferentes URL. Los duplicados pueden afectar negativamente a la optimización de los motores de búsqueda (SEO).
La solución es sencilla: identificar el contenido duplicado y evitar que los bots lo rastreen.
¿Cómo utilizar robots.txt disallow para bloquear a los motores de búsqueda?
Si quieres ver el archivo robots.txt de tu sitio, puedes añadir robots.txt después de la URL de tu sitio, por ejemplo, www.misitioweb.com/robots.txt. Puedes editarlo a través del gestor de archivos del panel de control de tu hospedaje web, o de un cliente FTP.
Vamos a configurar el archivo robots.txt a través del administrador de archivos del hPanel de Hostinger. Primero, tienes que entrar en el Administrador de Archivos en la sección Archivos del panel. A continuación, abre el archivo desde el directorio public_html.
Si el archivo no está ahí, puedes crearlo manualmente. Solo tienes que hacer clic en el botón Nuevo archivo en la esquina superior derecha del gestor de archivos, llamarlo robots.txt y colocarlo en public_html.
Ahora puedes empezar a añadir comandos o reglas al archivo. Los dos principales que debes conocer son
- User-agent: también conocido como agente de usuario, se refiere al tipo de bot que será restringido, como Googlebot o Bingbot.
- Disallow: también conocido como estándar de exclusión, es donde quieres restringir los bots.
Veamos un ejemplo. Si quieres impedir que el robot de Google rastree una carpeta específica de tu sitio, puedes poner este comando en el archivo:
User-agent: Googlebot Disallow: /example-subfolder/
También puedes bloquear el rastreo de los bots en una página web concreta. Si quieres bloquear a Bingbot de una página, puedes configurar el comando con esta instrucción:
User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html
Ahora, ¿qué pasa si quieres que el archivo robots. txt no permita el acceso a los bots de un motor de búsqueda? Puedes hacerlo poniendo un asterisco (*) junto a User-agent. Y si quieres impedir que accedan a todo el sitio, solo tienes que poner una barra (/) junto a Disallow. Esto es lo que parece:
User-agent: * Disallow: /
Puedes establecer diferentes configuraciones para distintos motores de búsqueda añadiendo varios comandos al archivo. Además, ten en cuenta que los cambios tienen efecto después de guardar el archivo robots.txt.
Conclusión
Ahora has aprendido a modificar el archivo robots.txt. Esto te permite gestionar el acceso de los bots de los motores de búsqueda a tu sitio web. Ahora puedes estar tranquilo sabiendo que solo aparecerá en las páginas de resultados de los buscadores lo que tú quieras que aparezca.