Cómo clonar un sitio web con httrack
On enero 15, 2022 by adminSi eres un desarrollador de sitios web, un propietario de un negocio o un estudiante en el campo de la informática, probablemente te has encontrado con un caso en el que necesitabas clonar rápidamente un sitio web. Digamos, por ejemplo, que tiene un sitio que administra que está teniendo problemas; es posible que desee clonar ese sitio y luego comenzar a depurar el clon. Trabajar con el clon ciertamente supera la posibilidad de romper aún más su sitio original.
Hay un montón de maneras de clonar un sitio. Una solución que he utilizado ofrece opciones de línea de comandos y GUI, y se llama httrack. La aplicación se puede utilizar en Linux, Windows, macOS y Android, y hace una copia completa de un sitio web para la navegación local. La herramienta de línea de comandos se llama, como es de esperar, httrack. También hay una versión GUI para Linux llamada webhttrack. Voy a demostrar cómo usar tanto la herramienta de línea de comandos como la GUI, para que puedas hacer clones rápidos de tus sitios web. Voy a demostrar ambas versiones de Ubuntu Linux.
Instalación
Tanto la línea de comandos como las herramientas GUI se pueden encontrar en los repositorios estándar. Para instalarlas, abra una ventana de terminal y emita el comando:
sudo apt install httrack webhttrack
Cuando se le solicite, escriba su contraseña sudo, acepte la instalación y permita que se complete. Eso es todo lo que hay que hacer para instalar las herramientas.
Uso de la línea de comandos
Primero vamos a copiar un sitio usando la herramienta de línea de comandos. Esto puede llevar algo de tiempo, dependiendo de lo grande que sea tu sitio. El comando para hacer la copia es:
httrack http://SITE_URL -O LOCALDIRECTORY
Donde SITE_URL es la URL real del sitio que quieres copiar y LOCALDIRECTORY es el directorio en tu disco local para almacenar la copia. Una vez que el comando se complete, verá el clon recién creado en LOCALDIRECTORY. A continuación, puede empezar a trabajar con ese clon sin afectar a su sitio de producción.
La mayor advertencia sobre el uso de esta herramienta es que, dependiendo de cómo se escribió el sitio y cómo se aloja, sus resultados pueden variar. Si encuentra que httrack descarga poco más que un archivo de índice, lo más probable es que no funcione en su sitio. He encontrado, hasta ahora, que los sitios de WordPress, especialmente aquellos alojados en hosts de terceros, son casi imposibles de clonar usando esta herramienta.
Uso de la GUI
La herramienta GUI le da un poco más de poder de uso. Para iniciar la GUI, abra una ventana de terminal y emita el comando webhttrack. Esto abrirá una ventana del navegador con la GUI preparada. En la primera pantalla, seleccione su idioma y haga clic en Siguiente >>. En la siguiente ventana (Figura A), introduzca un nuevo nombre de proyecto y seleccione una de las categorías predefinidas. Escriba una ruta base para albergar los archivos descargados, y haga clic en Siguiente >>.
Figura A
En la siguiente ventana (Figura B), selecciona la acción a utilizar (al tratarse de una primera descarga, la predeterminada estará bien) y escribe la URL del sitio de destino en el cuadro de direcciones.
Figura B
Haga clic en el botón Establecer opciones y podrá configurar opciones como el ID del navegador, las reglas de exploración, las reglas del robot, el número de conexiones, el proxy, los límites y mucho más (Figura C).
Figura C
Si ejecuta un clon, y encuentra que falla, lo más probable es que tenga que volver a visitar la sección de Opciones y hacer ajustes. Esto, por supuesto, dependerá del tipo de sitio que estés intentando clonar. Una vez que haya configurado las opciones exactamente como las necesita, haga clic en Aceptar y luego en Siguiente >> y en el botón Iniciar>>. En este punto (Figura D), el sitio comenzará a clonarse (guardándolo en el directorio local configurado).
Figura D
Cuando se complete la descarga, podrá comenzar a trabajar con su clon.
No es perfecto, pero sí útil
Siempre y cuando no estés intentando descargar un sitio de WordPress, tanto httrack como webhttrack harán un gran trabajo descargando un clon de tu sitio, para que puedas depurar, hacer una copia de seguridad, o lo que sea que necesites. Como dije, dependiendo del tipo de sitio con el que quieras trabajar, tendrás que jugar con la configuración para que esto funcione. Pruebe esta útil herramienta y vea si no se convierte en su herramienta de clonación de sitios.
También vea
- Cómo conectarse a un recurso compartido SMB desde su dispositivo Android (TechRepublic)
- Cómo usar Antsle para desplegar rápidamente una máquina virtual (TechRepublic)
- 3 pasos rápidos para optimizar el rendimiento de su servidor NGINX (TechRepublic)
- Cómo conectarse a una base de datos MySQL remota con DBeaver (TechRepublic)
- Cómo añadir fácilmente una huella digital SSH a tu archivo known_hosts en Linux (TechRepublic)
- Puedes usar una VPN para luchar contra el abuso de la neutralidad de la red de los ISP (ZDNet)
Deja una respuesta