#ExperienciaUnholster: ¿Por qué usamos ZYTE?

 

Hasta hace unos años, en Unholster utilizábamos nuestra propia infraestructura de scraping, sin embargo hace un tiempo migramos a Zyte. ¿Por qué? En voz de nuestros colaboradores, te contamos algunas de las razones.

Zyte es una plataforma especializada en soluciones de extracción de datos que permite obtener información de sitios web de manera eficiente.

¿Cómo ha sido la experiencia de nuestro equipo utilizando esta plataforma? Lo primero que destacan ingenieros e ingenieras de Unholster es que Zyte cuenta con lo necesario. “Tiene las herramientas más comunes pero que son clave en cualquier scraper: paralelismo, proxies, automatización de tareas recurrentes, almacenamiento de datos, estadísticas e historial de la ejecución”, explica Ignacio Norambuena, ingeniero de software que además destaca que la interfaz es una súper intuitiva, y su integración simplifica la configuración y el monitoreo constante de los scrapers.

Por otra parte considerando el alto estándar de calidad con el que nos gusta trabajar, valoramos que la plataforma ofrezca herramientas para monitorear el rendimiento de tus scrapers y solucionar problemas en caso de que surjan errores.

Otra ventaja, es que tiene soporte para múltiples lenguajes de programación, ya que es compatible con Python, JavaScript y otros, lo que no nos limita, sino al contrario. Esa misma autonomía se aplica en el almacenamiento de datos: En Zyte se pueden recopilar y almacenar los datos extraídos en diferentes formatos, incluyendo bases de datos, hojas de cálculo, archivos JSON, entre otros.

En esa línea, la ingeniera Constanza Kuschel destaca que cuenta con un funcionamiento de deploy continuo de los scrapers. “Zyte ofrece una plataforma en la nube para desplegar tus scrapers, eliminando la necesidad de administrar infraestructura. Puedes escalar tus scrapers de manera eficiente al ejecutar múltiples instancias de tus scrapers en paralelo, además de contar con la posibilidad de integrarlos con deploy continuo directamente desde tu repositorio de GitHub”, afirma.

En cuanto a las restricciones que a veces se pueden presentar, esta plataforma está diseñada para evitar problemas que los sitios web pueden imponer a los scrapers.
“Es una de las características clave de Zyte: El Smart Proxy Manager permite a los usuarios acceder a una amplia red de proxies de alta calidad en todo el mundo. Esto es necesario para el web scraping de páginas más complejas, ya que ayuda a evitar bloqueos por parte de los sitios web objetivo” comenta José Schafer.

Esto apunta a que es menos probable que nuestro scraping sea detectado y bloqueado por las páginas objetivo, ya que Zyte cuenta con una colección de direcciones IP cubiertas en más de 50 países, lo que es una solución para los problemas de prohibición de IP.

Schafer también destaca que Zyte cuenta con el servicio de Scrapy Cloud: “Te permite ejecutar spiders de manera eficiente y escalable en un entorno en la nube. Además, facilita la programación y la ejecución de las spiders de Scrapy en horarios específicos, permitiendo configurar tareas de scraping automatizadas y periódicas con facilidad”.

Antes de lanzarnos con Zyte, otro factor clave fue asegurarnos de que nos permitiera realizar el scraping de grandes volúmenes de datos de manera eficiente, esencial para proyectos de gran escala como los que llevamos a cabo en Unholster, y no nos defraudó.

Y si bien al tener nuestro propio scraper podíamos contar con un mayor control y flexibilidad sobre el proceso y así poder adaptarlo específicamente a nuestras necesidades, las plataformas de scraping como Zyte tienen una gran cantidad de middleware y configuraciones que hemos podidos personalizar para adaptar el scraper a situaciones específicas, como el uso de proxies, manejo de cookies, ejecución programada, autenticación y más.

Otra variable, es que los unholsterianos destacan los beneficios que surgieron tras tercerizar la infraestructura, ya que así, nos pudimos desprender del costo que significa en esfuerzo y tiempo desarrollar nuestro propio entorno de scraping. ¿Fue una decisión fácil? No.

Y es que somos conscientes del vicio que en general tienen los equipos técnicos de encariñarse demasiado con lo hecho y no querer soltarlo. Sin embargo, si bien en Unholster trabajamos orgullosos de lo que hacemos y de nuestros productos –y no nos importar reinventar la rueda si sentimos que es lo necesario–, con la misma pasión somos tremendamente pragmáticos y fríos al mirar las cosas en su verdadero valor y tomar decisiones de acuerdo a los resultados que apunten a mayor eficiencia y calidad. Esa máxima nos llevó a tomar el camino de optar por Zyte.

“Con nuestra propia plataforma no solo nos teníamos que preocupar de cómo extraer los datos, sino también de toda la infraestructura para que esta extracción se lleve a cabo de forma correcta, algo que contempla más trabajo y horas de dedicación pero no agrega valor al producto final que presentamos frente al cliente”, explica Norambuena.

En concreto, para tomar la decisión de migrar o no tuvimos en cuenta nuestros objetivos y recursos, y en ese marco, todo apuntó a que utilizar Zyte era una apuesta que valía la pena tomar y hasta el momento, creemos que fue la decisión correcta optar por externalizar la preocupación del desarrollo de la infraestructura del scraper, su mantenimiento y también actualizaciones.

Sin embargo, en Unholster nos declaramos inquietos y agnósticos tecnologicamente: No dejaremos de construir plataformas propias, no estamos casados con ninguna marca y siempre estamos vitrineando para ver qué nos puede ofrecer el mercado. Por lo tanto no descartamos que en un par de semanas podemos estar escribiendo sobre por qué decidimos cambiar Zyte.

¡Hasta la próxima!

 

 
Alicia Hamilton