¿Qué es Web Scraping y cómo funciona?

Esta es una técnica de programación muy usada por grandes empresas como OpenAI y Google. ¿Pero de qué se trata? Te lo contamos en este blog.

Diseño web
8 minutos
Hace un año
¿Qué es Web Scraping y cómo funciona?

¡Accede a cientos de cursos
con solo un pago al año!

Blog Microbanner

¿Alguna vez has escuchado hablar de Web Scraping? Esta técnica de programación ha sido usada por grandes empresas como OpenAI para crear ChatGPT, o Google para crear su buscador. Y es muy fácil de aprender. Te cuento de qué se trata en este blog, porque tú sabes que en español, #NadieExplicaMejor que EDteam.

¿Qué es Web Scraping?

Imagina que quieres comprarte una Play 5. Entras a una tienda online y encuentras un precio, luego vas a otra tienda y el precio es diferente. Y en una tercera tienda lo encuentras por un precio mucho menor y compras tu Play.

Pero como eres programador (en los ratos libres en que no juegas con la Play 😉), piensas que ese proceso de buscar los mejores precios demora mucho y que puedes automatizarlo. Así que haces lo que cualquier programador haría: buscas la documentación de la API de esas tiendas y oh sorpresa, no tienen. ¿Y ahora qué? Pues la solución es programar un bot que navegue por ti en las páginas de esas tiendas y que vaya extrayendo la información que necesitas.

imagen-relacionada-creada-por-IA-blog-EDteam-png

Es exactamente lo que hizo Google para indexar a todas las páginas web del mundo y que también hizo OpenAI para entrenar a GPT-4 y se llama Web Scraping. Y que no te asuste eso de “programar un bot” porque es muy sencillo, este es el paso a paso:

  1. 1. Escoge el stack de tecnologías: Aunque puedes hacer Web Scraping con casi cualquier lenguaje, yo te recomiendo dos: Python y JavaScript (con Node.js) por la cantidad de herramientas que tienen y lo fácil que es usaras.
  2. 2. Analiza la estructura HTML de las páginas que vas a inspeccionar: Para que sepas donde están los elementos que necesitas, como los títulos de los productos, las imágenes o los precios.
  3. 3. Leer esa información utilizando el stack de herramientas que elegiste: En Python puedes usar BeautifulSoup y para Node tienes a Puppeteer.
    1. Si necesitas simular interacciones como hacer clic en enlaces o iniciar sesión con usuario y contraseña, puedes usar Sellenium.
  4. 5. Ahora puedes guardar los datos donde prefieras: en una hoja de cálculo, en una base de datos relacional o en una base de datos no relacional. Tú eliges.

Incluso puedes ir más allá y crear un endpoint a partir de esa base de datos y desarrollar tu propia aplicación web o móvil usando esa información. Y ya sé que te lo estás preguntando: ¿esto es legal? Y sí, es absolutamente legal.

Por ejemplo, podrías hacer Web Scraping a portales de empleos para buscar ofertas laborales para programadores y crear una aplicación que filtre las mejores ofertas (negociazo). También puedes desarrollar sitios que comparen precios de vuelos, hoteles, o de Play Station. ¡Hay muchas formas de aprovechar el Web Scraping como programador!

Mi nombre es Pablo España, Ingeniero de Software ecuatoriano con varios años de experiencia usando Python y JavaScript y estoy muy feliz de ser tu profesor en este curso de Web Scraping en EDteam, en el que aprenderás como extraer información de sitios web usando Python y Node.js, almacenarla en una base de datos y recibir notificaciones cuando se actualice la información. Este curso te va a encantar.

Si eres estudiante premium, el curso ya está completo en tu cuenta. Y si aún no eres premium, recuerda que puedes ver gratis las primeras clases para que descubras por ti mismo, porque en español, #NadieExplicaMejor que EDteam.

Y si no lo sabías, #LoAprendisteEnEDteam-

Comentarios de los usuarios