Accede a todo EDteam con un único pago¡Sube a premium!

¿Qué es Web Scraping y cómo funciona?

Esta es una técnica de programación muy usada por grandes empresas como OpenAI y Google. ¿Pero de qué se trata? Te lo contamos en este blog.

Diseño web
8 minutos
Hace 2 meses
¿Qué es Web Scraping y cómo funciona?

¿Alguna vez has escuchado hablar de Web Scraping? Esta técnica de programación ha sido usada por grandes empresas como OpenAI para crear ChatGPT, o Google para crear su buscador. Y es muy fácil de aprender. Te cuento de qué se trata en este blog, porque tú sabes que en español, #NadieExplicaMejor que EDteam.

¿Qué es Web Scraping?

Imagina que quieres comprarte una Play 5. Entras a una tienda online y encuentras un precio, luego vas a otra tienda y el precio es diferente. Y en una tercera tienda lo encuentras por un precio mucho menor y compras tu Play.

Pero como eres programador (en los ratos libres en que no juegas con la Play 😉), piensas que ese proceso de buscar los mejores precios demora mucho y que puedes automatizarlo. Así que haces lo que cualquier programador haría: buscas la documentación de la API de esas tiendas y oh sorpresa, no tienen. ¿Y ahora qué? Pues la solución es programar un bot que navegue por ti en las páginas de esas tiendas y que vaya extrayendo la información que necesitas.

imagen-relacionada-creada-por-IA-blog-EDteam-png

Es exactamente lo que hizo Google para indexar a todas las páginas web del mundo y que también hizo OpenAI para entrenar a GPT-4 y se llama Web Scraping. Y que no te asuste eso de “programar un bot” porque es muy sencillo, este es el paso a paso:

  1. 1. Escoge el stack de tecnologías: Aunque puedes hacer Web Scraping con casi cualquier lenguaje, yo te recomiendo dos: Python y JavaScript (con Node.js) por la cantidad de herramientas que tienen y lo fácil que es usaras.
  2. 2. Analiza la estructura HTML de las páginas que vas a inspeccionar: Para que sepas donde están los elementos que necesitas, como los títulos de los productos, las imágenes o los precios.
  3. 3. Leer esa información utilizando el stack de herramientas que elegiste: En Python puedes usar BeautifulSoup y para Node tienes a Puppeteer.
    1. Si necesitas simular interacciones como hacer clic en enlaces o iniciar sesión con usuario y contraseña, puedes usar Sellenium.
  4. 5. Ahora puedes guardar los datos donde prefieras: en una hoja de cálculo, en una base de datos relacional o en una base de datos no relacional. Tú eliges.

Incluso puedes ir más allá y crear un endpoint a partir de esa base de datos y desarrollar tu propia aplicación web o móvil usando esa información. Y ya sé que te lo estás preguntando: ¿esto es legal? Y sí, es absolutamente legal.

Por ejemplo, podrías hacer Web Scraping a portales de empleos para buscar ofertas laborales para programadores y crear una aplicación que filtre las mejores ofertas (negociazo). También puedes desarrollar sitios que comparen precios de vuelos, hoteles, o de Play Station. ¡Hay muchas formas de aprovechar el Web Scraping como programador!

Mi nombre es Pablo España, Ingeniero de Software ecuatoriano con varios años de experiencia usando Python y JavaScript y estoy muy feliz de ser tu profesor en este curso de Web Scraping en EDteam, en el que aprenderás como extraer información de sitios web usando Python y Node.js, almacenarla en una base de datos y recibir notificaciones cuando se actualice la información. Este curso te va a encantar.

Si eres estudiante premium, el curso ya está completo en tu cuenta. Y si aún no eres premium, recuerda que puedes ver gratis las primeras clases para que descubras por ti mismo, porque en español, #NadieExplicaMejor que EDteam.

Y si no lo sabías, #LoAprendisteEnEDteam-

Comentarios de los usuarios

Pregunta a ChatEDT