Inicio Programas, Certificaciones y Cursos

Integración de Datos y ETL con Python

Área: Data Science | Sub Área: Data Engineering

Este Programa esta disponible en Modalidad:

Online

Matricularme Ahora

FECHAS DE INICIO

Online sincrónica: 20 Mayo 2026

DURACIÓN:

2 meses

Objetivos

Al finalizar el programa estarás en la capacidad de:

Diseñar e implementar flujos de integración de datos utilizando Python y bibliotecas como Pandas para manejar y transformar datos.
Crear procesos ETL básicos y medianos que consuman datos desde fuentes como archivos CSV, bases de datos SQL y sistemas NoSQL como Cassandra y MongoDB.
Implementar soluciones ETL complejas utilizando herramientas como Apache Nifi, Talend y Spark, tanto en procesos batch como streaming.
Aplicar técnicas avanzadas de preprocesamiento de datos, incluyendo manejo de datos faltantes, outliers y la creación de nuevas características.
Optimizar los procesos ETL en entornos distribuidos utilizando PySpark, mejorando la eficiencia de la memoria y el rendimiento de las consultas.

Público Objetivo

El curso está dirigido a:

Ingenieros de datos, desarrolladores de software, analistas de datos y profesionales del área tecnológica interesados en especializarse en la integración de datos y procesos ETL utilizando Python. Este curso es ideal para quienes desean aprender a crear flujos de datos escalables y optimizados, utilizando herramientas avanzadas como Spark, Apache Nifi, Talend y sistemas de bases de datos SQL y NoSQL. También es adecuado para aquellos que buscan profundizar en el preprocesamiento de datos, manejo de datos faltantes y outliers, y la ingeniería de características para proyectos de Machine Learning.

Prerrequisitos

Para llevar el programa el participante debe cumplir los siguientes prerrequisitos:

Experiencia previa en manejo de datos o en proyectos relacionados con la ingeniería de datos será valorada, pero no es imprescindible.
Para llevar el programa el participante debe cumplir los siguientes prerrequisitos:
Entender los conceptos fundamentales de bases de datos y su interacción con Python.
Para llevar el programa el participante debe cumplir los siguientes prerrequisitos:
Conocimientos básicos de programación en Python, incluyendo estructuras de datos, funciones y manejo de excepciones.
Para llevar el programa el participante debe cumplir los siguientes prerrequisitos:
Familiaridad con el uso de bibliotecas de Python como Pandas para manipulación de datos.
Para llevar el programa el participante debe cumplir los siguientes prerrequisitos:
Conocimiento básico de SQL y la capacidad de realizar consultas simples en bases de datos relacionales.
Para llevar el programa el participante debe cumplir los siguientes prerrequisitos:

Estructura Curricular

Vista Previa

ETL Básico

Series de Pandas
Data.Frames de Pandas
ETL usando CSV.

ETL mediana complejidad

ETL consumiendo SQL
ETL con Apache Nifi
ETL con Talend
ETL consumiendo sistema de archivos remoto

ETL Complejos

Introducción a Map-Reduce
ETL batch con pySpark
ETL streaming con pySpark
Consideraciones para optimizar ETLs con PySpark
Gobernanza de datos
Lidiando con datos faltantes
Lidiando con outliers
Introducción a la ingeniería de características
Ingeniería de características aplicada
Implementación ETL escenario Real parte 1
Implementación ETL escenario Real parte 2

Duración y Horarios

Miércoles: 20:00 a 23:00 horas.

Las clases se desarrollarán de forma virtual, con una frecuencia Semanal en el siguiente horario (*):

Lunes: 20:00 a 23:00 horas. (Hora Perú y Colombia)
Lunes: 19:00 a 22:00 horas. (Hora México)
Lunes: 22:00 a 01:00 horas. (Hora de verano Chile)

(*) Para más detalle sobre fechas y horarios solicita el cronograma de clases.

¿Tienes dudas sobre algún aspecto del programa?

Registra tus datos para que un asesor especializado pueda ayudarte en todo lo que requieras.

No soy yo . [Limpiar Formulario]

Certificación

Los participantes que completen exitosamente el programa, recibirán la siguiente certificación:

Al completar el curso completo “Integración de Datos y ETL con Python”, el participante recibirá un certificado institucional de participación/aprobación emitido por BSG Institute.
Certificación institucional otorgada por BSG Institute

Solicitar Informacion

Expositores

ALBERTO DE OBESO

Mexico

PhD en Informática por la universidad Sussex – Brighton, Reino Unido. Especialización en Modelación Cognitiva ACT-R por la universidad Carnegie Mellon – Pensilvania, Estados Unidos. Actualmente se desempeña como Director de la División de Big Data para Intersys Consulting. Cuenta con más de 15 años de experiencia Desarrollando y Diseñando Softwares principalmente con tecnologías .NET y Java (evaluación de requisitos, análisis, diseño, desarrollo, pruebas, implementación y mantenimiento) y en el Desarrollo de Soluciones de Business Intelligence (ciencia de datos, modelado de datos, visualización de datos, sistemas expertos, modelado cognitivo). Ha ocupado cargos importantes como Data Scientist en Luxoft, Chief Data Scientist en Daylight Intelligence, entre otros.

NOTA: No necesariamente todos los expositores mencionados participarán en el dictado del programa o sesiones webinar, asimismo se podrá contar con la participación de otros expositores adicionales a los mencionados.