Curso Feature engineering for machine learning and data analysis
La ingeniería de variables es un paso crucial en el pipe-line de Machine Learning: no obstante, este tema, por lo general, es presentado en muchos cursos de manera muy básica y rara vez es examinado específicamente. En este curso se aprenderán y aplicarán, de manera profesional, las técnicas para la representación, selección, extracción y transformación de variables más empleadas en la construcción de modelos de aprendizaje automático y análisis de datos. En cada módulo se expondrán problemas para ilustrar los principios fundamentales de la ingeniería de variables poniendo énfasis en la aplicación práctica y en la resolución de ejercicios. Los paquetes de Python, incluidos Numpy, Pandas, Scikit-learn y Matplotlib y otros, son utilizados en los ejemplos de código.
"At the end of the day, some machine learning projects succeed and some fail. What makes the difference? Easily, the most important factor is the features used. Feature engineering is the key"
Finalmente, es importante mencionar que el conocimiento y habilidades adquiridas en el curso proporcionarán al participante una ventaja competitiva en el mundo laboral; ya que la mayoría de los métodos y técnicas que aprenderán son empleadas, en la práctica, por muchos profesionales en ciencia de datos. Desde pequeñas empresas emprendedoras, hasta corporaciones multinacionales como Google, Microsoft, Amazon, entre muchas otras.
La estrategia de enseñanza-aprendizaje para este curso está basada en presentación previa, clases prácticas y en la resolución de problemas. El curso se desarrollará en modalidad presencial mediante sesiones magistrales, con la exposición y discusión de los temas principales. Así mismo, durante cada sesión se realizará trabajo práctico en la que se guiará de forma personalizada a los estudiantes en la ejecución de los ejercicios.
Módulo I- Introducción, conceptos preliminares y configuración de entorno (5 horas)
Introducción
Comprendiendo las variables (Feature Understanding)
Preparación y configuración del entorno profesional de trabajo
Módulo II- Mejorando las variables- Limpieza de datos (Feature Improvement-Cleaning) (5 horas)
Manejo de Datos Faltantes (Imputation)
Codificación de Variables No Numéricas (Encoding)
Discretización de Variables (Dsicretization)
Escalamiento de variables (Feature Scaling)
Manejo de datos atípicos (Outliers)
Transformación de variables
Módulo IIl – Reducción de Dimensionalidad (Dimensionality Reduction) (5 horas)
Selección de Variables (Feature Selection)
Módulo IV- Despliegue y salida a producción (Deployment) (5 horas)
Módulo V- Finalización de proyectos y cierre del curso (4 horas)
El curso se desarrollará entre el 22 y el 26 de julio de 2024. Las clases se realizarán de lunes a jueves de 4:00 a 9:00 p.m. y el viernes de 4:00 a 8:00 p.m., en el campus de la Escuela.
La Universidad Escuela Colombiana de Ingeniería, para sus programas de Educación Continuada, se reserva el derecho de cambiar sus conferencistas y fechas de realización, o cancelarlos de no contar con el número de personas requerido para tal fin. Lo anterior se informará a los interesados con antelación.
Brindar una introducción teórica y práctica de la ingeniería de variables con énfasis en la experimentación, reproducibilidad y diseño de estrategias para el análisis de datos y el mejoramiento del desempeño de los modelos de Machine Learning.
Feature engineering for machine learning and data analysis