Idioma: ES
Feature-engineering-for-machine-learning-and-data-analysis

Curso Feature engineering for machine learning and data analysis

Información General

Presentación

Curso Feature engineering for machine learning and data analysis

Feature-engineering-for-machine-learning-and-data-analysis click para reproducir video
Educación Continuada: programas abiertos y empresariales de educación no formal que optimizan el desempeño profesional.

Aprende a mejorar la calidad de los modelos de Machine Learning mediante la aplicación sistemática y metodológica de las técnicas más efectivas de la Ingeniería de variables.

La ingeniería de variables es un paso crucial en el pipe-line de Machine Learning: no obstante, este tema, por lo general, es presentado en muchos cursos de manera muy básica y rara vez es examinado específicamente. En este curso se aprenderán y aplicarán, de manera profesional, las técnicas para la representación, selección, extracción y transformación de variables más empleadas en la construcción de modelos de aprendizaje automático y análisis de datos. En cada módulo se expondrán problemas para ilustrar los principios fundamentales de la ingeniería de variables poniendo énfasis en la aplicación práctica y en la resolución de ejercicios. Los paquetes de Python, incluidos Numpy, Pandas, Scikit-learn y Matplotlib y otros, son utilizados en los ejemplos de código.

"At the end of the day, some machine learning projects succeed and some fail. What makes the difference? Easily, the most important factor is the features used. Feature engineering is the key"

Pedro Domingos, 2012

Finalmente, es importante mencionar que el conocimiento y habilidades adquiridas en el curso proporcionarán al participante una ventaja competitiva en el mundo laboral; ya que la mayoría de los métodos y técnicas que aprenderán son empleadas, en la práctica, por muchos profesionales en ciencia de datos. Desde pequeñas empresas emprendedoras, hasta corporaciones multinacionales como Google, Microsoft, Amazon, entre muchas otras.

Conferencista Invitado

Cerrar

Saúl Solorio Fernández

Saúl Solorio Fernández

Licenciado en Matemáticas de la Universidad Autónoma de Guerrero (UAGro), máster y doctor en ciencias computacionales del Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE), Es experto en el desarrollo de algoritmos de reconocimiento de patrones y minería de datos. Ha colaborado en proyectos de instituciones internacionales tales como el Laboratorio de Aprendizaje Automático y Minería de Datos (DMML) de la Universidad Estatal de Arizona (ASU), Centro de Tecnología de la Información de la Universidad de Groninga en Países Bajos, así como con Centros de Investigación e Instituciones gubernamentales de México.

Sus líneas actuales de investigación se centran en el desarrollo de algoritmos de aprendizaje supervisado y no Supervisado, técnicas de pre-procesamiento de datos con especial énfasis en selección y extracción de atributos, algoritmos de optimización matemática meta-heurísticos y algoritmos de decisión basados en la teoría de juegos.

Por qué estudiar con nosotros

edificio-h-nocturna.jpg

En este curso el estudiante aprenderá y aplicará de manera profesional un gran número de métodos de ingeniería de variables que le permitirán transformar los datos para mejorar el desempeño de los modelos de aprendizaje. Al final del curso, el estudiante será capaz de decidir qué técnicas de ingeniería de variables son necesarias y más adecuadas en función de las características de las variables y los modelos posteriores a entrenar.

Concretamente en este curso se aprenderá:

  • Técnicas de visualización de variables.
  • Técnicas para el manejo de valores faltantes.
  • Técnicas de conversión de variables numéricas a no numéricas y viceversa.
  • Métodos de selección y extracción de variables.
  • Métodos para identificación y remoción de valores atípicos.
  • Técnicas de escalamiento y transformación de variables.
  • Y mucho más...

Metodología

La estrategia de enseñanza-aprendizaje para este curso está basada en presentación previa, clases prácticas y en la resolución de problemas. El curso se desarrollará en modalidad presencial mediante sesiones magistrales, con la exposición y discusión de los temas principales. Así mismo, durante cada sesión se realizará trabajo práctico en la que se guiará de forma personalizada a los estudiantes en la ejecución de los ejercicios.

Certificación

  • El curso se desarrollará en 5 módulos, con un total de 24 horas de clase en remoto sincrónico.
  • La Escuela Colombiana de Ingeniería Julio Garavito otorgará certificados de este curso así:
    • De asistencia, a quienes se inscriban por educación continuada y participen activa y cumplidamente como mínimo en el 90 % de las sesiones programadas.
    • De contenido, créditos y nota a los estudiantes de pregrado o posgrado de la Escuela.
    • De contenido, créditos y nota a los estudiantes de pregrado o posgrado de cualquier universidad del país que se matriculen como estudiantes visitantes o de intercambio. Para esto deberán enviar la solicitud a la Oficina de Relaciones Internacionales (ori@escuelaing.edu.co) e indicar la universidad de origen y el programa que cursan..

Perfil del aspirante

Mujer profesional
  • Estudiantes de posgrado y de últimos semestres de pregrado, profesores universitarios y profesionales interesados en los temas del curso.
  • Es recomendable, pero no indispensable, contar con conocimientos básicos de programación (Python), ambientes de desarrollo, algebra lineal, cálculo y probabilidad y estadística.

Contenido temático

Módulo I- Introducción, conceptos preliminares y configuración de entorno (5 horas)

Introducción

  • Introducción general y conceptos preliminares.
    • ¿Qué es ingeniería de variables?
    • Pasos en la ingeniería de variables.
  • Datasets y herramientas para el curso.
  • Requisitos.
  • Currículo del curso.

Comprendiendo las variables (Feature Understanding)

  • Tipos de variables
    • ¿Variables, qué son?
    • Variables numéricas.
    • Variables no-numéricas.
    • Variables mixtas.
    • Material complementario.
  • Características de las variables
    • Distribuciones.
    • Cardinalidad.
    • Categorías poco comunes.
    • Valores extremos.
    • Magnitud de las variables.
    • Herramientas de visualización.
    • Material adicional de lectura.

Preparación y configuración del entorno profesional de trabajo

Módulo II- Mejorando las variables- Limpieza de datos (Feature Improvement-Cleaning) (5 horas)

Manejo de Datos Faltantes (Imputation)

  • Introducción a las técnicas de Imputación.
  • Análisis de casos completos.
  • Imputación por la media/mediana.
  • Imputación con valor arbitrario.
  • Técnicas avanzadas de Imputación.
  • Determinación automática de la mejor imputación.
  • Resumen de métodos de imputación.

Codificación de Variables No Numéricas (Encoding)

  • Codificación One-Hot.
  • Codificación entera/ordinal.
  • Codificación por frecuencia y porcentajes.
  • Codificación informada por el target.
  • Ventajas y desventajas de la codificación de variables.
  • Material adicional de lectura.

Discretización de Variables (Dsicretization)

  • Discretización por intervalos.
  • Discretización por frecuencia.
  • Discretización mediante algoritmos de clustering.
  • Discretización en intervalos arbitrarios.
  • Técnicas de discretización supervisada.
  • Material adicional de lectura.

Escalamiento de variables (Feature Scaling)

  • Estandarización.
  • Normalización con la media.
  • Re-escalado por valor mínimo y máximo.
  • Normalización con la norma del vector.

Manejo de datos atípicos (Outliers)

  • Introducción a las técnicas de para la detección de valores atípicos.
  • Valores atípicos con RIQ.
  • Censura de valores atípicos.
  • LOF.
  • Otras técnicas de detección y eliminación de valores atípicos.
  • Fuentes adicionales de lectura.

Transformación de variables

  • Transformación logarítmica.
  • Transformación exponencial.
  • Box-Cox.
  • Yeo-Johnson.

Módulo IIl – Reducción de Dimensionalidad (Dimensionality Reduction) (5 horas)

Selección de Variables (Feature Selection)

  • Introducción a la selección de variables.
    • ¿Qué es la selección de variables?
    • Aplicaciones y tendencias.
    • Ventajas y desventajas.
  • Métodos supervisados, semi-supervisados y no supervisadoss
    • Filter.
    • Wrapper.
    • Métodos embebidos.
    • Híbridos.
  • Extracción de variables (Feature extraction).
    • Introducción a la extracción de variables.
      • ¿Qué es la extracción de variables?
      • Aplicaciones y tendencias.
      • Ventajas y desventajas.
  • Métodos clásicos de extracción de variables.
    • SVD
    • PCA
    • Kernel PCA
    • Laplacian Eigenmaps

Módulo IV- Despliegue y salida a producción (Deployment) (5 horas)

  • Introducción a los pipelines.
  • Plantillas de proyectos.
    • Instalación Cookiecutter.
    • Descarga y uso de plantilla Data Science.
  • Flujo de trabajo de los notebooks.
  • Desarrollo de API.

Módulo V- Finalización de proyectos y cierre del curso (4 horas)

  • Finalización de proyectos.
  • Bonus.
  • Material adicional para consultar.
  • Conclusiones y cierre del curso.

Fechas y horarios

El curso se desarrollará entre el 22 y el 26 de julio de 2024. Las clases se realizarán de lunes a jueves de 4:00 a 9:00 p.m. y el viernes de 4:00 a 8:00 p.m., en el campus de la Escuela.

La Universidad Escuela Colombiana de Ingeniería, para sus programas de Educación Continuada, se reserva el derecho de cambiar sus conferencistas y fechas de realización, o cancelarlos de no contar con el número de personas requerido para tal fin. Lo anterior se informará a los interesados con antelación.

Objetivos alcanzables

Bloque-I-nocturna.jpg

Brindar una introducción teórica y práctica de la ingeniería de variables con énfasis en la experimentación, reproducibilidad y diseño de estrategias para el análisis de datos y el mejoramiento del desempeño de los modelos de Machine Learning.

Valor de la inversión

edificio-h-nocturna.jpg

El valor de la inversión es de COP $2.190.000 (dos millones ciento noventa mil pesos) por participante. Este valor incluye material del curso en medio electrónico.

Descuento del 5 % por pronto pago hasta el 8 de julio de 2024.

Inscripciones hasta el 17 de julio de 2024.

Solicite Información

Feature engineering for machine learning and data analysis

Programas relacionados