Ciencia de Datos con R
Este curso está dirigido a cualquier persona que quiera introducirse en el área de la Ciencia de Datos. El objetivo general del mismo este curso es ser capaz de reconocer las oportunidades que brindan los datos, su valor y el conocimiento que puede extraerse de los mismos. En el curso se introducirán ciertas herramientas de aprendizaje automático y lenguajes de análisis de datos para ello. Los contenidos se estructuran en cinco unidades temáticas donde (1) trabajaremos con lenguaje de programación R; (2) se realizará una introducción al aprendizaje automático y la ciencia de datos; (3) hablaremos de preprocesamiento de datos en cuanto a la limpieza, transformación y selección de los mismos; (4) se introducirán las técnicas de aprendizaje supervisadas y no supervisadas para la resolución de tareas predictivas y descriptivas; y, finalmente, (5) nos centraremos en la parte de evaluación, las diferencias de las diferentes métricas dependiendo las tareas, el problema de sobreajuste y la evaluación sensible al coste o la utilidad.
Se trata de un curso con alto contenido técnico y, aunque no es necesario tener una formación previa, sí que necesitas conocimientos básicos de programación y de estadística.
Modulo 1: R: Conceptos elementales
- Material en formato pdf (teoría, transparencias, etc.)
- Videos:
- Instalando y extendiendo R
- Variables y vectores en R
- Factores y secuencias en R
- Estructuras de datos multidimensionales en R
- Estructuras de programación en R
- Gráficos en R
Módulo 2: Introducción a la minería de datos y ciencia de datos,
- Material en formato pdf (teoría, transparencias, ejercicios, etc.)
- Videos:
- Motivación
- Minería de Datos y Ciencia de Datos
- El proceso de extracción de conocimiento
- Tareas, técnicas y herramientas
Módulo 3: Preprocesamiento de datos
- Material en formato pdf (teoría, transparencias, ejercicios, etc.)
- Videos:
- Preprocesamiento de datos: Presentación
- Integración, manipulación y visualización
- Limpieza, transformación y selección
- Visualización y comprensión de datos
Módulo 4: Técnicas básicas de aprendizaje automático
- Material en formato pdf (teoría, transparencias, ejercicios, etc.)
- Videos
- Tareas, modelos y técnicas
- Técnicas supervisadas
- Técnicas no supervisadas
- Ejemplos
Módulo 5: Evaluación de modelos de aprendizaje automático
- Material en formato pdf (teoría, transparencias, ejercicios, etc.)
- Videos:
- Evaluación de modelos
- Más detalles: contingencia, costes y desequilibrio
- Análisis ROC
Inicio de sesión
Documentación
- Teoría
- Transparencias
- Vídeos
- Prácticas
Módulo 2: Introducción a la ciencia de datos
- Teoría
- Transparencias
- Vídeos
Módulo 3: Preprocesamiento de datos
- Teoría
- Transparencias
- Vídeos
- Prácticas
Módulo 4: Modelado de datos en R
- Teoría
- Transparencias
- Vídeos
- Tareas, modelos y técnicas
- Técnicas supervisadas
- Técnicas supervisadas: Inducción de reglas
- Inducción de reglas basadas en partición
- Inducción de reglas basadas en cobertura
- Técnicas bayesianas
- Técnicas basadas en distancias
- Técnicas estadísticas Regresión
- Técnicas estadísticas Regresión logística
- Técnicas lineales
- Comparación de técnicas supervisadas
- Técnicas no supervisadas
- Ejemplos
- Prácticas: