Estadística Descriptiva y Análisis Exploratorio de Datos
Descripción del curso
El curso desarrolla competencias para explorar, limpiar, describir y comunicar hallazgos en datos reales. Se enfatiza el análisis exploratorio (EDA) como un proceso iterativo basado en visualización, transformación y modelos ligeros para comprensión (no inferencia formal). Se trabaja con reportes reproducibles en Quarto y prácticas de programación en R orientadas al análisis de datos.
Objetivo general:
Manejar los principios básicos de la estadística descriptiva y desarrollar habilidades en el análisis exploratorio de datos.
Objetivos específicos:
- Desarrollar habilidades para depurar, desplegar y analizar datos con un objetivo científico.
- Usar la estadística descriptiva como herramienta de análisis estadístico inicial.
- Desarrollar habilidades para desplegar datos con el fin de obtener un panorama global del comportamiento de los mismos.
- Adquirir habilidades investigativas para planear, ejecutar y analizar una investigación estadísticamente válida.
El estudiante tendrá al final de curso la capacidad de:
- Importar datos y diagnosticar calidad (tipos, faltantes, duplicados, rangos, consistencia).
- Estructurar datos en formato “tidy” y documentar un diccionario de datos.
- Construir resúmenes descriptivos apropiados (tendencia central, dispersión, percentiles, frecuencias, proporciones).
- Diseñar visualizaciones EDA con intención (distribuciones, comparaciones, relaciones).
- Analizar covariación (num–num, cat–num, cat–cat) sin confundir asociación con causalidad.
- Tomar y justificar decisiones de limpieza (NA, outliers, reglas de coherencia).
- Usar “modelos ligeros” como herramienta exploratoria para revelar patrones.
- Comunicar hallazgos de forma clara y reproducible en un reporte Quarto.
- Demostrar comprensión operativa de R: lectura, modificación, depuración y explicación de código.
Contenido del curso:
- El proceso investigativo y el uso de los datos.
- Planeación de toma de datos con fines investigativos.
- Conceptos básicos del análisis exploratorio de datos.
- Visualización e interpretación de datos.
- Entendimiento de la naturaleza de los datos.
- Estadística descriptiva, medidas de tendencia central, medidas de dispersión, tablas de frecuencia, etc.
Metodología
- Clase: conceptos, ejemplos guiados y discusión de decisiones analíticas.
- Laboratorio: práctica en R con datasets reales, actividades en vivo (LC) y depuración.
- Aprendizaje basado en proyectos: un proyecto de grupo con hitos, más entregas individuales.
- Énfasis transversal: reproducibilidad, trazabilidad y comunicación.
Bibliografía
Se utilizará en la mayor parte del curso las indicaciones del libro digital R para ciencia de datos
Se puede utilizar otra bibliografía auxiliar de acuerdo al desarrollo del curso.
Evaluación:
| Item | Porcentaje |
|---|---|
| Talleres individuales y en grupo (seguimiento) | 20% |
| Trabajos en grupo | 25% |
| Trabajos individuales | 25% |
| Final | 30% |
Software
Política de uso de IA (permitida con transparencia)
La IA puede utilizarse como herramienta de aprendizaje (sugerir ideas, depurar, explicar errores, refactorizar), pero no reemplaza el aprendizaje esperado. El curso evalúa la comprensión mediante coherencia con los datos, defensa oral y tareas en vivo.
Anexo IA obligatorio (en cada entrega)
Máximo 10 líneas, al final del reporte:
- ¿Usó IA? (Sí/No)
- ¿En qué la usó? (depuración, ideas, gráficos, explicación)
- 3 bullets: qué cambió usted y qué aprendió
- 1–2 prompts clave (máx 6 líneas)
Qué se penaliza
- Entregas no reproducibles (no corren / rutas rotas / objetos no creados).
- Contradicciones entre narrativa y evidencia (gráficos/tablas).
- Incapacidad de explicar o modificar el análisis en defensa o actividades en vivo.
Enlaces importantes
Libro electrónico Manual de R.
Libro electrónico Gráficos con R.
Canal de YouTube del profesor Freddy Hernández Barajas. Tutoriales cortos de R, RStudio, estadística y modelación en estadística.
Página de semillero de R por el profesor Edimer David Jaramillo
Reproducibilidad y formato de entrega
Todas las entregas deben incluir:
- Proyecto con estructura mínima:
/datos,/reporte,/R - Reporte Quarto (
.qmd) y salida (HTML/PDF si aplica) sessionInfo()al final del reporte- Semilla (
set.seed()) cuando aplique
Políticas del curso
- Se utilizará la plataforma UN virtual de la Universidad Nacional de Colombia.
- Los grupos de trabajo serán de máximo cinco (5) personas.
- Todo correo que se envíe a krcabrer@unal.edu.co debe llevar en asunto: [EDAED] (No olvide incluir los chorchetes)
- Las sesiones virtuales que se programen se utilizará solo el correo electrónico de la Universidad (.unal.edu.co).
Reglas de colaboración e integridad académica
- Se permite discusión conceptual entre estudiantes.
- En entregas individuales, el trabajo debe reflejar decisiones y comprensión propias.
- Copiar reportes completos o resultados sin atribución se considera falta grave.
- El Anexo IA hace transparente el uso de herramientas y evita ambigüedad.
Código QR para incluirse en la lista de discusión
