R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot. La estadística descriptiva es la rama de la estadística que se encarga de recolectar, organizar, resumir y presentar un conjunto de datos. Su objetivo principal es describir las características fundamentales de esos datos sin intentar sacar conclusiones sobre una población más grande (eso sería estadística inferencial).

En pocas palabras: nos dice qué está pasando en nuestra muestra de datos aquí y ahora.


1. Conceptos Clave

Para describir un conjunto de datos, solemos fijarnos en tres pilares:


2. Ejemplos Prácticos en R

R es el lenguaje por excelencia para estas tareas. Vamos a usar un conjunto de datos que ya viene integrado llamado mtcars (datos de pruebas de carretera de automóviles de 1974).

A. Medidas de Tendencia Central

Queremos saber el promedio de millas por galón (mpg) de los autos:

# Cargar los datos
data(mtcars)

# Media (promedio aritmético)
mean(mtcars$mpg) 

# Mediana (el valor central al ordenar los datos)
median(mtcars$mpg)

B. Medidas de Dispersión

¿Qué tanta variedad hay entre el auto más eficiente y el que más gasta?

# Rango (mínimo y máximo)
range(mtcars$mpg)

# Desviación Estándar (promedio de cuánto se alejan los datos de la media)
sd(mtcars$mpg)

# Varianza
var(mtcars$mpg)

C. El comando “mágico”: summary()

Si quieres un análisis descriptivo rápido de todo el dataset o de una variable, R tiene una función que hace casi todo el trabajo sucio por ti:

summary(mtcars$mpg)

Esto te devolverá el mínimo, el primer cuartil, la mediana, la media, el tercer cuartil y el valor máximo.


3. Visualización de los Datos

La estadística descriptiva no está completa sin una imagen. Los Histogramas y los Diagramas de Caja (Boxplots) son las herramientas estándar.

# Histograma para ver la forma de la distribución
hist(mtcars$mpg, 
     main="Distribución de MPG", 
     xlab="Millas por Galón", 
     col="skyblue")

# Boxplot para ver la dispersión y posibles valores atípicos (outliers)
boxplot(mtcars$mpg, 
        main="Boxplot de MPG", 
        ylab="Millas por Galón", 
        col="orange")

Resumen de Funciones

Función Qué calcula
mean() Media aritmética
median() Mediana
sd() Desviación estándar
var() Varianza
quantile() Percentiles/Cuartiles
summary() Resumen estadístico completo

¿Te gustaría que profundizáramos en cómo interpretar estos resultados o prefieres que veamos cómo crear gráficos más avanzados con la librería ggplot2?