This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.
When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
You can also embed plots, for example:
Note that the echo = FALSE parameter was added to the
code chunk to prevent printing of the R code that generated the plot. La
estadística descriptiva es la rama de la estadística
que se encarga de recolectar, organizar, resumir y presentar un conjunto
de datos. Su objetivo principal es describir las características
fundamentales de esos datos sin intentar sacar conclusiones sobre una
población más grande (eso sería estadística inferencial).
En pocas palabras: nos dice qué está pasando en nuestra muestra de datos aquí y ahora.
Para describir un conjunto de datos, solemos fijarnos en tres pilares:
R es el lenguaje por excelencia para estas tareas. Vamos a usar un
conjunto de datos que ya viene integrado llamado mtcars
(datos de pruebas de carretera de automóviles de 1974).
Queremos saber el promedio de millas por galón (mpg) de
los autos:
# Cargar los datos
data(mtcars)
# Media (promedio aritmético)
mean(mtcars$mpg)
# Mediana (el valor central al ordenar los datos)
median(mtcars$mpg)
¿Qué tanta variedad hay entre el auto más eficiente y el que más gasta?
# Rango (mínimo y máximo)
range(mtcars$mpg)
# Desviación Estándar (promedio de cuánto se alejan los datos de la media)
sd(mtcars$mpg)
# Varianza
var(mtcars$mpg)
summary()Si quieres un análisis descriptivo rápido de todo el dataset o de una variable, R tiene una función que hace casi todo el trabajo sucio por ti:
summary(mtcars$mpg)
Esto te devolverá el mínimo, el primer cuartil, la mediana, la media, el tercer cuartil y el valor máximo.
La estadística descriptiva no está completa sin una imagen. Los Histogramas y los Diagramas de Caja (Boxplots) son las herramientas estándar.
# Histograma para ver la forma de la distribución
hist(mtcars$mpg,
main="Distribución de MPG",
xlab="Millas por Galón",
col="skyblue")
# Boxplot para ver la dispersión y posibles valores atípicos (outliers)
boxplot(mtcars$mpg,
main="Boxplot de MPG",
ylab="Millas por Galón",
col="orange")
| Función | Qué calcula |
|---|---|
mean() |
Media aritmética |
median() |
Mediana |
sd() |
Desviación estándar |
var() |
Varianza |
quantile() |
Percentiles/Cuartiles |
summary() |
Resumen estadístico completo |
¿Te gustaría que profundizáramos en cómo interpretar estos resultados
o prefieres que veamos cómo crear gráficos más avanzados con la librería
ggplot2?