En el contexto de las ciencias, la estadística es una disciplina que se ocupa de la recoleccón, análisis e interpretación de datos. Los estadísticos son las medidas de resumen o describen aspectos clave de un conjunto de datos. Estas medidas permiten hacer inferencias, identificar patrones, y comprender la variabilidad de los datos.
2 La media geométrica es una medida de tendencia central que se usa para promediar valores positivos que están relacionados multiplicativamente, no aditivamente.
En lugar de sumar los datos como en la media aritmética, la media geométrica:
Multiplica todos los valores.
Toma la raíz n-ésima (según la cantidad de datos).
G = \sqrt[n]{X_1 \cdot X_2 \cdot X_3 \cdots X_n}
Ver código
x <-c(1:10, size =5000, replace =TRUE)prod(x)^(1/length(x))
[1] 7.159693
Ver código
exp(mean(log(x)))
[1] 7.159693
Ver código
psych::geometric.mean(x)
[1] 7.159693
Ver código
x <-c(5,8.2,6.1)1+x/100
[1] 1.050 1.082 1.061
Ver código
(psych::geometric.mean(1+x/100)-1)*100
[1] 6.425079
Datos Agrupados
Ver código
set.seed(555)peso <-round(rnorm(200, mean =60, sd =5), 1)peso
es una medida de tendencia central que se usa cuando queremos promediar tasas, razones o velocidades, es decir, valores que están en el denominador de una razón.
H = \frac{n}{\frac{1}{X_1} + \frac{1}{X_2} + \cdots + \frac{1}{X_n}}
ponderada es una medida de tendencia central que se usa cuando cada dato tiene un peso o frecuencia distinta. Es decir, algunos valores cuentan más que otros.
pen %>%ggplot(aes(x = bill_length_mm)) +geom_histogram(breaks =seq(32, 60, by =2.8),fill ="orange", # color de las barrascolor ="black"# opcional: bordes negros )
Ver código
scale_x_continuous(breaks =seq(32, 60, by =2.8))
<ScaleContinuousPosition>
Range:
Limits: 0 -- 1
Ver código
48.8+ (59-55)/((59-55)+(59-15))*2.8
[1] 49.03333
Ver código
mlv(pen$bill_length_mm, method ="meanshift")
[1] 46.55969
attr(,"iterations")
[1] 68
Ver código
pen %>%ggplot(aes(x = bill_length_mm)) +geom_density() +geom_vline(xintercept =46.55969, color ="red") +scale_x_continuous(breaks =seq(32, 60, by =2.8))
Los cuantiles son valores que dividen una distribución de datos en partes iguales. Son una generalización de conceptos como cuartiles, deciles y percentiles.
Ver código
set.seed(1)n <-250q <-10x <-sort(round(rnorm(n, mean =40, sd =8)))color <-floor(q*(1:n)/(n+1)) +1tibble(x = x, color =factor(color)) %>%ggplot(aes(x = x)#, fill = color) ) +geom_dotplot(binwidth =1, show.legend =FALSE, )+scale_x_continuous(breaks =seq(0, 80, by =2)) +theme(ggthemes::theme_fivethirtyeight()) +theme(axis.txet.y =element_blank(),axis.title =element_blank() )
Ver código
set.seed(1)n <-250q <-2x <-sort(round(rnorm(n, mean =40, sd =8)))color <-floor(q*(1:n)/(n+1)) +1tibble(x = x, color =factor(color)) %>%ggplot(aes(x = x, fill = color) ) +geom_dotplot(binwidth =1, show.legend =FALSE, )+scale_x_continuous(breaks =seq(0, 80, by =2)) +theme(ggthemes::theme_fivethirtyeight()) +theme(axis.txet.y =element_blank(),axis.title =element_blank() )
Datos no Agrupados
Cuartil
Formula:
Q_i = \frac{i(n+1)}{4}, i \in (1, 2, 3)
Ejemplo
Ver código
set.seed(1)n <-250q <-4x <-sort(round(rnorm(n, mean =40, sd =8)))color <-floor(q*(1:n)/(n+1)) +1tibble(x = x, color =factor(color)) %>%ggplot(aes(x = x, fill = color) ) +geom_dotplot(binwidth =1, show.legend =FALSE, )+scale_x_continuous(breaks =seq(0, 80, by =2)) +theme(ggthemes::theme_fivethirtyeight()) +theme(axis.txet.y =element_blank(),axis.title =element_blank() )
Ver código
3*(250+1)/4
[1] 188.25
Ver código
x[c(188,189)]
[1] 45 45
Ver código
1*(250+1)/4
[1] 62.75
Ver código
x[c(62,63)]
[1] 35 35
Quintil
Formula:
Qu_i = \frac{i(n+1)}{5}, i \in (1, 2, 3, 4)
Ejemplo
Ver código
set.seed(1)n <-250q <-5x <-sort(round(rnorm(n, mean =40, sd =8)))color <-floor(q*(1:n)/(n+1)) +1tibble(x = x, color =factor(color)) %>%ggplot(aes(x = x, fill = color) ) +geom_dotplot(binwidth =1, show.legend =FALSE, )+scale_x_continuous(breaks =seq(0, 80, by =2)) +theme(ggthemes::theme_fivethirtyeight()) +theme(axis.txet.y =element_blank(),axis.title =element_blank() )
Ver código
3*(250+1)/5
[1] 150.6
Ver código
x[c(150,151)]
[1] 42 42
Decil
Formula:
D_i = \frac{i(n+1)}{10}, i \in (1, 2, ..., 9)
Ejemplo 7
Ver código
set.seed(1)n <-250q <-10x <-sort(round(rnorm(n, mean =40, sd =8)))color <-floor(q*(1:n)/(n+1)) +1tibble(x = x, color =factor(color)) %>%ggplot(aes(x = x, fill = color) ) +geom_dotplot(binwidth =1, show.legend =FALSE, )+scale_x_continuous(breaks =seq(0, 80, by =2)) +theme(ggthemes::theme_fivethirtyeight()) +theme(axis.txet.y =element_blank(),axis.title =element_blank() )
Ver código
9*(250+1)/10
[1] 225.9
Ver código
x[c(225,226)]
[1] 50 51
Ver código
50+0.9*(51-50)
[1] 50.9
Percentiles
Formula: P_i = \frac{i(n+1)}{100}, i \in (1, 2, ..., 99)
Datos Agrupados
Ver código
set.seed(555)peso <-round(rnorm(200, mean =60, sd =5), 1)interv =cut(x = peso, breaks =seq(43,79, by =4), include.lowest =TRUE, right =TRUE)
La Varianza es una de las medidas de dispersión más importantes en estadística. Mide la dispersión promedio de los valores de un conjunto de datos con respecto a su media.
La Desviación Estándar es la medida de dispersión más utilizada porque nos da la dispersión de los datos en las unidades originales de los mismos, a diferencia de la Varianza, que está en unidades cuadradas.
Datos no agrupados
Formula para desviación estándar poblacional:
= \sqrt{\frac{\sum_{i=1}^n (x_i - \mu)^2}{n}}
Formula para desviación estándar muestral:
s = \sqrt{\frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n - 1}}
es una medida de dispersión relativa muy útil. Su objetivo principal es permitir la comparación de la dispersión entre dos o más conjuntos de datos que tienen unidades de medida diferentes o medias muy distintas.
Las medidas de asimetría (o coeficientes de asimetría) son indicadores que muestran qué tan simétrica o inclinada está una distribución de datos respecto a la media.
Sirven para saber si los datos se “inclinan” hacia la derecha, hacia la izquierda o si son simétricos.
w’_i = asimetria\frac{media-moda}{o}
Coeficiente de asimetría
El coeficiente de asimetría es una medida estadística que indica qué tan simétrica o inclinada está una distribución de datos respecto a su media.
Ver código
n <-1000set.seed(123)df <-data.frame(x1 =rchisq(n = n, df =7),x2 =rnorm(n = n, mean =10, sd =2),x3 =rbeta(n = n, shape1 =5, shape2 =2))
Ver código
df %>%ggplot(aes(x = x1)) +geom_histogram(aes(y = ..density..), bins =25, fill ="orange", color ="black") +geom_density(color ="blue", linewidth =1) + ggthemes::theme_fivethirtyeight()
Ver código
df %>%ggplot(aes(x = x2)) +geom_histogram(aes(y = ..density..), bins =25, fill ="orange", color ="white") +geom_density(color ="red", linewidth =1) + ggthemes::theme_fivethirtyeight()
Ver código
df %>%ggplot(aes(x = x3)) +geom_histogram(aes(y = ..density..), bins =25, fill ="orange", color ="white") +geom_density(color ="blue", linewidth =1) + ggthemes::theme_fivethirtyeight()
e1071::skewness(x = df$x1, type =3) #R utiliza la formula de Fisher
[1] 0.9283745
Ver código
e1071::skewness(x = df$x2, type =1)
[1] -0.07086048
Ver código
e1071::skewness(x = df$x3, type =2)
[1] -0.6738417
9 Medidas de apuntamiento
Las medidas de apuntamiento describen qué tan “picada” o “aplanada” está una distribución en comparación con la distribución normal. Evaluan la concentración de los datos alrededor de la media y el peso de las colas.
Ver código
ggplot(data =data.frame(x =c(-5, 5)), aes(x)) +stat_function(fun = dnorm, n =201, args =list(mean =0, sd =1), color ="red") +stat_function(fun = dnorm, n =201, args =list(mean =0, sd =0.5), color ="blue") +stat_function(fun = dnorm, n =201, args =list(mean =0, sd =1.5), color ="orange") +geom_text(x =2.5, y =0.65, label ="Leptocúrtica", color ="blue") +geom_text(x =2.5, y =0.6, label ="Mesocúrtica", color ="red") +geom_text(x =2.5, y =0.55, label ="Platicúrtica", color ="orange") + ggthemes::theme_fivethirtyeight()
Ver código
N <-1000set.seed(123)df <-tibble(M =rnorm(n, mean =50, sd =10),P =2*runif(n, min =40, max =60)-50,L =rexp(n, rate =0.1) +50)
Ver código
df %>%gather(key ="Tipo", value ="x") %>%ggplot(aes(x = x, color = Tipo )) +geom_density(linewidth =1) +scale_x_continuous(limits =c(0,100)) + ggthemes::theme_fivethirtyeight()