En el contexto de las ciencias, la estadística es una disciplina que se ocupa de la recoleccón, análisis e interpretación de datos. Los estadísticos son las medidas de resumen o describen aspectos clave de un conjunto de datos. Estas medidas permiten hacer inferencias, identificar patrones, y comprender la variabilidad de los datos.
2 La media geométrica es una medida de tendencia central que se usa para promediar valores positivos que están relacionados multiplicativamente, no aditivamente.
En lugar de sumar los datos como en la media aritmética, la media geométrica:
Multiplica todos los valores.
Toma la raíz n-ésima (según la cantidad de datos).
G = \sqrt[n]{X_1 \cdot X_2 \cdot X_3 \cdots X_n}
Ver código
x <-c(1:10, size =5000, replace =TRUE)prod(x)^(1/length(x))
[1] 7.159693
Ver código
exp(mean(log(x)))
[1] 7.159693
Ver código
psych::geometric.mean(x)
[1] 7.159693
Ver código
x <-c(5,8.2,6.1)1+x/100
[1] 1.050 1.082 1.061
Ver código
(psych::geometric.mean(1+x/100)-1)*100
[1] 6.425079
Datos Agrupados
Ver código
set.seed(555)peso <-round(rnorm(200, mean =60, sd =5), 1)peso
es una medida de tendencia central que se usa cuando queremos promediar tasas, razones o velocidades, es decir, valores que están en el denominador de una razón.
H = \frac{n}{\frac{1}{X_1} + \frac{1}{X_2} + \cdots + \frac{1}{X_n}}
ponderada es una medida de tendencia central que se usa cuando cada dato tiene un peso o frecuencia distinta. Es decir, algunos valores cuentan más que otros.
pen %>%ggplot(aes(x = bill_length_mm)) +geom_histogram(breaks =seq(32, 60, by =2.8),fill ="orange", # color de las barrascolor ="black"# opcional: bordes negros )
Ver código
scale_x_continuous(breaks =seq(32, 60, by =2.8))
<ScaleContinuousPosition>
Range:
Limits: 0 -- 1
Ver código
48.8+ (59-55)/((59-55)+(59-15))*2.8
[1] 49.03333
Ver código
mlv(pen$bill_length_mm, method ="meanshift")
[1] 46.55969
attr(,"iterations")
[1] 68
Ver código
pen %>%ggplot(aes(x = bill_length_mm)) +geom_density() +geom_vline(xintercept =46.55969, color ="red") +scale_x_continuous(breaks =seq(32, 60, by =2.8))
Los cuantiles son valores que dividen una distribución de datos en partes iguales. Son una generalización de conceptos como cuartiles, deciles y percentiles.
Ver código
set.seed(1)n <-250q <-10x <-sort(round(rnorm(n, mean =40, sd =8)))color <-floor(q*(1:n)/(n+1)) +1tibble(x = x, color =factor(color)) %>%ggplot(aes(x = x)#, fill = color) ) +geom_dotplot(binwidth =1, show.legend =FALSE, )+scale_x_continuous(breaks =seq(0, 80, by =2)) +theme(ggthemes::theme_fivethirtyeight()) +theme(axis.txet.y =element_blank(),axis.title =element_blank() )
Ver código
set.seed(1)n <-250q <-2x <-sort(round(rnorm(n, mean =40, sd =8)))color <-floor(q*(1:n)/(n+1)) +1tibble(x = x, color =factor(color)) %>%ggplot(aes(x = x, fill = color) ) +geom_dotplot(binwidth =1, show.legend =FALSE, )+scale_x_continuous(breaks =seq(0, 80, by =2)) +theme(ggthemes::theme_fivethirtyeight()) +theme(axis.txet.y =element_blank(),axis.title =element_blank() )
Datos no Agrupados
Cuartil
Formula:
Q_i = \frac{i(n+1)}{4}, i \in (1, 2, 3)
Ejemplo
Ver código
set.seed(1)n <-250q <-4x <-sort(round(rnorm(n, mean =40, sd =8)))color <-floor(q*(1:n)/(n+1)) +1tibble(x = x, color =factor(color)) %>%ggplot(aes(x = x, fill = color) ) +geom_dotplot(binwidth =1, show.legend =FALSE, )+scale_x_continuous(breaks =seq(0, 80, by =2)) +theme(ggthemes::theme_fivethirtyeight()) +theme(axis.txet.y =element_blank(),axis.title =element_blank() )
Ver código
3*(250+1)/4
[1] 188.25
Ver código
x[c(188,189)]
[1] 45 45
Ver código
1*(250+1)/4
[1] 62.75
Ver código
x[c(62,63)]
[1] 35 35
Quintil
Formula:
Qu_i = \frac{i(n+1)}{5}, i \in (1, 2, 3, 4)
Ejemplo
Ver código
set.seed(1)n <-250q <-5x <-sort(round(rnorm(n, mean =40, sd =8)))color <-floor(q*(1:n)/(n+1)) +1tibble(x = x, color =factor(color)) %>%ggplot(aes(x = x, fill = color) ) +geom_dotplot(binwidth =1, show.legend =FALSE, )+scale_x_continuous(breaks =seq(0, 80, by =2)) +theme(ggthemes::theme_fivethirtyeight()) +theme(axis.txet.y =element_blank(),axis.title =element_blank() )
Ver código
3*(250+1)/5
[1] 150.6
Ver código
x[c(150,151)]
[1] 42 42
Decil
Formula:
D_i = \frac{i(n+1)}{10}, i \in (1, 2, ..., 9)
Ejemplo 7
Ver código
set.seed(1)n <-250q <-10x <-sort(round(rnorm(n, mean =40, sd =8)))color <-floor(q*(1:n)/(n+1)) +1tibble(x = x, color =factor(color)) %>%ggplot(aes(x = x, fill = color) ) +geom_dotplot(binwidth =1, show.legend =FALSE, )+scale_x_continuous(breaks =seq(0, 80, by =2)) +theme(ggthemes::theme_fivethirtyeight()) +theme(axis.txet.y =element_blank(),axis.title =element_blank() )
Ver código
9*(250+1)/10
[1] 225.9
Ver código
x[c(225,226)]
[1] 50 51
Ver código
50+0.9*(51-50)
[1] 50.9
Percentiles
Formula: P_i = \frac{i(n+1)}{100}, i \in (1, 2, ..., 99)
Datos Agrupados
Ver código
set.seed(555)peso <-round(rnorm(200, mean =60, sd =5), 1)interv =cut(x = peso, breaks =seq(43,79, by =4), include.lowest =TRUE, right =TRUE)
La Varianza es una de las medidas de dispersión más importantes en estadística. Mide la dispersión promedio de los valores de un conjunto de datos con respecto a su media.
La Desviación Estándar es la medida de dispersión más utilizada porque nos da la dispersión de los datos en las unidades originales de los mismos, a diferencia de la Varianza, que está en unidades cuadradas.
Datos no agrupados
Formula para desviación estándar poblacional:
= \sqrt{\frac{\sum_{i=1}^n (x_i - \mu)^2}{n}}
Formula para desviación estándar muestral:
s = \sqrt{\frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n - 1}}
es una medida de dispersión relativa muy útil. Su objetivo principal es permitir la comparación de la dispersión entre dos o más conjuntos de datos que tienen unidades de medida diferentes o medias muy distintas.
Las medidas de asimetría (o coeficientes de asimetría) son indicadores que muestran qué tan simétrica o inclinada está una distribución de datos respecto a la media.
Sirven para saber si los datos se “inclinan” hacia la derecha, hacia la izquierda o si son simétricos.
w’_i = asimetria\frac{media-moda}{o}
Coeficiente de asimetría
El coeficiente de asimetría es una medida estadística que indica qué tan simétrica o inclinada está una distribución de datos respecto a su media.
Ver código
n <-1000set.seed(123)df <-data.frame(x1 =rchisq(n = n, df =7),x2 =rnorm(n = n, mean =10, sd =2),x3 =rbeta(n = n, shape1 =5, shape2 =2))
Ver código
df %>%ggplot(aes(x = x1)) +geom_histogram(aes(y = ..density..), bins =25, fill ="orange", color ="black") +geom_density(color ="blue", linewidth =1) + ggthemes::theme_fivethirtyeight()
Ver código
df %>%ggplot(aes(x = x2)) +geom_histogram(aes(y = ..density..), bins =25, fill ="orange", color ="white") +geom_density(color ="red", linewidth =1) + ggthemes::theme_fivethirtyeight()
Ver código
df %>%ggplot(aes(x = x3)) +geom_histogram(aes(y = ..density..), bins =25, fill ="orange", color ="white") +geom_density(color ="blue", linewidth =1) + ggthemes::theme_fivethirtyeight()
e1071::skewness(x = df$x1, type =3) #R utiliza la formula de Fisher
[1] 0.9283745
Ver código
e1071::skewness(x = df$x2, type =1)
[1] -0.07086048
Ver código
e1071::skewness(x = df$x3, type =2)
[1] -0.6738417
9 Medidas de apuntamiento
Las medidas de apuntamiento describen qué tan “picada” o “aplanada” está una distribución en comparación con la distribución normal. Evaluan la concentración de los datos alrededor de la media y el peso de las colas.
Ver código
ggplot(data =data.frame(x =c(-5, 5)), aes(x)) +stat_function(fun = dnorm, n =201, args =list(mean =0, sd =1), color ="red") +stat_function(fun = dnorm, n =201, args =list(mean =0, sd =0.5), color ="blue") +stat_function(fun = dnorm, n =201, args =list(mean =0, sd =1.5), color ="orange") +geom_text(x =2.5, y =0.65, label ="Leptocúrtica", color ="blue") +geom_text(x =2.5, y =0.6, label ="Mesocúrtica", color ="red") +geom_text(x =2.5, y =0.55, label ="Platicúrtica", color ="orange") + ggthemes::theme_fivethirtyeight()
Ver código
N <-1000set.seed(123)df <-tibble(M =rnorm(n, mean =50, sd =10),P =2*runif(n, min =40, max =60)-50,L =rexp(n, rate =0.1) +50)
Ver código
df %>%gather(key ="Tipo", value ="x") %>%ggplot(aes(x = x, color = Tipo )) +geom_density(linewidth =1) +scale_x_continuous(limits =c(0,100)) + ggthemes::theme_fivethirtyeight()
df %>%gather(key ="Tipo", value ="x") %>%group_by(Tipo) %>%summarise(k = (1/length(x))*sum((x-mean(x))^4)/var(x)^2-3 )
# A tibble: 3 × 2
Tipo k
<chr> <dbl>
1 L 6.62
2 M -0.0801
3 P -1.25
Tipo 1
Ver código
df %>%gather(key ="Tipo", value ="x") %>%group_by(Tipo) %>%summarise(k = e1071::kurtosis(x, type =1) )
# A tibble: 3 × 2
Tipo k
<chr> <dbl>
1 L 6.64
2 M -0.0743
3 P -1.25
Tipo 2
Ver código
df %>%gather(key ="Tipo", value ="x") %>%group_by(Tipo) %>%summarise(k = e1071::kurtosis(x, type =2) )
# A tibble: 3 × 2
Tipo k
<chr> <dbl>
1 L 6.68
2 M -0.0686
3 P -1.25
Tipo 3
Ver código
df %>%gather(key ="Tipo", value ="x") %>%group_by(Tipo) %>%summarise(k = e1071::kurtosis(x, type =3) )
# A tibble: 3 × 2
Tipo k
<chr> <dbl>
1 L 6.62
2 M -0.0801
3 P -1.25
10 TALLER_2.2
EJERCICIOS PARA RESOLVER DEL LIBRO DE ESTADISTICA Y MUESTREO DE CIRO MARTINEZ
Se pide calcular la media aritmética y la media geométrica. Una persona maneja su automóvil durante 400 kilómetros. Los primeros 120 km viaja a razón de 60 km por hora; los siguientes 120 a 100 km por hora; el 25% del total lo hace a razón de 80 km por hora. ¿A qué velocidad debe viajar el resto, para tener en total una velocidad promedio de 70 km por hora?
Calcular la velocidad necesaria para que el promedio total sea 70 km/h ?
Datos:
Total: 400 km
Tramos:
120 km a 60 km/h
120 km a 100 km/h
25% del total = 100 km a 80 km/h
Resto = 400 − (120 + 120 + 100) = 60 km a velocidad desconocida 𝑣 {\text{total}} = \frac{400}{70} = 5.7142857 \ \text{h}
T_1 = \frac{120}{60} = 2 \text{ h}
T_2 = \frac{120}{100} = 1.2 \text{ h}
T_3 = \frac{100}{80} = 1.25 \text{ h}
Tiempo acumulado:
T_{\text{acum}} = 2 + 1.2 + 1.25 = 4.45 \text{ h}
Tiempo disponible para el último tramo:
T_4 = 5.7142857 - 4.45 = 1.2642857 \text{ h}
Velocidad necesaria
v = \frac{60}{1.2642857} \approx \boxed{47.47 \text{ km/h}}
Media aritmética y media geométrica de las velocidades
A partir del enunciado podemos separar dos tareas:
Calcular la velocidad necesaria para que el promedio total sea 70 km/h.
Calcular la media aritmética y la media geométrica de las velocidades empleadas.
1. Velocidad necesaria para lograr 70 km/h de promedio
Datos:
Total: 400 km
Tramos:
120 km a 60 km/h
120 km a 100 km/h
25% del total = 100 km a 80 km/h
Resto = 400 − (120 + 120 + 100) = 60 km a velocidad desconocida (v)
Cálculo del tiempo total deseado
Promedio deseado: 70 km/h
T_{total}=\frac{400}{70}=5.7142857\text{ h}
Tiempo consumido en los primeros 340 km
T_1=\frac{120}{60}=2\text{ h}
T_2=\frac{120}{100}=1.2\text{ h}
T_3=\frac{100}{80}=1.25\text{ h}
Tiempo acumulado:
T_{\text{acum}}=2+1.2+1.25=4.45\text{ h}
Tiempo disponible para el último tramo:
T_4=5.7142857 - 4.45 = 1.2642857\text{ h}
Velocidad necesaria
v = \frac{60}{1.2642857} \approx \boxed{47.47\text{ km/h}}
2. Media aritmética y media geométrica de las velocidades
Una persona viaja durante 4 días. Diariamente recorre 200 km, pero maneja el primero y el último día a 50 km por hora, el segundo a 55 y el tercero a 60 km por hora. ¿Cuál es la velocidad media durante el viaje?
Una persona va a tres tiendas del barrio a comprar azúcar; los precios son como siguen:
Ver código
tabla <-data.frame(TIENDA =c("A", "B", "C"),PRECIO =c(2250, 2830, 2570))print(tabla)
TIENDA PRECIO
1 A 2250
2 B 2830
3 C 2570
Ver código
tabla <-data.frame(TIENDA =c("A", "B", "C"),PRECIO =c(2250, 2830, 2570))print(tabla)
TIENDA PRECIO
1 A 2250
2 B 2830
3 C 2570
Si la persona compra azúcar en dos formas diferentes. La primera forma consiste en que compra 3 paquetes en cada tienda. La segunda forma corresponde a comprar en cada tienda el equivalente de $10.000 en azúcar.
Promedio cuando compra 3 paquetes en cada tienda: Compra 3 paquetes en cada tienda → total 9 paquetes
Suma de precios por paquete:
2.250 + 2.830 + 2.570 = 7.650
omo compra la misma cantidad en cada tienda, el precio promedio es la media aritmética:
\text{Promedio} = \frac{7.650}{3} = 2.550
Respuesta a)
Promedio cuando compra $10.000 en cada tienda
Ahora en cada tienda gasta $10.000, pero los precios por paquete son distintos.
Debemos calcular cuántos paquetes compra en cada tienda: