Sesión 3

Antonio Martínez Pineda

25/10/2021

Estadística descriptiva

Cuando contamos con un conjunto de datos del cual intentamos obtener información es necesario ordenarlos y presentarlos de una forma que sea intelegible. La estadística descriptiva comprende un conjunto de técnicas para presentar los datos de forma ordenada y resumida.

Medidas de tendencia central

Las medidas de tendencia central son diferentes promedios que nos permiten conocer un valor representativo de la distribución bajo diferentes criterios.

Media

Existen diferentes medidas denominadas como media, generalmente cuando nos referimos a la media de una distribución, hablamos de la media aritmética, su fórmula es \(\mu={\Sigma x \over N}\) o \(\bar{x}={\Sigma x \over n}\)

Ejemplo:

edades <- c(20, 22, 23, 22, 24, 25, 26)
nombres <- c("Pedro", "Memo", "Carlos", "María", "Juan", "Rosa", "Oscar")

df <- data.frame(Nombre = nombres, Edad = edades)
Tabla de edades
Nombre Edad
Pedro 20
Memo 22
Carlos 23
María 22
Juan 24
Rosa 25
Oscar 26

Sustituyendo los datos en la fórmula tenemos que:

\[\bar{x}={20+22+23+22+24+25+26 \over 7}= {162 \over 7} = 23.14286\]

Para obtener el resultado con R utilizamos la función mean():

mean(edades)
[1] 23.14286

Para redondear un valor utilizamos la función round():

round(mean(edades), 2)
[1] 23.14

La media es un estadístico sensible a los datos atípicos:

edades2 <- append(edades, 87)
mean(edades2)
[1] 31.125

Ejercicio 2. Obtén la media de los siguientes datos:

ej2 <- c(42, NA, 38, 23, 65, NA, 63)

Mediana

Es el dato que divide la distribución exactamente a la mitad, es decir, 50% de los datos observados se encuentra por encima de la mediana y otro 50% se encuentra por debajo.

Para obtener la mediana primero se deben ordenar los datos en orden ascendente; después se localiza el valor que se encuentra a la mitas de la distribución para esto se usa la fórmula \({(n+1) \over 2}\). El valor que ocupa esa posición es corresponde a la mediana.

Cuando el número de datos que tenemos es par se obtiene la media de los valores que están al centro de la distribución.

En R utilizamos la función median():

median(edades)
[1] 23
median(edades2)
[1] 23.5

La mediana es una medida robusta con respecto a los datos atípicos.

Modo

También se le conoce como moda y es el valor que se repite más veces en la distribución. A diferencia de la media y la mediana en una distribución podemos encontrar múltiples valores para el modo.

# Recuerda que hay que para utilizar un paquete de colaboración es necesario
# instalarlo install.packages('modeest') y cargarlo en la sesión de trabajo
library(modeest)
mfv(acero$pr.tbc)
[1] 120.04 131.95 195.61

Cuantiles

A los puntos que dividen la distribución en partes iguales se les denomina genéricamente cuantiles. En el caso de dividir la distribución en tres partes iguales se le denomina terciles, cuatro partes iguales se les denomina cuartiles, a los que la dividen en 10 partes iguales deciles y en 100 partes iguales percentiles. Los valores que marcan la división en la distribución se obtienen con la siguiente fórmula:

\[Q_k=L_i+{({kN \over kt})-f_{a-1} \over f}*a_1\] Donde \(k\) es el número de cuantil que deseamos calcular; \(L_i\) es el límite inferior de la categoría de trabajo; \(N\) es el número total de observaciones; \(k_t\) es el número total de cuantiles; \(f_{a-1}\) es la frecuencia acumulada de la categoría anterior; \(f\) es la frecuencia de la categoría de trabajo; y \(a_1\) es la amplitud de la clase.

Datos de satisfacción con servicio telefónico
Satisfaccion f fa
31 1 109
30 4 108
29 5 104
28 10 99
27 10 89
26 4 79
25 18 75
24 22 57
23 5 35
22 14 30
21 10 16
20 2 6
19 3 4
18 1 1

Tenemos las puntuaciones en una escala de satisfacción con el servicio telefónico de 109 usuarios. Para calcular el primer cuartil primero se localiza su posición:

\[Q_1={N \over 4}={109 \over 4}=27.25\]

El primer cuartil se encuentra a 27.25 casos del primer dato, hasta la categoría 4 tenemos 16 casos, entonces debemos tomar los restantes 11.25 de la siguiente categoría (27.25 – 16 = 11.25).

\[Q_1=22.5+{({1 \over 4})-16 \over 30}*1 = 22\]

datos_sat <- rep(18:31, c(1, 3, 2, 10, 14, 5, 22, 18, 4, 10, 10, 5, 4, 1))
f <- table(datos_sat)
fa <- cumsum(table(cut(datos_sat, breaks = c(18:32), right = F)))
df_sat <- data.frame(satisfaccion = 18:31, f = unname(f), fa = unname(fa))
df_sat <- df_sat[, -2]
names(df_sat) <- c("satisfaccion", "f", "fa")
df_sat
   satisfaccion  f  fa
1            18  1   1
2            19  3   4
3            20  2   6
4            21 10  16
5            22 14  30
6            23  5  35
7            24 22  57
8            25 18  75
9            26  4  79
10           27 10  89
11           28 10  99
12           29  5 104
13           30  4 108
14           31  1 109

Para obtener los cuartiles con R utilizamos la función quantile().

quantile(datos_sat, probs = c(0.25, 0.5, 0.75))
25% 50% 75% 
 22  24  27 

Cuando se trata de medidas de tendencia central es común reportar el resumen de cinco números, este incluye el valor mínimo y máximo de la distribución junto con los cuartiles. En R la función summary() nos presenta estos cinco valores junto con la media.

summary(datos_sat)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  18.00   22.00   24.00   24.55   27.00   31.00 

Ejercicio 3. Obten la media, la mediana, el modo y los deciles para los datos de la siguiente tabla.

Estatura f
1.78 15
1.74 21
1.70 15
1.68 25
1.63 12
1.57 14
1.55 16

Medidas de dispersión

Estas medidas nos indican que tan separados están los datos de la distribución.

Rango

El rango se define como la diferencia entre el valor máximo y el mínimo de una distribución, para edades el rango sería:

\[rango = 26-20 = 6\]

Si queremos obtenerlo en R utilizamos las funciones diff() y range().

diff(range(edades))
[1] 6

Desviación estándar

La desviación estándar nos indica que tan dispersos están los datos con respecto de la media.

\[s=\sqrt{\Sigma(x_i-\bar{x})^2 \over n-1}\]

Si obtenemos la desviación estándar de edades tendríamos que:

\[s=\sqrt{{(20-23.14)^2+(22-23.14)^2+(23-23.14)^2+(22-23.14)^2+(24-23.14)^2+(25-23.14)^2+(26-23.14)^2 \over 6}}=2.035403\]

En R obtenemos la desviación estándar con la función sd():

sd(edades)
[1] 2.035401
sd(edades2)
[1] 22.65542

Al igual que la media, la desviación estándar es sensible a la presencia de datos atípicos.

En R no existe una función para calcular la desviación estándar para una población, pero se puede modificar el resultado de sd() para obtenerla.

sd(edades) * (length(edades) - 1)/length(edades)
[1] 1.744629

Varianza

La varianza es el cuadrado de la desviación estándar.

\[s^2={\Sigma(x_i-\bar{x})^2 \over n-1}\]

Desviación absoluta media

Es la mediana de la desviación de los datos con respecto de la mediana, nos indica la dispersión de los datos con respecto de la mediana.

\[MAD = mdn_i(|x_i-mdn(x)|)\]

En R la calculamos con la función mad().

mad(edades)
[1] 1.4826
mad(edades2)
[1] 2.2239

Coeficiente de variación

El coeficiente de variación es la relación entre la desviación típica de una muestra y su media. Debido a que se mide en porcentaje, el coeficiente de variación permite comparar las dispersiones de dos distribuciones distintas, siempre que sus medias sean positivas.

\[CV = {s \over \bar{x}}*100\]

DescTools::CoefVar(edades)
[1] 0.08794942
DescTools::CoefVar(edades2)
[1] 0.7278848

Ejercicio 4. Con los datos de la base acero, obtén las siguientes medidas de dispersión.

  1. Desviación estándar y rango de consumo

  2. Desviación estándar y MAD de averias

  3. Rango, desviación estándar y coeficiente de variación para las variables consumo (Kwatts) y pr.tbc (toneladas)

Tipos de distribución

En estadística una distribución es la forma que pueden tomar los datos de una variable aleatoria de acuerdo a una función de probabilidad.

Existen distribuciones de probabilidad discretas y continuas, algunas de ellas son:

Distribuciones discretas Distribuciones continuas
Uniforme discreta Uniforme continua
Binomial Normal
Binomial negativa lognormal
Poisson Logística
Geométrica \(\beta\)
Hipergeométrica Gamma
Pascal Exponencial
Weibull
\(\chi^2\)
z
t
F
Cauchy
Laplace

Distribución normal

Se conoce como curva normal a la distribución con forma de campana. También se le conoce como distribución Gaussiana o campana de Gauss, en honor al matemático Carl Friederich Gauss.

La curva normal se describe mediante la siguiente ecuación:

\[Y = {N \over \sqrt{2\pi\sigma}}e^{-{(X-\mu)^2 \over 2\sigma^2}}\]

Donde: \(Y\) = La altura de la curva en el punto X; \(\mu\) = Media aritmética de la distribución; \(\sigma\) = Desviación estándar de la distribución;
\(N\) = Frecuencia total de la distribución; \(pi\) = Constante con valor aproximado de 3.1416; \(e\) = Constante con valor aproximado de 2.7183

Una distribución normal cumple con las siguientes características:

  1. Tiene una única moda que coincide con su media aritmética y mediana.

  2. Es asintótica al eje de las abscisas.

  3. El área total bajo la curva es igual a 1.

  4. Es simétrica con respecto a su media aritmética.

  5. La distancia entre la línea media y la inflexión de la curva es igual a una desviación estándar.

  6. El área comprendida bajo la curva a ± una desviación estándar es igual a 68% de la distribución y entre aproximadamente ±2 desviaciones estándar es igual al 95% de la distribución.

  7. La forma de la curva depende de la media y la varianza.

La normalidad de una curva se contrasta mediante los coeficientes de asimetría y curtosis.

Asimetría

Se denomina así a la falta de simetría en la distribución. Con base en su asimetría una curva puede ser simétrica o tener asimetría positiva o negativa.

Para conocer la asimetría de una curva utilizamos el coeficiente de asimetría de Fisher (\(\gamma_1\)) que se calcula mediante la fórmula:

\[\gamma_1={{1 \over n}\Sigma(x_i-\bar{x})^3 n_i \over ({1 \over n}\Sigma(x_i-\bar{x})^2 n_i)^{3/2}}\]

Si \(\gamma_1\) es igual a cero la distribución es simétrica, si adquiere valores negativos es asimétrica a hacia la izquierda, con valores positivos es asimétrica hacia la derecha.

Es muy difícil que \(\gamma_1\) sea igual a cero por lo que se considera que una distribución es simétrica cuando el coeficiente adquiere valores entre \(\pm\).5.

Curtosis

La curtosis determina el grado en que se concentran los datos de la distribución en su región central. De acuerdo a esta concentración la distribución puede ser:

  1. platicúrtica, cuando los datos se alejan de la media;

  2. mesocúrtica, cuando tienen una concentración normal; o

  3. leptocúrtica, cuando la concentración de datos en la parte central de la distribución es muy grande.

Su fórmula es:

\[\gamma_2={{1 \over n}\Sigma(x_i-\bar{x})^4 n_i \over ({1 \over n}\Sigma(x_i-\bar{x})^2 n_i)^2}-3\]

Cuando \(\gamma_2\) es igual a cero, la distribución es mesocúrtica, si es menor es platicúrtica y cuando es mayor a cero es leptocúrtica.

Al igual que la asimetría la normalidad para el coeficiente de curtosis tiene un rango de \(\pm\).5.

Estos dos coeficientes los podemos calcular con la función describe() del paquete psych que ofrece un resumen descriptivo de la distribución de datos.

psych::describe(edades)
   vars n  mean   sd median trimmed  mad min max range  skew kurtosis   se
X1    1 7 23.14 2.04     23   23.14 1.48  20  26     6 -0.06     -1.5 0.77
psych::describe(edades2)
   vars n  mean    sd median trimmed  mad min max range skew kurtosis   se
X1    1 8 31.12 22.66   23.5   31.12 2.22  20  87    67 1.83     1.64 8.01

Podemos analizar si un conjunto de datos se distribuye de forma normal de manera visual graficando la densidad de la distribución y comparándola con una curva normal:

Otra forma gráfica de analizar la normalidad de una distribución es mediante un gráfico Q-Q:

Además existen diferentes estadísticos que permiten probar si un conjunto de datos se distribuye de forma normal:

shapiro.test(edades)

    Shapiro-Wilk normality test

data:  edades
W = 0.97777, p-value = 0.948
shapiro.test(edades2)

    Shapiro-Wilk normality test

data:  edades2
W = 0.50004, p-value = 1.034e-05

El paquete nortest incluye otras pruebas de normalidad, cada prueba es un estimador diferente que, dependiendo de su propio poder estadístico y de las características del conjunto de datos, ofrece un resultado diferente.

library(nortest)
ad.test(edades2)

Error in ad.test(edades) : sample size must be greater than 7

cvm.test(edades)

Error in cvm.test(edades) : sample size must be greater than 7

lillie.test(edades)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  edades
D = 0.14437, p-value = 0.93
pearson.test(edades)

    Pearson chi-square normality test

data:  edades
P = 0.85714, p-value = 0.6514
sf.test(edades)

    Shapiro-Francia normality test

data:  edades
W = 0.97942, p-value = 0.9857

R permite generar simulaciones de datos para un gran número de distribuciones de probabilidad.

set.seed(123)
x <- rnorm(1000, 0, 1)
qqnorm(x, pch = 16, col = "skyblue")
qqline(x, col = "red")

shapiro.test(x)

    Shapiro-Wilk normality test

data:  x
W = 0.99838, p-value = 0.4765

Distribución normal para 1,000 datos aleatorios y sus desviaciones estándar

Ejercicio 5. Con los datos de la base acero:

  1. obten la asimetría y curtosis para las variables NOx, CO, COV, SO2, CO2 y N2O

  2. obten la asimetría y curtosis de COV de acuerdo al nivel de temperatura

  3. de acuerdo con su asimetría y curtosis, ¿cuáles de estas variables se distribuyen de manera normal

  4. analiza gráficamente la distribución de COV

  5. obten la prueba de normalidad de shapiro-wilk para COV

Distribución binomial

Es una distribución de probabilidad para una variable discreta en la que cualquier ensayo puede tener sólo dos resultados a los que se denomina arbitrariamente éxito o fracaso.

La probabilidad de éxito (\(p\)) se mantiene constante de ensayo a ensayo ya que los ensayos son independientes, la probabilidad de fracaso (\(q\)) se obtiene de \(1 – p\).

La distribución binomial se conforma de \(n\) número de ensayos en los cuales se calcula el número de éxitos (\(x\)) mediante la ecuación:

\[p(X=x)={n! \over x!(n-x)!} p^x q^{(n-x)}\]

La esperanza matemática (media) de una distribución binomial la podemos obtener mediante la siguiente ecuación:

\[E(X)=np\]

Y también su desviación estándar:

\[\sigma_X= \sqrt{npq}\]

Un ejemplo de distribución binomial es la probabilidad de que en una muestra de 10 personas una tenga trastorno de ansiedad generalizada conociendo que la prevalencia de este trastorno en la población es de 20% (\(p = 0.2\)).

\[q=1-p=1-0.20=0.80\]

\[p(X=1)={10! \over 1!9!}(0.2^1) (0.8^9)=0.2684\]

Si queremos conocer la probabilidad de que la muestra tenga menos de dos integrantes con trastorno de ansiedad generalizada:

\[p(X<2)=p(X=0)+p(X=1)={10! \over 0!9!}(0.2^0) (0.8^{10})+0.2684=0.3758\]

En R obtenemos la probabilidad de una distribución binomial mediante la función dbinom().

# p(X=1)
dbinom(x = 1, size = 10, prob = 0.2)
[1] 0.2684355
# p(X<2)
sum(dbinom(0:1, 10, 0.2))
[1] 0.3758096

Ejercicio 6. Tienes un dado que se lanza 10 veces, contesta las siguientes preguntas sobre el resultado en los lanzamientos.

  1. Qué probabilidad hay de que en todos los lanzamientos salga un número par.

  2. Qué probabilidad hay de que en todos los lanzamientos salga un cinco.

  3. Qué obtén la probabilidad de obtener como resultado en los lanzamientos: 4, 6, 6, 4, 5, 6, 6, 5, 2, 2.

  4. ¿Cuál es la esperanza matemática de obtener un cinco?

  5. ¿Cuál es la desviación estándar para obtener un cinco?

  6. Calcula la distribución de probabilidad para obtener de uno a diez cincos en los diez lanzamientos.

Distribución Z

La distribución Z es la distribución de valores transformados a puntuaciones z, también conocidas como unidades estándar. Las puntuaciones z son son una transformación lineal de los valores de una medición a una escala \(\mathbb{N}~(0,1)\) en la cual las unidades están dadas en desviaciones estándar con respecto de la media.

La transformación a puntuaciones z realiza mediante la ecuación:

\[z={x_i-\mu \over \sigma}\]

En R podemos utilizar la función scale() para obtener puntuaciones estandarizadas.

scale(edades)
            [,1]
[1,] -1.54409729
[2,] -0.56148993
[3,] -0.07018624
[4,] -0.56148993
[5,]  0.42111744
[6,]  0.91242113
[7,]  1.40372481
attr(,"scaled:center")
[1] 23.14286
attr(,"scaled:scale")
[1] 2.035401
scale(edades2)
           [,1]
[1,] -0.4910526
[2,] -0.4027735
[3,] -0.3586339
[4,] -0.4027735
[5,] -0.3144943
[6,] -0.2703548
[7,] -0.2262152
[8,]  2.4662977
attr(,"scaled:center")
[1] 31.125
attr(,"scaled:scale")
[1] 22.65542

Ejercicio 7. Responde las siguientes preguntas.

  1. En promedio un embarazo dura 39.5 semanas con una desviación estándar de 1.5 semanas, ¿Cuánto es el máximo de semanas de gestación que podemos considerar como un embarazo normal?

  2. La media de estatura para la población mexicana de sexo masculino es de 1.66 m (6.5) y para la población de jugadores NBA la estatura promedio es de 2 m (7.6). ¿Quién es más alto con respecto a su población, un mexicano de 1.77 m o un jugador NBA de 2.16 m de estatura?