Notas de clase

Estadística descriptiva

Andrés Cruz Ph.D(c)

12 febrero, 2021

Importación de la base de datos

Base de datos

Url = "https://raw.githubusercontent.com/Andres-Cruz-Perez/datos/master/Encuesta.txt"
library(readr)
datos = read_table2(Url)
## Parsed with column specification:
## cols(
##   Edad = col_double(),
##   Genero = col_character(),
##   No_hijos = col_double(),
##   Nivel_Educativo = col_double(),
##   Estrato_Socio = col_double(),
##   Ingresos = col_double(),
##   Peso = col_double(),
##   Talla = col_double(),
##   Fuma = col_character(),
##   Lentes = col_character(),
##   Casa_propia = col_character(),
##   Automovil = col_character()
## )

Encuesta

attach(datos)
head(datos, 7)
## # A tibble: 7 x 12
##    Edad Genero No_hijos Nivel_Educativo Estrato_Socio Ingresos  Peso Talla Fuma 
##   <dbl> <chr>     <dbl>           <dbl>         <dbl>    <dbl> <dbl> <dbl> <chr>
## 1    36 Femen~        2               4             2  3072000    58   179 No   
## 2    46 Femen~        3               2             4  2420000    75   163 Si   
## 3    41 Femen~        0               1             2  4425000    72   172 Si   
## 4    54 Mascu~        0               1             2  4334000    97   180 No   
## 5    35 Femen~        0               1             4  3551000    87   161 Si   
## 6    51 Femen~        2               4             3  2233000    68   168 Si   
## 7    25 Femen~        2               4             2  5343000    85   170 No   
## # ... with 3 more variables: Lentes <chr>, Casa_propia <chr>, Automovil <chr>

Tablas de frecuencias

Las tablas de frecuencias son la forma mas temprana y común para resumir y clasificar un conjunto de observaciones.

Tablas de frecuencias simple.

La tabla clasifica los datos en filas, una por cada valor, y a cada uno se le asignan sus respectivas frecuencias.

t1 = table(Genero)
library(knitr)
kable(t1, col.names = c("Sexo","Frecuencia"))
Sexo Frecuencia
Femenino 262
Masculino 257

Tablas de frecuencias agrupada

Se usa en variables con mucha diversidad en sus resultados (continuas o discretas con rango grande), se realiza una agrupación por intervalos que permite reducir el numero de filas.

c2 = cut(x = Ingresos, breaks = 5, labels = c("Muy bajo", "Bajo", "Medio", "Alto", "Muy alto"), include.lowest = FALSE, right = FALSE,)
t2 = table(c2)
kable(t2, col.names = c("Ingresos","Frecuencia"))
Ingresos Frecuencia
Muy bajo 110
Bajo 89
Medio 114
Alto 100
Muy alto 106

Medidas de tendencia central

Se entiende por tendencia central a algún punto o cantidad que describa lo que podemos considerar como “el centro” de los datos, que podría coincidir con el espacio donde se concentran la mayor parte de los datos.

Media Aritmética

Si un conjunto de \(n\) datos esta conformado por los valores \(x_1,x_2,x_3,\cdots;x_n\) entonces, la media aritmética de este conjunto se calcula mediante la formula:

\[\mu=\frac{1}{N}\sum_{i=1}^{N}{x}_{i}; \ \ \ \ \ \ \overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_i\]

Media = round(mean(Peso, na.rm = T), 2)
paste("La media aritmética de la variable peso es:", Media )
## [1] "La media aritmética de la variable peso es: 78.55"

Mediana

El valor que ocupa la posición central de una muestra cuando los datos están ordenados ascendentemente se llama mediana, Se calcula así:

  • Si \(n\) es impar

\[M_e=X_{ \left[ \dfrac{n+1}{2} \right] }\]

Si \(n\) es par

\[M_e=\dfrac{1}{2} \left( X_{\left[ \dfrac{n}{2}\right] }+X_{\left[ \dfrac{n+2}{2}\right] } \right)\]

Los paréntesis cuadrados \(\left[ \right]\) indican la posición del dato

Mediana = median(Peso)
paste("La mediana de la variable perso es", Mediana )
## [1] "La mediana de la variable perso es 79"

Moda

El valor de los datos que presenta la frecuencia más alta, o en caso de ser una variable continua, donde las frecuencias de los datos alcanza su máximo se conoce como moda. Una expresión matemática que la representa es:

\[M_o=X_{max\{f_i\}}\] En donde la función \(max\{\cdot\}\) es la función que elije el valor máximo de las frecuencias.

library(modeest)
moda = mfv(Edad)
paste("La moda de la variable edad es", moda )
## [1] "La moda de la variable edad es 25" "La moda de la variable edad es 35"

Medidas de dispersión o variabilidad

Rango

En un conjunto de datos la diferencia entre los valores maximo y minimo de las observaciones se llama Rango, se calcula de la siguinete forma:

\[Rango=x_{max}-x_{min}\]

maximo = max(Talla)  
minimo = min(Talla)
Rango = maximo - minimo
paste("El rango de la variable talla es:", Rango )
## [1] "El rango de la variable talla es: 22"

Rango intercuartílico

Un valor muy utilizado en la medida de la dispersión y su visualización, es el intervalo o distancia entre cuartile, los cuales son valores que dividen a los datos ordenados en cuatro partes iguales; es de notar que la mediana es un cuartíl, justamente el segundo, es decir, \({Q}_{2}\). A la distancia entre el \({Q}_{3}\) y el \({Q}_{1}\) se le llama el intervalo inter-cuartiles o rango intercuartílico; es notado como \(IQR\), y su formula de calculo es: \({Q}_{3}-{Q}_{1}\).

RI = IQR(Talla, na.rm = TRUE)
paste("El rango intercuartílico de la variable talla es:", RI )
## [1] "El rango intercuartílico de la variable talla es: 11"

Desviación media

Sean \(x_1,x_2, \cdots,x_n\) datos que conforman una muestra aleatoria con media aritmética \(\bar{x}\), la desviación media de la muestra, se calcula mediante la formula:

\[D_M=\dfrac{1}{n}\sum_{i=1}^{n} |x_i-\bar{x}|\]

n = length(Ingresos)
DM = round((1/n)*sum(abs(Ingresos-mean(Ingresos))), 2)
paste("La desviación media de la variable ingresos es", DM )
## [1] "La desviación media de la variable ingresos es 1023348.92"

Varianza

Sean \(x_1,x_2, \cdots,x_n\) datos que conforman una muestra aleatoria con media aritmética \(\bar{x}\), la varianza de la muestra, se calcula mediante la formula:

\[{\sigma}^{2}=\frac{1}{N}\sum_{i=1}^{N}{\left({x}_{i}-\mu\right)}^{2}; \ \ \ \ \ \ s^2=\dfrac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^2\]

varianza = round(var(Ingresos), 2)
paste("La varianza de la variable ingresos es", varianza )
## [1] "La varianza de la variable ingresos es 1418005930420.1"

Desviación estándar o típica

Sean \(x_1,x_2, \cdots,x_n\) datos que conforman una muestra aleatoria con media aritmética \(\bar{x}\), la varianza de la muestra, se calcula mediante la formula:

\[{\sigma}=\sqrt{\frac{1}{N}\sum_{i=1}^{N}{\left({x}_{i}-\mu\right)}^{2}}; \ \ \ \ s=\sqrt{\dfrac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^2}\]

desv_estand = round(sd(Ingresos), 2)
paste("La desviación estándar de la variable ingresos es", desv_estand)
## [1] "La desviación estándar de la variable ingresos es 1190800.54"

Coeficiente de variación

El coeficiente de variación el cual representa de forma relativa el grado de variabilidad de una muestra, se calcula mediante la expresión:

\[C_V=\dfrac{\sigma}{\mu}100\%, \ \ \ C_V=\dfrac{s}{\bar{x}}100\%\]

CV = round(sd(Ingresos) / mean(Ingresos) *100, 2)
paste(paste("El coeficiente de variación de la variable ingresos es", CV, "%"))
## [1] "El coeficiente de variación de la variable ingresos es 32.58 %"

Medias de posición

Percentiles

El percentil \(k\) denotado por \(P_k\), es un valor tal que por lo menos \(k\) por ciento de las observaciones son menores o iguales que este valor y por lo menos \((100 - k\)) por ciento de las observaciones son mayores o iguales que este valor. Para calcular el percentil \(P_k\) seguimos la siguiente formula:

\[P_k=X_{[\lfloor a \rfloor]}+(a- \lfloor a \rfloor)(X_{[\lfloor {a+1} \rfloor]} - X_{[\lfloor a \rfloor]})\] donde \(a=\dfrac{kn}{100}\)

# Percentil 25 = Cuartil 1
P25 = round(quantile(x = Ingresos, probs = 0.25), 2)
paste(paste("El percentil 25 de la variable ingresos es", P25))
## [1] "El percentil 25 de la variable ingresos es 2624500"

Asimetría

Asimetría

  • Coeficiente de asimetría de Pearson \[A_p=\frac{\mu - moda}{\sigma}\]
  • Coeficiente de asimetría de Bowley-Yule \[A_{BY}=\frac{Q_3+Q_4-2Mediana}{Q_3-Q_4}\]
  • Coeficiente de asimetría de Fisher \[A_F=\frac{\sum_{i=1}^{N} (x_i - \mu)^3}{N \sigma^3}\]
library(moments)
Asimetria = round(skewness(Peso), 2)
paste(paste("El coeficiente de asimetría de la variable ingresos es", Asimetria))
## [1] "El coeficiente de asimetría de la variable ingresos es -0.02"

Curtosis

Curtosis

La curtosis (o apuntamiento) es una medida de forma que mide cuán achatada está la distribución.

  • Leptocúrtica: la Curtosis \(> 0\). Los datos están muy concentrados en la media, siendo una curva muy apuntada.

  • Mesocúrtica: la Curtosis \(= 0\). Distribución normal.

  • Platicúrtica: la Curtosis \(< 0\). Muy poca concentración de datos en la media, presentando una forma muy achatada.

library(moments)
curtosis = round(kurtosis(Peso), 2)
paste(paste("La curtosis de la variable ingresos es", curtosis))
## [1] "La curtosis de la variable ingresos es 1.88"

Algunas graficas

Diagrama de caja (Box - Plot)

boxplot(Edad, ylab="Edad de las personas)", names = c("Edad"),
        main="Diagrama de Cajas",col="lightblue", horizontal = T)

Diagrama de barras

NE = table(Nivel_Educativo)
barplot(NE, names.arg = c("Primario", "Secunadaria", "Profesional", "Posgrado"), xlab = "Nivel educativo", ylab = "Frecuencia", main = "Diagrama de barras", col="orange", border = "blue")

Diagrama circular

sex = table(Estrato_Socio)
pie(sex, main = "Diagrama circular", labels = c("Estrato 1", "Estrato 2", "Estrato 3"))

Histograma

hist(Edad, freq = FALSE, nclass = 50, border = "blue", col = "lightblue", 
     xlab = "Edad de las personas", ylab = "Densidad", main = "Histograma")

Estadística descriptiva bivariada

Tabla de frecuencias cruzadas

t3 = table(Genero, Fuma)
kable(t3, col.names = c("Sí","No"))
No
Femenino 127 135
Masculino 115 142
t4 = round(prop.table(t3), 3)
kable(t4, col.names = c("Sí","No"))
No
Femenino 0.245 0.260
Masculino 0.222 0.274

Covarianza

En una muestra de tamaño \(n\) con observaciones \((x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\) la covarianza muestral entre \(x\) y \(y\) se define así:

\[S_{xy}=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{n-1}\]

Covarianza = round(cov(Talla, Peso), 2)
paste(paste("La covarianza entre la variable talla y la variable perso es", Covarianza))
## [1] "La covarianza entre la variable talla y la variable perso es -1.71"

Coeficiente de correlación

Para datos muestrales el coeficiente de se denota como \(r_{xy}\) y está definido así: \[r_{xy}=\frac{S_{xy}}{S_x S_y}\]

donde \(S_{xy}\) es la covarianza muestral y \(S_x\) y \(S_y\) la desviación estándar muestral de \(x\) y \(y\) respectivamente.

Coef_Cor = round(cor(Talla, Peso), 2);  paste(paste("El coeficiente de correlación entre la variable talla y la variable perso es", Coef_Cor))
## [1] "El coeficiente de correlación entre la variable talla y la variable perso es -0.02"

Dispersograma

data2 = data.frame(Ingresos, Peso, Talla)
n=nrow(data2)
pairs(data2, pch = 16, cex = 0.8, gap = 0, xaxt = "n", yaxt = "n", 
      col = "blue", labels = c("Ingresos", "Peso", "Estatura"))

Teorema de Chebyshev

Puntos \(z\)

Supongamos una muestra de \(n\) observaciones, en que los valores se denotan \(x_1, x_2,\ldots, x_n\). Sea \(\bar{x}\) y \(s\) la media y la desviación estándar muestral correspondientemente. Para cada valor \(x_i\) existe otro valor llamado punto \(z\). La siguiente ecuación permite calcular el punto \(z\) correspondiente a cada \(x_i\).

\[z_i=\frac{x_i-\bar{x}}{s}\]

Teorema de Chebyshev - Definición

Por lo menos \(1-\frac{1}{z^2}\) de los valores que se tienen en los datos deben encontrarse dentro de \(z\) desviaciones estándar de la media, donde \(z\) es cualquier valor mayor que 1.

El teorema de Chebyshev permite decir qué proporción de los valores que se tienen en los datos debe estar dentro de un determinado número de desviaciones estándar de la media.

Regla empirica

regla_empirica

Lind, Douglas A; et al. Estadística aplicada a los negocios y la economía. México: McGraw-Hill/Interamericana Editores; 2012.

Ejercicio

La Administración de Información de Energía informó que el precio medio del galón de gasolina fue $2.30 (Energy Information Administration, 27 de febrero de 2006). Admita que la desviación estándar haya sido $0.10 y que el precio del galón de gasolina tenga una distribución en forma de campana.

  • ¿Qué porcentaje de la gasolina se vendió entre $2.20 y $2.40 por galón?

  • ¿Qué porcentaje de la gasolina se vendió a más de $2.50 por galón?