Considere la base de datos dada en el archivo
taller05_datos.txt
, la cual contiene los datos de \(n=1,000\) individuos en relación con las
siguientes variables:
A continuación se presenta el procedimiento importar
este conjunto de datos en R
. Observe que para importar la
base de datos exitosamente en R
por medio de la rutina
read.table
, hay que proporcionar la ruta de
acceso correcta. ¡No olvide actualizar esta ruta!
# importar base de datos en el objeto llamado datos
datos <- read.table(file = "C:/Users/Juan Camilo/Dropbox/UN/probabilidad_estadistica/taller_05_datos.txt", header = TRUE, sep = ";")
# tamaño de la muestra
n <- nrow(datos)
# extraer los ingresos de los hombres en x_h
x_h <- datos$ingresos[datos$sexo == 1]
# extraer los ingresos de los mujeres en x_m
x_m <- datos$ingresos[datos$sexo == 0]
El objetivo de este ejercicio es comparar el comportamiento de los ingresos en términos del sexo.
La siguiente tabla contiene las frecuencias relativas de la variable sexo expresadas en puntos porcentuales:
# tabla
tab <- 100*table(datos$sexo)/n
names(tab) <- c("Mujere", "Hombre")
tab
## Mujere Hombre
## 47.5 52.5
El siguiente gráfico representa la información de la tabla anterior:
# grafico de barras
b <- barplot(tab, ylab = "Porcentaje (%)", xlab = "Sexo", col = "gray95", border = "darkgray")
text(x = b, y = tab-2, labels = tab, font = 4)
Grupo | Tamaño | Mín. | Máx. | Prom. | Cuar. 1 | Cuar. 2 | Cuar. 3 | DE | CV (%) |
---|---|---|---|---|---|---|---|---|---|
Todos | 1000 | 0.053 | 10.205 | 2.845 | 1.714 | 2.470 | 3.658 | 1.629 | 57.251 |
Hombres | 525 | 0.053 | 8.385 | 2.857 | 1.731 | 2.485 | 3.619 | 1.625 | 56.877 |
Mujeres | 475 | 0.143 | 10.205 | 2.832 | 1.697 | 2.458 | 3.767 | 1.635 | 57.725 |
DE: desviación estándar. CV: coeficiente de variación de Pearson.
# TODOS
# datos
y <- datos$ingresos
# tamaño
length(y)
# medidas de tendencia
summary(y)
# DE y CV
round(c(sd(y), 100*sd(y)/mean(y)), 3)
# HOMBRES
# tamaño
length(x_h)
# medidas de tendencia
summary(x_h)
# DE y CV
round(c(sd(x_h), 100*sd(x_h)/mean(x_h)), 3)
# MUJERES
# tamaño
length(x_m)
# medidas de tendencia
summary(x_m)
# DE y CV
round(c(sd(x_m), 100*sd(x_m)/mean(x_m)), 3)
Los siguientes gráficos representan la distribución de los ingresos de ambos grupos:
par(mfrow=c(2,2))
# HOMBRES
hist(x_h, freq = F, nclass = 15, xlab = "Ingresos (en millones)",
col = "lightblue", border = "blue", ylab = "Densidad", main = "Hombres")
boxplot(x_h, horizontal = T, col = "lightblue", border = "blue")
# MUJERES
hist(x_m, freq = F, nclass = 15, xlab = "Ingresos (en millones)",
col = "mistyrose", border = "red", ylab = "Densidad", main = "Mujeres")
boxplot(x_h, horizontal = T, col = "mistyrose", border = "red")
La descomposición de la varianza se calcula cuando se tienen grupos (que conforman una partición) dentro de la muestra y se busca determinar si la variabilidad de la variable de estudio se debe más a las diferencias entre los grupos (intervarianza) o dentro de los grupos (intravarianza).
Ahora, suponga que \(A_1,A_2,\ldots,A_m\) conforman una partición de la muestra, y que \(\bar{x}_1,\bar{x}_2,\ldots,\bar{x}_m\) y \(s^2_{1},s^2_{2},\ldots,s^2_{m}\) son los promedios y las varianzas muestrales de la variable para cada \(A_1,A_2,\ldots,A_m\), respectivamente. Así, se tiene que la varianza se puede descomponer como: \[ V(x) = \frac{1}{n-1}\sum_{j=1}^{m}(n_j-1)\,s^2_j + \frac{1}{n-1}\sum_{j=1}^{m}n_j(\bar{x}_j-\bar{x})^2 =s^2_w +s^2_b \] donde \(\bar{x}=\displaystyle\frac1n\sum_{j=1}^{m} n_j\,\bar{x}_j = \frac1n\sum_{j=1}^m\sum_{i=1}^{n_j} x_{i,j}\) es la media de la muestra, \(x_{i,j}\) es la observación \(i\) del grupo \(j\), \(s^2_w=\displaystyle\frac{1}{n-1}\sum_{j=1}^{m}(n_j-1)\,s^2_j\) es la intravarianza y \(S^2_b=\displaystyle\frac{1}{n-1}\sum_{j=1}^{m}n_j(\bar{x}_j-\bar{x})^2\) la intervarianza.
Nota: Dado un conjunto \(\Omega\), se dice que la colección de subconjuntos \(A_1,A_2,\ldots,A_m\) conforman una partición de \(\Omega\) si:
En este caso la variabilidad total es: \[s_T^2 = \frac{1}{n-1}\sum_{i=1}^n (y_i - \bar{y})^2 = 2.65337\,.\] De otra parte, la variabilidad dentro (intra) es \[ s^2_w = \frac{1}{n-1}\sum_{j=1}^m (n_j - 1)s^2_j = 2.653217\,, \] mientras que la variabilidad entre (inter) es \[ s^2_b = \frac{1}{n-1}\sum_{j=1}^m n_j\,(\bar{y}_j - \bar{y})^2 = 0.000153 \] donde \(m=2\) grupos. Se observa que la suma de las variabilidades intra e inter coincide exactamente con la variabilidad total: \[ s_T^2 = s^2_w + s^2_b = 2.653217 + 0.000153 = 2.65337 \] Por lo tanto, la proporción de variabilidad debida a la variabilidad dentro es \[ \frac{s^2_w}{s^2_T} = 99.994\% \] y proporción de variabilidad debida a la variabilidad entre es \[ \frac{s^2_b}{s^2_T} = 0.006\%. \]
# variabilidad TOTAL
var_t <- var(y)
var_t
# variabilidad INTRA
var_w <- ((length(x_h)-1)*var(x_h) + (length(x_m)-1)*var(x_m))/(length(y)-1)
var_w
# variabilidad INTER
var_b <- (length(x_h)*(mean(x_h)-mean(y))^2 + length(x_m)*(mean(x_m)-mean(y))^2)/(length(y)-1)
var_b
# suma INTRA e INTER
var_w + var_b
# proporcion INTRA
var_w/var_t*100
# proporcion INTRA
var_b/var_t*100
Los resultados del numeral b. indican que, aunque la dispersión de ambos grupos respecto al promedio es semejante (alta en ambos casos), tanto en promedio como mediana los hombres perciben un ingreso ligeramente superior que el de las mujeres. Como era de esperarse, tanto los gráficos como las medidas de tendencia indican que la distribución de los ingresos es sesgada positivamente en ambos grupos (observe que la mediana es menor que la media, y la presencia de datos atípicos superiores). De otra parte, los resultados del numeral c. indican que la variabilidad total de los ingresos se debe casi que totalmente debido a las diferencias dentro de cada uno de los grupos, dado que las diferencia entre el promedio de los grupos y el promedio total no es substancial.
Se observa que las distribuciones están relacionadas como sigue: