1. Relacione cada diagrama de dispersión con el enunciado que lo describa mejor.

  1. La relación entre \(x\) y \(y\) es casi lineal: gráfico b.
  2. La relación entre \(x\) y \(y\) no es lineal: dispersograma d.
  3. No hay mucho que relacione a \(x\) con \(y\): dispersograma a.
  4. La relación entre \(x\) y \(y\) es casi lineal, menos un dato atípico: dispersograma c.
  1. Considere los siguientes datos bivariados: \(x\): 1.4, 2.4, 4.0, 4.9, 5.7, 6.3, 7.8, 9.0, 9.3, 11.0, y además, \(y\): 2.3, 3.7, 5.7, 9.9, 6.9, 15.8, 15.4, 36.9, 34.6, 53.2.

A continuación se presenta un dispersogra de \(y\) frente \(x\). Además, el coeficiente de correlación entre \(x\) y \(y\) es \[ r = \frac{COV(x,y)}{s_x * s_y} = 0.9147\,. \]

# datos
x <- c(1.4, 2.4, 4.0, 4.9, 5.7, 6.3, 7.8, 9.0, 9.3, 11.0)
y <- c(2.3, 3.7, 5.7, 9.9, 6.9, 15.8, 15.4, 36.9, 34.6, 53.2)
# dispersograma
plot(x, y, col = "red", pch = 16)
grid()

# correlacion
cor(x,y)
## [1] 0.9147475
# otra manera
cov(x,y)/(sd(x)*sd(y))
## [1] 0.9147475

A continuación se presenta un dispersograma de \(w = \ln(y)\) frente \(x\). Además, el coeficiente de correlación entre \(x\) y \(w=\ln(y)\) es \[ r = \frac{COV(x,w)}{s_x * s_w} = 0.9791\,. \] A partir del dispersograma y el coeficiente de correlación, ese observa que la relación entre \(x\) y \(w\) es lineal y fuerte.

# datos
x <- c(1.4, 2.4, 4.0, 4.9, 5.7, 6.3, 7.8, 9.0, 9.3, 11.0)
y <- c(2.3, 3.7, 5.7, 9.9, 6.9, 15.8, 15.4, 36.9, 34.6, 53.2)
w <- log(y)
# dispersograma
plot(x, w, col = "blue", pch = 15)
grid()

# correlacion
cor(x,w)
## [1] 0.9791125
# otra manera
cov(x,w)/(sd(x)*sd(w))
## [1] 0.9791125

En este caso, parece ser más fácil trabajar con \(x\) y \(\ln(y)\) porque la relación lineal entre estas variables es más notoria y fuerte que entre \(x\) y \(y\).

  1. Considere la base de datos dada en el archivo taller_06_datos.txt, la cual contiene los datos de \(n=1000\) individuos en relación con las siguientes variables:

Primero, se importa la base de datos en R para tenerla disponible en el ambiente global.

# establecer directorio de trabajo
setwd("C:/Users/Juan Camilo/Dropbox/UN/probabilidad_estadistica/")
# importar base de datos
datos <- read.table(file = "taller_06_datos.txt", header = TRUE, sep = ";")
  1. Hacer un dispersograma del peso (\(y\)) en función de la estatura (\(x\)).

A continuación se presenta el dispersograma correspondiente:

plot(x = datos$estatura, y = datos$peso, pch = 16, col = "darkgreen", 
     xlab = "Estatura (metros)", ylab = "Peso (kilogramos)")

b. Calcular e interpretar la covarianza entre la estatura y el peso.

La covarianza entre la estatura y el peso es \[ COV(\text{estatura},\text{peso}) = \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) = 0.3702 \] donde \(n=1000\). Este valor indica que que la variabilidad conjunta entre las variables es positiva, lo que se traduce en la factibilidad de una relación directa entre la estatua y el peso.

cov(datos$estatura,datos$peso)
## [1] 0.3702795
  1. Calcular e interpretar el coeficiente de correlación entre el peso y la estatura.

El coeficiente de correlación entre la estatura y el peso es \[ r= \frac{COV(x,y)}{s_x * s_y} = 0.8129\,. \] Este valor indica que la relación entre las dos variables, además de directa, es fuerte.

cor(datos$estatura,datos$peso)
## [1] 0.8129277
  1. Por un error con la calibración del instrumento para medir el peso, los datos del peso deben disminuirse 5% junto con un aumento constate de 2,500 gramos para todos los individuos. Calcular nuevamente la covarianza y el coeficiente de correlación.

Se debe realizar una transformación de la variable peso (\(y\)). Para ello se define la variable \(w\) como la variable peso disminuida 5% con un aumento constante de 2500 gramos, esto es, \[ w = 0.95\,y + 2.5\,. \] Así, aplicando las propiedades de la covarianza, se tiene que \[ COV(x,w) = COV(x,0.95\,y + 2.5) = 0.95\,COV(x,y) = (0.95)(0.3702) = 0.3517\,. \] De otra parte, aplicando las propiedades de la varianza, se obtiene que el coeficiente de correlación correspondiente es \[ \frac{COV(x,w)}{s_x*s_w} = \frac{0.95\,COV(x,y)}{s_x*\sqrt{0.95^2*s_y^2}} = \frac{0.95\,COV(x,y)}{s_x*0.95*s_y} = \frac{COV(x,y)}{s_x*s_y} = 0.8129 \] y por lo tanto el coeficiente de correlación no cambia bajo esta transformación de la varible peso.

# covarianza
0.95*cov(datos$estatura,datos$peso)
## [1] 0.3517655
# calculo directo covarianza
cov(datos$estatura,0.95*datos$peso+2.5)
## [1] 0.3517655
# calculo directo correlacion
cor(datos$estatura,0.95*datos$peso+2.5)
## [1] 0.8129277
# valor original correlacion
cor(datos$estatura,datos$peso)
## [1] 0.8129277
  1. Considerar la siguiente información: \[ \sum_{i=1}^{10} x_i = 110,\,\, \sum_{i=1}^{10} y_i = 60 ,\,\, \sum_{i=1}^{10} x_i^2 = 3156,\,\, \sum_{i=1}^{10} y_i^2 = 1138\,\,\,\text{y}\,\, \sum_{i=1}^{10} x_i y_i = 1868. \]
  1. Calcular e interpretar el coeficiente de correlación de Pearson entre \(X\) y \(Y\).

El coeficiente de correlación se define como \[ r = \frac{COV(x,y)}{s_x*s_y}. \] La covarianza se calcula como \[ COV(x,y) = \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) = \frac{1}{n-1}\left( \sum_{i=1}^n x_iy_i - n\bar{x}\bar{y} \right) \] Como \(n=10\), \(\displaystyle\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i = \frac{110}{10}=11\), y \(\displaystyle \bar{y} = \frac{1}{n}\sum_{i=1}^n y_i = \frac{60}{10}=6\), por lo tanto \[ COV(x,y) = \frac{1}{9}(1868 - 10*11*6) = 134.2222 \] Dado que el coeficiente de correlación se define como \[ r = \frac{COV(x,y)}{s_x*s_y} = \frac{COV(x,y)}{\sqrt{V(x)}*\sqrt{V(y)}} \] y que la varianza se puede espresar como \[ V(x) = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2 = \frac{1}{n-1}\left(\sum_{i=1}^n x_i^2 - n\bar{x}^2 \right) = \frac{1}{9}(3156 - 10*11^2) = 216.2222 \] Analogamente, la varianza de \(y\) es \(V(y) = 86.44444\), y así, el coeficiente de correlación es \[ r = \frac{134.2222}{\sqrt{216.2222}*\sqrt{86.44444}} = 0.9817 \]

# tamaño de la muestra
n <- 10
# promedios
xb <- 110/n
xb
## [1] 11
yb <- 60/n
yb
## [1] 6
# covarianza
covxy <- (1868 - n*xb*yb)/(n-1)
covxy
## [1] 134.2222
# varianzas
varx <- (3156 - n*xb^2)/9
varx
## [1] 216.2222
vary <- (1138 - n*yb^2)/9
vary
## [1] 86.44444
# correlacion
covxy/(sqrt(varx)*sqrt(vary))
## [1] 0.9817609
  1. Calcular e interpretar nuevamente el coeficiente de correlación de Pearson si para todos los individuos de la muestra la variable \(X\) aumenta en 5% y la variable \(Y\) aumenta en 3%.

Aplicando las proiedades de la covarianza y de la varianza se tiene que \[ COR(1.05x,1.03y) = \frac{COV(1.05x,1.03y)}{\sqrt{V(1.05x)}*\sqrt{V(1.03y)}} = \frac{(1.05)(1.03)COV(x,y)}{\sqrt{1.05^2V(x)}*\sqrt{1.03^2V(y)}} = \frac{(1.05)(1.03)COV(x,y)}{1.05*s_x*1.03*s_y} = \frac{COV(x,y)}{s_x*s_y} \] Es decir que con esta transformación de las variables, no hay un cambio en el coefiente de correlación.

  1. Considere la información de la siguiente tabla de contingencia en relación con la opinión acerca de una medida sanitaria en un sector de la ciudad.
A favor En contra NS/NR
Hombre 241 53 12
Mujer 204 12 11
  1. Calcular y graficar las frecuencias relativas.

Tabla de frecuencias relativas:

# datos
tabla <- rbind(c(241,53,12), c(204,12,11))
rownames(tabla) <- c("Hombre","Mujer")
colnames(tabla) <- c("A favor","En contra","NS/NR")
# tabla de frecuencias relativas
round(addmargins(A = 100*prop.table(x = tabla), margin = c(1,2)), digits = 2)
##        A favor En contra NS/NR    Sum
## Hombre   45.22      9.94  2.25  57.41
## Mujer    38.27      2.25  2.06  42.59
## Sum      83.49     12.20  4.32 100.00

Gráfico de frecuencias relativas:

# diagrama de barras
barplot(height = tabla, xlab = "Opinión", ylab = "Porcentaje (%)",
        legend.text = TRUE, beside = TRUE, args.legend = list(x = "topright"))

  1. Calcular y graficar los perfiles fila.

Tabla de perfiles fila:

# perfiles fila
round(addmargins(A = 100*prop.table(x = tabla, margin = 1), margin = 2), digits = 2)
##        A favor En contra NS/NR Sum
## Hombre   78.76     17.32  3.92 100
## Mujer    89.87      5.29  4.85 100

Gráfico de los perfiles fila:

# perfiles fila
pf <- 100*prop.table(x = tabla, margin = 1)
# grafico
barplot(height = t(pf), ylim = c(0,120), legend.text = TRUE, 
        args.legend = list(x = "top", bty = "n", ncol = 3), 
        main = "Perfil fila", xlab = "Sexo", ylab = "Porcentaje (%)")

  1. Calcular y graficar los perfiles columna.

Tabla de perfile columna:

round(addmargins(A = 100*prop.table(x = tabla, margin = 2), margin = 1), digits = 2)
##        A favor En contra  NS/NR
## Hombre   54.16     81.54  52.17
## Mujer    45.84     18.46  47.83
## Sum     100.00    100.00 100.00

Gráfico de los perfiles columna:

# perfiles columna
pc <-100*prop.table(x = tabla, margin = 2)
# diagrama de barras perfiles columna
barplot(height = pc, beside = FALSE, las = 1, ylim = c(0, 120), 
        legend.text = TRUE, args.legend = list(x = "top", bty = "n", ncol = 2), 
        main = "Perfil columna", xlab = "Nivel educativo", ylab = "Porcentaje (%)")

  1. Completar:
  1. Comentar brevemente los resultados obtenidos.

Al comparar el sexo en función de la opinión (perfiles fila), se observa que la mayor diferencia está en el porcentaje de hombres en contra, el cual parece ser superior que el de mujeres. La misma diferencia se nota al comparar la opinión en función del sexo (perfiles columna).