Sessió 09

Codi font del document: sessió_09.Rmd

Gràfic de dispersió (I)

Gràfic de dispersió entre la despesa el transport del viatge i la despesa en bars i restaurants (4 primeres dades del dataframe):

head(dades[, c("GASTOFI_TRANS", "GASTOFI_BAREST")], 4)

##   GASTOFI_TRANS GASTOFI_BAREST
## 1         34.52          62.69
## 2         18.49          45.49
## 3         30.22          55.10
## 4        220.01         134.25

with(dades[1:4, ], plot(GASTOFI_TRANS, GASTOFI_BAREST, pch = 18, col="tomato3", cex = 1.5))
grid()

Gràfic de dispersió (II)

Gràfic de dispersió entre la despesa el transport del viatge i la despesa en bars i restaurants(totes les dades del dataframe):

with(dades, plot(GASTOFI_TRANS, GASTOFI_BAREST, col="blue", cex = 0.75))
grid()

Gràfic de dispersió l’edat i la depesa total del viatge:

with(dades, plot(EDAD, GASTOFI_TOTAL, col="blue", cex = 0.75))
grid()

Model de Regresió Lineal Simple

Resolució d’un exemple: Trobeu el model de regressió lineal simple de les segúents dades després d’haver aplicat la transformació logarítimica a la variable Sesiones

ex1 <- data.frame(sesiones = c(2, 5, 7, 10, 12, 16),
                  coordinacion = c(15, 40, 62, 86, 92, 95))
ex1$ln.sesiones <- log(ex1$sesiones)
fit <- lm(coordinacion ~ ln.sesiones, data = ex1)
summary(fit)

## 
## Call:
## lm(formula = coordinacion ~ ln.sesiones, data = ex1)
## 
## Residuals:
##      1      2      3      4      5      6 
##  4.052 -9.795 -2.059  6.819  5.090 -4.107 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -18.438      8.959  -2.058 0.108693    
## ln.sesiones   42.395      4.302   9.855 0.000595 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.174 on 4 degrees of freedom
## Multiple R-squared:  0.9604, Adjusted R-squared:  0.9506 
## F-statistic: 97.12 on 1 and 4 DF,  p-value: 0.0005948

Així doncs, la fòrmula del model és: Coordinació = -18.438 + 42.395 * ln(Sesiones) + Error

Homogeneïtat de poblacions

Exemple 1

Supongamos que se pretende contrastar si la distribución de tipos sanguíneos es igual en hombres que en mujeres, para lo que se efectua un análisis de sangre a 12000 personas, 7000 mujeres y 5000 hombres, teniendo los siguientes resultados:

(obs <- matrix(c(2400, 1900, 700,
                3100, 2700, 1200), byrow = TRUE, nrow = 2,
              dimnames = list( c("Hombres", "Mujeres"), c("Tipo A", "Tipo B", "Tipo 0"))) )

##         Tipo A Tipo B Tipo 0
## Hombres   2400   1900    700
## Mujeres   3100   2700   1200

Si las muestras fuesen homogéneas, como afirma la hipótesis nula, la mejor estimación de personas con sangre tipo A en la población, sería la obtenida a partir de toadas las observaciones musestrales con independencia d si la sangre fue extraída de un hombre o de una mujer. Así las proporciones estimadas de personas con sangre tipo A, tipo B y tipo 0 serían, respectavamente:

colSums(obs) / sum(obs)

##    Tipo A    Tipo B    Tipo 0 
## 0.4583333 0.3833333 0.1583333

Entonces, esperaríamos encontrar en nuestra muestra (teóricamente) que un número de 0.4583 * 5000 = 2291.5 hombres.

(teo <- c(5000, 7000) %*% t( colSums(obs) / sum(obs) ))

##        Tipo A   Tipo B    Tipo 0
## [1,] 2291.667 1916.667  791.6667
## [2,] 3208.333 2683.333 1108.3333

Y el estadístico chi-cuadrado:

\[\chi^2 = \sum ^k_{i=1} \frac{O_i-T_i}{O_i}\]

(X2 <- sum( (obs - teo )^2 / obs ) )

## [1] 27.93125

Veiem el valor crític amb significància al 95% i al 99%:

alpha <- 0.05
qchisq(1-alpha, df = (NROW(obs)-1)*(NCOL(obs)-1))
alpha <- 0.01 
qchisq(1-alpha, df = (NROW(obs)-1)*(NCOL(obs)-1))

## [1] 5.991465
## [1] 9.21034

que compara las frecuencias observadas \(O_i\) con las frecuencias teóricas \(T_i\) exced de 5.991 y de 9.210, que son los valores críticos de una chi-cuadrado con (3-1)*(2-1) grados de libertad, lo que nos lleva a rechazar la hipótesis de homogeneidad en la distribución de tipos sangíneos entre hombres y mujeres.

Exemple 2

La tabla siguiente proporciona los alumnos matriculados por sexos en una muestra de facultades de ciencias económicas y empresariales en el curso 85/86. ¿Es distinta la proporción de mujeres en las distintas universiades?

(obs <- matrix(c(1394, 1558, 2142, 6854, 5583, 10458,
                  515,  594,  609, 2140, 2309, 3919), byrow = TRUE, nrow = 2,
              dimnames = list( c("Hombres", "Mujeres"),
                               c("Alcalá", "ALicante", "Barna A", "Barna C", "Mad A", "Mad C"))) )

##         Alcalá ALicante Barna A Barna C Mad A Mad C
## Hombres   1394     1558    2142    6854  5583 10458
## Mujeres    515      594     609    2140  2309  3919

Suponiendo homogeneidad en las facultades, la mejor estimación de la proporción de mujeres (y hombres) es:

rowSums(obs) / sum(obs)

##   Hombres   Mujeres 
## 0.7351018 0.2648982

Entonces, esperaríamos encontrar en nuestra muestra teoricamente:

(teo <- rowSums(obs) %*% t( colSums(obs) / sum(obs) ))

##         Alcalá ALicante  Barna A  Barna C    Mad A     Mad C
## [1,] 1403.3093 1581.939 2022.265 6611.505 5801.423 10568.558
## [2,]  505.6907  570.061  728.735 2382.495 2090.577  3808.442

Y el estadístico chi-cuadrado serà:

\[\chi^2 = \sum ^k_{i=1} \frac{O_i-T_i}{O_i}\]

(X2 <- sum( (obs - teo )^2 / obs ) ) # sense perdre decimals
alpha <- 0.05
qchisq(1-alpha, df = (NROW(obs)-1)*(NCOL(obs)-1))
alpha <- 0.01 
qchisq(1-alpha, df = (NROW(obs)-1)*(NCOL(obs)-1))

## [1] 101.35
## [1] 11.0705
## [1] 15.08627

y, si la hipótesis de homogeneidad es cierta, correponde a una \(\chi^2\) con 5 ( (6-1)*(2-1) ) grados de libertad. Como este valor no puede venir de dicha distribución (valor muy extremo), rechazamos la hipótesis de homogeneidad y concluimos que hay diferencias significativas entre las universidades. En las universidades de Barcelona, la proporción de Mujeres es algo menor (0.23) que en el resto (0.27).