Codi font del document: sessió_09.Rmd
Gràfic de dispersió entre la despesa el transport del viatge i la despesa en bars i restaurants (4 primeres dades del dataframe):
head(dades[, c("GASTOFI_TRANS", "GASTOFI_BAREST")], 4)
## GASTOFI_TRANS GASTOFI_BAREST
## 1 34.52 62.69
## 2 18.49 45.49
## 3 30.22 55.10
## 4 220.01 134.25
with(dades[1:4, ], plot(GASTOFI_TRANS, GASTOFI_BAREST, pch = 18, col="tomato3", cex = 1.5))
grid()
Gràfic de dispersió entre la despesa el transport del viatge i la despesa en bars i restaurants(totes les dades del dataframe):
with(dades, plot(GASTOFI_TRANS, GASTOFI_BAREST, col="blue", cex = 0.75))
grid()
Gràfic de dispersió l’edat i la depesa total del viatge:
with(dades, plot(EDAD, GASTOFI_TOTAL, col="blue", cex = 0.75))
grid()
Resolució d’un exemple: Trobeu el model de regressió lineal simple de les segúents dades després d’haver aplicat la transformació logarítimica a la variable Sesiones
ex1 <- data.frame(sesiones = c(2, 5, 7, 10, 12, 16),
coordinacion = c(15, 40, 62, 86, 92, 95))
ex1$ln.sesiones <- log(ex1$sesiones)
fit <- lm(coordinacion ~ ln.sesiones, data = ex1)
summary(fit)
##
## Call:
## lm(formula = coordinacion ~ ln.sesiones, data = ex1)
##
## Residuals:
## 1 2 3 4 5 6
## 4.052 -9.795 -2.059 6.819 5.090 -4.107
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -18.438 8.959 -2.058 0.108693
## ln.sesiones 42.395 4.302 9.855 0.000595 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.174 on 4 degrees of freedom
## Multiple R-squared: 0.9604, Adjusted R-squared: 0.9506
## F-statistic: 97.12 on 1 and 4 DF, p-value: 0.0005948
Així doncs, la fòrmula del model és:
Supongamos que se pretende contrastar si la distribución de tipos sanguíneos es igual en hombres que en mujeres, para lo que se efectua un análisis de sangre a 12000 personas, 7000 mujeres y 5000 hombres, teniendo los siguientes resultados:
(obs <- matrix(c(2400, 1900, 700,
3100, 2700, 1200), byrow = TRUE, nrow = 2,
dimnames = list( c("Hombres", "Mujeres"), c("Tipo A", "Tipo B", "Tipo 0"))) )
## Tipo A Tipo B Tipo 0
## Hombres 2400 1900 700
## Mujeres 3100 2700 1200
Si las muestras fuesen homogéneas, como afirma la hipótesis nula, la mejor estimación de personas con sangre tipo A en la población, sería la obtenida a partir de toadas las observaciones musestrales con independencia d si la sangre fue extraída de un hombre o de una mujer. Así las proporciones estimadas de personas con sangre tipo A, tipo B y tipo 0 serían, respectavamente:
colSums(obs) / sum(obs)
## Tipo A Tipo B Tipo 0
## 0.4583333 0.3833333 0.1583333
Entonces, esperaríamos encontrar en nuestra muestra (teóricamente) que un número de 0.4583 * 5000 = 2291.5 hombres.
(teo <- c(5000, 7000) %*% t( colSums(obs) / sum(obs) ))
## Tipo A Tipo B Tipo 0
## [1,] 2291.667 1916.667 791.6667
## [2,] 3208.333 2683.333 1108.3333
Y el estadístico chi-cuadrado:
\[\chi^2 = \sum ^k_{i=1} \frac{O_i-T_i}{O_i}\]
(X2 <- sum( (obs - teo )^2 / obs ) )
## [1] 27.93125
Veiem el valor crític amb significància al 95% i al 99%:
alpha <- 0.05
qchisq(1-alpha, df = (NROW(obs)-1)*(NCOL(obs)-1))
alpha <- 0.01
qchisq(1-alpha, df = (NROW(obs)-1)*(NCOL(obs)-1))
## [1] 5.991465
## [1] 9.21034
que compara las frecuencias observadas \(O_i\) con las frecuencias teóricas \(T_i\) exced de 5.991 y de 9.210, que son los valores críticos de una chi-cuadrado con (3-1)*(2-1) grados de libertad, lo que nos lleva a rechazar la hipótesis de homogeneidad en la distribución de tipos sangíneos entre hombres y mujeres.
La tabla siguiente proporciona los alumnos matriculados por sexos en una muestra de facultades de ciencias económicas y empresariales en el curso 85/86. ¿Es distinta la proporción de mujeres en las distintas universiades?
(obs <- matrix(c(1394, 1558, 2142, 6854, 5583, 10458,
515, 594, 609, 2140, 2309, 3919), byrow = TRUE, nrow = 2,
dimnames = list( c("Hombres", "Mujeres"),
c("Alcalá", "ALicante", "Barna A", "Barna C", "Mad A", "Mad C"))) )
## Alcalá ALicante Barna A Barna C Mad A Mad C
## Hombres 1394 1558 2142 6854 5583 10458
## Mujeres 515 594 609 2140 2309 3919
Suponiendo homogeneidad en las facultades, la mejor estimación de la proporción de mujeres (y hombres) es:
rowSums(obs) / sum(obs)
## Hombres Mujeres
## 0.7351018 0.2648982
Entonces, esperaríamos encontrar en nuestra muestra teoricamente:
(teo <- rowSums(obs) %*% t( colSums(obs) / sum(obs) ))
## Alcalá ALicante Barna A Barna C Mad A Mad C
## [1,] 1403.3093 1581.939 2022.265 6611.505 5801.423 10568.558
## [2,] 505.6907 570.061 728.735 2382.495 2090.577 3808.442
Y el estadístico chi-cuadrado serà:
\[\chi^2 = \sum ^k_{i=1} \frac{O_i-T_i}{O_i}\]
(X2 <- sum( (obs - teo )^2 / obs ) ) # sense perdre decimals
alpha <- 0.05
qchisq(1-alpha, df = (NROW(obs)-1)*(NCOL(obs)-1))
alpha <- 0.01
qchisq(1-alpha, df = (NROW(obs)-1)*(NCOL(obs)-1))
## [1] 101.35
## [1] 11.0705
## [1] 15.08627
y, si la hipótesis de homogeneidad es cierta, correponde a una \(\chi^2\) con 5 ( (6-1)*(2-1) ) grados de libertad. Como este valor no puede venir de dicha distribución (valor muy extremo), rechazamos la hipótesis de homogeneidad y concluimos que hay diferencias significativas entre las universidades. En las universidades de Barcelona, la proporción de Mujeres es algo menor (0.23) que en el resto (0.27).