En un casino de Las Vegas un cliente que siempre pierde sospecha que el dado está cargado. Para poner a prueba esto arroja 200 veces uno de los dados con los siguientes resultados:
| Resultado | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| Frecuencia | 25 | 28 | 32 | 31 | 45 | 39 |
1.1.- Planteen las hipótesis estadísticas para ponerlo a prueba
1.2.- ¿Hay evidencias de que el dado está desequilibrado?
1.3.- Analicen la salida de la prueba y contesten: ¿Cómo se calcula el estadístico de prueba (X-squared) y cuál es su distribución? El campo “df” (degrees of freedom) indica los grados de libertad (en castellano, GL). ¿Cómo se obtuvo su valor?
1.4.- ¿Qué indica el valor-p obtenido? Dar la conclusión estadística. ¿A qué conclusión se puede llegar respecto al dado?
La planta conocida como “vara de oro” (Solidago canadensis) es utilizada como hospedadora por una pequeña mosca formadora de agallas (Eurosta solidaginis). Las hembras de esta mosca d epositan sus huevos en los tallos de las varas de oro, inyectando en ellos su ovipositor. A medida que las larvas crecen, excretan sustancias químicas que promueven la formación de las agallas, las cuales se hacen claramente visibles en las plantas al cabo de unas 3 semanas desde la oviposición. Estas agallas son deformaciones del crecimiento del tejido vegetal que les proveen a las larvas alimento y refugio.
Se ha visto que la forma y disposición espacial de las agallas puede tener efectos importantes sobre el crecimiento y supervivencia de E. solidaginis. Para entender un poco más estas interacciones insecto-planta, un ecólogo se propone investigar si las plantas de vara de oro con agallas se disponen al azar o tienden a estar agrupadas. Razona que el agrupamiento podría sugerir que las moscas que producen las agallas recorren la mínima distancia posible para oviponer. Para evaluar su hipótesis, elige un terreno en el que las varas están dispuestas uniformemente y arroja al azar 250 veces un cuadrante con el fin de contar el número de plantas con agallas por cuadrante. Los resultados son los siguientes:
2.1.- Definir y clasificar la variable con la que se está trabajando. ¿A qué distribución se espera que se ajusten los datos observados si las agallas se disponen al azar? Plantear las hipótesis correspondientes y hacer la prueba de bondad de ajuste.
2.2.- ¿Las plantas con agallas se encuentran agrupadas?
Algunas especies de roedores tienen importancia sanitaria por ser transmisores de patógenos al ser humano, varios de ellos potencialmente mortales como el virus del Síndrome Pulmonar por Hantavirus. Por eso es importante conocer y monitorear la dinámica poblacional de las especies que pueden actuar como reservorios. Un grupo de ecólogos está interesado en estudiar las características demográficas de 3 especies de roedores asociadas a un curso de agua. Como parte de este estudio, se realiza un muestreo en primavera de 83 ejemplares de cada especie, en el que se obtiene la siguiente distribución de edades:
Utilice el “Sript_TP_7_Indep_Homog.R” y la base de dato “BD_roedores.txt” para resolver el problema
3.1.- Poner a prueba la hipótesis de que las especies poseen una distribución de edades semejante. ¿Se trata de una prueba de independencia o de homogeneidad? Plantear las hipótesis que correspondan.
Se desea saber si esta distribución de frecuencias se aparta del modelo genético postulado. Indicar las hipótesis, los supuestos / restricciones y el valor de p de la prueba.
Se realiza una prueba de bondad de ajuste a proporciones para determinar si la distribución sigue a la distribución propuesta.
Previo al realizar la prueba, vamos a verificar los supuestos:
- A-B- 0.5625*206 = 115.875
- A-bb 0.1875*206 = 38.625
- aaB 0.1875*206 = 12.875
- aabb 0.0625*206 = 12.875
Ahora realizamos la prueba.
fo <- c(110, 36, 44, 16)
sum(fo) > 50 # (o igual)
## [1] TRUE
proporcion <- c(9/16,3/16,3/16,1/16)
sum(proporcion)
## [1] 1
fe <- sum(fo)*proporcion
fe>5
## [1] TRUE TRUE TRUE TRUE
test <- chisq.test(fo, p=proporcion)
test$p.value
## [1] 0.5759968
test$p.value < 0.05 #no rechazo H_o
## [1] FALSE
##
test$expected
## [1] 115.875 38.625 38.625 12.875
Como el p valor es menor que el nivel de signficación no rechaso H_o. Esto indica que no hay evidencias suficientes para rechazar que no se sigue la proporción teórica.
La araucaria o pehuén (Araucaria araucana) es una especie arbórea endémica de los bosques del extremo noroeste de la Patagonia argentina y chilena, distribuida en zonas muy restringidas de la cordillera de los Andes. Es una especie de alto valor de conservación en ambos países y desde 2001 se encuentra incluida en el listado de CITES (Convención Internacional de Tráfico de Especies Silvestres), principalmente debido a la disminución de su área de distribución. Se realizaron ensayos prospectivos en laboratorio con el fin de evaluar la capacidad germinativa de semillas colectadas en la localidad de Caviahue (Neuquén). Para ello, se sembraron las semillas en bandejas con solo seis lugares (una semilla por lugar) usando un suelo de tipo arcilloso como sustrato. Al cabo de un tiempo se tomó una muestra aleatoria de 202 bandejas y se contó la cantidad de semillas germinadas por bandeja con los resultados expuestos en la base de datos “BD_araucaria.txt”.
5.1.- Probar la hipótesis de que la variable se ajusta a una distribución binomial con un valor de 𝛑 (proporción de semillas germinadas) estimado a partir de la muestra.
datos <- read.table("BD_araucaria.txt",header = T)
n <- nrow(datos)
pi <- mean(datos$Germinadas)/6
tabla <- transform(table(datos$Germinadas))
fo <- c(table(datos$Germinadas))
x <-c(0:6)
fre <- dbinom(x,6,pi)
test <- chisq.test(fo, p=fre)
## Warning in chisq.test(fo, p = fre): Chi-squared approximation may be incorrect
test$expected
## 0 1 2 3 4 5 6
## 2.502344 16.198706 43.692050 62.852600 50.858858 21.948694 3.946749
## Agrupo datos
fo_agrupado <- fo[-7]
fo_agrupado[6] <- 24+16
fo_agrupado
## 0 1 2 3 4 5
## 12 21 32 60 37 40
fre_agrupadas <- fre[-7]
fre_agrupadas[6] <- 0.10865690+0.01953836
test2 <- chisq.test(fo_agrupado, p=fre_agrupadas)
## Warning in chisq.test(fo_agrupado, p = fre_agrupadas): Chi-squared approximation
## may be incorrect
test2$expected #20%
## 0 1 2 3 4 5
## 2.502344 16.198706 43.692050 62.852600 50.858858 25.895443
p.valor.ajustado <- pchisq(52.189,4,lower.tail = F)
p.valor.ajustado < 0.05 #rechazo H_o
## [1] TRUE
5.2.- Probar la hipótesis de que la variable se ajusta a una distribución binomial con 𝛑 = 0,6.
x <-c(0:6)
fre <- dbinom(x,6,0.6)
test <- chisq.test(fo, p=fre)
## Warning in chisq.test(fo, p = fre): Chi-squared approximation may be incorrect
test$expected
## 0 1 2 3 4 5 6
## 0.827392 7.446528 27.924480 55.848960 62.830080 37.698048 9.424512
test # 2.2e-16 rechazo H_o
##
## Chi-squared test for given probabilities
##
## data: fo
## X-squared = 196.62, df = 6, p-value < 2.2e-16
Hay suficientes evidencias para sostener que la proporción de semillas de araucaria germinadas no se ajusta una Bi(n=6, pi=0.6).
La región noroccidental de la estepa patagónica está sometida a un régimen recurrente de fuego. Este disturbio es un factor determinante de la estructura de la vegetación en esos ambientes semiáridos, donde la sucesión post-fuego depende fuertemente de la capacidad de regeneración y dispersión de las especies presentes en el área incendiada. Gittins et al. (2001) efectuaron un estudio a fin de estimar la tasa de supervivencia post-fuego de dos especies de coirones (gramíneas): Festuca pallescens y Stipa speciosa en un pastizal ubicado en Pilcaniyeu, Río Negro. Se tiraron puntos al azar en distintos sectores del área y se seleccionó el resto de coirón más cercano a cada punto. Se registró la especie a la que pertenecía y la presencia (vivo) o no (muerto) de rebrotes. El registro de datos se encuentra en el archivo “BD_coiron.txt??? y la información que contiene se resume en la siguiente tabla:
6.1.- Identificar individuo, variables relevadas, muestra y población.
6.2.- Determinar si la tasa de supervivencia post-fuego difiere entre ambas especies (α =0.05). Resolver aplicando la prueba χ2.
H_o: la supervivencia postfuego es independiente de las especie de coirones H_a: la superviviencia postfuego no es indpendiente
coiron <- read.table("BD_coiron.txt",header = T)
datos <- table(coiron$Estado, coiron$Especie)
test <- chisq.test(datos, correct = F) # YATES no es necesario pues n>200
test$expected
##
## Festuca Stipa
## Muerto 35.30844 51.69156
## Vivo 89.69156 131.30844
test$observed
##
## Festuca Stipa
## Muerto 45 42
## Vivo 80 141
test
##
## Pearson's Chi-squared test
##
## data: datos
## X-squared = 6.2397, df = 1, p-value = 0.01249
0.01249<0.05 #rechazo H_o
## [1] TRUE
Como rechazo H_o, la superviviencia no es indpendiente. (Stipa es más resistente)
6.3.- Indicar los supuestos necesarios para hacer las pruebas.
[Ver script dentaria del TP6, misma conclusión] Se quiere estudiar la proporción de plantas de Dentaria s. p. que florecen en un vivero. Se observó que de las 300 plantas de Dentaria sp. que se sembraron, 69 florecieron. El dueño de ese vivero quiere comparar esa proporción con la de un vivero más grande, en el que se sembraron y emergieron 1000 plantas de Dentaria sp., de las que florecieron 200. Ayuden a este señor a contestar su pregunta con un nivel de significación de 0,05. Para ello utilice el archivo “BD_viveros.txt”
Realizamos la prueba de homogeneidad
BD_viveros <- read.table("BD_viveros.txt",header = T)
datos <- table(BD_viveros$Vivero,BD_viveros$Florecida)
datos
##
## No Si
## 1 231 69
## 2 800 200
test <- chisq.test(datos, correct = F)
test$expected
##
## No Si
## 1 237.9231 62.07692
## 2 793.0769 206.92308
test
##
## Pearson's Chi-squared test
##
## data: datos
## X-squared = 1.2656, df = 1, p-value = 0.2606
0.2606<0.05 #no rechazo H_o. Luego no se rechaza que viveros es homogena a proporción de florecidos.
## [1] FALSE
Una curandera de la zona de Pringles afirma que con ciertas yerbas cura el empacho. Para poner a prueba la validez de su afirmación, en la última temporada luego de las fiestas de fin año, suministró tres preparaciones de yerbas diferentes a 230 paisanos empachados, a los cuales previamente separó en tres grupos al azar. Obtuvo los siguientes resultados (los datos están en el archivo “BD_curandera.txt” :
curandera <- read.table("BD_curandera.txt",header = T)
datos <- table(curandera$Yerba, curandera$Efectividad)
datos
##
## Curado No_Curado
## Paj_Brava 38 33
## Rev_Caballo 33 48
## Yer_Pollo 35 43
n <- 230
8.1- ¿Son los tres preparados de yerbas igualmente efectivos como medicamento? Estimar la probabilidad de efectividad de cada uno.
H_o: Las tres preparciones son homgeneas con respecto a la efectividad. H_a: Las tres preparciones no son homgeneas con respecto a la efectividad. Supongo que las tres preparaciones son igualmente efectivos como medicamento. Hago chiq.test
test <- chisq.test(datos, correct = F)
test$expected
##
## Curado No_Curado
## Paj_Brava 32.72174 38.27826
## Rev_Caballo 37.33043 43.66957
## Yer_Pollo 35.94783 42.05217
test$observed
##
## Curado No_Curado
## Paj_Brava 38 33
## Rev_Caballo 33 48
## Yer_Pollo 35 43
0.2784<0.05 # no rechazo H_o
## [1] FALSE
Pasa los supuestos: n>=50, la ausencia de fe=0 y no superar el 20% de celdas con fe<5.
8.2- En los clasificados del domingo la curandera afirma que sus preparados curan a 6 de cada 10 paisanos empachados. ¿Puede considerarse cierta esta afirmación?
P(C/RC) P(C/YP) P(C/PB)
Pedro dice que el veneno A es más mortífero que el B porque sobrevivieron 15 ratones tratados con B y sólo 9 tratados con A. En cambio, Juan afirma que B es más mortífero porque murieron 18 de los ratones tratados con B mientras que murieron sólo 13 de los tratados con A. Si los dos están hablando del mismo experimento, ¿quién tiene razón? Construya la tabla que considere apropiada y resuelva.
| Vivo | Muerto | Total | |
|---|---|---|---|
| A | 9 | 13 | 22 |
| B | 15 | 18 | 33 |
| Total | 24 | 31 | 55 |
Dado que el tratamiento es fijado de antemano, esta es la variable fija.
Prueba de homogeneidad:
Supuestos: 1. n es mayor 50 (n=55) 2. observaciones indpendientes y muestras aleatorias 3. FE_i son mayores que 5
raton<-matrix(c(9,15,13,18),nrow=2)
colnames(raton)<-c("muertos", "vivos")
rownames(raton)<-c("A","B")
raton
## muertos vivos
## A 9 13
## B 15 18
test <- chisq.test(raton) # se aplicó Yates pues es 2x2 y n<200
test$expected
## muertos vivos
## A 9.6 12.4
## B 14.4 18.6
test
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: raton
## X-squared = 0.0030802, df = 1, p-value = 0.9557
0.9557<0.05 #no rechazo H_o. Luego no se podría afirmar cuál es más mortífero.
## [1] FALSE
resid <- test$residuals
resid
## muertos vivos
## A -0.1936492 0.1703886
## B 0.1581139 -0.1391217