Las orugas de mariposa Bandera Argentina (Morpho epistrophus argentinus), declarada protegida y patrimonio natural en el Partido de Punta Indio (Provincia de Bueno Aires), acumulan glucósidos que las hacen repugnantes a las aves, por lo cual éstos tienden a evitarlas después de un primer encuentro. En dicho distrito se recolectaron 64 de tales orugas y se les determinó la concentración de glucósidos con relación a sus pesos. Estudios anteriores aseguran que la población en estudio sigue una distribución aproximadamente normal con media de 0.19 g glucósido/kg gusano y varianza 0.0036 (g glucósido/kg gusano) . Utilice el script1_orugas.R y la base de datos BD_orugas.txt para resolver las siguientes preguntas:
1.1.- En los últimos años se ha observado una disminución en la abundancia de las orugas lo cual podría sugerir una mayor predación de las aves asociada a una menor acumulación de glucósidos por parte de las orugas. En este sentido, poner a prueba la hipótesis de que en este distrito la concentración media de glucósidos en las orugas es menor que la media previamente estimada. Calcular el valor p de la prueba. Concluya utilizando un nivel de significación del 5%.
1.2.- Indicar en qué consisten el error de tipo I y el de tipo II en términos del problema.
1.3.- Calcular la potencia de la prueba para la Ha: μ = 0.17, suponiendo que la varianza no se modifica.
1.4.- Indicar cuál es la población de la que se habla y las suposiciones sobre esta población para la validez de las estimaciones realizadas.
1.5.- Solo para fines didácticos, suponga que usted no tiene información previa acerca de la abundancia de las orugas y, además quiere conocer si su muestra proviene de la población de orugas de dicho distrito. Replantear las hipótesis y la resolución poniendo a prueba que en este distrito la concentración media de glucósidos en las orugas es distinta a la media previamente estudiada. Calcular el valor p de la prueba. Concluya utilizando un nivel de significación del 5%.
1.6.- Si la concentración de glucósidos de las mariposas de Punta Indio fuera de 0.18 g glucósido/kg gusano, estimar la cantidad de orugas que habría que examinar para detectar la disminución con una probabilidad de 0.90. [falta imagen]
Bue. No entendi este ejrcicio Las jarillas son arbustos del género Larrea característicos de la provincia fitogeográfica del monte. La resina que producen estas plantas posee alcaloides, que funcionan como insecticidas naturales contra los insectos desfoliadores. Se ha determinado que la concentración de alcaloides en Larrea divaricata sigue una distribución normal con una media de 1.2 mg/ml de resina con una varianza de 0.4 (mg/ml)^2.
En los llanos de La Rioja se ha encontrado una población de la misma especie con plantas muy poco desarrolladas y con las hojas muy atacadas. Los científicos proponen las dos hipótesis siguientes como las únicas posibles:
Utilizando el archivo alcaloides.txt, responda:
datos <- read.table("BD_alcaloides.txt",header = T)
2.1.- Ayude a esta gente, que poco sabe de estadística, a dilucidar cuál de las dos hipótesis es la más plausible, sabiendo que de una muestra de 12 plantas de esa zona se obtuvo una concentración media de alcaloides de 1,0mg/ml. Grafique la distribución de probabilidades del estimador y calcule el valor p de la prueba. Concluya utilizando un nivel de significación del 5%.
# veamos si es posible la primera. Primero ingreso los datos
mu <- 1.2 #mg/ml
varianza <- 0.4 #mg/ml^2
# Qvs las plantas de ese lugar producen menos alcaloides
# H_o : mu_o ≤ mu
# H_a : mu_o > mu
library(BSDA)
## Loading required package: lattice
##
## Attaching package: 'BSDA'
## The following object is masked from 'package:datasets':
##
## Orange
z.test(datos$Conc, alternative="less", mu=mu, sigma.x =sqrt(varianza))
##
## One-sample z-Test
##
## data: datos$Conc
## z = -1.0954, p-value = 0.1367
## alternative hypothesis: true mean is less than 1.2
## 95 percent confidence interval:
## NA 1.300308
## sample estimates:
## mean of x
## 1
p.value <- 0.1367
p.value > 0.05
## [1] TRUE
x <- seq(0,3,0.0005)
ES<-sqrt(varianza)/sqrt(12)
plot(x, dnorm(x,mu, ES), type="l", xlab = "mg/ml")
abline(v=qnorm(0.05,mu,ES))
abline(v=qnorm(p.value, mu,ES), col='red')
#Como no se rechaza el p-valor es mayor que el nivel de singifnicacion no se rechaza H_o.
CORRECCION No rechazo Ho planteado con el enunciado i) por lo tanto la opción. es que los insectos hayan desarrollado resistencia. 2.2.- En función de la decisión tomada en el punto anterior, ¿qué error podría estar cometiendo?
Dado que no se rechaza H_o, se podria estar cometiendo el error de tipo II, que es el error de no rechazar H_o dado que H_o ese falsa.
2.3.- Indique las suposiciones para la validez de la prueba.
2.4.- Si la concentración media real de alcaloides de los arbustos de esa población fuese de 0.9 mg/ml, ¿cuál sería la potencia de la prueba? Exprésela en términos del problema.
mu_1 <- 0.9
# Deseeo calcular cuanto es 1-beta
x_c <-qnorm(0.05, mu, ES)
potencia <- pnorm(x_c, mu_1, ES, lower.tail = T)
potencia
## [1] 0.4993274
Los murciélagos al volar localizan un objeto sólido emitiendo chillidos agudos y escuchando el eco. Se piensa que el alcance medio máximo para este sistema de localización por eco es de más de 6 metros. Para poner a prueba la hipótesis se seleccionó una muestra aleatoria de 16 murciélagos. Cada ejemplar fue soltado en un área grande y cercada, que contenía solo un obstáculo y se anotó la distancia entre el obstáculo y el murciélago al momento del viraje. El experimento fue repetido varias veces con cada animal, y para cada uno de ellos se determinó la distancia media del viraje, con los siguientes resultados:
6.2 6.8 6.1 5.7 6.1 6.3 5.8 6.3 5.9 6.3 6.4 6.0 6.3 6.2 5.9 6.1
Utilice el script3_murcielago.R para resolver las siguientes preguntas:
3.1.- Suponiendo que el alcance máximo sigue una distribución normal ¿Qué conclusión puede extraerse de los datos (Utilice un nivel de significación del 5%)? ¿Qué tipo de error se puede estar cometiendo?
3.2.- Estime con una confianza del 95% la distancia media de viraje de los murciélagos.
En un trabajo veterinario se desea estudiar la proporción de palomas mensajeras que se crían en la Ciudad de Buenos Aires que están infectadas por un parásito intestinal. Dicho parásito les provoca desde pérdida de peso hasta disminución de la fertilidad, y el tratamiento consiste en la aplicación de inyecciones individuales a todas ellas. Con dicho estudio se quiere comprobar que la proporción de palomas mensajera infectadas por el parásito intestinal es menor al 40%, en cuyo caso no es necesario desinfectarlas. Para realizar el estudio se toma una muestra aleatoria de 200 palomas, se les hace un análisis parasitológico y se encuentra que 70 de ellas están parasitadas. Utilice el script script4_paloma.R para resolver las siguientes preguntas: 4.1.- ¿Aconsejaría, en base a estos datos, desinfectar la población de palomas de la ciudad de Bs. As.? Grafique la distribución de probabilidades y calcule el p-valor.
4.2.- ¿En qué consisten el error de tipo I y de tipo II en este ejemplo? ¿Cuál es más peligroso?
4.3.- Indicar las suposiciones para la validez de la prueba realizada.
Las mentas son cultivadas para la obtención de los aceites esenciales y de hojas para consumo directo. La especie de mayor interés en nuestro país, debido a su contenido de aceite esencial, ha sido siempre Mentha piperita, denominada vulgarmente menta inglesa. Mentha arvensis, conocida como menta japonesa y originaria de China, tiene un aroma menos delicado, con mayor contenido de mentol; sin embargo, se cree que tiene un mejor rendimiento que M. piperita. Los requerimientos climáticos y edáficos de ambas especies son similares. Mentha piperita ha sido cultivada históricamente en nuestro país, pero los productores quieren saber si les convendría cambiar por el cultivo de M. arvensis. La Unidad de Plantas Aromáticas del INTA Castelar lleva a cabo un estudio a fin de comparar el rendimiento de ambas especies. De las áreas sembradas con cada una de ellas, se eligieron 15 parcelas al azar, se cosecharon en su totalidad y se determinó el rendimiento por cromatografía gaseosa (g/cm3). Los resultados se muestran en el archivo (Mentas1.txt). En base a las observaciones realizadas, ¿podría el INTA recomendar a los productores cambiar de especie con un nivel de significación del 5%? Para responder las preguntas hechas a continuación use el script5_menta.R
5.1.- Observen cómo se construyó la base de datos. ¿Qué información contiene cada columna? ¿Cuántas muestras se tomaron?
5.2.- Definan la(s) variable(s) de interés y clasifíquela(s).
5.3- Planteen las hipótesis estadísticas
5.4.- Describan en forma gráfica y analítica cada muestra.
5.5.- Verifique los supuestos de la prueba que utilizará.
5.6.- Lleve a cabo la prueba estadística, estimen la magnitud del efecto y concluya.
TAREA 2: clase de prueba de hipótesis: Completar la actividad propuesta en el campus virtual.
Volvamos al problema 3 del Tp 5 donde se estudiaba la cantidad de plantas de Dentaria sp. que florecían. En ese vivero, florecieron 69 de las 300 plantas sembradas. El dueño, desea comparar este rendimiento floral con la de un vivero más grande, donde de 1000 plantas de Dentaria sp sembradas, florecieron 200. Ayuden a este señor a contestar su pregunta mediante una prueba de hipótesis con un nivel de significación de 0,05. Para eso, sigan los pasos indicados en script6_dentaria:
6.1.- Definan las variables involucradas y su distribución.
6.2.- Planteen las hipótesis estadísticas.
6.3.- Realicen un esquema de la distribución en probabilidades del estadístico de prueba que usará y marque la zona de rechazo.
6.4.- Estimen la magnitud de la diferencia entre las proporciones de plantas Dentaria sp. florecidas en ambos viveros con una confianza de 0,95.
6.5.- Indiquen los supuestos utilizados en los puntos 2.4. y 2.5. 6.6.- Informen sus resultados.
En un trabajo de investigación se utilizaron 16 parcelas experimentales con dos plantas de avena cada una con el fin de estudiar el efecto promotor del crecimiento de una solución de potasio. En cada parcela, una planta elegida al azar fue tratada con la solución de potasio y la otra no (control). Contesten las preguntas enunciadas a continuación con el script7_avena.R
7.1.- Discutan cómo habrán diseñado el experimento.
Al cabo de cierto tiempo se midió la altura de cada planta (en cm) y se construyó la base de datos del archivo Avena.txt.
7.2.- Observen la base de datos y respondan: ¿Qué representa cada columna? ¿Por qué creen que la base de datos se construyó de esa manera?
7.3.- ¿Existen evidencias de que el potasio ejerce un efecto promotor del crecimiento? (Para contestar esta pregunta: definan la variable sobre la que van a trabajar y clasifíquenla, planteen las hipótesis estadísticas, dibujen un esquema en el que se aprecie la zona de rechazo, indiquen cuáles son los supuestos, póngalos y realicen la prueba de hipótesis adecuada).
7.4.- Indiquen en términos del problema en qué consisten los errores de tipo I y tipo II. ¿Cuál de los dos podrían estar cometiendo en este caso?
Las bifidobacterias (Bifidobacterium sp.) forman parte de la microbiota del tubo digestivo humano. Entre otras funciones benéficas, contribuyen a regular el funcionamiento del colon e inhibir algunos patógenos intestinales. Estas bacterias se usan como probióticos para recuperar la flora intestinal y mejorar la tolerancia a la lactosa. Un grupo de investigación especula que el agregado de bifidobacterias a ciertos productos lácteos podría reducir los casos de diarrea infantil. A fin de demostrarlo, a 115 niños se les suministró yogur conteniendo B. bifidum por un lapso de tres meses, mientras que un grupo de 120 niños fue dejado como control (¿en qué consistiría?).
Al cabo del experimento se registraron 8 casos de diarrea en el primer grupo y 12 en el segundo. ¿Puede asegurarse, con un nivel de significación del 5%, que la incorporación de bifidobacterias al yogur fue efectiva?
Estime con una confianza del 95% la reducción en la incidencia de diarrea infantil.
# Se trata de una proporción:
# p^b 8/115
# p^a 12/120
p.b <- 8/115
q.b <- 1-p.b
p.a <- 12/120
q.a <- 1-p.a
# Hip biológica pb < pa
# H.o p.b-p.a ≥ 0
# H.a p.b-p.a < 0
p_dif <- p.b-p.a
p. <- (8+12)/(115+120)
q. <- 1-p.
ee <- sqrt( (p.*q./115) + (p.*q./120) )
vc <- qnorm(0.025,lower.tail = F)
z <- p_dif/ee
p.valor <- pnorm(z, 0 ,1)
prop.test(x=c(8,12),n=c(115,120),correct=FALSE,alternative="less")
##
## 2-sample test for equality of proportions without continuity
## correction
##
## data: c(8, 12) out of c(115, 120)
## X-squared = 0.69858, df = 1, p-value = 0.2016
## alternative hypothesis: less
## 95 percent confidence interval:
## -1.00000000 0.02916328
## sample estimates:
## prop 1 prop 2
## 0.06956522 0.10000000
p.valor < 0.05 # no rechazo H_o
## [1] FALSE
lu <- p_dif -vc*ee
ls <- p_dif +vc*ee
c(lu,ls)
## [1] -0.10180366 0.04093409
prop.test(x=c(8,12),n=c(115,120),correct=FALSE,alternative="two.sided")
##
## 2-sample test for equality of proportions without continuity
## correction
##
## data: c(8, 12) out of c(115, 120)
## X-squared = 0.69858, df = 1, p-value = 0.4033
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.10145026 0.04058069
## sample estimates:
## prop 1 prop 2
## 0.06956522 0.10000000
Se desea seleccionar una raza de perros para arriar ganado ovino en granjas. Para eso se seleccionan 15 individuos de cada una de dos razas pastoras, Border collie (Bc) y Pastor alemán (Pa), a los que se les mide la eficiencia en el arreo mediante una prueba que consiste en medir el tiempo (en segundos) que tardan en lograr que 4 ovejas pasen de un corral de 25 m2 a otro, a través de una tranquera de 1 m de ancho. Los datos se encuentran en el archivo Perros_pastores.txt.
9.1.- Plantee las hipótesis que conducen a poder seleccionar una de las razas para la tarea deseada.
datos Bc vc Pa Se mide el tiempo que tardan en lograr que 4 ovejas pasen de un corral a otro Se seleccionan 15 individuos de cada una de dos razas
- H.o: Bc-Pa => 0 - H.a: Bc-Pa < 0
9.2.- ¿Qué suposiciones hay que hacer para poder realizar la prueba estadística? Poner a prueba gráficamente su validez.
Las muestras son aleatorias y las observaciones son independientes.
datos <- read.table("Perros_pastores.txt", header = T)
bc <- subset(datos, Raza=="Bc")
pa <- subset(datos, Raza!="Bc")
qqnorm(bc$Tiempo)
qqline(bc$Tiempo)
qqnorm(pa$Tiempo)
qqline(pa$Tiempo)
9.3.- Si los supuestos no fueron rechazados, desarrolle la prueba con un nivel de significación del 5%.
var.test(datos$Tiempo~datos$Raza, alternative = "two.sided")
##
## F test to compare two variances
##
## data: datos$Tiempo by datos$Raza
## F = 0.81693, num df = 14, denom df = 14, p-value = 0.7104
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.2742667 2.4332898
## sample estimates:
## ratio of variances
## 0.8169274
0.7104 < 0.05 # No rechazo H_o, supongo misma varianza.
## [1] FALSE
t.test(datos$Tiempo~datos$Raza, alternative = "less", var.equal = T)
##
## Two Sample t-test
##
## data: datos$Tiempo by datos$Raza
## t = -1.787, df = 28, p-value = 0.04238
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf -0.6142546
## sample estimates:
## mean in group Bc mean in group Pa
## 92.238 105.018
0.04238 < 0.05 # rechazo H_o. Entonces Bc < Pa.
## [1] TRUE
9.4.- ¿A qué conclusión llega con respecto a la hipótesis nula?
Se rechaza la hipótesis nula.
9.5.- ¿Seleccionaría alguna de las dos razas para el arreo? Justifique.
Dado que se rechaza la H.o, se concluye con la Hipótesis alternativa. La dif de Bc-Pa < 0. Luego Bc < Pa. Entonces se elige el pastor aleman.
9.6.- Informe la magnitud de la diferencia entre los tiempos que tardan ambas razas en realizar la prueba, con una confianza del 95%.
t.test(datos$Tiempo~datos$Raza, alternative = "two.sided", var.equal = T)
##
## Two Sample t-test
##
## data: datos$Tiempo by datos$Raza
## t = -1.787, df = 28, p-value = 0.08477
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -27.429313 1.869313
## sample estimates:
## mean in group Bc mean in group Pa
## 92.238 105.018
round(c(-27.429313,1.869313),2)
## [1] -27.43 1.87
Magnitud de la diferncia: [-27.43, 1.87]
La infección por el hongo patógeno Phytophthora infestans (tizón tardío) es considerado el estrés biótico más importante de la producción de papa y una importante amenaza para la seguridad alimentaria. El uso sistemático de fungicidas se presenta como la estrategia más utilizada para el control de la enfermedad, generando un impacto negativo en el ambiente, a la vez que incrementa los costos de producción. Las especies silvestres de papa constituyen una fuente de resistencia a diversas enfermedades, por lo que integran los programas de mejoramiento frente al tizón tardío.
Se llevó a cabo un ensayo a fin de evaluar un nuevo genotipo (denominado G15) proveniente de una población silvestre de papa frente al ataque de P. infestans. El ensayo se llevó a cabo en un lote ubicado en Balcarce, en el que se definieron 24 parcelas. A la mitad se la sembró con G15 y a la otra mitad con la variedad Pampeana INTA, como testigo de buen comportamiento frente a P. infestans. A los 60 días postsiembra se evaluó la infección natural del P. infestans dadas las condiciones favorables para la diseminación de la enfermedad, como porcentaje de follaje afectado.
Los resultados fueron:
Utilizando el archivo papas.txt, responda:
10.1.- En función de los objetivos del ensayo, plantear las hipótesis en parámetros y en términos biológicos.
Objetivo del ensayo: ver si G15 es más resistente que INTA. v.a. porcentaje media
datos <- read.table("papas.txt", header = T, fileEncoding="utf-16")
H_0:G15 -INTA ≤ 0 H_a:G15 -INTA > 0 10.2.- Describir analítica y gráficamente los resultados de este ensayo.
library(psych)
plot(datos$porcentaje~datos$genotipo)
10.3.- Poner a prueba las hipótesis planteadas, previo chequeo de los supuestos. Dar la conclusión biológica.
Supuestos: observaciones independientes, muestras altearoias, veo si es normal.
g15 <- subset(datos, genotipo=="G15")
INTA <- subset(datos, genotipo!="G15")
var.test(datos$porcentaje~datos$genotipo)
##
## F test to compare two variances
##
## data: datos$porcentaje by datos$genotipo
## F = 0.48048, num df = 11, denom df = 11, p-value = 0.2398
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.1383202 1.6690523
## sample estimates:
## ratio of variances
## 0.4804827
0.2398<0.05 # no rechazo H_0
## [1] FALSE
t.test(datos$porcentaje~datos$genotipo, alternative="greater", var.equal=T)
##
## Two Sample t-test
##
## data: datos$porcentaje by datos$genotipo
## t = -3.0691, df = 22, p-value = 0.9972
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -9.928751 Inf
## sample estimates:
## mean in group G15 mean in group INTA
## 24.05000 30.41667
0.9972<0.05 # no rechazo H_o
## [1] FALSE
10.4.- En relación al ítem anterior, indicar qué tipo de error podría estar cometiendo (en términos del problema) y con qué probabilidad. ?? Como no rechazo H_o se puede estar cometiendo el error tipo II. Para saber con qué probabilidad calculo beta.
10.5.- Estimar la magnitud del efecto del nuevo genotipo sobre el porcentaje de follaje afectado por P. infestans (construir un IC95 para la diferencia de medias).
t.test(datos$porcentaje~datos$genotipo, alternative="two.sided", var.equal=T)
##
## Two Sample t-test
##
## data: datos$porcentaje by datos$genotipo
## t = -3.0691, df = 22, p-value = 0.005616
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -10.668757 -2.064576
## sample estimates:
## mean in group G15 mean in group INTA
## 24.05000 30.41667
round(c(-10.668757,-2.064576),2)
## [1] -10.67 -2.06
IC dif de medias: [-10.67; -2.06]
Según el principio de exclusión competitiva, dos poblaciones de especies distintas que hagan uso de los mismos recursos no pueden coexistir. La consecuencia evolutiva de este fenómeno es que las poblaciones de dos especies afines desarrollan diferencias morfológicas y/o comportamentales cuando coexisten en una misma área, de forma tal que evitan la competencia. Brown (1973) estudió los patrones del uso de semillas para dos especies de ratones granívoros (gro. Dipodomys) del desierto de Sonora en cuanto a tamaño de grano recogido (en mm) y distancia con respecto a los arbustos de los cuales recogen los granos (en cm).
En base a los resultados resumidos en las bases de datos Tamaño_grano.txt y Distancia_cosecha.txt, poner a prueba las siguientes hipótesis:
datos <- read.table("Tamaño_grano.txt",header = T)
# H.o: grano.d-grano.o=0
# H.a: grano.d-grano.o != 0
var.test(datos$Tamanio~datos$Especie, alternative="two.sided")
##
## F test to compare two variances
##
## data: datos$Tamanio by datos$Especie
## F = 1.3044, num df = 99, denom df = 99, p-value = 0.1879
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.8776336 1.9385967
## sample estimates:
## ratio of variances
## 1.304369
0.1879 < 0.05 # no rechazo H_o, entonces supongo que la varianza es igual.
## [1] FALSE
t.test(datos$Tamanio~datos$Especie, alternative = "two.sided", var.equal = T)
##
## Two Sample t-test
##
## data: datos$Tamanio by datos$Especie
## t = 4.4185, df = 198, p-value = 1.635e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.5444956 1.4223044
## sample estimates:
## mean in group D.deserti mean in group D.ordi
## 4.4580 3.4746
1.635e-05 < 0.05 #rechazo H_o.
## [1] TRUE
# dif de tamaño
t.test(datos$Tamanio~datos$Especie, alternative = "two.sided", var.equal = T)
##
## Two Sample t-test
##
## data: datos$Tamanio by datos$Especie
## t = 4.4185, df = 198, p-value = 1.635e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.5444956 1.4223044
## sample estimates:
## mean in group D.deserti mean in group D.ordi
## 4.4580 3.4746
# 0.5444956 1.4223044
datos <- read.table("Distancia_cosecha.txt",header = T)
nrow(datos)
## [1] 100
# H.o: dis.d-dist.o <= 0
# H.a: dis.d-dist.o > 0
var.test(datos$Distancia~datos$Especie, alternative="two.sided")
##
## F test to compare two variances
##
## data: datos$Distancia by datos$Especie
## F = 1.0224, num df = 49, denom df = 49, p-value = 0.9386
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.580176 1.801625
## sample estimates:
## ratio of variances
## 1.02238
0.9386 < 0.05 # no rechazo H_o, entonces supongo que la varianza es igual.
## [1] FALSE
d <- subset(datos, Especie=="D.deserti")
o <- subset(datos, Especie!="D.deserti")
t.test(d$Distancia,o$Distancia, alternative = "greater", var.equal = T)
##
## Two Sample t-test
##
## data: d$Distancia and o$Distancia
## t = -5.7799, df = 98, p-value = 1
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -22.48008 Inf
## sample estimates:
## mean of x mean of y
## 47.741 65.204
1 < 0.05 # no rechazo H_o.
## [1] FALSE
Concluya estadísticamente según el valor p de la prueba y estime con un 95% de confianza la diferencia en el tamaño de las semillas cosechadas. Con los resultados obtenidos, comentar qué estrategias siguen las dos especies para evitar la competencia.
Estrategia: D. ordi y D. deserti comen semillas de distinto tamaño.
Teniendo en cuenta los datos del problema 4 del TP 1 (lagartos del género Tupinambis sp. en mayo y octubre), agrupados en el archivo Tupinambis.txt, efectúe la prueba de hipótesis correspondiente.
Enunciado problema 4 del TP 1: Se diseñó un estudio para correlacionar el cambio estacional de testosterona con el ciclo reproductivo en lagartos del género Tupinambis que habitan en Santiago del Estero. Sabiendo que el período reproductivo abarca la primavera y el verano se realizaron muestreos en los meses de mayo y octubre. A cada lagarto macho capturado se le extrajo sangre y se le midió el contenido de testosterona en plasma (en nanogramos por mililitro). X: diferencia de concentración de contenido de testoterona en la sangre v.a. cuantitativa continua
Ho mu_o - mu_may <= 0 Ha mu_o - mu_may >0
mayo <- read.csv("BD_Tupinambis_Mayo.csv", header = T, sep=",")
octubre <- read.csv("BD_Tupinambis_Octubre.csv", header = T, sep=",")
var.test(octubre$Octubre, mayo$Mayo)
##
## F test to compare two variances
##
## data: octubre$Octubre and mayo$Mayo
## F = 5.1278, num df = 39, denom df = 32, p-value = 7.978e-06
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 2.589336 9.929292
## sample estimates:
## ratio of variances
## 5.127779
7.978e-06 < 0.05 #TRUE Rechazo H_o. No puedo decir que las varianzas son iguales
## [1] TRUE
t.test(octubre$Octubre,mayo$Mayo, alternative = "greater", var.equal = F)
##
## Welch Two Sample t-test
##
## data: octubre$Octubre and mayo$Mayo
## t = 20.442, df = 55.816, p-value < 2.2e-16
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 24.62899 Inf
## sample estimates:
## mean of x mean of y
## 35.845000 9.021212
2.2e-16 < 0.05 # rechazo H_o
## [1] TRUE
Dado que rechazo H_o hay evidencias para suponer que durante octubre el nivel de testoterona es más alto.
Se desea estudiar si el contenido de nitrógeno en el plasma sanguíneo aumenta con la edad en ejemplares de Rattus rattus. Para ello se tomaron grupos de animales en condiciones similares, pero de distinta edad, y se les determinó el contenido de nitrógeno en g/cm . Para ello se eligieron al azar 25 ratas de 37 días de vida y 20 ratas de 180 días de vida, a las cuales se les registró la variable y se confeccionó el archivo contenido_nitrogeno_ratas.txt.
13.1.- Efectuar la prueba de hipótesis planteada en el enunciado. Indicar los supuestos de la prueba estadística utilizada.
X contenido de nitrogeno en sangre
v.a. diferencia de contenido de nitrogeno en sangre en en dos poblaciones.
v. continua cuantitativa
Supongo distribucion normal pues las muestras son chicas (sino no puedo usar el estadístico t) H.0 r.v- r.j <= 0 H.a r.v -r.j > 0
datos <- read.table("contenido_nitrogeno_ratas.txt",header = T)
var.test(datos$contenido_de_nitrogeno~datos$edad, alternative="two.sided")
##
## F test to compare two variances
##
## data: datos$contenido_de_nitrogeno by datos$edad
## F = 1.8736, num df = 19, denom df = 24, p-value = 0.1466
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.7989424 4.5947733
## sample estimates:
## ratio of variances
## 1.873643
0.1466 < 0.05 # no rechazo H_o
## [1] FALSE
t.test(datos$contenido_de_nitrogeno~datos$edad, alternative="greater", var.equal=T)
##
## Two Sample t-test
##
## data: datos$contenido_de_nitrogeno by datos$edad
## t = 10.694, df = 43, p-value = 5.408e-14
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 0.2073311 Inf
## sample estimates:
## mean in group 180dias mean in group 37dias
## 1.150 0.904
5.408e-14<0.05 # rechazo H_o
## [1] TRUE
13.2.- Estimar la magnitud del efecto de la edad (diferencia promedio en el contenido de nitrógeno entre ambos grupos) con una confianza del 95%.
t.test(datos$contenido_de_nitrogeno~datos$edad, alternative="two.sided", var.equal=T)
##
## Two Sample t-test
##
## data: datos$contenido_de_nitrogeno by datos$edad
## t = 10.694, df = 43, p-value = 1.082e-13
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.199611 0.292389
## sample estimates:
## mean in group 180dias mean in group 37dias
## 1.150 0.904
round(c(0.199611,0.292389),2)
## [1] 0.20 0.29
En un programa de Control de Enfermedades Crónicas, la hipertensión está incluida como la primera patología a controlar. Para estudiar si un tratamiento es efectivo se eligen al azar 15 pacientes hipertensos que son controlados en su tensión sistólica antes y después de 6 meses de tratamiento. Los datos están en la base denominada hipertension.txt. ¿Es efectivo el tratamiento?
Es una prueba pareada -> uso t.test H_o : mu_dif(mu_f-mu_i) >= 0 H_a : mu_dif(mu_f-mu_i) < 0
datos <- read.table("hipertension.txt",header = T)
t.test(datos$final, datos$inicial, alternative="less", paired=T )
##
## Paired t-test
##
## data: datos$final and datos$inicial
## t = -5.7862, df = 14, p-value = 2.358e-05
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf -22.72298
## sample estimates:
## mean of the differences
## -32.66667
2.358e-05 < 0.05
## [1] TRUE
Rechazo H_o. El tratamiento es efectivo.
Se sabe que elevados niveles de colesterol LDL en sangre son perjudiciales para la salud. Con el objetivo de determinar el impacto de una dieta rica en huevo sobre los niveles de colesterol LDL en sangre se llevó a cabo un estudio en 20 individuos sanos. Los individuos fueron divididos al azar en dos grupos:
Se midieron los valores de LDL luego de 30 días de tratamiento (en mg/ml).
15.1. Identifique en el experimento la variable respuesta, la unidad experimental, cantidad de réplicas y tratamientos. ¿Se trata de un estudio observacional o experimental?
Es un estudio observacional
15.2. Realizar la prueba de hipótesis con los datos del archivo colesterol.xls. En caso de que los investigadores no encuentren diferencias significativas entre ambos grupos (nivel de significación de 5%), ¿eso los habilita a concluir con un margen de error de 5% que la ingesta de un huevo cada dos días es inocua?
H_o mu_c-mu_h >= 0 H_a mu_c-mu_h < 0 Supongo distribución normal.
datos <- read.table("colesterol.txt", header=T)
control <- subset(datos, tratamiento=="control")
huevo <- subset(datos, tratamiento!="Control")
shapiro.test(control$Colesterol)
##
## Shapiro-Wilk normality test
##
## data: control$Colesterol
## W = 0.84503, p-value = 0.05068
0.05068 < 0.05
## [1] FALSE
shapiro.test(huevo$Colesterol)
##
## Shapiro-Wilk normality test
##
## data: huevo$Colesterol
## W = 0.91696, p-value = 0.08662
0.08662<0.05
## [1] FALSE
var.test(datos$Colesterol~datos$tratamiento)
##
## F test to compare two variances
##
## data: datos$Colesterol by datos$tratamiento
## F = 0.97993, num df = 9, denom df = 9, p-value = 0.9764
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.2434015 3.9452045
## sample estimates:
## ratio of variances
## 0.979933
0.9764<0.05 # no rechazo H_o
## [1] FALSE
t.test(datos$Colesterol~datos$tratamiento, alternative="less" ,var.equal=T)
##
## Two Sample t-test
##
## data: datos$Colesterol by datos$tratamiento
## t = -1.6693, df = 18, p-value = 0.05618
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf 0.1065302
## sample estimates:
## mean in group control mean in group huevo
## 110.247 112.991
0.05618 < 0.05 #no rechazo H_o
## [1] FALSE
No habilita afirmar que H_o sea verdadero.
Se desea testear la hipótesis “el agua del lago está contaminada”. Indique cuáles serían, en términos del problema, los dos errores posibles, cuál sería el más grave y cómo plantearía en consecuencia las hipótesis.
Términos del problema: saber si el agua está o no contaminada.
H_o: el agua está contaminada
H_a: el agua no está contaminada.
Error tipo I: rechazo H_o (el agua está contaminada), cuando el agua sí está contaminada. Error tipo II: NO rechazo H_o (el agua está contaminada), cuando el agua no está contaminada. Dado que el error de tipo I es más grave, ya lo estoy controlando.