Funciones útiles

# Devuelve IC para media muestra sabiendo sd
IC.media_muestral.normal <- function(n_muestral, media_muestral, sd, alpha) {
  VC<-qnorm(1-(alpha/2), 0, 1)
  ES<-sd/sqrt(n_muestral)
  EM<- VC*ES 
  LI<-media_muestral-(EM)
  LS<-media_muestral+(EM)
  return(c(LI, LS))
} 
# Devuelve IC para proporcion sabiendo sd
IC.p.normal <- function(n, p, alpha) {
  q <- 1-p
  li <- p-qnorm(1-alpha/2)*sqrt((p*q)/n)
  ls <- p+qnorm(1-alpha/2)*sqrt((p*q)/n)
  return(c(li,ls))
} 
# Devuelve n para proporcion sabiendo sd
n_IC.p.normal <- function(EM, alpha, p) {
  pq <- p*(1-p)
  vc <- qnorm(1-alpha/2)
  n <- (vc^2*pq)/EM^2
  return(n)
}

Problema 1

[Resuelto en clase]

Problema 2 [resuelta]

Para realizar un estudio de explotación del erizo de mar se determinó el volumen gonadal de 25 ejemplares elegidos al azar y obtuvo un volumen promedio de 160 ml. Supongamos que la variable volumen gonadal se distribuye en forma aproximadamente normal con desviación estándar 40 ml. Mis datos son

# distribucion de la poblacion es arpox. normal 
n <- 25 
x_raya <- 160 
sd <- 40 

2.1.- Estimar el volumen gonadal medio de la población con una confianza del 95%.

vc_inf <- qnorm(0.025, 0, 1)
vc_sup <- qnorm(0.025, 0, 1, lower.tail = F)
ee <- sd/sqrt(n)
li <-  x_raya + vc_inf*ee 
ls <-  x_raya + vc_sup*ee
c(li, ls)
## [1] 144.3203 175.6797

2.2.- ¿Cuántos ejemplares de erizo de mar deberá muestrear el investigador para estimar el volumen gonadal medio ± 14 ml con una probabilidad de 0,95?

EM <- 14 
n_p2.2 <- (vc_inf*sd/EM)^2
n_p2.2
## [1] 31.35885

2.3.- Resolver los ítems anteriores suponiendo que la varianza poblacional no es conocida y que de la muestra de 25 ejemplares se obtiene un desvío estándar de 41.38 ml.

Si la varianza pobalcional no es conocida, debo usar la distribucion t-Studnet con n-1 grado de libertad

s <- 41.38
df <- 24 
vc <- qt(0.975,df)
ee <- s/sqrt(n)
em <- vc*ee
li <- x_raya - em 
ls <- x_raya + em
c(li,ls)
## [1] 142.9192 177.0808

¿Cuántos ejemplares de erizo de mar deberá muestrear el investigador para estimar el volumen gonadal medio ± 14 ml con una probabilidad de 0,95?

n_j <- 25
repeat {
  n_i <- (qt(0.975, n_j-1) * 41.38/14)^2
  if (n_i==n_j) {
    print(n_j)
    break 
  }
  else {
  n_j <- n_i 
  }
}
## [1] 36.00468

Problema 3.

Para estudiar la proporción de plantas de Dentaria sp, se siembran en un vivero 300 semillas de Dentaria sp; todas las plantas emergen y al cabo de un tiempo se observa que 69 plantas están florecidas y las restantes no lo están.

p <- 69/300 # p es p^
q <- 1-p # q es q^
n <- 300 
n*p>5 
## [1] TRUE
n*q>5 
## [1] TRUE
s <- sqrt(p*q/n)

3.1.- Estimar mediante un intervalo de confianza del 95% la proporción de Dentaria sp. que florecen.

#Dado que la muestra tomada es grande, np y nq es mayor que 5, puedo suponer distribucion normal. 
IC.p.normal(n,p,0.05)
## [1] 0.1823792 0.2776208
li <- p-qnorm(0.975)*sqrt((p*q)/n)
ls <- p+qnorm(0.975)*sqrt((p*q)/n)
c(li,ls)
## [1] 0.1823792 0.2776208

3.2.- ¿Qué supuestos deben cumplirse para la validez de la estimación anterior?

Para que sea válida la aproximación a la normal el tamaño de la muestra debe ser lo suficientemente grande (n≥30), pn > 5 y qn > 5

3.3.- Calcular la cantidad mínima de plantas de Dentaria que se debería sembrar para estimar la proporción de plantas con flor en ± 0,04 con una probabilidad de 0,95.

n_IC.p.normal(0.04,0.05,p)
## [1] 425.2015

Tener en cuenta que los parámetros de la distribución muestral de una proporción corresponden a:

Problema 4:

La toxoplasmosis se adquiere principalmente por contacto con heces de gatos y, en menor medida, por la ingestión de carne mal cocida o productos lácteos conteniendo Toxoplasma gondii. La gran mayoría de las toxoplasmosis adquiridas son asintomáticas; sólo una fracción menor de los individuos infectados desarrolla síntomas. Un estudio epidemiológico llevado a cabo en 755 adultos aparentemente sanos reveló que 203 de ellos presentaban evidencia serológica de infección con T. gondii.

4.1.- Estime la proporción de adultos infectados con T. gondii pero sin manifestaciones clínicas de toxoplasmosis con un 95% de confianza.

n <- 755
p_m <- 203/755 
q_m <- 1-p_m 
IC.p.normal(n,p_m,0.05)
## [1] 0.2372481 0.3005002

4.2.- Cuántos individuos deberán analizarse si se quiere disminuir el error de la estimación anterior en un 50%?

EM_nuevo <- (qnorm(0.975)*sqrt(p_m*q_m/n))/2
((p_m*q_m)/(EM_nuevo/1.96)^2)
## [1] 3020.111
n_IC.p.normal(EM_nuevo,0.05,p_m)
## [1] 3020

Problema 5.

Se desea estimar la prevalencia de la hipertensión arterial en el embarazo. Determine la cantidad de embarazadas que se deberían observar para, con una confianza del 95%, estimar dicha prevalencia con un error muestral del 2% en los siguientes casos 5.1- Sabiendo que un sondeo previo se ha observado un 9% de hipertensas.

# Se trata de una proporcion. 
EM <- 0.02 
p <- 0.09 
n_IC.p.normal(EM,0.05,p)
## [1] 786.5387

5.2.- Sin ninguna información previa.

# EM = z_c * sqrt(pq/n)
#   pq_n <- (0.02/qnorm(0.0975))^2 
EM <- 0.02 
p <- 0.5
n_IC.p.normal(EM,0.05,p)
## [1] 2400.912

Problema 6.

Se lleva a cabo un estudio a fin de determinar la concentración de propionatos utilizados como conservantes en cierta marca de pan lactal. Con tal fin se seleccionaron al azar 70 lotes de pan lactal de dicha marca (en cantidad suficiente como para que cada lote fuera representativo) y se determinó el contenido de propionatos (en gramos de propionatos/100 g de pan lactal). Los resultados fueron: 6.1.- Estime puntualmente el promedio y el desvío estándar del contenido de propionatos de este pan lactal (Datos agrupados, ver fórmula para su cálculo).

Fi=frecuencia absoluta del intervalo i Para datos agrupados Xi corresponde a la marca de clase del intervalo i

datos <- data.frame("Propinatos"=c("0.10-0.15", "0.15-0.20", "0.20-0.25", "0.25-0.30","0.30-0.35","0.35-0.40","0.40-0.45"), "Marca de clase"=c(seq(0.125, 0.425, 0.05)), "cantidad de lotes"=c(2,5,10,16,23,11,3))
x_raya <- weighted.mean(datos$Marca.de.clase, datos$cantidad.de.lotes)
n <- sum(datos$cantidad.de.lotes)
x.i <-datos$Marca.de.clase 
f.i <- datos$cantidad.de.lotes
ss <- sum((x.i-x_raya)^2*f.i)/(n-1)
s <- sqrt(ss)

6.2.- Estime el promedio del contenido de propionatos de este pan lactal con una confianza del 90%.

# datos que tengo: media muestral, desvio muestral, n (desconozco desvio poblacional, uso tSt)
vc <- qt(0.95,n-1)
ee <- s/sqrt(n)
em <- vc*ee 
li <- x_raya -em
ls <- x_raya +em
c(li,ls)
## [1] 0.2812818 0.3087182

Rta. TRUE: (0,281 – 0,309) g/100 g de pan lactal

6.3.- Ídem anterior, pero con una confianza del 99%. Compare con el intervalo anterior y extraiga conclusiones.

vc <- qt(1-0.01/2,n-1)
ee <- s/sqrt(n)
em <- vc*ee 
li <- x_raya -em
ls <- x_raya +em
c(li,ls) # aumenta la amplitud
## [1] 0.2732039 0.3167961

Rta. TRUE: = (0,273 – 0,317) g/100 g de pan lactal

6.4.- ¿Cuántos lotes más deberán muestrearse si se desea disminuir el error muestral de la estimación anterior en un 14%?

em_nuevo <-em*(1-0.14) 
# Recordar que EM = VC*S/sqrt(n) -> (VC*S/EM)^2=n 
n_j <- 70
repeat {
  n_i <- (qt(0.995, n_j-1) * s/em_nuevo)^2
  if (n_i==n_j) {
    print(n_j)
    break 
  }
  else {
  n_j <- n_i 
  }
}
## [1] 93.30492
cat("Se necesitaria muestrarse", 93-70, "lotes mas")
## Se necesitaria muestrarse 23 lotes mas

6.5.- Indique los supuestos necesarios para la validez de la estimación. Supuse que el n es lo suficientemente grande, por lo que la distribucion muestral de los estadisticos seguian una distribucion t de student.

Problema 7.

Utilizando una planilla de cálculo (o en el R-studio) junto con las fórmulas del error estándar para algunos estadísticos (ver tabla al final del ejercicio):

7.1- Calcular el intervalo de confianza para la media para los datos de niveles testosterona en plasma de los lagartos muestreados en mayo (problema 4 de la práctica 1).

El Intervalo de confianza para la media es 9.02 \(\pm\) 1.169.

7.2.- Estudiar el supuesto de normalidad mediante la construcción de un intervalo de confianza para los coeficientes de asimetría y curtosis.

Nota: Si una variable sigue una distribución normal los coeficientes de asimetría (γ1) y curtosis (γ2) estimados por g1 y g2 respectivamente deben ser nulos. Si los intervalos incluyen el valor cero no se rechaza la hipótesis de que la distribución de la variable es simétrica. Por consiguiente, la curva es similar a una campana. Este resultado se podría utilizar para suponer que la distribución de la variable no se aparta de la normalidad. En base a los datos del mes de mayo se obtiene:

Conclusión: con un 95 % de confianza se puede suponer que el nivel de testosterona en lagartos durante el mes de mayo no se aparta de la normalidad. En otras palabras, se estima con un nivel de confianza del 95% que el intervalo para el coeficiente de asimetría (g1) contiene a µ (µ = 0). Ídem para la variable aleatoria coeficiente de curtosis (g2).

7.3.- Repetir para los datos de los lagartos del mes de octubre.

Fiaca.