library(tigerstats)

Distribución Chi cuadrado

Se escribe variable \(\chi^2\) El hecho de que su función de densidad dependa de un número entero positivo llamado grados de libertad hace que se hable de la distribución \(\chi^2_n\) con \(n\) grados de libertad. Así, existe una variable para cada valor de \(n\) mayor o igual a 1. Esta variable aparece cuando se suman
\(n\) variables aleatorias independientes con distribución
\(N(0,1)\), elevadas al cuadrado.

\[\chi _{k}^{2}=X_{1}^{2}+X_{2}^{2}+...+X_{k}^{2}, \ \text{con} \ X_{i} \in N \left( 0,1 \right).\]

Esta distribución es necesaria para la construcción de intervalos de confianza y la realización de muchos contrastes de hipótesis.

curve(dchisq(x, df = 1), xlim = c(0, 20), ylim = c(0, 0.2), 
  xlab = "x", ylab = "Función de densidad")
curve(dchisq(x, df = 2), col = "red", lty = 2, add = T)
curve(dchisq(x, df = 4), col = "blue", lty = 3, add = T)
curve(dchisq(x, df = 10), col = "green", lty = 4, add = T)
curve(dchisq(x, df = 20), col = "magenta", lty = 5, add = T)
abline(h = 0, col = "gray")
legend("topright", c("1", "2", "4", "10", "20"), col = c("black", 
  "red", "blue", "green", "magenta"), lty = c(1, 2, 3, 
  4, 5), bty = "n")

Considere una variable aleatoria X con distribución \(\chi^2\) de 16 grados de libertad ¿Cual es la probabilidad de que

pchisqGC(32 , region = "above", df=16, graph = T)

## [1] 0.009999781
pchisq(32,df=16, lower.tail = F)
## [1] 0.009999781
pchisqGC(20.47 , region = "above", df=16, graph = T)

## [1] 0.1997938
pchisq(36.46, df=16, lower.tail = T) - pchisq(20.43, df=16, lower.tail = T)
## [1] 0.1989782
qchisq(0.3, df=8, lower.tail = F)
## [1] 9.524458

sean \(X_1,\dots,X_n\) una muestra aleatoria proveniente de una población con distribución \(N(\mu ,\sigma^{2})\) donde \(\mu\) y \(\sigma^2\) son desconocidos.

Se tiene que

\[\frac{(n-1)S^{2}}{\sigma^{2}} \sim \chi_{n-1}^{2}\]

Variable t de Student

Aparece a partir de la distribución normal y la Chi-cuadrado, puesto que si \(Z\)es una variable N(0,1) , e \(Y\) es una variable aleatoria independiente de \(Z\), con distribución Chi-cuadrado con \(n\) grados de libertad, entonces la variable

\[t_{n}=\frac{Z}{\sqrt[]{Y/n}}\]

es una variable con distribución \(t\) con \(n\) grados de libertad.

Esto pueden visualizarse en la gráfica siguiente, donde se representan diferentes valores del parámetro \(n\)

Hay que reseñar que, a medida que el número de grados de libertad aumenta, la curva se parece cada vez más a la campana de Gauss, lo cual sucede a partir de valores como
\(n=40\) ,

curve(dt(x,df=1),xlim=c(-3,3),ylim=c(0,0.4),
      xlab='x',ylab='Función de densidad')
curve(dt(x,df=2),col='red', lty=2,add=T)
curve(dt(x,df=4),col='blue',lty=3, add=T)   
curve(dt(x,df=10),col='green',lty=4, add=T) 
curve(dt(x,df=20),col='magenta',lty=5, add=T)   
abline(h=0, col="gray")
legend("topright",c("1","2","4","10"),
col=c("black","red","blue", "green","magenta"),
lty=c(1,2,3,4,5),bty="n")

El interés de esta variable es, igual que en el caso de la variable Chi-cuadrado, su aparición en la construcción de intervalos de confianza y realización de contrastes de hipótesis.

Calculos

Sea T una variable aleatoria que sigue una distribución t-student con 8 grados de libertad, calcular la probabilidad de que:

# Escriba su código
pt(1.3968, df=8, lower.tail = T)
## [1] 0.8999978
# Escriba su código
pt(0.5459, df=8, lower.tail = F)
## [1] 0.3000111
# Escriba su código
pt(2.3060, df=8, lower.tail = T)- pt(0.8889, df=8, lower.tail = T) 
## [1] 0.1749972
# Escriba su código

Intervalos de confianza

La estimación puntual aproxima mediante un número el valor de una característica poblacional o parámetro desconocido (la altura media , la intención de voto a un cadidato las próximas elecciones, el tiempo medio de ejecución de un algoritmo, el número de taxis…) pero no nos indica el error que se comete en dicha estimación.

Lo razonable, en la práctica, es adjuntar, junto a la estimación puntual del parámetro, un intervalo que mida el margen de error de la estimación. La construcción de dicho intervalo es el objetivo de la estimación por intervalos de confianza.

Un intervalo de confianza para un parámetro con un nivel de confianza \(1−\alpha\) ( 0 < α <1 ), es un intervalo de extremos aleatorios
( L,U) que, con probabilidad \(1−\alpha\), contiene al parámetro en cuestión. \[P(parámetro \in (L,U))=1−\alpha\]

Los valores más habituales del nivel de confianza \(1−\alpha\) son

(la confianza es del \(90\%\) , \(95\%\) o \(99\%\) ). En ocasiones también se emplea la terminología nivel de significación para el valor \(\alpha\)

En la estimación por intervalos de confianza partimos de una muestra \(x_1, x_2,...,x_n\). A partir de estos valores obtenemos un intervalo numérico. Por ejemplo, podríamos hablar de que, con una confianza del 99 por ciento, la proporción de voto un partido político “XXXXX” está entre el 29 y el 31 por ciento. O que, con una confianza del 90 por ciento, la estatura media está entre 1.65 y 1.75

De cada muestra también puede obtenerse un intervalo de confianza. Entonces, con cada muestra diferente, obtendremos un intervalo también diferente. A medida que aumenta la cantidad de intervalos que hemos construido, el porcentaje de intervalos que contienen el verdadero valor del parámetro se aproximará al \(100(1−\alpha)\%\)

Así, por ejemplo, un intervalo de confianza al \(95\%\) garantiza que, si tomamos 100 muestras, el verdadero valor del parámetro estará dentro del intervalo en aproximadamente el 95 de los intervalos construidos.

https://digitalfirst.bfwpub.com/stats_applet/stats_applet_4_ci.html

I.C. para la media

Nos centramos en la estimación de la media \(\mu\) de una población o variable Normal. Inicialmente, se considera quen la desviación típica de la variable es conocida.

Consideremos la variable \(X\in N(\mu,\sigma)\) supongamos, que representa a la característica. Supongamos que \(\sigma\) conocida.

\[T=\frac{\bar{X}-\mu }{\sigma /\sqrt{n}}.\]

Un estadístico es una función de variables aleatorias y es también otra variable aleatoria.

La media muestral \[\bar{X} \in N\left(\mu, \dfrac{\sigma }{ \sqrt{n}}\right)\]

Consideramos una muestra aleatoria simple \(X_1,...,X_n\) de la variable \(X\). Dado el nivel de confianza \(1-\alpha\) , elegimos el llamado estadístico pivote

\[1-\alpha=P\left( \bar{X}- z_{\alpha /2}\frac{\sigma }{\sqrt{n}}<\mu <\bar{X}+ z_{\alpha /2}\frac{\sigma }{\sqrt{n}}\right)\]

Por tanto, el I.C. para \(\mu\) al nivel de confianza \(1−\alpha\) es:

\[(L,U)=\left(\bar{X}-z_{\alpha /2}\frac{\sigma }{\sqrt{n}},\bar{ X}+\text{ } z_{\alpha /2}\frac{\sigma }{\sqrt{n}}\right)\]

Ejemplo

En una clínica de fisioterapia se quiere saber el número de grados que acaba doblando una rodilla después de dos semanas de tratamiento. Las medidas de 10 pacientes fueron 41.60, 41.48, 42.34, 41.95, 41.86, 42.41, 41.72, 42.26, 41.81, 42.04.

Si la variable aleatoria \(X\) =“grados que dobla la rodilla” sigue una distribución normal, y suponiendo que \(\sigma=0.30\) grados,

  • Obtener un intervalo de confianza para la temperatura media al nivel del 90%.

  • Deducir el tamaño muestral necesario para conseguir un intervalo de confianza al 99%, con un error menor o igual que 0.05.

Ejemplo

Con el fin de estudiar el número medio de flexiones continuadas que pueden realizar los alumnos, un profesor de educación física somete a 75 de ellos, elegidos aleatoriamente, a una prueba. El número de flexiones realizado por cada alumno, así como su sexo y si realizan o no deporte se muestran en el fichero Flexiones.txt.

Se sabe que el número de flexiones se distribuye según una Normal de varianza poblacional 7.5. ¿Determinar el intervalo de confianza a un nivel de confianza del 95% para el número medio de flexiones?

library(DT)
# Actualice su ruta
Flexiones <- read.delim("C:/Users/wsand/Downloads/Flexiones.txt")
DT::datatable(Flexiones)
alpha<- 0.05
varianza <- 7.5

Calculamos por separado cada uno de los elementos restantes que necesitamos para obtener el intervalo de confianza.

n <- nrow(Flexiones)
xbarra <- mean(Flexiones$Flexiones)
cuantil<- qnorm(1 - alpha/2)

Por último, calculamos los extremos inferior y superior del intervalo de acuerdo a la expresión que se vio anteriormente:

Por tanto:

lim_inferior <- xbarra - cuantil * sqrt(varianza) / sqrt(n)
lim_inferior
## [1] 49.48687
lim_superior<- xbarra + cuantil * sqrt(varianza) / sqrt(n)
lim_superior
## [1] 50.72646

Por lo que el intervalo de confianza que buscamos es (49.48687, 50.72646).

I.C. para la media con varianza desconocida

En la práctica, no es habitual conocer la desviación típica, así que esta debe estimarse a partir de la muestra, igual que se estima la media. El intervalo de confianza para la media de una variable aleatoria normal, con desviación típica desconocida, tiene la siguiente forma:

\[\left( \bar{x}\pm t_{n-1,\alpha /2}\frac{S}{\sqrt{n}} \right)\]

siendo \(t_{n-1,\alpha/2}\) el valor de una \(t\) Student con \(n-1\) grados de libertad que deja a la derecha \(\alpha/2\)

Ejemplo

Un fabricante ha inventado una nueva pólvora que fue probada en ocho proyectiles. Las velocidades resultantes en la boca del cañón, en pies por segundo, fueron las siguientes: 3005 2925 2935 2965 2995 3005 2937 2905

Encuentre un intervalo de confianza de \(95\%\) para el verdadero promedio de velocidad \(\mu\) para proyectiles de este tipo. Suponga que las velocidades en la boca del cañón están distribuidas normalmente en forma aproximada.

Ejemplo

Considerando nuevamente el conjunto de datos , relativo a las flexiones de los alumnos. Calcular un intervalo de confianza a un nivel de confianza del 98% para el número medio de flexiones. Suponer en este caso que el número de flexiones se distribuye según una distribución Normal de varianza desconocida.

t.test(Flexiones$Flexiones, conf.level = 0.98)
## 
##  One Sample t-test
## 
## data:  Flexiones$Flexiones
## t = 72.58, df = 74, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 98 percent confidence interval:
##  48.46512 51.74822
## sample estimates:
## mean of x 
##  50.10667

Intervalo de confianza para la diferencia de media de dos poblaciones normales

  • Las varianzas \(\sigma_1^2\) y \(\sigma_2^2\) son conocidas \[I=\Bigg(\overline{X}-\overline{Y}\pm z_{\alpha/2}\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}\Bigg)\]

  • Las varianzas \(\sigma_1^2\) y \(\sigma_2^2\) son desconocidas

    • Caso \(n_1+n_2>30\) con \(n_1 \sim n_2\)

    \[I=\Bigg(\overline{X}-\overline{Y}\pm z_{\alpha/2}\sqrt{\dfrac{S_1^2}{n_1}+\dfrac{S_2^2}{n_2}}\ \Bigg)\]

    • Caso que las muestras son pequeñas y \(\sigma_1^2\) y \(\sigma_2^2\) son desconocidas pero iguales

\[I=\Bigg(\overline{X}-\overline{Y} \pm \ t_{(\alpha/2;n_1+n_2-2)}\cdot S_p\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}\ \Bigg)\] \[S_p^2=\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}\]

  • caso que las muestras son pequeñas y \(\sigma_1^2\) y \(\sigma_2^2\) son desconocidas y diferentes

\[I=\Bigg(\overline{X}-\overline{Y}\pm t_{(\alpha/2;f)}\sqrt{\dfrac{S_1^2}{n_1}+\dfrac{S_2^2}{n_2}}\ \Bigg)\]

\[f=\dfrac{\big(S_1^2/n_1+S_2^2/n_2\big)^2}{\dfrac{(S_1^2/n_1)^2}{n_1+1}+\dfrac{(S_2^2/n_2)^2}{n_2+1}}-2\]

Ejemplo

Para alcanzar la máxima eficiencia al realizar una operación de ensamble en una planta manufacturera, obreros nuevos requieren aproximadamente un periodo de capacitación de 1 mes.Se sugirió un nuevo método de capacitación y se realizó un examen para comparar el nuevo método contra el procedimiento estándar. Dos grupos de nueve obreros nuevos cada uno fueron capacitados durante 3 semanas, un grupo usando el nuevo método y el otro siguiendo el procedimiento estándar de capacitación. El tiempo (en minutos) requerido por cada obrero para ensamblar el dispositivo se registró al final del período de 3 semanas. Las mediciones resultantes son las que se muestran en la Tabla . Calcule la diferencia real de las medias \(\mu_1 − \mu_2\) con coeficiente de confianza .95. Suponga que los tiempos de ensamble están distribuidos normalmente en forma aproximada, que las varianzas de los tiempos de ensamble son aproximadamente iguales para los dos métodos y que las muestras son independientes.

\[\begin{array}{llllllllll} \hline \text { Estándar } & 32 & 37 & 35 & 28 & 41 & 44 & 35 & 31 & 34 \\ \text { Nuevo } & 35 & 31 & 29 & 25 & 34 & 40 & 27 & 32 & 31 \\ \hline \end{array}\]

Ejemplo

Suponiendo que el número de flexiones que realizan los alumnos y las alumnas se distribuyen de acuerdo a variables normales de medias y varianzas desconocidas, obtener un intervalo de confianza al \(95\ %\) para la diferencia del número medio de flexiones entre chicos y chicas. ¿Puede suponerse que el número medio de flexiones que realizan los chicos y las chicas es igual?