INFERENCIA ESTADÍSTICA

La estadística inferencial es una rama de la estadística que se ocupa de hacer inferencias o generalizaciones sobre una población a partir de una muestra de datos. A diferencia de la estadística descriptiva, que se centra en la descripción y resumen de los datos observados, la estadística inferencial busca sacar conclusiones más amplias y generalizables.

La estadística inferencial se basa en la idea de que una muestra de datos puede proporcionar información sobre la población de la cual se extrajo. Utilizando técnicas y métodos estadísticos, se pueden realizar inferencias acerca de parámetros poblacionales, como medias, proporciones o diferencias entre grupos.

Para realizar inferencias en estadística, se utilizan conceptos fundamentales como la estimación y la prueba de hipótesis. La estimación consiste en calcular un estimador, como la media muestral o la proporción muestral, que proporciona una estimación del valor de un parámetro poblacional desconocido. Estos estimadores se acompañan de intervalos de confianza, que indican el rango probable de valores en el que se encuentra el parámetro con cierto nivel de confianza.

La prueba de hipótesis, por otro lado, se utiliza para evaluar afirmaciones o suposiciones sobre los parámetros poblacionales. Se formulan una hipótesis nula (H0), que representa una afirmación a ser probada, y una hipótesis alternativa (H1), que representa una afirmación contraria. Mediante la recolección y análisis de datos, se toman decisiones sobre si rechazar o no la hipótesis nula en función de la evidencia obtenida.

La estadística inferencial se aplica en una amplia gama de áreas y disciplinas. Por ejemplo, en la investigación científica, se utilizan técnicas inferenciales para probar la efectividad de un nuevo tratamiento o para evaluar la relación entre variables. En los negocios, la estadística inferencial se emplea para realizar proyecciones y tomar decisiones basadas en muestras representativas de los clientes o consumidores. En la toma de decisiones gubernamentales, la estadística inferencial se utiliza para estimar el tamaño de una población o evaluar el impacto de una política pública.

En resumen, la estadística inferencial es una parte fundamental de la estadística que se ocupa de hacer inferencias sobre una población a partir de una muestra de datos. Permite estimar parámetros poblacionales, realizar pruebas de hipótesis y obtener conclusiones más amplias y generalizables. La estadística inferencial se aplica en diversos campos y es una herramienta clave para la toma de decisiones basadas en evidencia.

library(agricolae)
library(car)
## Loading required package: carData
library(multcompView)
library(multcomp)
## Loading required package: mvtnorm
## Loading required package: survival
## Loading required package: TH.data
## Loading required package: MASS
## 
## Attaching package: 'TH.data'
## The following object is masked from 'package:MASS':
## 
##     geyser
library(PMCMR)
## PMCMR is superseded by PMCMRplus and will be no longer maintained. You may wish to install PMCMRplus instead.
## 
## Attaching package: 'PMCMR'
## The following object is masked from 'package:agricolae':
## 
##     durbin.test
library(PMCMRplus)
library("ggpubr")
## Loading required package: ggplot2
library(nortest)
library(readxl)
#----------------------------------------------
# $\bar X$ y $S^2$ son variables aleatorias
#---------------------------------------------


set.seed(8)
n=100
tsim=1000
mu=3000
sigma2=300
sigma=sqrt(300)

#----------------------------------
# a)  1000 muestras de tama?o 100
#----------------------------------

muestra=matrix(0, nrow=tsim, ncol=n)
for(i in 1:tsim)
    {
     muestra[i,]=rnorm(n, mu, sigma)
    }
dim(muestra)
## [1] 1000  100
summary(muestra[1, ])
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2948    2988    2999    2998    3010    3041
boxplot(muestra[1, ], col=2)

media_muestral=NULL
var_muestral=NULL
sd_muestral =NULL
for(i in 1:tsim)
    {
     media_muestral[i]= mean(muestra[i,])
     var_muestral[i]  =  var(muestra[i,])
     sd_muestral[i]   =   sd(muestra[i,])
    }

Histograma de X_1, X_50 y X_100

#------------------------------------
# b) Histograma de X_1, X_50 y X_100
#------------------------------------

hist(muestra[,1], freq=FALSE, xlab=expression(x[1]), main=expression(X[1]))
li=mu-4*sigma
ls=mu+4*sigma
peso=seq(li, ls, length=2000)
densidad_peso=dnorm(peso, mu, sigma)
lines(peso, densidad_peso, col=2)

hist(muestra[,50], freq=FALSE, xlab=expression(x[50]), main=expression(X[50]))
li=mu-4*sigma
ls=mu+4*sigma
peso=seq(li, ls, length=2000)
densidad_peso=dnorm(peso, mu, sigma)
lines(peso, densidad_peso, col=2, lwd=2)

hist(muestra[,100], freq=FALSE, xlab=expression(x[100]), main=expression(X[100]))
li=mu-4*sigma
ls=mu+4*sigma
peso=seq(li, ls, length=2000)
densidad_peso=dnorm(peso, mu, sigma)
lines(peso, densidad_peso, col=2, lwd=2)

# Histograma de Xbarra y (n-1)S2/sigma^2

La relación entre la chi cuadrado y la varianza bajo la distribución normal está estrechamente relacionada con el concepto de distribución chi cuadrado y la propiedad de que la varianza de una variable aleatoria normal sigue una distribución chi cuadrado.

La distribución chi cuadrado es una distribución de probabilidad continua que se utiliza para modelar la suma de los cuadrados de variables aleatorias independientes y normalmente distribuidas con media cero. Se denota como χ²(n), donde “n” representa los grados de libertad de la distribución.

Si consideramos una variable aleatoria normal estándar Z (con media cero y varianza uno), la variable aleatoria Z² sigue una distribución chi cuadrado con un grado de libertad, es decir, Z² ~ χ²(1). Esto se debe a que Z² es simplemente el cuadrado de la variable aleatoria Z.

Ahora, si tenemos una muestra aleatoria de tamaño n de una distribución normal con media μ y varianza σ², se puede demostrar que la variable aleatoria:

χ² = (n-1) * (s²/σ²),

donde s² es la varianza muestral, sigue una distribución chi cuadrado con n-1 grados de libertad, es decir, χ² ~ χ²(n-1). Aquí, (n-1) se debe al número de grados de libertad utilizados para estimar la media muestral.

En resumen, bajo la distribución normal, la relación entre la chi cuadrado y la varianza se establece a través de la distribución chi cuadrado. La varianza muestral se puede expresar en términos de una variable aleatoria chi cuadrado con n-1 grados de libertad, donde n es el tamaño de la muestra. Esto proporciona una herramienta útil para realizar pruebas de hipótesis o construir intervalos de confianza para la varianza poblacional.

#--------------------------------------------
# c) Histograma de Xbarra y (n-1)S2/sigma^2
#--------------------------------------------

hist(media_muestral, freq=FALSE, main=expression(bar(X)), 
     xlab=expression(bar(x)), ylab="Funci?n de densidad")
xbarra=seq(mu-4*(sigma/sqrt(n)), mu+4*(sigma/sqrt(n)), length=2000)
summary(xbarra)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2993    2997    3000    3000    3003    3007
densidad_xbarra=dnorm(xbarra, mu, sigma/sqrt(n))
lines(xbarra, densidad_xbarra, col=2, lwd=2)

X2=((n-1)*var_muestral)/sigma2
hist(X2, freq=FALSE, main="X2", xlab="x2")
x2_valores=seq(60, 160, length=2000)
lines(x2_valores, dchisq(x2_valores, df=(n-1)), col=2, lwd=2)

# Histograma de Xbarra y (n-1)S2/sigma^2

#———- # d) Z y T #———-

Z=(media_muestral-mu)/(sigma/sqrt(n))
T=(media_muestral-mu)/(sd_muestral/sqrt(n))

hist(Z, freq=FALSE)
z=seq(-3,3, length=2000)
lines(z, dnorm(z,0,1), col=2, lwd=2)

hist(T, freq=FALSE)
t=seq(-3, 3, length=2000)
lines(t, dt(t, df=(n-1)), col=2, lwd=2)

?dt
## starting httpd help server ... done

Intervalos de confianza del 95%

El intervalo de confianza es un concepto fundamental en estadística inferencial que proporciona un rango de valores dentro del cual se espera que se encuentre un parámetro desconocido de la población con cierto nivel de confianza. Bajo la suposición de que los datos siguen una distribución normal, el intervalo de confianza se puede calcular utilizando la distribución normal estándar o la distribución t de Student cuando el tamaño de la muestra es pequeño.

Para calcular un intervalo de confianza bajo la distribución normal, se deben seguir los siguientes pasos:

Definir el nivel de confianza deseado: El nivel de confianza es la probabilidad de que el intervalo de confianza contenga el verdadero valor del parámetro. Es común utilizar niveles de confianza del 90%, 95% o 99%.

Obtener la media y la desviación estándar de la muestra: A partir de los datos observados en la muestra, se calcula la media muestral (x̄) y la desviación estándar muestral (s).

Determinar el valor crítico: El valor crítico corresponde a un valor z de la distribución normal estándar o t de Student, dependiendo del tamaño de la muestra y el nivel de confianza seleccionado. Para la distribución normal estándar, se utiliza el valor z correspondiente al nivel de confianza deseado. Para la distribución t de Student, se utiliza el valor t ajustado por los grados de libertad de la muestra.

Calcular el error estándar: El error estándar (E) se calcula dividiendo el valor crítico por la raíz cuadrada del tamaño de la muestra (n) y multiplicando por la desviación estándar muestral (s). Esto proporciona una medida de la precisión del estimador de la media.

Calcular el intervalo de confianza: El intervalo de confianza se obtiene sumando y restando el error estándar a la media muestral. Matemáticamente, el intervalo de confianza se calcula como x̄ ± E.

El resultado es un rango de valores dentro del cual se espera que se encuentre la verdadera media poblacional con el nivel de confianza seleccionado. Por ejemplo, un intervalo de confianza del 95% significa que hay un 95% de probabilidad de que el intervalo contenga la verdadera media poblacional.

Es importante tener en cuenta que el cálculo del intervalo de confianza asume que los datos siguen una distribución normal y que la muestra es representativa de la población de interés. Si estas suposiciones no se cumplen, se deben considerar métodos alternativos para el cálculo del intervalo de confianza.

#Usando la normal

li_ic=NULL
ls_ic=NULL
for(i in 1:tsim)
    {
     li_ic[i]=media_muestral[i]-1.96*sigma/sqrt(n)
     ls_ic[i]=media_muestral[i]+1.96*sigma/sqrt(n)
    }

ic=cbind(li_ic, ls_ic)

conteo=NULL
for (i in 1:tsim)
     {
      conteo[i]=ifelse(li_ic[i]<mu & ls_ic[i]>mu,1,0)
     }
conteo
##    [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##   [38] 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##   [75] 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1
##  [112] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [149] 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0
##  [186] 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [223] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1
##  [260] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [297] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 1 1
##  [334] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [371] 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [408] 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [445] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [482] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [519] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [556] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [593] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1
##  [630] 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1
##  [667] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [704] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [741] 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [778] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 0
##  [815] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [852] 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1
##  [889] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1
##  [926] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 1
##  [963] 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 0 1 1
## [1000] 1
sum(conteo)/tsim
## [1] 0.96

Prueba T-student una muestra

La prueba t de Student, también conocida como prueba t, es una técnica estadística utilizada para determinar si hay una diferencia significativa entre las medias de dos grupos o si la media de un grupo difiere significativamente de un valor de referencia. La prueba t es especialmente útil cuando el tamaño de la muestra es pequeño y la distribución de los datos no se conoce o no sigue una distribución normal.

El procedimiento básico para realizar una prueba t es el siguiente:

Formular las hipótesis: Se establecen una hipótesis nula (H0) y una hipótesis alternativa (H1). La hipótesis nula generalmente afirma que no hay diferencia entre las medias o que la media es igual al valor de referencia, mientras que la hipótesis alternativa sugiere que hay una diferencia significativa.

Calcular la estadística de prueba t: La estadística de prueba t se calcula como la diferencia entre las medias dividida por el error estándar de la diferencia. El error estándar de la diferencia tiene en cuenta la variabilidad de las muestras y se basa en las desviaciones estándar y los tamaños de muestra de los grupos.

Determinar el valor crítico o el intervalo de rechazo: Se selecciona un nivel de significancia (generalmente 0.05) que establece el umbral para rechazar la hipótesis nula. Se compara el valor de la estadística de prueba t con el valor crítico de la distribución t de Student correspondiente a los grados de libertad y el nivel de significancia elegidos.

Tomar una decisión y hacer la interpretación: Si el valor de la estadística de prueba t cae en la región de rechazo (es mayor que el valor crítico positivo o menor que el valor crítico negativo), se rechaza la hipótesis nula y se concluye que hay una diferencia significativa. De lo contrario, no se puede rechazar la hipótesis nula y se concluye que no hay suficiente evidencia para afirmar una diferencia significativa.

Es importante tener en cuenta que la prueba t asume ciertas condiciones, como la independencia de las observaciones, la normalidad de las distribuciones subyacentes y la igualdad de varianzas en los grupos (a menos que se utilice una versión modificada de la prueba t). Si estas suposiciones no se cumplen, se deben considerar otras pruebas no paramétricas o métodos alternativos para el análisis estadístico.

En resumen, la prueba t de Student es una técnica estadística utilizada para determinar si hay una diferencia significativa entre las medias de dos grupos o si una media difiere significativamente de un valor de referencia. Se basa en la comparación de la estadística de prueba t con un valor crítico para tomar una decisión sobre las hipótesis planteadas. La prueba t es especialmente útil para muestras pequeñas y no requiere una distribución normal de los datos, aunque tiene ciertas suposiciones que deben ser consideradas.

#-------------------------------
# Prueba T-student una muestra
#-------------------------------

x=muestra[1, 1:20]    # 20 datos de la normal con media mu=3000 y sigma=300
t.test (x,  mu=3000, alternative="two.sided")
## 
##  One Sample t-test
## 
## data:  x
## t = -0.88378, df = 19, p-value = 0.3879
## alternative hypothesis: true mean is not equal to 3000
## 95 percent confidence interval:
##  2988.281 3004.761
## sample estimates:
## mean of x 
##  2996.521

T-student Pareada

La prueba t pareada, también conocida como prueba t de muestras relacionadas o prueba t de muestras apareadas, es una técnica estadística utilizada para comparar las diferencias entre las observaciones pareadas en una muestra. A diferencia de la prueba t de muestras independientes, donde se comparan dos grupos distintos, en la prueba t pareada se trabaja con una sola muestra en la que se tienen mediciones repetidas o emparejadas en dos condiciones diferentes.

El procedimiento básico para realizar una prueba t pareada es el siguiente:

Formular las hipótesis: Se establecen una hipótesis nula (H0) y una hipótesis alternativa (H1). La hipótesis nula generalmente afirma que no hay diferencia entre las diferencias pareadas o que la media de las diferencias es igual a cero, mientras que la hipótesis alternativa sugiere que hay una diferencia significativa.

Calcular las diferencias pareadas: Se calcula la diferencia entre las dos mediciones relacionadas para cada par de observaciones. Estas diferencias representan el cambio o la variación entre las dos condiciones medidas.

Calcular la media y la desviación estándar de las diferencias: Se calcula la media de las diferencias pareadas y la desviación estándar de las diferencias. Estas medidas proporcionan una estimación de la tendencia central y la dispersión de las diferencias en la muestra.

Calcular la estadística de prueba t: La estadística de prueba t se calcula dividiendo la media de las diferencias por el error estándar de las diferencias. El error estándar de las diferencias tiene en cuenta la variabilidad y la correlación entre las mediciones pareadas.

Determinar el valor crítico o el intervalo de rechazo: Se selecciona un nivel de significancia (generalmente 0.05) que establece el umbral para rechazar la hipótesis nula. Se compara el valor de la estadística de prueba t con el valor crítico correspondiente a los grados de libertad y el nivel de significancia elegidos.

Tomar una decisión y hacer la interpretación: Si el valor de la estadística de prueba t cae en la región de rechazo (es mayor que el valor crítico positivo o menor que el valor crítico negativo), se rechaza la hipótesis nula y se concluye que hay una diferencia significativa. De lo contrario, no se puede rechazar la hipótesis nula y se concluye que no hay suficiente evidencia para afirmar una diferencia significativa.

La prueba t pareada es útil cuando se tienen mediciones repetidas en la misma muestra, ya que controla el efecto de las diferencias individuales y permite evaluar si hay cambios sistemáticos entre las condiciones medidas. Es importante tener en cuenta que la prueba t pareada asume ciertos supuestos, como la normalidad de las diferencias pareadas y la independencia de las observaciones pareadas. Si estos supuestos no se cumplen, se deben considerar métodos alternativos o realizar transformaciones en los datos para satisfacer los supuestos.

x<-rnorm(100,8,2)
y<-x+rnorm(100,8,1)
t.test(x,y,paried=T)
## 
##  Welch Two Sample t-test
## 
## data:  x and y
## t = -24.835, df = 193.93, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -8.599559 -7.334178
## sample estimates:
## mean of x mean of y 
##  8.106917 16.073785