Inferencia Estadística

Una compañía contrata 10 tubos con filamentos del tipo A y 12 tubos con filamentos del tipo B. Las duraciones medias observadas se muestran en la siguiente tabla:

\[\begin{array} {|c|c|c|c|c|c|c|c|c|c|c|c|c|} \hline Tipo \hspace{.1cm} A & 1614 & 1094 & 1293 & 1643 & 1466 & 1270 & 1340 & 1380 & 1081 & 1497 & \\ \hline Tipo \hspace{.1cm} B & 1383 & 1138 & 1092 & 1143 & 1017 & 1061 & 1627 & 1021 & 1711 & 1065 & 1162 & 1698 \\ \hline \end{array}\]

Obtener los siguientes intervalos de confianza a un nivel del 99%

Para la duración media de los tubos

TipoA=c(1614, 1094, 1293, 1643, 1466, 1270, 1340, 1380,1081, 1497)
TipoB=c(1383, 1138, 1092, 1143, 1017, 1061, 1627, 1021, 1711, 1065, 1162, 1698)

X_BARRA=mean(TipoA)
print(X_BARRA)

## [1] 1367.8

Y_BARRA=mean(TipoB)
print(Y_BARRA)

## [1] 1259.833

Alpha=0.01/2
print(Alpha)

## [1] 0.005

Qn=qnorm(Alpha,mean = 0,sd=1,lower.tail = F)
print(Qn)

## [1] 2.575829

del tipo A si la desviación típica σ = 203.25

limin=X_BARRA-Qn*(203.25/sqrt(length(TipoA)))
lisup=X_BARRA+Qn*(203.25/sqrt(length(TipoA)))
print(paste("Un intervalo del",(1-0.01)*100, "% para miu es: ", "(", 
            limin," , ", lisup, ")"))

## [1] "Un intervalo del 99 % para miu es:  ( 1202.24296731412  ,  1533.35703268588 )"

del tipo B si la desviación típica σ = 272.56

limin=Y_BARRA-Qn*(272.56/sqrt(length(TipoB)))
lisup=Y_BARRA+Qn*(272.56/sqrt(length(TipoB)))
print(paste("Un intervalo del",(1-0.01)*100, "% para miu es: ", "(", 
            limin," , ", lisup, ")"))

## [1] "Un intervalo del 99 % para miu es:  ( 1057.16374884213  ,  1462.50291782454 )"

Para la duración media de los tubos del tipo A

CUANTQ1=qt(Alpha,df=length(TipoA)-1,lower.tail = F)
print(CUANTQ1)

## [1] 3.249836

limin=X_BARRA-CUANTQ1*(sd(TipoA)/sqrt(length(TipoA)))
lisup=X_BARRA+CUANTQ1*(sd(TipoA)/sqrt(length(TipoA)))
print(paste("Un intervalo del",(1-0.01)*100, "% para miu es: ", "(", 
            limin," , ", lisup, ")"))

## [1] "Un intervalo del 99 % para miu es:  ( 1169.23543255041  ,  1566.36456744959 )"

t.test(TipoA,var.equal = F,conf.level = 0.99)

## 
##  One Sample t-test
## 
## data:  TipoA
## t = 22.386, df = 9, p-value = 3.353e-09
## alternative hypothesis: true mean is not equal to 0
## 99 percent confidence interval:
##  1169.235 1566.365
## sample estimates:
## mean of x 
##    1367.8

-de los tubos del tipo B

t.test(TipoB,var.equal = F,conf.level = 0.99)

## 
##  One Sample t-test
## 
## data:  TipoB
## t = 16.13, df = 11, p-value = 5.294e-09
## alternative hypothesis: true mean is not equal to 0
## 99 percent confidence interval:
##  1017.253 1502.414
## sample estimates:
## mean of x 
##  1259.833

Para la diferencia entre las duraciones medias de los tubos del tipo A y del tipo B.

LIN= (X_BARRA - Y_BARRA)-Qn*sqrt((203.25/length(TipoA))+(272.56/length(TipoB)))
LSU= (X_BARRA - Y_BARRA)+Qn*sqrt((203.25/length(TipoA))+(272.56/length(TipoB)))
print(paste("Un intervalo del",(1-0.01)*100, "% para miu es: ", "(", 
            LIN," , ", LSU, ")"))

## [1] "Un intervalo del 99 % para miu es:  ( 91.068297172927  ,  124.865036160406 )"

Realizar Boxplox que permita comparar la distribución de los datos.

library(ggplot2)

df= data.frame(
  "año" = c(1614, 1094, 1293, 1643, 1466, 1270, 1340, 1380,1081, 1497, 1383, 1138, 1092, 1143, 1017, 1061, 1627, 1021, 1711, 1065, 1162, 1698) ,
  "tipo" = c("A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B")
)
df

##     año tipo
## 1  1614    A
## 2  1094    A
## 3  1293    A
## 4  1643    A
## 5  1466    A
## 6  1270    A
## 7  1340    A
## 8  1380    A
## 9  1081    A
## 10 1497    A
## 11 1383    B
## 12 1138    B
## 13 1092    B
## 14 1143    B
## 15 1017    B
## 16 1061    B
## 17 1627    B
## 18 1021    B
## 19 1711    B
## 20 1065    B
## 21 1162    B
## 22 1698    B

ggplot(data=df,aes(tipo,año,fill=tipo))+
  geom_boxplot()

Se diseñó un programa de ejercicios regulares, moderadamente activos, para someter a individuos que habían sufrido previamente un infarto, para comprobar si el programa podría beneficiar a estos pacientes. Se eligieron al azar once individuos que habían sufrido previamente un infarto. A estos individuos se les determinó, antes de empezar el programa, la capacidad de trabajo de cada uno midiendo el tiempo que tardó en alcanzar una frecuencia de 160 latidos por minuto mientras caminaba sobre una cinta sin fin. Después de 25 semanas de ejercicio controlado, se repitieron las medidas a los mismos individuos en la cinta sin fin y se registró el tiempo para cada sujeto. En la siguiente tabla se muestra el tiempo que tarda cada individuo antes y después del experimento

\[\begin{array} {|c|c|c|c|c|c|c|c|c|c|c|} \hline Antes & 7.3 & 8.9 & 8.4 & 9.6 & 6.5 & 7.8 & 9.2 & 10.2 & 6.7 & 6.9 \\ \hline Después & 4.5 & 5.7 & 7.8 & 7.3 & 3.5 & 5.3 & 6.4 & 7.2 & 6.9 & 5.6 \\ \hline \end{array}\]

Antes = c(7.3 , 8.9 , 8.4 , 9.6 , 6.5 , 7.8 , 9.2 , 10.2 , 6.7 , 6.9)
Despues= c(4.5 , 5.7 , 7.8 , 7.3 , 3.5 , 5.3 , 6.4 , 7.2 , 6.9 , 5.6)

Obtener un intervalo de confianza al 98% para la diferencia de los tiempos medios que tardan los sujetos sobre la cinta sin fin antes y después del experimento.

t.test(Antes,Despues,var.equal = F,conf.level = 0.98)

## 
##  Welch Two Sample t-test
## 
## data:  Antes and Despues
## t = 3.581, df = 17.97, p-value = 0.00214
## alternative hypothesis: true difference in means is not equal to 0
## 98 percent confidence interval:
##  0.6115924 3.6484076
## sample estimates:
## mean of x mean of y 
##      8.15      6.02

En una piscifactoría hay una proporción desconocida de peces de una especie A. Para obtener información sobre la proporción se sacan 145 peces de los cuales 29 son del tipo A. Estimar dicha proporción mediante un intervalo de confianza al nivel de confianza 0.95. ¿Son compatibles estos resultados con la suposición de que dicha proporción vale 1/5? Realizar un diagrama de barras.

p=29/145
print(p)

## [1] 0.2

alplam=0.05/2
print(alplam)

## [1] 0.025

Q=qnorm(alplam,mean=0,sd=1,lower.tail = F)
Q

## [1] 1.959964

limin=p-Q*sqrt(((p*(1-p))/145))
lisup=p+Q*sqrt(((p*(1-p))/145))
print(paste("Un intervalo del",(1-0.05)*100, "% para miu es: ", "(", 
            limin," , ", lisup, ")"))

## [1] "Un intervalo del 95 % para miu es:  ( 0.134893540163129  ,  0.265106459836871 )"

Diagrama de barras:

Se estudian dos procedimientos de fabricación de pistones. Una muestra al azar de 100 pistones producidos por el primer procedimiento contiene 5 defectuosos mientras que una muestra de 150 pistones fabricados con el segundo procedimiento contiene 9 defectuosos. Construir un intervalo de confianza al 99% para la diferencia entre las verdaderas proporciones de defectuosos en los dos procedimientos.

p1=5/100
print(p1)

## [1] 0.05

p2=9/150
print(p2)

## [1] 0.06

alplam=0.01/2
print(alplam)

## [1] 0.005

Q=qnorm(0.005,mean=0,sd=1,lower.tail = F)

limin=p1-p2-Q*sqrt(((p1*(1-p1))/100)+((p2*(1-p2))/150))
lisup=p1-p2+Q*sqrt(((p1*(1-p1))/100)+((p2*(1-p2))/150))
print(paste("Un intervalo del",(1-0.01)*100, "% para miu es: ", "(", 
            limin," , ", lisup, ")"))

## [1] "Un intervalo del 99 % para miu es:  ( -0.0851418459147035  ,  0.0651418459147036 )"

Considerando el conjunto de datos de empleados.xls y asumiendo que la #variable que mide la altura de los empleados sigue una distribución Normal #con varianza desconocida. Calcular un intervalo de confianza a un nivel #de confianza del 90% para la altura media poblacional

library(readxl)
library(DT)

empleados <- read_excel("empleados.xls")
DT::datatable(empleados)

t.test(empleados$Altura,var.equal = FALSE,conf.level = 0.90)

## 
##  One Sample t-test
## 
## data:  empleados$Altura
## t = 214.41, df = 98, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 90 percent confidence interval:
##  175.6292 178.3708
## sample estimates:
## mean of x 
##       177

Sabiendo que las varianzas son iguales ,obtener un intervalo de confianza al 95% para la diferencia del peso medio entre hombres y mujeres. ¿Puede suponerse que el peso medio entre hombres y mujeres es igual?

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

H<-empleados  %>% filter(Sexo == "Hombre")
H

## # A tibble: 87 × 5
##     Edad Altura  Peso Sexo   Coche
##    <dbl>  <dbl> <dbl> <chr>  <chr>
##  1    20    178    82 Hombre Sí   
##  2    18    168    87 Hombre Sí   
##  3    19    194    94 Hombre No   
##  4    21    177    78 Hombre No   
##  5    18    180    53 Hombre No   
##  6    20    180    62 Hombre Sí   
##  7    18    168    68 Hombre Sí   
##  8    19    190    82 Hombre Sí   
##  9    24    181   100 Hombre No   
## 10    21    200    90 Hombre No   
## # … with 77 more rows

M<-empleados  %>% filter(Sexo == "Mujer")
M

## # A tibble: 12 × 5
##     Edad Altura  Peso Sexo  Coche
##    <dbl>  <dbl> <dbl> <chr> <chr>
##  1    19    159    62 Mujer Sí   
##  2    18    187    79 Mujer Sí   
##  3    18    163    56 Mujer No   
##  4    18    162    53 Mujer Sí   
##  5    18    160    53 Mujer No   
##  6    18    178    70 Mujer No   
##  7    23    173    75 Mujer No   
##  8    19    168    54 Mujer Sí   
##  9    18    176    72 Mujer Sí   
## 10    19    171    74 Mujer No   
## 11    19    175    67 Mujer Sí   
## 12    18    162    57 Mujer No

t.test(H$Peso,M$Peso,var.equal = TRUE,conf.level = 0.95)

## 
##  Two Sample t-test
## 
## data:  H$Peso and M$Peso
## t = 3.0597, df = 97, p-value = 0.002865
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##   4.167581 19.556557
## sample estimates:
## mean of x mean of y 
##  76.19540  64.33333

R: No se puede suponer que el peso medio entre hombres y mujeres es igual

A partir del conjunto de datos de empleados.xls, obtener un intervalo de confianza al 95% para la proporción de empleados varones en la población.

library(tigerstats)

## Loading required package: abd

## Loading required package: nlme

## 
## Attaching package: 'nlme'

## The following object is masked from 'package:dplyr':
## 
##     collapse

## Loading required package: lattice

## Loading required package: grid

## Loading required package: mosaic

## Registered S3 method overwritten by 'mosaic':
##   method                           from   
##   fortify.SpatialPolygonsDataFrame ggplot2

## 
## The 'mosaic' package masks several functions from core packages in order to add 
## additional features.  The original behavior of these functions should not be affected by this.

## 
## Attaching package: 'mosaic'

## The following object is masked from 'package:Matrix':
## 
##     mean

## The following objects are masked from 'package:dplyr':
## 
##     count, do, tally

## The following object is masked from 'package:ggplot2':
## 
##     stat

## The following objects are masked from 'package:stats':
## 
##     binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
##     quantile, sd, t.test, var

## The following objects are masked from 'package:base':
## 
##     max, mean, min, prod, range, sample, sum

## Welcome to tigerstats!
## To learn more about this package, consult its website:
##  http://homerhanumat.github.io/tigerstats

proptestGC(~Sexo, data=empleados,succes="Hombre")

## 
## 
## Inferential Procedures for a Single Proportion p:
##  Variable under study is Sexo 
##  Continuity Correction Applied to Test Statistic
## 
## 
## Descriptive Results:
## 
##  Hombre  n estimated.prop
##      87 99         0.8788
## 
## 
## Inferential Results:
## 
## Estimate of p:    0.8788 
## SE(p.hat):    0.0328 
## 
## 95% Confidence Interval for p:
## 
##           lower.bound         upper.bound          
##           0.814498            0.943078

Continuando con los datos del archivo empleados.xls y asumiendo que el peso en hombres y el peso en mujeres se distribuyen según distribuciones normales con medias y varianzas desconocidas. Calcular un intervalo de confianza a un nivel de confianza del 95% para el cociente de varianzas en ambas poblaciones. ¿Puede asumirse que ambas varianzas son iguales?

S1=sd(H$Peso)
print(S1)

## [1] 12.9227

S2=sd(H$Peso)
print(S2)

## [1] 12.9227

n1=length(H$Sexo)
n1

## [1] 87

n2=length(M$Sexo)
n2

## [1] 12

A=0.05/2
A

## [1] 0.025

B=1-A
B

## [1] 0.975

QT1=qf(A,n1-1,n2-1,lower.tail = F)
QT1

## [1] 2.967792

QT2=qf(B,n1-1,n2-1,lower.tail = F)
QT2

## [1] 0.4658667

li= S1/(S2*QT1)
ls= S1/(S2*QT2)
print(paste("Un intervalo del",(1-0.05)*100, "% para miu es: ", "(", 
            li," , ", ls, ")"))

## [1] "Un intervalo del 95 % para miu es:  ( 0.336950809839773  ,  2.14653670924348 )"

R: Si puede asumirse que ambas varianzas son iguales.

A partir del conjunto de datos empleados.xls, obtener un intervalo de confianza al 90% para la diferencia entre la proporción de empleados hombres` y mujeres que tienen coche. ¿Pueden considerarse ambas proporciones iguales?

Hom<-H  %>% filter(Coche == "Sí")
Hom

## # A tibble: 46 × 5
##     Edad Altura  Peso Sexo   Coche
##    <dbl>  <dbl> <dbl> <chr>  <chr>
##  1    20    178    82 Hombre Sí   
##  2    18    168    87 Hombre Sí   
##  3    20    180    62 Hombre Sí   
##  4    18    168    68 Hombre Sí   
##  5    19    190    82 Hombre Sí   
##  6    22    180    79 Hombre Sí   
##  7    18    185    70 Hombre Sí   
##  8    19    185    70 Hombre Sí   
##  9    24    180    74 Hombre Sí   
## 10    24    189    75 Hombre Sí   
## # … with 36 more rows

Muj<-M  %>% filter(Coche == "Sí")
Muj

## # A tibble: 6 × 5
##    Edad Altura  Peso Sexo  Coche
##   <dbl>  <dbl> <dbl> <chr> <chr>
## 1    19    159    62 Mujer Sí   
## 2    18    187    79 Mujer Sí   
## 3    18    162    53 Mujer Sí   
## 4    19    168    54 Mujer Sí   
## 5    18    176    72 Mujer Sí   
## 6    19    175    67 Mujer Sí

P1H=length(Hom$Sexo)/length(H$Sexo)
P1H

## [1] 0.5287356

P2M=length(Muj$Sexo)/length(M$Sexo)
P2M

## [1] 0.5

alplam=0.1/2
print(alplam)

## [1] 0.05

QUA=qnorm(0.05,mean=0,sd=1,lower.tail = F)
QUA

## [1] 1.644854

limin=P1H-P2M-QUA*sqrt(((P1H*(1-P1H))/length(H$Sexo))+((P2M*(1-P2M))/length(M$Sexo)))
lisup=P1H-P2M+QUA*sqrt(((P1H*(1-P1H))/length(H$Sexo))+((P2M*(1-P2M))/length(M$Sexo)))
print(paste("Un intervalo del",(1-0.01)*100, "% para miu es: ", "(", 
            limin," , ", lisup, ")"))

## [1] "Un intervalo del 99 % para miu es:  ( -0.224472503272526  ,  0.281943767640342 )"

R: Si puede asumirse que ambas proporciones son iguales.

Inferencia Estadística

WSR

2022-04-29