Formulario Estadística

Author

Juan Pablo Solís Ruiz³

Published

October 18, 2022

Formulario

Formularios

1.1 Probabilidad

Intersección “and”

$P(A\cap B)=\frac{nP(A\cap B)}{total}$

Unión “or”

$P(A\cup B)=P(A)+P(B)-P(A\cap B)$

Complento “not”

$P(A')=1-P(A)$

Ejemplos

1.2 Probabilidad condicional, Teorema de Bayes

$P(A\setminus B)=\frac{P(B\setminus A)*P(A)}{P(B)}$

1.3 Permutaciones y Combinaciones

Permutación

$nPr=\frac{n!}{(n-r)!}$

Combinación

$nCr=\binom{n}{r}=\frac{n!}{r!(n-r)!}$

1.4.1 Distribución Binomial

Se requiere de una probabilidad, en especial de a favor y en contra. También se requiere una muestra al azar. Con esa muestra, se evaluan cierto número de sujetos.

$_nC_x =\frac{n!}{x!(n-x)!}$

$B(X=x)=\texttt{[p|d]binom(q}_{0:n}\texttt{,n,p)}$

1.4.2 Distribución hipergeométrica

Función de masa probabilidad FMP

$P(X=x)=\texttt{[d|p]hyper(x,m,n,k)}$

Donde

x = número de éxitos de la muestra
m = número de éxitos de la población
n = número de fracasos de la población
k = tamaño de la muestra

Ejemplo

Un cargamento de 15 lavadoras contiene 6 defectuosas y 9 no defectuosas. Se
eligen al azar 3 lavadoras (sin reemplazo). ¿Cuál es la probabilidad de que en la
muestra, se tenga al menos una lavadora defectuosa?

x = 0
m = 6
n = 9
k = 3
P = 1-phyper(0,6,9,3)
cat('Probabilidad de al menos una defectuosa = ',P)

Probabilidad de al menos una defectuosa =  0.8153846

1.5 Distribuciones de variable aleatoria discreta

**Fórmulas de R**
Distribución	Función para obtener p(X=k)	Función para obtener p(X<=k)	Significado de la variable X
Binomial	dbinom(k,n,p)	pbinom(k,n,p)	Número de éxitos en una muestra
Hipergeométrica	dhyper(k,M,N-M,n)	phyper(k,M,N-M,n)	Número de éxitos en una muestra
Binomial Negativa	dnbinom(k,r,p)	pnbinom(k,r,p)	Número de fracasos hasta lograr r-éxitos
Geométrica	dgeom(k,p)	pgeom(k,p)	Número de fracasos hasta lograr el primer éxito
Poisson	dpois(k,lambda)	ppois(k,lambda)	Número de eventos en un determinado intervalo (por lo general de tiempo)

Hipergeométrica

Un cargamento de 15 lavadoras contiene 6 defectuosas y 9 no defectuosas. Se eligen al azar 3 lavadoras (sin reemplazo). ¿Cuál es la probabilidad de que en la muestra, se tenga al menos una lavadora defectuosa?

P = 1-phyper(0,6,9,3)
cat('Probabilidad de que al menos salga una defectuosa:',
    P, "=", P*100, "%")

Probabilidad de que al menos salga una defectuosa: 0.8153846 = 81.53846 %

Binomial

Según un estudio, el 40% de los estudiantes no estudian para los exámenes, ¿Cuál es la probabilidad de que al entrevistar a 12 estudiantes:

Datos

q = 0.4 #NO estudien
p = 1-q #SÍ estudien
n = 12

a) Cuando mucho tres no estudien.

x = 3
y= pbinom(x,n,q)
cat("Probabilidad de que máximo 3 estudiantes no estudien:",
y,"=",y*100, "%")

Probabilidad de que máximo 3 estudiantes no estudien: 0.2253373 = 22.53373 %

b) A lo más ocho si estudien.

x = 3
y = 1-pbinom(x,n,q)
cat("Probabilidad de que máximo 8 estudiantes estudien:",
    y,"=",y*100, "%")

Probabilidad de que máximo 8 estudiantes estudien: 0.7746627 = 77.46627 %

c) Al menos cinco si estudien.

x = 4
y= 1-pbinom(x,n,p)
cat("Probabilidad de que al menos 5 estudiantes sí estudien:",
    y, "=", y*100, "%")

Probabilidad de que al menos 5 estudiantes sí estudien: 0.9426901 = 94.26901 %

Geométrica

$\texttt{[d|p]geom(x-1,p)}\rightarrow$ R solo toma los fracasos, por eso es x-1.

La probabilidad de que un estudiante para piloto apruebe el examen escrito para una licencia de piloto privado es 0.7. Encuentre la probabilidad de que el estudiante apruebe el examen:

a) En el tercer intento.

p=0.7
x=3
ia=dgeom(x-1,p)
cat("Probabilidad de que apruebe el examen en el tercer intento:",
    ia, "=", ia*100, "%")

Probabilidad de que apruebe el examen en el tercer intento: 0.063 = 6.3 %

b) Antes del 4to intento.

p=0.7
x=3
ia=pgeom(x-1,p)
cat("Probabilidad de que apruebe el examen en antes del 4to intento:", 
    ia, "=", ia*100, "%")

Probabilidad de que apruebe el examen en antes del 4to intento: 0.973 = 97.3 %

Poisson

$\texttt{[d|p]pois(x,}\lambda\texttt{)}$

A los teléfonos de una empresa llegan, en promedio, dos llamadas cada tres minutos. La variable aleatoria, X, es el número de llamadas que llegan en un periodo de nueve minutos, ¿cuál es la probabilidad de que en un periodo de nueve minutos lleguen al menos cinco llamadas?

l=2*3 # 2 cada 3 = 6 cada 9.
x=4
y = 1-ppois(x,l)
cat("Probabilidad de nueve minutos al menos cinco llamadas:", 
    y, "=", y*100, "%")

Probabilidad de nueve minutos al menos cinco llamadas: 0.7149435 = 71.49435 %

Multinomial

$\texttt{[d|p]multinom(x=c[ ],p=c[ ])}$

Calcular la probabilidad de que 2 sean hipoalérgicos, 1 alérgico, 4 ligeramente alérgicos y 2 no alérgicos hipoalérgico 0.12 alérgico 0.28 ligeramente alérgico 0.33 no alérgico 0.27. En muestra aleatoria de 9 pacientes.

x = 9
x1=2
x2=1
x3=4
x4=2
p1=0.12
p2=0.28
p3=0.33
p4=0.27
r= dmultinom(x=c(x1,x2,x3,x4), prob=c(p1,p2,p3,p4))
cat("La probabilidad de que 2 sean hipoalérgicos, 1 alérgico, 4 ligeramente 
alérgicos y 2 no alérgicos es de ",r, " = ", r*100, "%")

La probabilidad de que 2 sean hipoalérgicos, 1 alérgico, 4 ligeramente 
alérgicos y 2 no alérgicos es de  0.01317636  =  1.317636 %

Binomial negativa

$\texttt{[d|p]nbinom(n-r,r,p)}$

Donde

r = número de éxitos deseados
p = probabilidad de éxito en un ensayo

1.6 Valor esperado

Fórmulas de Distribuciones

Valores Esperados y Varianzas de distribuciones

1.7 Variable continua

Función de densidad empírica

M = read.csv('Muestra120k_Eq8.csv',encoding = 'UTF-8')

hist(M$EDAD, col = 'turquoise',density = 30,probability = TRUE)
lines(density(M$EDAD), col = 'orange',lwd = 2)

Distribución Exponencial

$\texttt{[p|q]exp(x,}\lambda\texttt{)}$

Ejemplo

El tiempo de vida de un circuito integrado particular, tiene una distribución exponencial con media de 2 años.

a) Probabilidad del circuito a más de 3 años.

$P(t>3) = 1 - P(t<3)$

b) Un circuito se sabe que tiene ya 4 años de duración y aún funciona. Determine la probabilidad de que dure por lo menos 3 años más.

Condicional –> $P(T>7 \ T>4) = P(A∩B)/P(B)$

$= [P(T>7)∩t>4] /P(T>4)$

$=P(T>7)/P(T/4)$

c) Compare las respuestas del inciso a y b. ¿Qué concluye?

a = 1-pexp(3,0.5)
a

[1] 0.2231302

b = (1-pexp(7,0.5))/(1-pexp(4,0.5))
b

[1] 0.2231302

C = Debido a que la probabilidad se mantuvo en lo mismo, la probabilidad es independiente.

1.8 Variable continua 2

Distribución Gamma

$\texttt{[p|q]gamma(x,}\alpha,\beta=\frac{1}{\lambda}\texttt{)}$

Ejemplo

Distribución Weibull

$\texttt{[p|q]weibul(x,}\alpha,\beta=\frac{1}{\lambda}\texttt{)}$

Ejemplo

Distribución Chi-cuadrada

$\texttt{[p|q]chisq(x,gl)}$

1.9 Distribución Normal

$\texttt{[d|p]norm(arg)}$

Relaciones de distribución

Prueba de normalidad Shapiro-Wilk

\[ \texttt{library(nortest)}\\ \texttt{ad.test(vector)} \]

library(nortest)
Edad = sqrt(M$EDAD)
hist(Edad,col = 'turquoise',density = 30,main = 'Función de densidad de raiz cuadrada',probability = TRUE)
lines(density(Edad),lwd = 2,col = 'orange')
x1 = seq(0,120,0.01)
media = mean(Edad)
desv = sd(Edad)
y1 = dnorm(x1,media,desv)
lines(x1,y1,lwd = 2,col = 'magenta')

qqnorm(Edad,pch = 20, col = 'orange')
qqline(Edad,lwd = 2,col = 'magenta')

ad.test(Edad)


    Anderson-Darling normality test

data:  Edad
A = 164.39, p-value < 2.2e-16

Prueba de normalidad

$H0:$ Los datos provienen de una problación normal.

$H1:$ Los datos NO provienen de una problación normal.

Regla de desición

Si el valor p es menor a 0.05 (nivel de significación, $\alpha$) se rechaza $H_0$

Ejemplos

La vida de un láser de semiconductores con una alimentación de energía constante tiene una distribución normal con una media de 7000 horas y una desviación estándar de 600 horas.

$\mu$ = 7000

$\sigma$ = 600

a) Si los requerimientos de calidad de que duren por lo menos 6200 horas, ¿Qué porcentaje de todos los láser cumplen los requerimiento? 90%

1-pnorm(6200,7000,600)

[1] 0.9087888

b) El cliente decide hacer una prueba y si la duración de un láser está dentro del 5% extremo inferior, rechazará comprar a ese distribuidor. ¿cuál es el valor crítico de decisión? 6013

qnorm(0.05,7000,600)

[1] 6013.088

c) Si de hecho resultó la vida útil de un láser tomado al azar de 6000 horas, ¿volverá a comprar?

Sí. Tomando en cuenta que el promedio de vida de los lásers es de 7000 horas y la desviación estandar es de 600 horas. El láser tomado fue una expción poco probable del resto. Por latonto, cuando compore otro laser, es muy probable que me toque uno con mayor vida promedio, dentro de donde se concentra la mayoría.

d) Si el cliente soporta que a lo más el 1% de los laser duren 5800 horas, ¿cuál deberá ser el promedio de vida de los transistores? (la desviación estándar sigue siendo de 600 horas) 7195

$z=\frac{x*\mu}{\sigma}$

$\mu = -(\sigma*z)+x$

z = qnorm(0.01)
mu = -1*(z*600)+5800
mu

[1] 7195.809

1.10 Generalidades de variable aleatoria continua

Teorema

Propiedades de valor esperado y varianza

Ejemplo

Funcion genratriz de momento

2.1 Estimación puntual

Valores Esperados

Ejercicio 1

x = c(1,2,3,4)
p = c(0.2,0.4,0.3,0.1)
xp = data.frame(x,p)
plot(xp,col="red",pch=20, main="Distribución de probabilidad")

probacum=c(p[1],p[1]+p[2],p[1]+p[2]+p[3],p[1]+p[2]+p[3]+p[4])
plot(x,probacum,col="blue",pch=20, main="Probabilidad acumulada")

Px = sum(x*p)
Px2 = 100 - (5*Px)
cat("P(x) = ",Px, "\n")

P(x) =  2.3

cat("Valor esperado = ",Px2, "\n")

Valor esperado =  88.5

Vx2 = sum(x^2*p)
Vx = Vx2 - Px^2
Vx3 =  (5^2)*Vx
cat("V(x) = ",Vx, "\n")

V(x) =  0.81

cat("Varianza esperada = ",Vx3, "\n")

Varianza esperada =  20.25

Ejercicio 2

x = c(16,18,20)
p = c(0.4,0.3,0.3)
xp = data.frame(x,p)
plot(xp,col="red",pch=20, main="Distribución de probabilidad")

probacum=c(p[1],p[1]+p[2],p[1]+p[2]+p[3])
plot(x,probacum,col="blue",pch=20, main="Probabilidad acumulada")

Px = sum(x*p)
P2x = sum((x^2)*p)
Px2 = (70*Px)-650
cat("P(x) = ",Px, "\n")

P(x) =  17.8

cat("P(x)^2 = ",P2x, "\n")

P(x)^2 =  319.6

cat("Valor esperado = ",Px2, "\n")

Valor esperado =  596

Vx2 = sum(x^2*p)
Vx = Vx2 - Px^2
Vx3 =  (70^2)*Vx
Dx = sqrt(Vx)
cat("V(x) = ",Vx, "\n")

V(x) =  2.76

cat("Varianza esperada = ",Vx3, "\n")

Varianza esperada =  13524

cat("D(x) = ",Dx, "\n")

D(x) =  1.661325

cat("Desviación estándar esperada = ",sqrt(Vx3), "\n")

Desviación estándar esperada =  116.2927

2.2 Distribuciones de muestreo

2.3 Intervalos de confianza

Media y proporción poblacional

Ejemplos

La porosidad del Helio

Si la porosidad al Helio (en porcentaje) de muestras de carbón, tomadas de cualquier veta en particular, está normalmente distribuida con una desviación estándar verdadera de 0.75. Se toma una muestra al azar de 20 especímenes y su promedio resulta de 4.85.

Calcule un intervalo de confianza al 95% para el verdadero promedio de porosidad.

R: 4.5213< μ < 5.1786

Estudios anteriores se creía que el porcentaje era de 5.8, ¿hay evidencia para decir que ya cambió?

Sí porque el intervalo se encuentra detro de un rango menor a 5.8.

library(plotrix)
n = 20 # u otro valor de n
media = 4.85  # Media de población
DE = 0.75  # Desviación estándar de población
ErrorEst= DE/sqrt(n)#Es la desviación estándar de xbarra
X_ = rnorm(n, media, ErrorEst)#Genera n números aleatorios con distribución normal y se especifican media y desviación estándar (estamos simulando xbarras que son estimadores puntuales de la media poblacional)
E = 1.96*DE/sqrt(n)  # E = Error máximo de estimación
plotCI(1:n,X_,E,main="Gráfico de IC", xlab = "n intervalos", ylab = "medias muestrales") #graficamos los n intervalos de confianza, debemos darle los estimadores puntuales y el error de estimación
abline(h = 4.85, col = "red")#Agregamos una línea en el valor de la media poblacional (en este caso si la conocemos porque queremos ver la interpretación de la confianza pero en realidad no la conoceremos ya que es el parámetro a estimar)

confianza=0.95 #nivel de confianza
alfa=1-confianza #nivel de significación
xbarra=4.85 #media de la muestra es estimador puntual para la media poblacional
sigma=0.75 #desviación poblacional
n=20 #tamaño de la muestra
Errorestandar=sigma/sqrt(n)
mitadalfa=alfa/2
Zcritico=abs(qnorm(mitadalfa))
Errorestimacion=Zcritico*Errorestandar
LI=xbarra-Errorestimacion
LS=xbarra+Errorestimacion
cat("se estima que la media poblacional podría encontrarse entre",LI, "y", LS, "con una confianza de", confianza)

se estima que la media poblacional podría encontrarse entre 4.521304 y 5.178696 con una confianza de 0.95

¿Buenos tiempos?

Una empresa encuestadora GR recientemente aplicó una encuesta a 1017 mexicanos adultos. A la pregunta, “¿En la actualidad México pasa por un periodo de buenos o malos tiempos?” 550 de los encuestados respondieron “buenos tiempos”.

Construya un intervalo de confianza de 99% para la proporción de mexicanos adultos que consideran que su país está pasando por un periodo de “buenos tiempos”.

0.5005 < P < 0.5810
Si años anteriores el porcentaje que consideraba que era un periodo de buenos tiempo era del 57%, se puede decir que ahora los mexicanos se han vuelto significativamente más pesimistas? Argumente su respuesta.

Debido a que el porcentaje sigue estando dentro del intervalo de confianza, se considera que los mexicanos han seguido con la misma percepción.

confianza=0.99 #nivel de confianza
alfa=1-confianza #nivel de significación
n=1017 #tamaño de la muestra
mitadalfa=alfa/2
p = 550/1017
q = 1-p
Zcritico=abs(qnorm(mitadalfa))
Errorestandar=Zcritico*sqrt((p*q)/n)
LI=p-Errorestandar
LS=p+Errorestandar
cat("Se estima que la media poblacional podría encontrarse entre",LI, "y", LS, "con una confianza de", confianza)

Se estima que la media poblacional podría encontrarse entre 0.5005554 y 0.5810572 con una confianza de 0.99

2.4 Estimación de diferencias

Diferencia de medias

Ejemplos

Las impurezas

La variabilidad en la cantidad de impurezas presentes en un lote de productos químicos, utilizada para un proceso en particular, depende del tiempo que tarda el proceso. Un fabricante que emplea dos líneas de producción A y B hizo un pequeño ajuste al proceso B, con la esperanza de reducir la cantidad media de impurezas en el proceso en los productos químicos. Por estudios previos se sabe que la línea A tiene una desviación estándar en las impurezas de 1.04 y la línea B de 0.51.

Los resultados con el ajuste al proceso B son:

Impurezas promedio de la línea A: 3.2 con n = 35

Impurezas promedio de la línea B: 3.0 con n = 40

Hallar el intervalo de confianza al 95% de la diferencia de impurezas de las dos líneas de producción e interpreta el resultado.

confianza = 0.99
alpha = 1 - confianza
sigma1 = 9.15
sigma2 = 10.46
media1 = 76.24
media2 = 78.36
n1 = 50
n2 = 74
z = abs(qnorm(alpha/2))
E = z*sqrt(((sigma1^2)/n1)+((sigma2^2)/n2))
Linf = (media1-media2)-E
Lsup = (media1-media2)+E
cat("[",Linf,",",Lsup,"] y",confianza)

[ -6.693809 , 2.453809 ] y 0.99

Conlusión

Debido a que el intervalo de confianza incluye el cero, se considera que no hay diferencia significativa en la reducción de impurezas. El proceso estadisticamente no se mejoró.

Gráfica del intervalo de confianza

plot(NA, xlim = c(-0.6,1), ylim = c(0,2),main = 'Intervalo de confianza',
     yaxt = 'n', ylab = NA)
arrows(Linf,1,Lsup,1, code = 3, angle = 90, lwd = 1.5, col = 'black')
points(media1-media2, 1, pch = 20, col = 'tomato', 
       cex = 2.2) # arrows(x1, y1, x2, y2, code = 1 a 4)
text(Linf,1.3,'-0.179')
text(Lsup,1.3,'0.579')

Diferencia de proporciones

Ejemplo

Las dos lineas de ensamblaje

Para comparar las cantidades de artículos defectuosos que producen dos líneas de ensamble se seleccionara con muestras aleatorias independientes de 100 artículos de cada una. La muestra de la línea A contenía 18 artículos defectuosos y 12 de la línea B. Determine un intervalo de confianza de 95% para la diferencia de proporciones real de las cantidades de artículos con defecto producidos en las dos líneas.

¿Hay alguna evidencia que indique que una de las líneas de fabrica produce cantidad mayor de artículos defectuosos? Argumente con el intervalo hallado.

confianza = 0.95
alpha = 1 - confianza
def1 = 18
def2 = 12
n1 = 100
n2 = 100
p1 = def1/n1
p2 = def2/n2
z = abs(qnorm(alpha/2))
E = z*sqrt(((p1*(1-p1))/n1)+((p2*(1-p2))/n2))
Linf = (p1-p2)-E
Lsup = (p1-p2)+E
cat("[",Linf,",",Lsup,"] y",confianza)

[ -0.03862339 , 0.1586234 ] y 0.95

Conclusión

Debido a que el intervalo de confianza incluye el cero, se considera que no hay evidencia sobre un cambio en la producción de artículos defectuosos.

2.5 Estimación de diferencias con mu y sigma desconcidas

Usar formulario, y ver Quiz 2

Ejemplo

x1=c(3250,4302,3266,3064,3332,3268,3184,3297,3116,3502)
x2=c(3094,3004,3066,3124,3018,3106,2984,3316,3380,3212)
X_S=data.frame(x1,x2)
X_S

     x1   x2
1  3250 3094
2  4302 3004
3  3266 3066
4  3064 3124
5  3332 3018
6  3268 3106
7  3184 2984
8  3297 3316
9  3116 3380
10 3502 3212

t.test(x1,x2,conf.level=0.95,var.equal = TRUE)


    Two Sample t-test

data:  x1 and x2
t = 1.9098, df = 18, p-value = 0.07222
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -22.78412 478.18412
sample estimates:
mean of x mean of y 
   3358.1    3130.4

2.6 Chi-cuadrada

${\chi}^2=\frac{(n-1)s^2}{\sigma^2}$

Ejemplos

Problema 1

El gerente de una compañía de baterías para automóvil afirma que sus productos durarán en promedio 3 años con una varianza de un año. Suponga que se toma una muestra de 5 baterías con duraciones de 1.9, 2.4, 3, 3.5 y 4.2 años. Suponga que la distribución de las duraciones de la batería es aproximadamente normal. Construya un intervalo del 95% de confianza para 𝜎2 y con base en esto, determine si los datos proporcionan evidencia de que la afirmación acerca de la varianza no es válida.

R.: [0.2925, 6.7297], como el 1 sí está en el intervalo, es probable que la varianza de la muestra sea igual a la poblacional.

x = c(1.9,2.4,3,3.5,4.2)
n = length(x)
var = var(x)
alpha1 = (1 - 0.95)/2
alpha2 = 1 - alpha1
x21 = qchisq(alpha1, n-1)
x22 = qchisq(alpha2, n-1)
sup = ((n-1)*var)/x21
inf = ((n-1)*var)/x22
cat('[',inf,':',sup,'] al 0.95')

[ 0.2925528 : 6.729717 ] al 0.95

Problema 4

Los datos corresponden a dos muestras aleatorias:

1) la primera fue extraída de los usuarios que tienen como actividad principal hacer llamadas en el celular (X) y 2) la segunda proviene de la población que usa el celular para tener acceso a internet (Y). Los datos corresponden a la duración de la bateria en horas.

Uso principal en llamadas (X)	Uso principal internet (Y)
35.8	14
22.2	12.5
4	16.4
32.6	1.9
8.5	9.9
42.5	5.4
8	1
3.8	15.2
30	4
12.8	4.7
10.3
35.5

a) ¿Se podría inferir que la duración de la bateria en horas sigue una distribución Normal en cada una de las poblaciones? (realiza la prueba de normalidad en R e interpreta los resultados)

X = c(35.8,22.2,4,32.6,8.5,42.5,8,3.8,30,12.8,10.3,35.5)
Y = c(14,12.5,16.4,1.9,9.9,5.4,1,15.2,4,4.7)
shapiro.test(X)


    Shapiro-Wilk normality test

data:  X
W = 0.88692, p-value = 0.1075

shapiro.test(Y)


    Shapiro-Wilk normality test

data:  Y
W = 0.90779, p-value = 0.2661

2.7 Hipótesis

Tipos de hipótesis

Sustantiva
Investigación
Experimental
Estadística

Consideraciones

¿Discriminación?

Después de que la rechazaron para un empleo, Kim Kelly se entera de que la Bellevue Advertising Company contrato únicamente a 21 mujeres entre sus 62 empleados nuevos. También de que el grupo de solicitantes es muy grande, con igual número de hombres y mujeres calificados. Ella investigó y el juez tomaría la decisión a favor de ella si la evidencia está dentro del 5% más extremo del valor esperado. ¿El resultado es argumento a su favor?

Datos

x = 21
n = 62
p = x/n
alpha = 0.05 # NC = 95% --> alpha = 0.05

Hipótesis

$H_0:P=0.5$ –> No hay discrimicación de contratar mujer.

$H_1:P<0.5$ –> Sí hay discrimicación de contratar mujer.

$\alpha=0.05$

Modelo probabilístico

n*p #n Debe ser myor a 5

[1] 21

n*(1-p) # Debe ser mayor a 5

[1] 41

Por lo tanto, el modelo a usar es la normal Z

Regla de decisión

Regla clásica:

Como $\alpha=0.05$ a la izquierda (porque $H_1$ dice <)

cat('Valor frontera =',qnorm(0.05))

Valor frontera = -1.644854

Regla clásica:

Si la evidencia (Z*) es menor que -1.64 se rechaza $H_0$

Regla valor p:

Si el valor p < 0.05 se rechaza $H_0$

Cálculo de estadístico de prueba Z* (Zp)

P = 0.5 # La proporción de H0, la que se supone verdadera
Zp = (p - P)/sqrt(p*(1-p)/n) # Fórmula de estadístico de prueba de proporción
cat('El estadístico de prueba Z* =',Zp)

El estadístico de prueba Z* = -2.683455

Como Z* = -2.68 es menor que el valor frontera Vf = -1.645, se rechaza $H_0$ a un $\alpha$ = 0.05.

Valor P

pnorm(Zp)

[1] 0.003643292

Se comprueba que Z* está muy alejado del valor esperado. Se rechaza $H_0$.

Sistema de Frenado

El sistema de frenos actual, de la SUV XTrail híbrida, yendo a 65 km/h, frena en promedio a los 36.57 metros (frenado normal), con una desviación estándar de 2.74 metros. Unos ingenieros creen tener un nuevo sistema de frenado más eficiente. Para convencer a los inversionistas hacen una prueba de 36 observaciones y optienen un promedio de frenado yendo a 65 km/h, de 35.72 metros. Nivel de significación al 0.01.

Datos

M = 36.57
n = 36
sigma = 2.74
xm = 35.72
alpha = 0.01

Hipótesis

$H_0:\mu=36.57$ –> El sistema de frenado nuevo es igual.

$H_1:\mu<36.57$ –> El sistema de frenado nuevo es mejor.

$\alpha=0.01$

Modelo probabilístico

Como la muestra n>30 es grande, el modelo a usar es la normal Z

Regla de decisión

Regla clásica:

Como $\alpha=0.01$ a la izquierda (porque $H_1$ dice <)

cat('Valor frontera =',qnorm(0.01))

Valor frontera = -2.326348

Regla clásica:

Si la evidencia (Z*) es menor que -2.326 se rechaza $H_0$

Regla valor p:

Si el valor p < 0.05 se rechaza $H_0$

Cálculo de estadístico de prueba Z* (Zp)

Zp = (xm - M)/(sigma/sqrt(n)) # Fórmula de estadístico de prueba de proporción
cat('El estadístico de prueba Z* =',Zp)

El estadístico de prueba Z* = -1.861314

Como Z* = -1.86 > -2.32, NO se rechaza $H_0$ a un $\alpha$ = 0.01.

Valor P

pnorm(Zp)

[1] 0.03134993

Como el valor p = 0.03 > 0.01, NO se rechaza $H_0$.

2.8 Hipótesis de dos poblaciones

2.9 Correlación categórica

Horarios

fo = c(18,12,25,23,8,19,4)
fe = c(rep(17,7))
x2p = sum((fo-fe)^2/fe)
cat('El X^2* =',x2p)

El X^2* = 22.35294

Regla de decisión

Clásica

alpha = 0.05
j = 7 # Número de clases o categorías
cat('El valor frontera es: ',qchisq(1-alpha,j-1))

El valor frontera es:  12.59159

Regla de $p-value$: Si $p-value<\alpha = 0.05$ se rechaza $H_0$

Conclusión

Vf	$X^2*$
12.59	12.94
Zona de aceptación	Zona de rechazo

Como el estadístico de prueba X^2* = 12.94 > Vf = 12.59, X^2* esta en zona de rechazo. Se rechaza que no hay predilección de horarios.

fo = c(18,12,25,23,8,19,4)
Pr = chisq.test(fo)
Pr$observed

[1] 18 12 25 23  8 19  4

Pr$expected

[1] 15.57143 15.57143 15.57143 15.57143 15.57143 15.57143 15.57143

Pr$p.value

[1] 0.0006489569

Como el $p-value$ 0.001 < que $\alpha$ = 0.05, se rechaza $H_0$

Carreras

Tabla bivariada

CE = c(37,25)
CS = c(44,72)
HU = c(44,71)
T = data.frame(CE, CS, HU)
row.names(T) = c('Hombre', 'Mujer')
T

       CE CS HU
Hombre 37 44 44
Mujer  25 72 71

addmargins(as.matrix(round(prop.table(T),3)))

          CE    CS    HU   Sum
Hombre 0.126 0.150 0.150 0.426
Mujer  0.085 0.246 0.242 0.573
Sum    0.211 0.396 0.392 0.999

Chi-cuadrada

$H_0$: Es independiente el sexo de la especialidad.

$H_1$ Sí tien que ver

chisq.test(T)


    Pearson's Chi-squared test

data:  T
X-squared = 9.3103, df = 2, p-value = 0.009513

Conclusión

Se acepta $H_0$, por lo tanto la carrera es independiente

Prueba de independencia Obesidad y Diabetes

$H_0:$ Las variables no son independientes.

$H_1:$ Las variables son independientes.

M = read.csv('Muestra120k_Eq8.csv',encoding = 'UTF-8')

cat("OBESIDAD\n")

OBESIDAD

table(M$OBESIDAD)#Se hacen estas tablas para checar que las tablas esten limpias, en este caso no lo estan.


     1      2     98 
 11592 108118    290

cat("Diabetes\n")

Diabetes

table(M$DIABETES)


     1      2     98 
 10412 109267    321

M1 = subset(M, M$OBESIDAD != 98 & M$DIABETES != 98)
cat("OBESIDAD\n")

OBESIDAD

table(M1$OBESIDAD)


     1      2 
 11570 108087

cat("Diabetes\n")

Diabetes

table(M1$DIABETES)


     1      2 
 10403 109254

Tabla bivariada

Tab = table(M1$DIABETES, M1$OBESIDAD)
colnames(Tab) = c('Y_D','N_D')
rownames(Tab) = c('Y_O','N_O')
Tab

     
        Y_D   N_D
  Y_O  2275  8128
  N_O  9295 99959

chisq.test(Tab)


    Pearson's Chi-squared test with Yates' continuity correction

data:  Tab
X-squared = 1939.8, df = 1, p-value < 2.2e-16

Conclusión

Como el p-value = 0.0000 < 0.05 se rechaza H0. Por lo tanto, hay evidencia para decir que no son independientes.

Quiz 2

Tarea 2 intento 1

Pregunta 1

Un fabricante de plásticos desea evaluar la durabilidad de los bloques de plástico moldeados en forma de rectángulo que se utilizan en la fabricación de muebles. Se examina una muestra aleatoria de 40 de tales bloques y sus mediciones de dureza (en unidades Brinell) se presentan a continuación :

283.6,273.3, 278.8, 238.7, 334.9, 302.6, 239.9, 254.6, 281.9, 270.4, 269.1, 250.1, 301.6, 289.2, 240.8, 267.5, 279.3, 228.4, 265.2, 285.9, 279.3, 252.3, 271.7, 235.0, 313.2, 277.8, 243.8, 295.5, 249.3, 228.7, 255.3, 267.2, 255.3, 281.0, 302.1, 256.3, 233.0, 194.4, 291.9, 263.7

Construir un intervalo de confianza del 98% para la dureza promedio real. Redondea a dos decimales los límites del intervalo.

n=40
alfa=0.01
Zcritico=abs(qnorm(0.01))
Zcritico

[1] 2.326348

x=c(283.6,273.3, 278.8, 238.7, 334.9, 302.6, 239.9, 
    254.6, 281.9, 270.4, 269.1, 250.1, 301.6, 289.2, 
    240.8, 267.5, 279.3, 228.4, 265.2, 285.9, 279.3, 
    252.3, 271.7, 235.0, 313.2, 277.8, 243.8, 295.5, 
    249.3, 228.7, 255.3, 267.2, 255.3, 281.0, 302.1, 
    256.3, 233.0, 194.4, 291.9, 263.7)
xbarra=mean(x)
S=sd(x)
Errorestimacion=(Zcritico*S)/sqrt(n)
Linf=xbarra-Errorestimacion
Lsup=xbarra+Errorestimacion
cat("El intervalo de confiaza con un 98% se encuentra entre ",Linf,"y ",Lsup,"con muestra de 40")

El intervalo de confiaza con un 98% se encuentra entre  257.1055 y  277.0245 con muestra de 40

Pregunta 2

x = c(1.9,2.4,3,3.5,4.2)
n = length(x)
var = var(x)
alpha1 = (1 - 0.95)/2
alpha2 = 1 - alpha1
x21 = qchisq(alpha1, n-1)
x22 = qchisq(alpha2, n-1)
sup = ((n-1)*var)/x21
inf = ((n-1)*var)/x22
cat('[',inf,':',sup,'] al 0.95')

[ 0.2925528 : 6.729717 ] al 0.95

Pregunta 3

Un fabricante de planchas eléctricas tiene dos proveedores de termostatos, los prueba a 550, los datos se muestran a continuación

A 530.3, 549.9,559.1,550, 559.3, 556.9, 555, 554.9, 536.7, 538.6

B 560, 550.7,554.5, 555, 534.7, 563.1, 553, 544.8, 554.8, 551.1

¿ Se puede decir que tienen varianzas iguales a un nivel de significación de 0.05? Verifique primero si se cumple la condición de normalidad para cada grupo de datos (aplique la prueba de Shapiro-Wilk).

X = c(530.3,549.9,559.1,550,559.3,556.9,555,554.9,536.7,538.6)
Y = c(560,550.7,554.5,555,534.7,563.1,553,544.8,554.8,551.1)
shapiro.test(X)


    Shapiro-Wilk normality test

data:  X
W = 0.86815, p-value = 0.09512

shapiro.test(Y)


    Shapiro-Wilk normality test

data:  Y
W = 0.91501, p-value = 0.3172

Tomando en cuenta que $\alpha$ = 0.05, se acepta $H0$, la evidencia sugiere que X y Y probablemente siguen una distrubición normal.

var.test(X,Y,conf.level = 0.95)


    F test to compare two variances

data:  X and Y
F = 1.6864, num df = 9, denom df = 9, p-value = 0.4483
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.4188825 6.7895108
sample estimates:
ratio of variances 
          1.686418

Pregunta 4

Se quiere ver si existe diferencia entre las calificaciones promedio de la carrera IDD y carrera IQ. Una muestra aleatoria de 25 alumnos de la carrera IDD tuvieron una calificación promedio de 86.24 con una desviación estándar de 9.15. Una muestra aleatoria de 21 alumnos de la carrera IQ, tuvieron una calificación promedio de 88.36 con una desviación estándar 10.46. Suponiendo normalidad, verifique si se cumple igualdad de varianzas y calcule el intervalo de confianza de diferencia medias a un nivel de confianza del 90%. ¿Hay diferencia significativa entre las calificaciones de esos dos grupos?

confianza = 0.90
alpha = 1 - confianza
sigma1 = 9.15
sigma2 = 10.46
media1 = 86.24
media2 = 88.36
n1 = 25
n2 = 21
gl = floor((((sigma1^2)/n1)+((sigma2^2)/n2))^2)/
  ((sigma1^4/(n1^2*(n1-1)))+(sigma2^4/(n2^2*(n2-1))))
t = abs(qt(alpha/2,gl))
E = t*sqrt(((sigma1^2)/n1)+((sigma2^2)/n2))
Linf = (media1-media2)-E
Lsup = (media1-media2)+E
cat("[",Linf,",",Lsup,"] y",confianza)

[ -7.046199 , 2.806199 ] y 0.9

Pregunta 5

Un proveedor anuncia que focos de un cierto tipo duran un promedio de 750 horas con una desviación estándar de 38.2 horas. El precio de estos focos es muy favorable por lo que un cliente potencial ha decidido continuar con un convenio de compra si al hacer una prueba el resultado no está dentro del 5% extremo de los resultados posibles inferiores. Para ello el cliente seleccionó una muestra de 50 focos y y obtuvo un promedio de duración de 738.44 horas. ¿Qué tan probable es que resulte este valor de la muestra u otro más extremo? ¿Qué concluye?

Hipótesis

$H_0:\bar x \in1-\alpha$

$H_1:\bar x \notin\alpha$

$\alpha=0.05$

miu = 750
sigma = 38.2
alpha = 0.05
n = 50
xb = 738.44
Z = (xb-miu)/(sigma/sqrt(n))
Z

[1] -2.139831

abs(qnorm(0.025))

[1] 1.959964

pnorm(Z)

[1] 0.01618421

No vuelvo a comprar.

Pregunta 6

Tanto los estudiantes como sus padres tienen muchas preocupaciones cuando tienen que elegir la continuidad de los estudios básicos hacia estudios universitarios. Una de las tres principales preocupaciones, con base en un estudio del Collage Partnership es “elegir la mejor especialidad/carrera”. 17.8% de los padres (P1) reportó que es su mayor preocupación, mientras que el 16.7% de los estudiantes (P2) la reportó como su mayor preocupación. Si el estudio se realizó con una prueba de 1290 estudiantes y sus padres, pon a prueba la hipótesis de que la preocupación de elegir la mejor especialidad/carrera fue mayor para los padres que para los hijos. Realiza la prueba de hipótesis con un nivel de significancia de 0.07.

$H_0:P1-P2>0$

$H_1:P1-P2<0$

$\alpha=0.07$

qnorm(1-0.07)

[1] 1.475791

Pregunta 7

¿Tendrá que ver la aerolínea con llegar los vuelos demorados? Un inspector de calidad de servicio quiere saber esto para tomar las medidas correspondientes. Para ello toma los siguientes datos:

Aerolinea	Demorado	A tiempo
Aeroméxico	34	243
Vivaaerobus	49	265
Volaris	43	421

$\alpha=0.01$

Demorado = c(34, 49, 43)
A_tiempo = c(243, 265, 421)
T = cbind(Demorado, A_tiempo)
row.names(T) = c("AM", "VA", "VO")
chisq.test(Demorado,A_tiempo)

Warning in chisq.test(Demorado, A_tiempo): Chi-squared approximation may be
incorrect


    Pearson's Chi-squared test

data:  Demorado and A_tiempo
X-squared = 6, df = 4, p-value = 0.1991

Tarea 2 intento 2

Pregunta 1

En el pasado, una tarea que se realiza en una línea de producción requería 30 segundos para llevarse a cabo. Una ingeniero industrial ha desarrollado un nuevo método para efectuar la tarea que, según ella, acelerará el proceso. Se selecciona una muestra aleatoria de 15 trabajadores que fueron entrenados con el nuevo método, y los tiempos que necesitaron para terminar la tarea se presentan a continuación:

27.2, 31.1, 29.0 , 26.7 , 28.1 , 27.3, 29.6 , 30.5, 30.0, 30.2, 25.9 , 31.3 , 28.8, 27.4 , 27.0

Verifique normalidad en los datos y construya un intervalo de confianza del 90% para el tiempo promedio real.

n=15
alfa=0.1
alfa2=alfa/2
tcritica=abs(qt(alfa2,n-1))
tcritica

[1] 1.76131

x=c(27.2, 31.1, 29.0 ,  26.7  ,  28.1 ,   27.3,   29.6 ,  30.5,  30.0,   30.2,   25.9 ,  31.3  ,  28.8,   27.4 ,  27.0)
xbarra=mean(x)
xbarra

[1] 28.67333

S=sd(x)
Errorestimacion=(tcritica*S)/sqrt(n)
Linf=xbarra-Errorestimacion
Lsup=xbarra+Errorestimacion
cat("El intervalo de confiaza con un 90% se encuentra entre ",Linf,"y ",Lsup,"con muestra de 15")

El intervalo de confiaza con un 90% se encuentra entre  27.88951 y  29.45715 con muestra de 15

Pregunta 4

El periódico El Economista indica que el gasto promedio que hacen hombres y mujeres no es el mismo en cierto producto al mes. Para estimar la diferencia en gasto entre hombres y mujeres se realiza una encuesta donde se pregunta por el gasto promedio a una muestra de 38 hombres y 31 mujeres. El gasto promedio de los hombres fue de $135.56, mientras que el de las mujeres fue de $95.47. Con base en encuestas anteriores, se sabe que la desviación estándar del gasto de los hombres es de $45.4 y $23.3 de las mujeres. ¿Cuál es la estimación por intervalo de la diferencia entre las media poblacionales para el gasto de hombres y mujeres? Establece un nivel de confianza de 94%. ¿Se diferencian significativamente los promedios de los hombres y de las mujeres?

xbarrah= 135.56
xbarram= 95.47
Sh= 45.4
SM= 23.3
alfa=0.06
alfa2= alfa/2
nh=38
nm=31

zcritico=abs(qnorm(0.03))

Errorestimacion=zcritico*(sqrt((Sh^2/nh)+(SM^2/nm)))
                        
Linf=(xbarrah-xbarram)-Errorestimacion 
Lsup=(xbarrah-xbarram)+Errorestimacion 
cat("El intervalo de confiaza con un 94% se encuentra entre ",Linf,"y ",Lsup)

El intervalo de confiaza con un 94% se encuentra entre  24.15826 y  56.02174

qnorm(0.06)

[1] -1.554774

confianza=0.94 #nivel de confianza
sigmaA=45.4 #desviación poblacional a
sigmaB=23.3 #desviación poblacional b
mA=135.56 #media de la muestra A (se usa m minúscula por ser la media de la muestra si fuera media de la población se usa m mayúscula)
mB=95.47  #media de la muestra B  (se usa m minúscula por ser la media de la muestra si fuera media de la población se usa m mayúscula)
nA=38 #Tamaño de muestra A
nB=31 #Tamaño de muestra B
alfa=1-confianza #Alfa
mitadalfa=alfa/2 #La mitad de alfa
#--------------------------------------------------
Z=abs(qnorm(mitadalfa)) 
Errorestandar=sqrt(sigmaA^2/nA + sigmaB^2/nB) #Error estándar 
Linf=(mA-mB)- Z*Errorestandar #Límite inferior del rango
Lsup=(mA-mB) +Z*Errorestandar #Límite superior del rango
cat("Se estima que la media poblacional podría encontrarse entre",Linf, "y", Lsup, "con una confianza de", confianza)

Se estima que la media poblacional podría encontrarse entre 24.15826 y 56.02174 con una confianza de 0.94

Tarea 2 intento 3

Pregunta 2

27.2, 31.1, 29.0 , 26.7 , 28.1 , 27.3, 29.6 , 30.5, 30.0, 30.2, 25.9 , 31.3 , 28.8, 27.4 , 27.0

Verifique normalidad en los datos y construya un intervalo de confianza del 90% para el tiempo promedio real

n=15
alfa=0.1
alfa2=alfa/2
tcritica=abs(qt(alfa2,n-1))
tcritica

[1] 1.76131

x=c(27.2, 31.1, 29.0 ,  26.7  ,  28.1 ,   27.3,   29.6 ,  30.5,  30.0,   30.2,   25.9 ,  31.3  ,  28.8,   27.4 ,  27.0)
xbarra=mean(x)
xbarra

[1] 28.67333

S=sd(x)
Errorestimacion=(tcritica*S)/sqrt(n)
Linf=xbarra-Errorestimacion
Lsup=xbarra+Errorestimacion
cat("El intervalo de confiaza con un 90% se encuentra entre ",Linf,"y ",Lsup,"con muestra de 15")

El intervalo de confiaza con un 90% se encuentra entre  27.88951 y  29.45715 con muestra de 15

Pregunta 3

Se quiere ver si existe diferencia entre las calificaciones promedio de la carrera LTS y carrera LRI.

Una muestra aleatoria de 25 alumnos de la carrera LLE tuvieron una calificación promedio de 86.24 con una desviación estándar de 9.15.

Una muestra aleatoria de 21 alumnos de la carrera LRI, tuvieron una calificación promedio de 88.36 con una desviación estándar 10.46

Suponiendo normalidad, verifique si se cumple igualdad de varianzas y calcule el intervalo de confianza de diferencia medias a un nivel de confianza del 90%.

qnorm(0.1)

[1] -1.281552

confianza=0.9
sigmaA=9.15
sigmaB=10.46
mA=86.24
mB=88.36
nA=25
nB=21
alfa=1-confianza
mitadalfa=alfa/2
Z=abs(qnorm(mitadalfa)) 
Errorestandar=sqrt(sigmaA^2/nA + sigmaB^2/nB) #Error estándar 
Linf=(mA-mB)- Z*Errorestandar #Límite inferior del rango
Lsup=(mA-mB) +Z*Errorestandar #Límite superior del rango
cat("Se estima que la media poblacional podría encontrarse entre",Linf, "y", Lsup, "con una confianza de", confianza*100)

Se estima que la media poblacional podría encontrarse entre -6.932139 y 2.692139 con una confianza de 90

Footnotes

ITESM, A01067387@tec.mx↩︎
ITESM, A01067387@tec.mx↩︎
ITESM, A01067387@tec.mx↩︎