= 0
x = 6
m = 9
n = 3
k = 1-phyper(0,6,9,3)
P cat('Probabilidad de al menos una defectuosa = ',P)
Probabilidad de al menos una defectuosa = 0.8153846
\(P(A\cap B)=\frac{nP(A\cap B)}{total}\)
\(P(A\cup B)=P(A)+P(B)-P(A\cap B)\)
\(P(A')=1-P(A)\)
\(P(A\setminus B)=\frac{P(B\setminus A)*P(A)}{P(B)}\)
\(nPr=\frac{n!}{(n-r)!}\)
\(nCr=\binom{n}{r}=\frac{n!}{r!(n-r)!}\)
Se requiere de una probabilidad, en especial de a favor y en contra. También se requiere una muestra al azar. Con esa muestra, se evaluan cierto número de sujetos.
\(_nC_x =\frac{n!}{x!(n-x)!}\)
\(B(X=x)=\texttt{[p|d]binom(q}_{0:n}\texttt{,n,p)}\)
\(P(X=x)=\texttt{[d|p]hyper(x,m,n,k)}\)
Donde
x = número de éxitos de la muestra
m = número de éxitos de la población
n = número de fracasos de la población
k = tamaño de la muestra
Un cargamento de 15 lavadoras contiene 6 defectuosas y 9 no defectuosas. Se
eligen al azar 3 lavadoras (sin reemplazo). ¿Cuál es la probabilidad de que en la
muestra, se tenga al menos una lavadora defectuosa?
= 0
x = 6
m = 9
n = 3
k = 1-phyper(0,6,9,3)
P cat('Probabilidad de al menos una defectuosa = ',P)
Probabilidad de al menos una defectuosa = 0.8153846
Distribución | Función para obtener p(X=k) | Función para obtener p(X<=k) |
Significado de la variable X |
---|---|---|---|
Binomial | dbinom(k,n,p) | pbinom(k,n,p) | Número de éxitos en una muestra |
Hipergeométrica | dhyper(k,M,N-M,n) | phyper(k,M,N-M,n) | Número de éxitos en una muestra |
Binomial Negativa | dnbinom(k,r,p) | pnbinom(k,r,p) | Número de fracasos hasta lograr r-éxitos |
Geométrica | dgeom(k,p) | pgeom(k,p) | Número de fracasos hasta lograr el primer éxito |
Poisson | dpois(k,lambda) | ppois(k,lambda) | Número de eventos en un determinado intervalo (por lo general de tiempo) |
Un cargamento de 15 lavadoras contiene 6 defectuosas y 9 no defectuosas. Se eligen al azar 3 lavadoras (sin reemplazo). ¿Cuál es la probabilidad de que en la muestra, se tenga al menos una lavadora defectuosa?
= 1-phyper(0,6,9,3)
P cat('Probabilidad de que al menos salga una defectuosa:',
"=", P*100, "%") P,
Probabilidad de que al menos salga una defectuosa: 0.8153846 = 81.53846 %
Según un estudio, el 40% de los estudiantes no estudian para los exámenes, ¿Cuál es la probabilidad de que al entrevistar a 12 estudiantes:
= 0.4 #NO estudien
q = 1-q #SÍ estudien
p = 12 n
a) Cuando mucho tres no estudien.
= 3
x = pbinom(x,n,q)
ycat("Probabilidad de que máximo 3 estudiantes no estudien:",
"=",y*100, "%") y,
Probabilidad de que máximo 3 estudiantes no estudien: 0.2253373 = 22.53373 %
b) A lo más ocho si estudien.
= 3
x = 1-pbinom(x,n,q)
y cat("Probabilidad de que máximo 8 estudiantes estudien:",
"=",y*100, "%") y,
Probabilidad de que máximo 8 estudiantes estudien: 0.7746627 = 77.46627 %
c) Al menos cinco si estudien.
= 4
x = 1-pbinom(x,n,p)
ycat("Probabilidad de que al menos 5 estudiantes sí estudien:",
"=", y*100, "%") y,
Probabilidad de que al menos 5 estudiantes sí estudien: 0.9426901 = 94.26901 %
\(\texttt{[d|p]geom(x-1,p)}\rightarrow\) R solo toma los fracasos, por eso es x-1.
La probabilidad de que un estudiante para piloto apruebe el examen escrito para una licencia de piloto privado es 0.7. Encuentre la probabilidad de que el estudiante apruebe el examen:
a) En el tercer intento.
=0.7
p=3
x=dgeom(x-1,p)
iacat("Probabilidad de que apruebe el examen en el tercer intento:",
"=", ia*100, "%") ia,
Probabilidad de que apruebe el examen en el tercer intento: 0.063 = 6.3 %
b) Antes del 4to intento.
=0.7
p=3
x=pgeom(x-1,p)
iacat("Probabilidad de que apruebe el examen en antes del 4to intento:",
"=", ia*100, "%") ia,
Probabilidad de que apruebe el examen en antes del 4to intento: 0.973 = 97.3 %
\(\texttt{[d|p]pois(x,}\lambda\texttt{)}\)
A los teléfonos de una empresa llegan, en promedio, dos llamadas cada tres minutos. La variable aleatoria, X, es el número de llamadas que llegan en un periodo de nueve minutos, ¿cuál es la probabilidad de que en un periodo de nueve minutos lleguen al menos cinco llamadas?
=2*3 # 2 cada 3 = 6 cada 9.
l=4
x= 1-ppois(x,l)
y cat("Probabilidad de nueve minutos al menos cinco llamadas:",
"=", y*100, "%") y,
Probabilidad de nueve minutos al menos cinco llamadas: 0.7149435 = 71.49435 %
\(\texttt{[d|p]multinom(x=c[ ],p=c[ ])}\)
Calcular la probabilidad de que 2 sean hipoalérgicos, 1 alérgico, 4 ligeramente alérgicos y 2 no alérgicos hipoalérgico 0.12 alérgico 0.28 ligeramente alérgico 0.33 no alérgico 0.27. En muestra aleatoria de 9 pacientes.
= 9
x =2
x1=1
x2=4
x3=2
x4=0.12
p1=0.28
p2=0.33
p3=0.27
p4= dmultinom(x=c(x1,x2,x3,x4), prob=c(p1,p2,p3,p4))
rcat("La probabilidad de que 2 sean hipoalérgicos, 1 alérgico, 4 ligeramente
alérgicos y 2 no alérgicos es de ",r, " = ", r*100, "%")
La probabilidad de que 2 sean hipoalérgicos, 1 alérgico, 4 ligeramente
alérgicos y 2 no alérgicos es de 0.01317636 = 1.317636 %
\(\texttt{[d|p]nbinom(n-r,r,p)}\)
Donde
r = número de éxitos deseados
p = probabilidad de éxito en un ensayo
= read.csv('Muestra120k_Eq8.csv',encoding = 'UTF-8') M
hist(M$EDAD, col = 'turquoise',density = 30,probability = TRUE)
lines(density(M$EDAD), col = 'orange',lwd = 2)
\(\texttt{[p|q]exp(x,}\lambda\texttt{)}\)
El tiempo de vida de un circuito integrado particular, tiene una distribución exponencial con media de 2 años.
a) Probabilidad del circuito a más de 3 años.
\(P(t>3) = 1 - P(t<3)\)
b) Un circuito se sabe que tiene ya 4 años de duración y aún funciona. Determine la probabilidad de que dure por lo menos 3 años más.
Condicional –> \(P(T>7 \ T>4) = P(A∩B)/P(B)\)
\(= [P(T>7)∩t>4] /P(T>4)\)
\(=P(T>7)/P(T/4)\)
c) Compare las respuestas del inciso a y b. ¿Qué concluye?
= 1-pexp(3,0.5)
a a
[1] 0.2231302
= (1-pexp(7,0.5))/(1-pexp(4,0.5))
b b
[1] 0.2231302
C = Debido a que la probabilidad se mantuvo en lo mismo, la probabilidad es independiente.
\(\texttt{[p|q]gamma(x,}\alpha,\beta=\frac{1}{\lambda}\texttt{)}\)
\(\texttt{[p|q]weibul(x,}\alpha,\beta=\frac{1}{\lambda}\texttt{)}\)
\(\texttt{[p|q]chisq(x,gl)}\)
\(\texttt{[d|p]norm(arg)}\)
\[ \texttt{library(nortest)}\\ \texttt{ad.test(vector)} \]
library(nortest)
= sqrt(M$EDAD)
Edad hist(Edad,col = 'turquoise',density = 30,main = 'Función de densidad de raiz cuadrada',probability = TRUE)
lines(density(Edad),lwd = 2,col = 'orange')
= seq(0,120,0.01)
x1 = mean(Edad)
media = sd(Edad)
desv = dnorm(x1,media,desv)
y1 lines(x1,y1,lwd = 2,col = 'magenta')
qqnorm(Edad,pch = 20, col = 'orange')
qqline(Edad,lwd = 2,col = 'magenta')
ad.test(Edad)
Anderson-Darling normality test
data: Edad
A = 164.39, p-value < 2.2e-16
\(H0:\) Los datos provienen de una problación normal.
\(H1:\) Los datos NO provienen de una problación normal.
Regla de desición
Si el valor p es menor a 0.05 (nivel de significación, \(\alpha\)) se rechaza \(H_0\)
La vida de un láser de semiconductores con una alimentación de energía constante tiene una distribución normal con una media de 7000 horas y una desviación estándar de 600 horas.
\(\mu\) = 7000
\(\sigma\) = 600
a) Si los requerimientos de calidad de que duren por lo menos 6200 horas, ¿Qué porcentaje de todos los láser cumplen los requerimiento? 90%
1-pnorm(6200,7000,600)
[1] 0.9087888
b) El cliente decide hacer una prueba y si la duración de un láser está dentro del 5% extremo inferior, rechazará comprar a ese distribuidor. ¿cuál es el valor crítico de decisión? 6013
qnorm(0.05,7000,600)
[1] 6013.088
c) Si de hecho resultó la vida útil de un láser tomado al azar de 6000 horas, ¿volverá a comprar?
Sí. Tomando en cuenta que el promedio de vida de los lásers es de 7000 horas y la desviación estandar es de 600 horas. El láser tomado fue una expción poco probable del resto. Por latonto, cuando compore otro laser, es muy probable que me toque uno con mayor vida promedio, dentro de donde se concentra la mayoría.
d) Si el cliente soporta que a lo más el 1% de los laser duren 5800 horas, ¿cuál deberá ser el promedio de vida de los transistores? (la desviación estándar sigue siendo de 600 horas) 7195
\(z=\frac{x*\mu}{\sigma}\)
\(\mu = -(\sigma*z)+x\)
= qnorm(0.01)
z = -1*(z*600)+5800
mu mu
[1] 7195.809
= c(1,2,3,4)
x = c(0.2,0.4,0.3,0.1)
p = data.frame(x,p)
xp plot(xp,col="red",pch=20, main="Distribución de probabilidad")
=c(p[1],p[1]+p[2],p[1]+p[2]+p[3],p[1]+p[2]+p[3]+p[4])
probacumplot(x,probacum,col="blue",pch=20, main="Probabilidad acumulada")
= sum(x*p)
Px = 100 - (5*Px)
Px2 cat("P(x) = ",Px, "\n")
P(x) = 2.3
cat("Valor esperado = ",Px2, "\n")
Valor esperado = 88.5
= sum(x^2*p)
Vx2 = Vx2 - Px^2
Vx = (5^2)*Vx
Vx3 cat("V(x) = ",Vx, "\n")
V(x) = 0.81
cat("Varianza esperada = ",Vx3, "\n")
Varianza esperada = 20.25
= c(16,18,20)
x = c(0.4,0.3,0.3)
p = data.frame(x,p)
xp plot(xp,col="red",pch=20, main="Distribución de probabilidad")
=c(p[1],p[1]+p[2],p[1]+p[2]+p[3])
probacumplot(x,probacum,col="blue",pch=20, main="Probabilidad acumulada")
= sum(x*p)
Px = sum((x^2)*p)
P2x = (70*Px)-650
Px2 cat("P(x) = ",Px, "\n")
P(x) = 17.8
cat("P(x)^2 = ",P2x, "\n")
P(x)^2 = 319.6
cat("Valor esperado = ",Px2, "\n")
Valor esperado = 596
= sum(x^2*p)
Vx2 = Vx2 - Px^2
Vx = (70^2)*Vx
Vx3 = sqrt(Vx)
Dx cat("V(x) = ",Vx, "\n")
V(x) = 2.76
cat("Varianza esperada = ",Vx3, "\n")
Varianza esperada = 13524
cat("D(x) = ",Dx, "\n")
D(x) = 1.661325
cat("Desviación estándar esperada = ",sqrt(Vx3), "\n")
Desviación estándar esperada = 116.2927
Si la porosidad al Helio (en porcentaje) de muestras de carbón, tomadas de cualquier veta en particular, está normalmente distribuida con una desviación estándar verdadera de 0.75. Se toma una muestra al azar de 20 especímenes y su promedio resulta de 4.85.
Calcule un intervalo de confianza al 95% para el verdadero promedio de porosidad.
R: 4.5213< μ < 5.1786
Estudios anteriores se creía que el porcentaje era de 5.8, ¿hay evidencia para decir que ya cambió?
Sí porque el intervalo se encuentra detro de un rango menor a 5.8.
library(plotrix)
= 20 # u otro valor de n
n = 4.85 # Media de población
media = 0.75 # Desviación estándar de población
DE = DE/sqrt(n)#Es la desviación estándar de xbarra
ErrorEst= rnorm(n, media, ErrorEst)#Genera n números aleatorios con distribución normal y se especifican media y desviación estándar (estamos simulando xbarras que son estimadores puntuales de la media poblacional)
X_ = 1.96*DE/sqrt(n) # E = Error máximo de estimación
E plotCI(1:n,X_,E,main="Gráfico de IC", xlab = "n intervalos", ylab = "medias muestrales") #graficamos los n intervalos de confianza, debemos darle los estimadores puntuales y el error de estimación
abline(h = 4.85, col = "red")#Agregamos una línea en el valor de la media poblacional (en este caso si la conocemos porque queremos ver la interpretación de la confianza pero en realidad no la conoceremos ya que es el parámetro a estimar)
=0.95 #nivel de confianza
confianza=1-confianza #nivel de significación
alfa=4.85 #media de la muestra es estimador puntual para la media poblacional
xbarra=0.75 #desviación poblacional
sigma=20 #tamaño de la muestra
n=sigma/sqrt(n)
Errorestandar=alfa/2
mitadalfa=abs(qnorm(mitadalfa))
Zcritico=Zcritico*Errorestandar
Errorestimacion=xbarra-Errorestimacion
LI=xbarra+Errorestimacion
LScat("se estima que la media poblacional podría encontrarse entre",LI, "y", LS, "con una confianza de", confianza)
se estima que la media poblacional podría encontrarse entre 4.521304 y 5.178696 con una confianza de 0.95
Una empresa encuestadora GR recientemente aplicó una encuesta a 1017 mexicanos adultos. A la pregunta, “¿En la actualidad México pasa por un periodo de buenos o malos tiempos?” 550 de los encuestados respondieron “buenos tiempos”.
Construya un intervalo de confianza de 99% para la proporción de mexicanos adultos que consideran que su país está pasando por un periodo de “buenos tiempos”.
0.5005 < P < 0.5810
Si años anteriores el porcentaje que consideraba que era un periodo de buenos tiempo era del 57%, se puede decir que ahora los mexicanos se han vuelto significativamente más pesimistas? Argumente su respuesta.
Debido a que el porcentaje sigue estando dentro del intervalo de confianza, se considera que los mexicanos han seguido con la misma percepción.
=0.99 #nivel de confianza
confianza=1-confianza #nivel de significación
alfa=1017 #tamaño de la muestra
n=alfa/2
mitadalfa= 550/1017
p = 1-p
q =abs(qnorm(mitadalfa))
Zcritico=Zcritico*sqrt((p*q)/n)
Errorestandar=p-Errorestandar
LI=p+Errorestandar
LScat("Se estima que la media poblacional podría encontrarse entre",LI, "y", LS, "con una confianza de", confianza)
Se estima que la media poblacional podría encontrarse entre 0.5005554 y 0.5810572 con una confianza de 0.99
La variabilidad en la cantidad de impurezas presentes en un lote de productos químicos, utilizada para un proceso en particular, depende del tiempo que tarda el proceso. Un fabricante que emplea dos líneas de producción A y B hizo un pequeño ajuste al proceso B, con la esperanza de reducir la cantidad media de impurezas en el proceso en los productos químicos. Por estudios previos se sabe que la línea A tiene una desviación estándar en las impurezas de 1.04 y la línea B de 0.51.
Los resultados con el ajuste al proceso B son:
Impurezas promedio de la línea A: 3.2 con n = 35
Impurezas promedio de la línea B: 3.0 con n = 40
Hallar el intervalo de confianza al 95% de la diferencia de impurezas de las dos líneas de producción e interpreta el resultado.
= 0.99
confianza = 1 - confianza
alpha = 9.15
sigma1 = 10.46
sigma2 = 76.24
media1 = 78.36
media2 = 50
n1 = 74
n2 = abs(qnorm(alpha/2))
z = z*sqrt(((sigma1^2)/n1)+((sigma2^2)/n2))
E = (media1-media2)-E
Linf = (media1-media2)+E
Lsup cat("[",Linf,",",Lsup,"] y",confianza)
[ -6.693809 , 2.453809 ] y 0.99
Debido a que el intervalo de confianza incluye el cero, se considera que no hay diferencia significativa en la reducción de impurezas. El proceso estadisticamente no se mejoró.
plot(NA, xlim = c(-0.6,1), ylim = c(0,2),main = 'Intervalo de confianza',
yaxt = 'n', ylab = NA)
arrows(Linf,1,Lsup,1, code = 3, angle = 90, lwd = 1.5, col = 'black')
points(media1-media2, 1, pch = 20, col = 'tomato',
cex = 2.2) # arrows(x1, y1, x2, y2, code = 1 a 4)
text(Linf,1.3,'-0.179')
text(Lsup,1.3,'0.579')
Para comparar las cantidades de artículos defectuosos que producen dos líneas de ensamble se seleccionara con muestras aleatorias independientes de 100 artículos de cada una. La muestra de la línea A contenía 18 artículos defectuosos y 12 de la línea B. Determine un intervalo de confianza de 95% para la diferencia de proporciones real de las cantidades de artículos con defecto producidos en las dos líneas.
¿Hay alguna evidencia que indique que una de las líneas de fabrica produce cantidad mayor de artículos defectuosos? Argumente con el intervalo hallado.
= 0.95
confianza = 1 - confianza
alpha = 18
def1 = 12
def2 = 100
n1 = 100
n2 = def1/n1
p1 = def2/n2
p2 = abs(qnorm(alpha/2))
z = z*sqrt(((p1*(1-p1))/n1)+((p2*(1-p2))/n2))
E = (p1-p2)-E
Linf = (p1-p2)+E
Lsup cat("[",Linf,",",Lsup,"] y",confianza)
[ -0.03862339 , 0.1586234 ] y 0.95
Debido a que el intervalo de confianza incluye el cero, se considera que no hay evidencia sobre un cambio en la producción de artículos defectuosos.
Usar formulario, y ver Quiz 2
=c(3250,4302,3266,3064,3332,3268,3184,3297,3116,3502)
x1=c(3094,3004,3066,3124,3018,3106,2984,3316,3380,3212)
x2=data.frame(x1,x2)
X_S X_S
x1 x2
1 3250 3094
2 4302 3004
3 3266 3066
4 3064 3124
5 3332 3018
6 3268 3106
7 3184 2984
8 3297 3316
9 3116 3380
10 3502 3212
t.test(x1,x2,conf.level=0.95,var.equal = TRUE)
Two Sample t-test
data: x1 and x2
t = 1.9098, df = 18, p-value = 0.07222
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-22.78412 478.18412
sample estimates:
mean of x mean of y
3358.1 3130.4
\({\chi}^2=\frac{(n-1)s^2}{\sigma^2}\)
El gerente de una compañía de baterías para automóvil afirma que sus productos durarán en promedio 3 años con una varianza de un año. Suponga que se toma una muestra de 5 baterías con duraciones de 1.9, 2.4, 3, 3.5 y 4.2 años. Suponga que la distribución de las duraciones de la batería es aproximadamente normal. Construya un intervalo del 95% de confianza para 𝜎2 y con base en esto, determine si los datos proporcionan evidencia de que la afirmación acerca de la varianza no es válida.
R.: [0.2925, 6.7297], como el 1 sí está en el intervalo, es probable que la varianza de la muestra sea igual a la poblacional.
= c(1.9,2.4,3,3.5,4.2)
x = length(x)
n = var(x)
var = (1 - 0.95)/2
alpha1 = 1 - alpha1
alpha2 = qchisq(alpha1, n-1)
x21 = qchisq(alpha2, n-1)
x22 = ((n-1)*var)/x21
sup = ((n-1)*var)/x22
inf cat('[',inf,':',sup,'] al 0.95')
[ 0.2925528 : 6.729717 ] al 0.95
Los datos corresponden a dos muestras aleatorias:
1) la primera fue extraída de los usuarios que tienen como actividad principal hacer llamadas en el celular (X) y 2) la segunda proviene de la población que usa el celular para tener acceso a internet (Y). Los datos corresponden a la duración de la bateria en horas.
Uso principal en llamadas (X) | Uso principal internet (Y) |
---|---|
35.8 | 14 |
22.2 | 12.5 |
4 | 16.4 |
32.6 | 1.9 |
8.5 | 9.9 |
42.5 | 5.4 |
8 | 1 |
3.8 | 15.2 |
30 | 4 |
12.8 | 4.7 |
10.3 | |
35.5 |
a) ¿Se podría inferir que la duración de la bateria en horas sigue una distribución Normal en cada una de las poblaciones? (realiza la prueba de normalidad en R e interpreta los resultados)
= c(35.8,22.2,4,32.6,8.5,42.5,8,3.8,30,12.8,10.3,35.5)
X = c(14,12.5,16.4,1.9,9.9,5.4,1,15.2,4,4.7)
Y shapiro.test(X)
Shapiro-Wilk normality test
data: X
W = 0.88692, p-value = 0.1075
shapiro.test(Y)
Shapiro-Wilk normality test
data: Y
W = 0.90779, p-value = 0.2661
Sustantiva
Investigación
Experimental
Estadística
Después de que la rechazaron para un empleo, Kim Kelly se entera de que la Bellevue Advertising Company contrato únicamente a 21 mujeres entre sus 62 empleados nuevos. También de que el grupo de solicitantes es muy grande, con igual número de hombres y mujeres calificados. Ella investigó y el juez tomaría la decisión a favor de ella si la evidencia está dentro del 5% más extremo del valor esperado. ¿El resultado es argumento a su favor?
= 21
x = 62
n = x/n
p = 0.05 # NC = 95% --> alpha = 0.05 alpha
\(H_0:P=0.5\) –> No hay discrimicación de contratar mujer.
\(H_1:P<0.5\) –> Sí hay discrimicación de contratar mujer.
\(\alpha=0.05\)
*p #n Debe ser myor a 5 n
[1] 21
*(1-p) # Debe ser mayor a 5 n
[1] 41
Por lo tanto, el modelo a usar es la normal Z
Regla clásica:
Como \(\alpha=0.05\) a la izquierda (porque \(H_1\) dice <)
cat('Valor frontera =',qnorm(0.05))
Valor frontera = -1.644854
Regla clásica:
Si la evidencia (Z*) es menor que -1.64 se rechaza \(H_0\)
Regla valor p:
Si el valor p < 0.05 se rechaza \(H_0\)
= 0.5 # La proporción de H0, la que se supone verdadera
P = (p - P)/sqrt(p*(1-p)/n) # Fórmula de estadístico de prueba de proporción
Zp cat('El estadístico de prueba Z* =',Zp)
El estadístico de prueba Z* = -2.683455
Como Z* = -2.68 es menor que el valor frontera Vf = -1.645, se rechaza \(H_0\) a un \(\alpha\) = 0.05.
pnorm(Zp)
[1] 0.003643292
Se comprueba que Z* está muy alejado del valor esperado. Se rechaza \(H_0\).
El sistema de frenos actual, de la SUV XTrail híbrida, yendo a 65 km/h, frena en promedio a los 36.57 metros (frenado normal), con una desviación estándar de 2.74 metros. Unos ingenieros creen tener un nuevo sistema de frenado más eficiente. Para convencer a los inversionistas hacen una prueba de 36 observaciones y optienen un promedio de frenado yendo a 65 km/h, de 35.72 metros. Nivel de significación al 0.01.
= 36.57
M = 36
n = 2.74
sigma = 35.72
xm = 0.01 alpha
\(H_0:\mu=36.57\) –> El sistema de frenado nuevo es igual.
\(H_1:\mu<36.57\) –> El sistema de frenado nuevo es mejor.
\(\alpha=0.01\)
Como la muestra n>30 es grande, el modelo a usar es la normal Z
Regla clásica:
Como \(\alpha=0.01\) a la izquierda (porque \(H_1\) dice <)
cat('Valor frontera =',qnorm(0.01))
Valor frontera = -2.326348
Regla clásica:
Si la evidencia (Z*) es menor que -2.326 se rechaza \(H_0\)
Regla valor p:
Si el valor p < 0.05 se rechaza \(H_0\)
= (xm - M)/(sigma/sqrt(n)) # Fórmula de estadístico de prueba de proporción
Zp cat('El estadístico de prueba Z* =',Zp)
El estadístico de prueba Z* = -1.861314
Como Z* = -1.86 > -2.32, NO se rechaza \(H_0\) a un \(\alpha\) = 0.01.
pnorm(Zp)
[1] 0.03134993
Como el valor p = 0.03 > 0.01, NO se rechaza \(H_0\).
= c(18,12,25,23,8,19,4)
fo = c(rep(17,7))
fe = sum((fo-fe)^2/fe)
x2p cat('El X^2* =',x2p)
El X^2* = 22.35294
= 0.05
alpha = 7 # Número de clases o categorías
j cat('El valor frontera es: ',qchisq(1-alpha,j-1))
El valor frontera es: 12.59159
Regla de \(p-value\): Si \(p-value<\alpha = 0.05\) se rechaza \(H_0\)
Vf | \(X^2*\) |
---|---|
12.59 | 12.94 |
Zona de aceptación | Zona de rechazo |
Como el estadístico de prueba X2* = 12.94 > Vf = 12.59, X2* esta en zona de rechazo. Se rechaza que no hay predilección de horarios.
= c(18,12,25,23,8,19,4)
fo = chisq.test(fo)
Pr $observed Pr
[1] 18 12 25 23 8 19 4
$expected Pr
[1] 15.57143 15.57143 15.57143 15.57143 15.57143 15.57143 15.57143
$p.value Pr
[1] 0.0006489569
Como el \(p-value\) 0.001 < que \(\alpha\) = 0.05, se rechaza \(H_0\)
= c(37,25)
CE = c(44,72)
CS = c(44,71)
HU = data.frame(CE, CS, HU)
T row.names(T) = c('Hombre', 'Mujer')
T
CE CS HU
Hombre 37 44 44
Mujer 25 72 71
addmargins(as.matrix(round(prop.table(T),3)))
CE CS HU Sum
Hombre 0.126 0.150 0.150 0.426
Mujer 0.085 0.246 0.242 0.573
Sum 0.211 0.396 0.392 0.999
\(H_0\): Es independiente el sexo de la especialidad.
\(H_1\) Sí tien que ver
chisq.test(T)
Pearson's Chi-squared test
data: T
X-squared = 9.3103, df = 2, p-value = 0.009513
Se acepta \(H_0\), por lo tanto la carrera es independiente
\(H_0:\) Las variables no son independientes.
\(H_1:\) Las variables son independientes.
= read.csv('Muestra120k_Eq8.csv',encoding = 'UTF-8') M
cat("OBESIDAD\n")
OBESIDAD
table(M$OBESIDAD)#Se hacen estas tablas para checar que las tablas esten limpias, en este caso no lo estan.
1 2 98
11592 108118 290
cat("Diabetes\n")
Diabetes
table(M$DIABETES)
1 2 98
10412 109267 321
= subset(M, M$OBESIDAD != 98 & M$DIABETES != 98)
M1 cat("OBESIDAD\n")
OBESIDAD
table(M1$OBESIDAD)
1 2
11570 108087
cat("Diabetes\n")
Diabetes
table(M1$DIABETES)
1 2
10403 109254
= table(M1$DIABETES, M1$OBESIDAD)
Tab colnames(Tab) = c('Y_D','N_D')
rownames(Tab) = c('Y_O','N_O')
Tab
Y_D N_D
Y_O 2275 8128
N_O 9295 99959
chisq.test(Tab)
Pearson's Chi-squared test with Yates' continuity correction
data: Tab
X-squared = 1939.8, df = 1, p-value < 2.2e-16
Como el p-value = 0.0000 < 0.05 se rechaza H0. Por lo tanto, hay evidencia para decir que no son independientes.
Un fabricante de plásticos desea evaluar la durabilidad de los bloques de plástico moldeados en forma de rectángulo que se utilizan en la fabricación de muebles. Se examina una muestra aleatoria de 40 de tales bloques y sus mediciones de dureza (en unidades Brinell) se presentan a continuación :
283.6,273.3, 278.8, 238.7, 334.9, 302.6, 239.9, 254.6, 281.9, 270.4, 269.1, 250.1, 301.6, 289.2, 240.8, 267.5, 279.3, 228.4, 265.2, 285.9, 279.3, 252.3, 271.7, 235.0, 313.2, 277.8, 243.8, 295.5, 249.3, 228.7, 255.3, 267.2, 255.3, 281.0, 302.1, 256.3, 233.0, 194.4, 291.9, 263.7
Construir un intervalo de confianza del 98% para la dureza promedio real. Redondea a dos decimales los límites del intervalo.
=40
n=0.01
alfa=abs(qnorm(0.01))
Zcritico Zcritico
[1] 2.326348
=c(283.6,273.3, 278.8, 238.7, 334.9, 302.6, 239.9,
x254.6, 281.9, 270.4, 269.1, 250.1, 301.6, 289.2,
240.8, 267.5, 279.3, 228.4, 265.2, 285.9, 279.3,
252.3, 271.7, 235.0, 313.2, 277.8, 243.8, 295.5,
249.3, 228.7, 255.3, 267.2, 255.3, 281.0, 302.1,
256.3, 233.0, 194.4, 291.9, 263.7)
=mean(x)
xbarra=sd(x)
S=(Zcritico*S)/sqrt(n)
Errorestimacion=xbarra-Errorestimacion
Linf=xbarra+Errorestimacion
Lsupcat("El intervalo de confiaza con un 98% se encuentra entre ",Linf,"y ",Lsup,"con muestra de 40")
El intervalo de confiaza con un 98% se encuentra entre 257.1055 y 277.0245 con muestra de 40
El gerente de una compañía de baterías para automóvil afirma que sus productos durarán en promedio 3 años con una varianza de un año. Suponga que se toma una muestra de 5 baterías con duraciones de 1.9, 2.4, 3, 3.5 y 4.2 años. Suponga que la distribución de las duraciones de la batería es aproximadamente normal. Construya un intervalo del 95% de confianza para 𝜎2 y con base en esto, determine si los datos proporcionan evidencia de que la afirmación acerca de la varianza no es válida.
R.: [0.2925, 6.7297], como el 1 sí está en el intervalo …
= c(1.9,2.4,3,3.5,4.2)
x = length(x)
n = var(x)
var = (1 - 0.95)/2
alpha1 = 1 - alpha1
alpha2 = qchisq(alpha1, n-1)
x21 = qchisq(alpha2, n-1)
x22 = ((n-1)*var)/x21
sup = ((n-1)*var)/x22
inf cat('[',inf,':',sup,'] al 0.95')
[ 0.2925528 : 6.729717 ] al 0.95
Un fabricante de planchas eléctricas tiene dos proveedores de termostatos, los prueba a 550, los datos se muestran a continuación
A 530.3, 549.9,559.1,550, 559.3, 556.9, 555, 554.9, 536.7, 538.6
B 560, 550.7,554.5, 555, 534.7, 563.1, 553, 544.8, 554.8, 551.1
¿ Se puede decir que tienen varianzas iguales a un nivel de significación de 0.05? Verifique primero si se cumple la condición de normalidad para cada grupo de datos (aplique la prueba de Shapiro-Wilk).
= c(530.3,549.9,559.1,550,559.3,556.9,555,554.9,536.7,538.6)
X = c(560,550.7,554.5,555,534.7,563.1,553,544.8,554.8,551.1)
Y shapiro.test(X)
Shapiro-Wilk normality test
data: X
W = 0.86815, p-value = 0.09512
shapiro.test(Y)
Shapiro-Wilk normality test
data: Y
W = 0.91501, p-value = 0.3172
Tomando en cuenta que \(\alpha\) = 0.05, se acepta \(H0\), la evidencia sugiere que X y Y probablemente siguen una distrubición normal.
var.test(X,Y,conf.level = 0.95)
F test to compare two variances
data: X and Y
F = 1.6864, num df = 9, denom df = 9, p-value = 0.4483
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.4188825 6.7895108
sample estimates:
ratio of variances
1.686418
Se quiere ver si existe diferencia entre las calificaciones promedio de la carrera IDD y carrera IQ. Una muestra aleatoria de 25 alumnos de la carrera IDD tuvieron una calificación promedio de 86.24 con una desviación estándar de 9.15. Una muestra aleatoria de 21 alumnos de la carrera IQ, tuvieron una calificación promedio de 88.36 con una desviación estándar 10.46. Suponiendo normalidad, verifique si se cumple igualdad de varianzas y calcule el intervalo de confianza de diferencia medias a un nivel de confianza del 90%. ¿Hay diferencia significativa entre las calificaciones de esos dos grupos?
= 0.90
confianza = 1 - confianza
alpha = 9.15
sigma1 = 10.46
sigma2 = 86.24
media1 = 88.36
media2 = 25
n1 = 21
n2 = floor((((sigma1^2)/n1)+((sigma2^2)/n2))^2)/
gl ^4/(n1^2*(n1-1)))+(sigma2^4/(n2^2*(n2-1))))
((sigma1= abs(qt(alpha/2,gl))
t = t*sqrt(((sigma1^2)/n1)+((sigma2^2)/n2))
E = (media1-media2)-E
Linf = (media1-media2)+E
Lsup cat("[",Linf,",",Lsup,"] y",confianza)
[ -7.046199 , 2.806199 ] y 0.9
Un proveedor anuncia que focos de un cierto tipo duran un promedio de 750 horas con una desviación estándar de 38.2 horas. El precio de estos focos es muy favorable por lo que un cliente potencial ha decidido continuar con un convenio de compra si al hacer una prueba el resultado no está dentro del 5% extremo de los resultados posibles inferiores. Para ello el cliente seleccionó una muestra de 50 focos y y obtuvo un promedio de duración de 738.44 horas. ¿Qué tan probable es que resulte este valor de la muestra u otro más extremo? ¿Qué concluye?
\(H_0:\bar x \in1-\alpha\)
\(H_1:\bar x \notin\alpha\)
\(\alpha=0.05\)
= 750
miu = 38.2
sigma = 0.05
alpha = 50
n = 738.44
xb = (xb-miu)/(sigma/sqrt(n))
Z Z
[1] -2.139831
abs(qnorm(0.025))
[1] 1.959964
pnorm(Z)
[1] 0.01618421
No vuelvo a comprar.
Tanto los estudiantes como sus padres tienen muchas preocupaciones cuando tienen que elegir la continuidad de los estudios básicos hacia estudios universitarios. Una de las tres principales preocupaciones, con base en un estudio del Collage Partnership es “elegir la mejor especialidad/carrera”. 17.8% de los padres (P1) reportó que es su mayor preocupación, mientras que el 16.7% de los estudiantes (P2) la reportó como su mayor preocupación. Si el estudio se realizó con una prueba de 1290 estudiantes y sus padres, pon a prueba la hipótesis de que la preocupación de elegir la mejor especialidad/carrera fue mayor para los padres que para los hijos. Realiza la prueba de hipótesis con un nivel de significancia de 0.07.
\(H_0:P1-P2>0\)
\(H_1:P1-P2<0\)
\(\alpha=0.07\)
qnorm(1-0.07)
[1] 1.475791
¿Tendrá que ver la aerolínea con llegar los vuelos demorados? Un inspector de calidad de servicio quiere saber esto para tomar las medidas correspondientes. Para ello toma los siguientes datos:
Aerolinea | Demorado | A tiempo |
---|---|---|
Aeroméxico | 34 | 243 |
Vivaaerobus | 49 | 265 |
Volaris | 43 | 421 |
\(\alpha=0.01\)
= c(34, 49, 43)
Demorado = c(243, 265, 421)
A_tiempo = cbind(Demorado, A_tiempo)
T row.names(T) = c("AM", "VA", "VO")
chisq.test(Demorado,A_tiempo)
Warning in chisq.test(Demorado, A_tiempo): Chi-squared approximation may be
incorrect
Pearson's Chi-squared test
data: Demorado and A_tiempo
X-squared = 6, df = 4, p-value = 0.1991
En el pasado, una tarea que se realiza en una línea de producción requería 30 segundos para llevarse a cabo. Una ingeniero industrial ha desarrollado un nuevo método para efectuar la tarea que, según ella, acelerará el proceso. Se selecciona una muestra aleatoria de 15 trabajadores que fueron entrenados con el nuevo método, y los tiempos que necesitaron para terminar la tarea se presentan a continuación:
27.2, 31.1, 29.0 , 26.7 , 28.1 , 27.3, 29.6 , 30.5, 30.0, 30.2, 25.9 , 31.3 , 28.8, 27.4 , 27.0
Verifique normalidad en los datos y construya un intervalo de confianza del 90% para el tiempo promedio real.
=15
n=0.1
alfa=alfa/2
alfa2=abs(qt(alfa2,n-1))
tcritica tcritica
[1] 1.76131
=c(27.2, 31.1, 29.0 , 26.7 , 28.1 , 27.3, 29.6 , 30.5, 30.0, 30.2, 25.9 , 31.3 , 28.8, 27.4 , 27.0)
x=mean(x)
xbarra xbarra
[1] 28.67333
=sd(x)
S=(tcritica*S)/sqrt(n)
Errorestimacion=xbarra-Errorestimacion
Linf=xbarra+Errorestimacion
Lsupcat("El intervalo de confiaza con un 90% se encuentra entre ",Linf,"y ",Lsup,"con muestra de 15")
El intervalo de confiaza con un 90% se encuentra entre 27.88951 y 29.45715 con muestra de 15
El periódico El Economista indica que el gasto promedio que hacen hombres y mujeres no es el mismo en cierto producto al mes. Para estimar la diferencia en gasto entre hombres y mujeres se realiza una encuesta donde se pregunta por el gasto promedio a una muestra de 38 hombres y 31 mujeres. El gasto promedio de los hombres fue de $135.56, mientras que el de las mujeres fue de $95.47. Con base en encuestas anteriores, se sabe que la desviación estándar del gasto de los hombres es de $45.4 y $23.3 de las mujeres. ¿Cuál es la estimación por intervalo de la diferencia entre las media poblacionales para el gasto de hombres y mujeres? Establece un nivel de confianza de 94%. ¿Se diferencian significativamente los promedios de los hombres y de las mujeres?
= 135.56
xbarrah= 95.47
xbarram= 45.4
Sh= 23.3
SM=0.06
alfa= alfa/2
alfa2=38
nh=31
nm
=abs(qnorm(0.03))
zcritico
=zcritico*(sqrt((Sh^2/nh)+(SM^2/nm)))
Errorestimacion
=(xbarrah-xbarram)-Errorestimacion
Linf=(xbarrah-xbarram)+Errorestimacion
Lsupcat("El intervalo de confiaza con un 94% se encuentra entre ",Linf,"y ",Lsup)
El intervalo de confiaza con un 94% se encuentra entre 24.15826 y 56.02174
qnorm(0.06)
[1] -1.554774
=0.94 #nivel de confianza
confianza=45.4 #desviación poblacional a
sigmaA=23.3 #desviación poblacional b
sigmaB=135.56 #media de la muestra A (se usa m minúscula por ser la media de la muestra si fuera media de la población se usa m mayúscula)
mA=95.47 #media de la muestra B (se usa m minúscula por ser la media de la muestra si fuera media de la población se usa m mayúscula)
mB=38 #Tamaño de muestra A
nA=31 #Tamaño de muestra B
nB=1-confianza #Alfa
alfa=alfa/2 #La mitad de alfa
mitadalfa#--------------------------------------------------
=abs(qnorm(mitadalfa))
Z=sqrt(sigmaA^2/nA + sigmaB^2/nB) #Error estándar
Errorestandar=(mA-mB)- Z*Errorestandar #Límite inferior del rango
Linf=(mA-mB) +Z*Errorestandar #Límite superior del rango
Lsupcat("Se estima que la media poblacional podría encontrarse entre",Linf, "y", Lsup, "con una confianza de", confianza)
Se estima que la media poblacional podría encontrarse entre 24.15826 y 56.02174 con una confianza de 0.94
En el pasado, una tarea que se realiza en una línea de producción requería 30 segundos para llevarse a cabo. Una ingeniero industrial ha desarrollado un nuevo método para efectuar la tarea que, según ella, acelerará el proceso. Se selecciona una muestra aleatoria de 15 trabajadores que fueron entrenados con el nuevo método, y los tiempos que necesitaron para terminar la tarea se presentan a continuación:
27.2, 31.1, 29.0 , 26.7 , 28.1 , 27.3, 29.6 , 30.5, 30.0, 30.2, 25.9 , 31.3 , 28.8, 27.4 , 27.0
Verifique normalidad en los datos y construya un intervalo de confianza del 90% para el tiempo promedio real
=15
n=0.1
alfa=alfa/2
alfa2=abs(qt(alfa2,n-1))
tcritica tcritica
[1] 1.76131
=c(27.2, 31.1, 29.0 , 26.7 , 28.1 , 27.3, 29.6 , 30.5, 30.0, 30.2, 25.9 , 31.3 , 28.8, 27.4 , 27.0)
x=mean(x)
xbarra xbarra
[1] 28.67333
=sd(x)
S=(tcritica*S)/sqrt(n)
Errorestimacion=xbarra-Errorestimacion
Linf=xbarra+Errorestimacion
Lsupcat("El intervalo de confiaza con un 90% se encuentra entre ",Linf,"y ",Lsup,"con muestra de 15")
El intervalo de confiaza con un 90% se encuentra entre 27.88951 y 29.45715 con muestra de 15
Se quiere ver si existe diferencia entre las calificaciones promedio de la carrera LTS y carrera LRI.
Una muestra aleatoria de 25 alumnos de la carrera LLE tuvieron una calificación promedio de 86.24 con una desviación estándar de 9.15.
Una muestra aleatoria de 21 alumnos de la carrera LRI, tuvieron una calificación promedio de 88.36 con una desviación estándar 10.46
Suponiendo normalidad, verifique si se cumple igualdad de varianzas y calcule el intervalo de confianza de diferencia medias a un nivel de confianza del 90%.
qnorm(0.1)
[1] -1.281552
=0.9
confianza=9.15
sigmaA=10.46
sigmaB=86.24
mA=88.36
mB=25
nA=21
nB=1-confianza
alfa=alfa/2
mitadalfa=abs(qnorm(mitadalfa))
Z=sqrt(sigmaA^2/nA + sigmaB^2/nB) #Error estándar
Errorestandar=(mA-mB)- Z*Errorestandar #Límite inferior del rango
Linf=(mA-mB) +Z*Errorestandar #Límite superior del rango
Lsupcat("Se estima que la media poblacional podría encontrarse entre",Linf, "y", Lsup, "con una confianza de", confianza*100)
Se estima que la media poblacional podría encontrarse entre -6.932139 y 2.692139 con una confianza de 90