TRABAJO DE BONDAD DEL AJUSTE

"Iniciamos limpiando el entorno global"
## [1] "Iniciamos limpiando el entorno global"
rm(list=ls())
library(ggplot2) #Para Gráficas estéticas
library(stringi) #Para manejo de acentuación en RMarkdown
library(tseries) #Para prueba Jarque-Bera
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
library(fdth)
## 
## Adjuntando el paquete: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
library(reshape2)
options(encoding = "UTF-8")

Ejercicio 1

Con base en los registros de una tienda de modas, el 50% de los vestidos adquiridos por ésta para la temporada se venderán a precio de menudeo, el 25% a un 20% menos del precio de menudeo, 15% se venderán después de una reducción en su precio del 40% y los restantes con una disminución en su precio del 60%. Para esta temporada, se adquirieron 300 vestidos y su venta fue en la siguiente forma:

Precio de Venta Porcentaje de Ventas
140 50%
90 25%
30 15%
40 10%

Existe alguna razón para creer que la disminución en ventas fue diferente en esta temporada con respecto a las anteriores? Úsese \(\alpha = 0.05\). ¿Cuál es el valor de \(\rho\) ?

Preparación de los datos

\(X\) = Disminución en ventas de vestidos en la temporada actual

vestidos <- 300
porcentajes_ventas1 <- c(0.10, 0.15, 0.25, 0.50)
#Los valores Observados son
valores_observados1 <- c(40, 30, 90, 140)
#Los valores Esperados son
valores_esperados1 <- porcentajes_ventas1 * vestidos
#Ahora se hace la prueba chi-cuadrado
chi_cuadrado <- (valores_observados1 - valores_esperados1)^2 / valores_esperados1
#Se realiza tabla resumen para graficar
datos1 <- data.frame(
  Categoria = c("10%", "15%", "25%", "50%","Total"),
  Observados = c(valores_observados1, sum(valores_observados1)),
  Esperados = c(valores_esperados1,sum(valores_esperados1)),
  Est_Calcu = round(c(chi_cuadrado,sum(chi_cuadrado)),4)
)
print(datos1)
##   Categoria Observados Esperados Est_Calcu
## 1       10%         40        30    3.3333
## 2       15%         30        45    5.0000
## 3       25%         90        75    3.0000
## 4       50%        140       150    0.6667
## 5     Total        300       300   12.0000

Grafica de comparación

datos_largos <- melt(datos1, id.vars = "Categoria", variable.name = "Tipo", value.name = "Cantidad")
datos_largos <- datos_largos[datos_largos$Tipo %in% c("Observados", "Esperados"), ]

ggplot(data = datos_largos, aes(x = Categoria, y = Cantidad, fill = Tipo)) +
  geom_bar(stat = "identity", position = position_dodge()) +
  scale_fill_manual(values = c("skyblue", "lightcoral"), labels = c("Observados", "Esperados")) +
  labs(title = "Valores Observados vs Esperados",
       x = "Precio de Venta",
       y = "Cantidad de Ventas",
       fill = "Tipo") +
  theme_minimal(base_size = 15) +
  theme(panel.grid.major = element_blank(), 
        panel.grid.minor = element_blank()) +
  scale_y_continuous(breaks = seq(0, max(c(valores_observados1, valores_esperados1)), by = 25))

Valor crítico y prubea chi-cuadrado

k <- length(valores_observados1)
df <- k - 1

# Valor crítico para alfa = 0.05
alfa <- 0.05
valor_critico <- qchisq(1 - alfa, df)

# Mostrar el resultado del valor crítico
print(paste("El valor crítico para alfa =", alfa, "y df =", df, "es:", round(valor_critico,4)))
## [1] "El valor crítico para alfa = 0.05 y df = 3 es: 7.8147"
# El valor p
valor_p <- 1 - pchisq(sum(chi_cuadrado), df)
print(paste("El valor p es:", round(valor_p,4)))
## [1] "El valor p es: 0.0074"

Planteamiento de la Prueba de Hipótesis

Se desea determinar si existe una diferencia significativa en las ventas de vestidos de esta temporada en comparación con las temporadas anteriores.

\(X\) = Disminución en ventas de vestidos en la temporada actual

Prueba de Hipótesis:

  • (\(H_0\)): \(X = 0\) No hay diferencia significativa en las ventas. vs
  • (\(H_a\)): \(X \neq 0\) Hay una diferencia significativa en las ventas.

Dado que \(\chi^2 ∈ RC\), rechazamos (\(H_0\)): \(X = 0\). Especificamente, observamos que \(\chi^2 = 12\) es mayor que 7.81,confirmando su pertenencia a la región crítica.

Además, calculamos el Pvalor \(P_v= 0.0074\) que es menor a \(\alpha = 0.05\) y, esto nos lleva también a rechazar (\(H_0\)): \(X = 0\).

En conclusión, podemos afirmar que la disminución en las ventas de esta temporada, en comparación con las anteriores, es estadísticamente significativa.

Ejercicio 2

En un hospital, el número de nacimientos observados para cada mes de cierto año, fueron los siguientes:

Mes Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
Valor 95 105 95 105 90 95 105 110 105 100 95 100

Si \(\alpha = 0.15\), ¿existe alguna razón para creer que el número de nacimientos no se encuentra distribuido en forma uniforme durante todos los meses del año? ¿Cuál es el valor de \(\rho\)

Preparación de los datos

\(X\) = Número de nacimientos observados de cada mes durante un año

meses <- c("Ene", "Feb", "Mar", "Abr", "May", "Jun", "Jul", "Ago", "Sep", "Oct", "Nov", "Dic")
valores_observados2 <- c(95, 105, 95, 105, 90, 95, 105, 110, 105, 100, 95, 100)
valores_esperados2 <- rep(sum(valores_observados2) / 12, 12)

chi_2 <- (valores_observados2 - valores_esperados2)^2 / valores_esperados2

tabla2 <- data.frame(
  Meses = c(meses, 'Total'),
  Nac_obs = c(valores_observados2, sum(valores_observados2)),
  Nac_esp = c(valores_esperados2, sum(valores_esperados2)),
  Est_calc = c(chi_2, sum(chi_2))
)

print(tabla2)
##    Meses Nac_obs Nac_esp Est_calc
## 1    Ene      95     100     0.25
## 2    Feb     105     100     0.25
## 3    Mar      95     100     0.25
## 4    Abr     105     100     0.25
## 5    May      90     100     1.00
## 6    Jun      95     100     0.25
## 7    Jul     105     100     0.25
## 8    Ago     110     100     1.00
## 9    Sep     105     100     0.25
## 10   Oct     100     100     0.00
## 11   Nov      95     100     0.25
## 12   Dic     100     100     0.00
## 13 Total    1200    1200     4.00

Grafica de comparación

datos_combined <- data.frame(
  Mes = rep(meses, 2),
  Nacimientos = c(valores_observados2, valores_esperados2),
  Tipo = rep(c("Observados", "Esperados"), each = 12)
)

# Graficar
ggplot(datos_combined, aes(x = Mes, y = Nacimientos, fill = Tipo)) +
  geom_bar(stat = "identity", position = position_dodge()) +
  scale_fill_manual(values = c("lightcoral", "skyblue"), 
                    labels = c("Esperados", "Observados")) +
  labs(title = "Nacimientos por Mes en Cierto Hospital",
       x = "Mes",
       y = "Número de Nacimientos",
       fill = "Tipo") +
  theme_minimal() +
  theme(panel.grid.major = element_blank(), 
        panel.grid.minor = element_blank()) +
  scale_y_continuous(breaks = seq(0, max(c(valores_observados2, valores_esperados2)), by = 25))

Planteamiento de la Prueba de Hipótesis

Se desea determinar si el número de nacimientos en un hospital está distribuido uniformemente a lo largo de los meses del año.

\(X\) = Número de nacimientos observados de cada mes durante un año

Prueba de Hipótesis:

  • (\(H_0\)): \(X \sim\ Uniforme\) vs
  • (\(H_a\)): \(X \not\sim\ Uniforme\)
alpha <- 0.01
k = 12
# Valor crítico para alfa = 0.01
valor_critico <- round(qchisq(alpha, k-1,lower.tail=F),4)
(paste('Valor critico = ',valor_critico))
## [1] "Valor critico =  24.725"
# Obtener el valor p de la prueba Chi-cuadrado
p_value = round(pchisq(sum(chi_2),k-1,lower.tail=F),4)
(paste('P_Valor = ',p_value))
## [1] "P_Valor =  0.9699"

Dado que \((\chi^2 \notin \text{RC}, \quad \chi^2 = 4 < 24.72)\), no rechazamos la hipótesis nula (\(H_0\)): \(X \sim\ Uniforme\). Esto indica que la variable \((X)\) sigue una distribución uniforme.

Además, el valor \((P_{\text{valor}} = 0.9699)\) es mayor que \(\alpha = 0.01\). Por lo tanto, tampoco rechazamos (\(H_0\)): \(X \sim\ Uniforme\) en este contexto.

En conclusión, no tenemos evidencia suficiente para afirmar que el número de nacimientos no se distribuye de manera uniforme a lo largo de los meses del año. Esto sugiere que la distribución de nacimientos es consistente y no muestra variaciones significativas en diferentes meses.

Ejercicio 3

Considérense los fondos de inversión ordenados en función de su rendimiento en el periodo 1979-83. Se realizó un seguimiento del rendimiento en los cinco años posteriores de una muestra aleatoria de 65 fondos entre el 25% más rentable del periodo 1979-83. En este segundo periodo se observó que 11 de los fondos de la muestra se hallaban entre el 25% más rentable en este segundo periodo, 17 en el segundo 25%, 18 en el tercer 25% y 19 en el 25% menos rentable.

Contrastar la hipótesis de que un fondo de inversión escogido al azar del 25% más rentable en 1979-83 tenga la misma probabilidad de hallarse en cualquiera de las cuatro categorías de rendimiento en el periodo 1984-1989. ¿Qué se puede concluir?

Preparación de los datos

Categoría de Rendimiento Fondos Observados Fondos Esperados
25% más rentable 11 16.25
2do 25% 17 16.25
3er 25% 18 16.25
25% menos rentable 19 16.25
Total 65 65
categorias3 <- c('25% más rentable', '2do 25%', '3er 25%', '25% menos rentable')
observados3 <- c(11, 17, 18, 19)
esperados3 <- rep(65 / 4, 4)

#Prueba chi-cuadrado
chi_cuadrado <- (observados3 - esperados3)^2 / esperados3
chi_cuadrado
## [1] 1.69615385 0.03461538 0.18846154 0.46538462
tabla3= data.frame (
  Categoria= c(1,2,3,4,'Total'),
  Frec_Obs = c(observados3,sum(observados3)),
  Frec_Esp = c(esperados3, sum(esperados3)),
  Est_calc = round(c(chi_cuadrado,sum(chi_cuadrado))
,4))

print(tabla3)
##   Categoria Frec_Obs Frec_Esp Est_calc
## 1         1       11    16.25   1.6962
## 2         2       17    16.25   0.0346
## 3         3       18    16.25   0.1885
## 4         4       19    16.25   0.4654
## 5     Total       65    65.00   2.3846

Grafica de comparación entre variables

datos_combined3 <- data.frame(
  Categoria = rep(categorias3, 2),
  Frecuencia = c(observados3, esperados3),
  Tipo = rep(c("Observados", "Esperados"), each = 4)
)

ggplot(datos_combined3, aes(x = Categoria, y = Frecuencia, fill = Tipo)) +
  geom_bar(stat = "identity", position = position_dodge()) +
  scale_fill_manual(values = c("lightcoral", "skyblue"), 
                    labels = c("Esperados", "Observados")) +
  labs(title = "Frecuencias Observadas y Esperadas por Categoría",
       x = "Categoría",
       y = "Frecuencia",
       fill = "Tipo") +
  theme_minimal() +
  theme(panel.grid.major = element_blank(), 
        panel.grid.minor = element_blank()) +
  scale_y_continuous(breaks = seq(0, max(c(observados3, esperados3)), by = 5))

Planteamiento de la Prueba de Hipótesis

Se desea investigar si los fondos de inversión seleccionados del 25% más rentable en el periodo 1979-1983 tienen la misma probabilidad de caer en cualquiera de las cuatro categorías de rendimiento en el periodo 1984-1989.

\(X\) = Rendimiento de los fondos de inversión

Prueba de Hipótesis:

  • (\(H_0\)): \(X \sim\ Uniforme\) vs
  • (\(H_a\)): \(X \not\sim\ Uniforme\)
alpha <- 0.05
k = 4
# Valor crítico para alpha = 0.05
valor_critico <- round(qchisq(alpha, k-1,lower.tail=F),4)
(paste('Valor critico = ',valor_critico))
## [1] "Valor critico =  7.8147"
# Obtener el valor p de la prueba Chi-cuadrado
p_value = round(pchisq(sum(chi_cuadrado),k-1,lower.tail=F),4)
(paste('P_Valor = ',p_value))
## [1] "P_Valor =  0.4965"

\(\chi^2 \notin \text{RC}, \quad \chi^2 = 2.38 < 7.81\), lo que nos lleva a no rechazar la hipótesis nula (\(H_0\)): \(X \sim\ Uniforme\). Esto sugiere que la variable \(X\) sigue una distribución uniforme.

Además, el valor \([P_{\text{valor}} = 0.4965 \quad \text{es mayor que} \quad \alpha = 0.05.]\), por lo tanto, tampoco rechazamos (\(H_0\)): \(X \sim\ Uniforme\) en este contexto.

En conclusión, no hay evidencia suficiente para afirmar que los fondos tienen probabilidades diferentes de encontrarse en las distintas categorías. Así, un fondo elegido al azar entre 1984 y 1989 tiene la misma probabilidad de clasificarse en cualquiera de las cuatro categorías de rendimiento correspondientes al período de 1979 a 1983.

Ejercicio 4

Durante 200 minutos se ha contabilizado el número de clientes que llegaban a un supermercado, siendo los resultados los que aparecen en la siguiente tabla. El número medio de clientes que llegan por minuto fue de 2.3.

Contrastar la hipótesis nula de que la distribución de clientes que llegan al supermercado es una Poisson.

N° de clientes por minuto Frecuencia observada
0 16
1 50
2 51
3 44
4 28
5 o más 11

Preparación de los datos

X= Número de clientes que llegan a un supermercado

clientes_por_minuto <- c(0, 1, 2, 3, 4, 5)
frecuencia_observada_clientes4 <- c(16, 50, 51, 44, 28, 11)

# Media (lambda) de la distribución Poisson
lambda <- 2.3

Prueba \(\chi^2\)

n=200
#"El nro de clases es k = 6"
k=6
#"El nivel se significancia es"
a=0.05
#"----Clase 1.  X = 0----"
O1=16
p1=dpois(0,lambda)
E1=n*p1
chi1=(O1-E1)^2/E1

#"----Clase 2.  X = 1----"
O2=50
p2=dpois(1,lambda)
E2=n*p2
chi2=(O2-E2)^2/E2

#"---- Clase 3.  X = 2 ----"
O3=51
p3=dpois(2,lambda)
E3=n*p3
chi3=(O3-E3)^2/E3

#"---- Clase 4.  X = 3 ----"
O4=44
p4=dpois(3,lambda)
E4=n*p4
chi4=(O4-E4)^2/E4

#"---- Clase 5.  X = 4 ----"
O5=28
p5=dpois(4,lambda)
E5=n*p5
chi5=(O5-E5)^2/E5

#"---- Clase 6.  X = 5 o mas ----"
O6=11
p6=1-p1-p2-p3-p4-p5
E6=n*p6
chi6=(O6-E6)^2/E6

F_O=c(O1, O2, O3, O4, O5, O6)
#"Las probabilidades P_I son"
P_I=c(p1, p2, p3, p4, p5, p6)
#"Las frecuencias esperadas son"
F_E=c(E1, E2, E3, E4, E5, E6)
chi= c(chi1,chi2,chi3,chi4,chi5,chi6)
#"La estadística calculada es"
Chi_C=sum(((F_O-F_E)^2)/F_E)
tabla4= data.frame(
  N_Clientes_x_minuto = c(clientes_por_minuto,'Total'),
  Frec_Obs= c(O1, O2, O3, O4, O5, O6,sum(F_O)),
  Prob= round(c(p1, p2, p3, p4, p5, p6,sum(P_I)),4),
  Frec_Esp= round(c(E1, E2, E3, E4, E5, E6,sum(F_E)),0),
  Est_calc= round(c(chi1,chi2,chi3,chi4,chi5,chi6,Chi_C),4)
)
tabla4
##   N_Clientes_x_minuto Frec_Obs   Prob Frec_Esp Est_calc
## 1                   0       16 0.1003       20   0.8187
## 2                   1       50 0.2306       46   0.3266
## 3                   2       51 0.2652       53   0.0782
## 4                   3       44 0.2033       41   0.2741
## 5                   4       28 0.1169       23   0.9127
## 6                   5       11 0.0838       17   1.9740
## 7               Total      200 1.0000      200   4.3843

Grafica de comparación

datos_combined4 <- data.frame(
  Clientes_por_Minuto = rep(clientes_por_minuto, 2),
  Frecuencia = c(frecuencia_observada_clientes4, round(c(E1, E2, E3, E4, E5, E6), 0)),
  Tipo = rep(c("Observada", "Esperada"), each = length(clientes_por_minuto))
)

# Graficar
library(ggplot2)

ggplot(datos_combined4, aes(x = factor(Clientes_por_Minuto), y = Frecuencia, fill = Tipo)) +
  geom_bar(stat = "identity", position = position_dodge(width = 0.9)) +
  scale_fill_manual(values = c("lightcoral", "skyblue"), 
                    labels = c("Observada", "Esperada")) +
  labs(title = "Frecuencias Observadas y Esperadas de Clientes por Minuto",
       x = "Número de Clientes por Minuto",
       y = "Frecuencia",
       fill = "Tipo") +
  theme_minimal() +
  theme(panel.grid.major = element_blank(), 
        panel.grid.minor = element_blank()) +
  scale_y_continuous(breaks = seq(0, max(c(frecuencia_observada_clientes4, round(c(E1, E2, E3, E4, E5, E6), 0))), by = 5))

Planteamiento de la Prueba de Hipótesis

El objetivo de esta prueba es determinar si el número de clientes que llegan al supermercado por minuto sigue una distribución de Poisson con una media de 2.3

\(X\) = Número de clientes que llegan a un supermercado

Prueba de Hipótesis:

  • (\(H_0\)): \(X \sim\ Poisson (\lambda=2.3)\) vs
  • (\(H_a\)): \(X \not\sim\ Poisson (\lambda=2.3)\)
# Valor crítico para alpha = 0.05
alpha <- 0.05
valor_critico <- round(qchisq(alpha,k-1,lower.tail=F),4)

# Resultado de la prueba
p_value <- round(1 - pchisq(Chi_C, k-1),4)

# Mostrar resultados
print(paste("El valor crítico es: ", valor_critico))
## [1] "El valor crítico es:  11.0705"
print(paste("El valor p es: ", p_value))
## [1] "El valor p es:  0.4955"

\([\chi^2 \notin \text{RC}, \quad \chi^2 = 4.38 < 11.07]\), no pertenece a la región crítica, por lo tanto, no rechazamos (\(H_0\)): \(X \sim\ Poisson (\lambda=2.3)\). Esto indica que \(X \sim \text{Poisson}\).

\([P_{\text{valor}} = 0.4955 > 0.05]\). No rechazamos (\(H_0\)): \(X \sim\ Poisson (\lambda=2.3)\). Esto sugiere que \((X \sim \text{Poisson})\).

En conclusión, no hay evidencia suficiente para afirmar que la distribución de clientes que llegan al supermercado no sigue una distribución de Poisson.

Ejericico 5

Diariamente, de lunes a sábado, un panadero hornea tres pasteles grandes de chocolate, y los que no se venden el mismo día se regalan a un banco de comida. Use los datos mostrados en la tabla siguiente para probar en el nivel 0.05 de significancia si se pueden considerar como valores de una variable aleatoria binomial:

Número de pasteles vendidos Número de días
0 1
1 9
2 69
3 221
Total 300

Preparación de los datos

\(X\) = Número de pasteles horneados vendidos

dias <- c(1, 9, 69, 221)
pasteles_vendidos <- c(0, 1, 2, 3)

# Total de días y pasteles vendidos
total_dias <- sum(dias)
total_pasteles_vendidos <- sum(pasteles_vendidos * dias)

# Cálculo de p
n <- 3 # Número de pasteles horneados
p <- total_pasteles_vendidos / (total_dias * n)
print(paste("El valor de p es:", p))
## [1] "El valor de p es: 0.9"
frecuencias_esperadas <- dbinom(pasteles_vendidos, n, p) * total_dias
print(paste("Las frecuentas esperadas son: ", paste(round(frecuencias_esperadas,4), collapse = ", ")))
## [1] "Las frecuentas esperadas son:  0.3, 8.1, 72.9, 218.7"
frecuencia_ventas_observadas <- dias
print(paste("Las frecuentas observadas en este caso serían: ", paste(frecuencia_ventas_observadas, collapse = ", ")))
## [1] "Las frecuentas observadas en este caso serían:  1, 9, 69, 221"

Grafica de comparación entre variables

datos_combined_pasteles <- data.frame(
  Pasteles_Vendidos = rep(pasteles_vendidos, 2),
  Frecuencia = c(dias, round(frecuencias_esperadas, 0)),
  Tipo = rep(c("Observada", "Esperada"), each = length(pasteles_vendidos))
)

ggplot(datos_combined_pasteles, aes(x = factor(Pasteles_Vendidos), y = Frecuencia, fill = Tipo)) +
  geom_bar(stat = "identity", position = position_dodge(width = 0.9)) +
  scale_fill_manual(values = c("lightcoral", "skyblue"), 
                    labels = c("Observada", "Esperada")) +
  labs(title = "Frecuencias Observadas y Esperadas de Pasteles Vendidos",
       x = "Número de Pasteles Vendidos",
       y = "Frecuencia",
       fill = "Tipo") +
  theme_minimal() +
  theme(panel.grid.major = element_blank(), 
        panel.grid.minor = element_blank())

Prueba \(\chi^2\)

chi_cuadrado <- ((frecuencia_ventas_observadas - frecuencias_esperadas)^2 / frecuencias_esperadas)

tabla5= data.frame(
  c0=c(0,1,2,3,'Total'),
  c1= c(frecuencia_ventas_observadas,sum(frecuencia_ventas_observadas)),
  C2= round(c(frecuencias_esperadas,sum(frecuencias_esperadas)),0),
  c3= round(c(chi_cuadrado,sum(chi_cuadrado)),4)
)
colnames(tabla5)= c('Pasteles_vendidos','Frec_Obs','Frec_Esp','Est_calc')
tabla5
##   Pasteles_vendidos Frec_Obs Frec_Esp Est_calc
## 1                 0        1        0   1.6333
## 2                 1        9        8   0.1000
## 3                 2       69       73   0.2086
## 4                 3      221      219   0.0242
## 5             Total      300      300   1.9662

Planteamiento de la Prueba de Hipótesis

El objetivo de esta prueba es determinar si el número de pasteles vendidos sigue una distribución binomial.

\(X\) = Número de pasteles horneados vendidos

Prueba de Hipótesis:

  • (\(H_0\)): \(\quad X \sim \text{Binomial}(n=3, p=0.9)\) para k = 0, 1, 2, 3$. El número de pasteles vendidos sigue una distribución binomial.

  • (\(H_a\)): \(\quad X \not\sim \text{Binomial}(n=3, p=0.9)\) para k = 0, 1, 2, 3 El número de pasteles vendidos no sigue una distribución binomial.

k=4
#Valor crítico para alpha = 0.05
alpha <- 0.05
vc= round(qchisq(alpha,k-1,lower.tail=F),4)
print(paste("El valor_critico de esta prueba es :", vc))
## [1] "El valor_critico de esta prueba es : 7.8147"
pv= round(pchisq(sum(chi_cuadrado),k-1,lower.tail=F),4)
print(paste("El valor_p de esta prueba es :", pv))
## [1] "El valor_p de esta prueba es : 0.5795"

Conclusión

\([\chi^2 \notin \text{RC} \quad \chi^2 = 1.97 < 7.81 ]\) No pertenece a la región crítica, por lo tanto, no rechazamos (\(H_0\)): \(\quad X \sim \text{Binomial}(n=3, p=0.9)\).

Además, el valor p \((P_{\text{valor}} = 0.5794 > 0.05)\), por lo que tampoco rechazamos (\(H_0\)): \(\quad X \sim \text{Binomial}(n=3, p=0.9)\).

No hay evidencia suficiente para afirmar que el número de pasteles horneados vendidos no sigue una distribución binomial.

Ejercicio 6

Una muestra aleatoria de cien representantes que asistieron a un curso sobre técnicas de venta se sometió a estudio durante los tres meses anteriores y los tres meses posteriores a dicho curso. La tabla siguiente muestra los importes de las ventas, en millones de pesos generadas por cada uno de los agentes en los dos períodos, donde X son las ventas antes del curso, e Y son las ventas después del curso.

Usando las pruebas de Bondad del Ajuste y la prueba de Jarque y Bera, determine si \(X\) e \(Y\) distribuyen de forma normal. Utilice un nivel de significancia del 5%.

Preparación de los datos

datos5 <- data.frame(
  Agente = 1:100,
  X = c(330.2, 308.5, 259, 322.9, 299.8, 306, 309.9, 264.1, 305.3, 318, 281.2, 290.9, 283.5, 293.9, 275.1, 292.2, 293.8, 307.9, 321.9, 297.3, 313, 328, 300.9, 273, 285.2, 277, 294.2, 332.2, 300.5, 330, 293.8, 308.1, 281.1, 312.5, 296.1, 305.4, 296.9, 278.2, 313.6, 262.9, 296.5, 270.3, 275.1, 305.4, 244.9, 292.2, 310.8, 339.9, 295.9, 293.3, 301.6, 273.9, 306.9, 268, 291.3, 299.6, 290.4, 310, 311, 316, 309.8, 309.9, 288.6, 284.1, 276.7,306.4, 325.6, 316.3, 295.1, 308.3, 298.1, 319.9, 303.8, 273.6, 329.2, 313.1, 329.9, 316.7, 301, 307.7, 303.3, 286.9, 280.5, 271.3, 290.1, 302.8, 283.2, 315.7, 315.5, 302.8, 288.5, 311.6, 318.9, 305.8, 299, 301.8, 304.9, 313.7, 314.8, 316.6),
  Y = c(342.6, 319.1, 268.5, 330, 313, 313.9, 320.2, 273.3, 314.5, 325.8, 290.6, 298.5, 295, 303.6, 284, 301.4, 303.3, 315.9, 332.2, 308.9, 324.8, 336.4, 311.7, 280.6, 296, 288.2, 304.9, 341.2, 308.4, 337.4, 303.5, 320.6, 289.8, 321.7, 306.5, 314.7, 306.4, 288.6, 325.3, 272.6, 309.8, 281.1, 286.5, 315.5, 255.6, 302, 320.1, 349.7, 303.7, 304.8, 309.7, 285.8, 317.7, 278.6, 301.8, 309, 299.6, 319.4, 321.9, 324.9, 326.7, 321.2, 300.3, 293, 285.9, 310.3, 337.4, 327.4, 306.1, 316.7, 307.1, 330.8, 314.4, 284.4, 341.3, 321.3, 336.1, 324.9, 313.4, 316.7, 313.2, 294.6, 289.4, 280.5, 298.4, 315.8, 292.1, 326.3, 327.7, 308.1, 298.9, 320.1, 333.3, 313.9, 305, 313.4, 316.7, 323.2, 322.5, 326.2))

\(X\) = Ventas antes del curso, \(Y\)= Ventas después del curso.

Dado que la media y la desviación estandar para \(X\) e \(Y\) es desconocida, hay que estimarlos, por lo tanto \(r=2\)

#Se calcula la media y desviación estándar para cada variable
mean_X <- mean(datos5$X)
sd_X <- round(sd(datos5$X),4)

mean_Y <- mean(datos5$Y)
sd_Y <- round(sd(datos5$Y),4)

print(paste("La media de X es:" , mean_X, paste("y su desviación estándar es de:", sd_X)))
## [1] "La media de X es: 299.785 y su desviación estándar es de: 17.9999"
print(paste("La media de Y es:" , mean_Y, paste("y su desviación estándar es de:", sd_Y)))
## [1] "La media de Y es: 309.655 y su desviación estándar es de: 18.0698"

Para la realización del contraste dividimos la muestra en \(k=7\) clases. La longitud de cada clase es 14

w=(max(datos5$X)-min(datos5$X))/7
w
## [1] 13.57143
#Distribución de frecuencias de X
Rx=14*7-(max(datos5$X)-min(datos5$X))
Rx
## [1] 3
#Distribuimos 1 unidad a la izquierda del mínimo, y 2 a la izquierda del máximo de los datos de X

min(datos5$X)
## [1] 244.9
max(datos5$X)
## [1] 339.9
dist_X = fdt(datos5$X, start = 243.9, end = 341.9, h=14, right=T)
dist_X
##   Class limits  f   rf rf(%)  cf cf(%)
##  (243.9,257.9]  1 0.01     1   1     1
##  (257.9,271.9]  6 0.06     6   7     7
##  (271.9,285.9] 15 0.15    15  22    22
##  (285.9,299.9] 24 0.24    24  46    46
##  (299.9,313.9] 34 0.34    34  80    80
##  (313.9,327.9] 13 0.13    13  93    93
##  (327.9,341.9]  7 0.07     7 100   100
#Distribución de frecuencias de Y
min(datos5$Y)
## [1] 255.6
max(datos5$Y)
## [1] 349.7
Ry=14*7-(max(datos5$Y)-min(datos5$Y))
Ry
## [1] 3.9
dist_Y = fdt(datos5$Y, start = 253.6, end = 352.6, h=14, right=T)
dist_Y
##   Class limits  f   rf rf(%)  cf cf(%)
##  (253.6,267.6]  1 0.01     1   1     1
##  (267.6,281.6]  7 0.07     7   8     8
##  (281.6,295.6] 14 0.14    14  22    22
##  (295.6,309.6] 24 0.24    24  46    46
##  (309.6,323.6] 32 0.32    32  78    78
##  (323.6,337.6] 18 0.18    18  96    96
##  (337.6,351.6]  4 0.04     4 100   100

Gráfica de comparación entre las variables

plot(density(datos5$X), col=2, lty = 2, lwd = 1, main = "Curva de densidad X")

plot(density(datos5$Y), col=2, lty = 2, lwd = 1, main = "Curva de densidad Y")

#Según los gráficos anteriores, se evidencia que los datos de X y Y se pueden distribuir de forma normal.

Planteamiento de la Prueba de Hipótesis

El objetivo de la prueba de hipótesis en este caso es evaluar si las distribuciones de las ventas de los agentes antes \((X)\) y después \((Y)\) del curso de técnicas de venta se ajustan a una distribución normal.

\(X\) = Ventas antes del curso Y= Ventas después del curso

Prueba de Hipótesis:

  • (\(H_0\)): \(X \sim N(\mu_X, \sigma_X^2)\) vs (\(H_a\)): \(X \not\sim N(\mu_X, \sigma_X^2)\)

  • (\(H_0\)): \(Y \sim N(\mu_Y, \sigma_Y^2)\) vs (\(H_a\)): \(Y \not\sim N(\mu_Y, \sigma_Y^2)\)

  • El nivel de significancia para tomar la decisión de si se acepta o rechaza la hipótesis nula \((H_0)\) es de \(\alpha = 0.05\).

###Prueba de bondad de ajuste

#Región critica
alpha=0.05
k=7
r=2
vc = qchisq(alpha,k-1-r,lower.tail=F)
vc
## [1] 9.487729

Chi cuadrado para X

n=100
#"----Clase 1.  243.9<X<=257.9 ----"
#" Freq. Observada"
O1 = 1
#" Freq. Esperada"
#"La probabilidad p1"
p1=pnorm(257.9, mean_X, sd_X)
#"La freq. E1 es"
E1 = n*p1
#"El valor chi1"
chi1=(O1-E1)^2/E1

#"----Clase 2.  257.9<X<=271.9 ----"
#" Freq. Observada"
O2 = 6
#" Freq. Esperada"
#"La probabilidad p2"
p2=pnorm(271.9, mean_X, sd_X)-pnorm(257.9, mean_X, sd_X)
#"La freq. E2 es"
E2 = n*p2
#"El valor chi2"
chi2=(O2-E2)^2/E2

#"----Clase 3.  271.9<X<=285.9 ----"
#" Freq. Observada"
O3 = 15
#" Freq. Esperada"
#"La probabilidad p3"
p3=pnorm(285.9, mean_X, sd_X)-pnorm(271.9, mean_X, sd_X)
#"La freq. E3 es"
E3 = n*p3
#"El valor chi3"
chi3=(O3-E3)^2/E3

#"----Clase 4.  285.9<X<=299.9 ----"
#" Freq. Observada"
O4 = 24
#" Freq. Esperada"
#"La probabilidad p4"
p4=pnorm(299.9, mean_X, sd_X)-pnorm(285.9, mean_X, sd_X)
#"La freq. E4 es"
E4 = n*p4
#"El valor chi4"
chi4=(O4-E4)^2/E4

#"----Clase 5.  299.9<X<=313.9 ----"
#" Freq. Observada"
O5 = 34
#" Freq. Esperada"
#"La probabilidad p5"
p5=pnorm(313.9, mean_X, sd_X)-pnorm(299.9, mean_X, sd_X)
#"La freq. E5 es"
E5 = n*p5
#"El valor chi5"
chi5=(O5-E5)^2/E5

#"----Clase 6.  313.9<X<=327.9 ----"
#" Freq. Observada"
O6 = 13
#" Freq. Esperada"
#"La probabilidad p6"
p6=pnorm(327.9, mean_X, sd_X)-pnorm(313.9, mean_X, sd_X)
#"La freq. E6 es"
E6 = n*p6
#"El valor chi6"
chi6=(O6-E6)^2/E6


#"----Clase 7.  327.9<X<=341.9 ----"
#Debido a que la normal es continua, calculamos la probabilidad a la derecha
#" Freq. Observada"
O7 = 7
#" Freq. Esperada"
#"La probabilidad p7"
p7=pnorm(327.9, mean_X, sd_X,lower.tail = F)
#"La freq. E7 es"
E7 = n*p7
#"El valor chi7"
chi7=(O7-E7)^2/E7

F_O=c(O1,O2,O3,O4,O5,O6,O7)
F_E=c(E1,E2,E3,E4,E5,E6,E7)
P_i=c(p1,p2,p3,p4,p5,p6,p7)
chi_cua=c(chi1,chi2,chi3,chi4,chi5,chi6,chi7)
tabla6= data.frame(
  c0=c('(243.9,257.9]','(257.9,271.9]','(271.9,285.9]','(285.9,299.9]','(299.9,313.9]','(313.9,327.9]','(327.9,341.9]','Total'),
  c1=c(O1,O2,O3,O4,O5,O6,O7,sum(F_O)),
  c=round(c(p1,p2,p3,p4,p5,p6,p7,sum(P_i)),4),
  c2=round(c(E1,E2,E3,E4,E5,E6,E7,sum(F_E)),0),
  c3=round(c(chi1,chi2,chi3,chi4,chi5,chi6,chi7,sum(chi_cua)),4)
)
colnames(tabla6)=c('Clases-X','Frec_Obs','Pi= P[Ci]','Frec_Esp','Est_Calc')
tabla6
##        Clases-X Frec_Obs Pi= P[Ci] Frec_Esp Est_Calc
## 1 (243.9,257.9]        1    0.0100        1   0.0000
## 2 (257.9,271.9]        6    0.0507        5   0.1712
## 3 (271.9,285.9]       15    0.1596       16   0.0574
## 4 (285.9,299.9]       24    0.2823       28   0.6342
## 5 (299.9,313.9]       34    0.2810       28   1.2397
## 6 (313.9,327.9]       13    0.1573       16   0.4744
## 7 (327.9,341.9]        7    0.0591        6   0.1990
## 8         Total      100    1.0000      100   2.7758
#P-valor para X
pvl=pchisq(sum(chi_cua),7-1-2,lower.tail = F)
pvl
## [1] 0.5960142

Chi cuadrado para Y

n=100
#"----Clase 1.  253.6<Y<=267.6 ----"
#" Freq. Observada"
O1 = 1
#" Freq. Esperada"
#"La probabilidad p1"
p1=pnorm(267.6, mean_Y, sd_Y)
#"La freq. E1 es"
E1 = n*p1
#"El valor chi1"
chi1=(O1-E1)^2/E1

#"----Clase 2.  267.6<Y<=281.6 ----"
#" Freq. Observada"
O2 = 7
#" Freq. Esperada"
#"La probabilidad p2"
p2=pnorm(281.6, mean_Y, sd_Y)-pnorm(267.6, mean_Y, sd_Y)
#"La freq. E2 es"
E2 = n*p2
#"El valor chi2"
chi2=(O2-E2)^2/E2

#"----Clase 3.  281.6<Y<=295.6 ----"
#" Freq. Observada"
O3 = 14
#" Freq. Esperada"
#"La probabilidad p3"
p3=pnorm(295.6, mean_Y, sd_Y)-pnorm(281.6, mean_Y, sd_Y)
#"La freq. E3 es"
E3 = n*p3
#"El valor chi3"
chi3=(O3-E3)^2/E3

#"----Clase 4.  295.6<Y<=309.6 ----"
#" Freq. Observada"
O4 = 24
#" Freq. Esperada"
#"La probabilidad p4"
p4=pnorm(309.6, mean_Y, sd_Y)-pnorm(295.6, mean_Y, sd_Y)
#"La freq. E4 es"
E4 = n*p4
#"El valor chi4"
chi4=(O4-E4)^2/E4

#"----Clase 5.  309.6<Y<=323.6 ----"
#" Freq. Observada"
O5 = 32
#" Freq. Esperada"
#"La probabilidad p5"
p5=pnorm(323.6, mean_Y, sd_Y)-pnorm(309.6, mean_Y, sd_Y)
#"La freq. E5 es"
E5 = n*p5
#"El valor chi5"
chi5=(O5-E5)^2/E5

#"----Clase 6.  323.6<Y<=337.6 ----"
#" Freq. Observada"
O6 = 18
#" Freq. Esperada"
#"La probabilidad p6"
p6=pnorm(337.6, mean_Y, sd_Y)-pnorm(323.6, mean_Y, sd_Y)
#"La freq. E6 es"
E6 = n*p6
#"El valor chi6"
chi6=(O6-E6)^2/E6


#"----Clase 7.  337.6<Y<=351.6 ----"
#Debido a que la normal es continua, calculamos la probabilidad a la derecha
#" Freq. Observada"
O7 = 4
#" Freq. Esperada"
#"La probabilidad p7"
p7=pnorm(337.6, mean_Y, sd_Y,lower.tail = F)
#"La freq. E7 es"
E7 = n*p7
#"El valor chi7"
chi7=(O7-E7)^2/E7

F_O=c(O1,O2,O3,O4,O5,O6,O7)
F_E=c(E1,E2,E3,E4,E5,E6,E7)
P_i=c(p1,p2,p3,p4,p5,p6,p7)
chi_cua=c(chi1,chi2,chi3,chi4,chi5,chi6,chi7)
tabla6= data.frame(
  c0=c('(253.6,267.6]','(267.6,281.6]','(281.6,295.6]','(295.6,309.6]','(309.6,323.6]','(323.6,337.6]','(337.6,351.6]','Total'),
  c1=c(O1,O2,O3,O4,O5,O6,O7,sum(F_O)),
  c=round(c(p1,p2,p3,p4,p5,p6,p7,sum(P_i)),4),
  c2=round(c(E1,E2,E3,E4,E5,E6,E7,sum(F_E)),0),
  c3=round(c(chi1,chi2,chi3,chi4,chi5,chi6,chi7,sum(chi_cua)),4)
)
colnames(tabla6)=c('Clases-Y','Frec_Obs','Pi= P[Ci]','Frec_Esp','Est_Calc')
tabla6
##        Clases-Y Frec_Obs Pi= P[Ci] Frec_Esp Est_Calc
## 1 (253.6,267.6]        1    0.0100        1   0.0000
## 2 (267.6,281.6]        7    0.0503        5   0.7727
## 3 (281.6,295.6]       14    0.1581       16   0.2067
## 4 (295.6,309.6]       24    0.2804       28   0.5833
## 5 (309.6,323.6]       32    0.2811       28   0.5390
## 6 (323.6,337.6]       18    0.1591       16   0.2733
## 7 (337.6,351.6]        4    0.0610        6   0.7225
## 8         Total      100    1.0000      100   3.0976
#P-valor para Y
pvl=pchisq(sum(chi_cua),7-1-2,lower.tail = F)
pvl
## [1] 0.5416346

Resultados de X e Y con bondad de ajuste

Resultados de X

\([\chi^2 \notin \text{RC} \quad \chi^2 = 2.7758 < 9.4877 ]\). No pertenece a la región crítica, por lo tanto, no rechazamos (\(H_0\)): \(X \sim N(\mu_X, \sigma_X^2)\).

Además, el valor_\(p\) es \((P_{\text{valor}} = 0.5960 > 0.05)\), por lo que tampoco rechazamos (\(H_0\)): \(X \sim N(\mu_X, \sigma_X^2)\). No hay evidencia suficiente para afirmar que las ventas antes del curso no siguen una distribución normal.

Resultados de Y

X^2 de Y ∉ RC X^2Y = 3.0976 < 9.4877 No pertenece a la región critica, por lo tanto no rechazamos Ho. Y~Normal. No hay evidencia suficiente para afirmar que las ventas después del curso no siguen una distribución normal.

P_valor= 0.5416 > 0.05, no rechazamos Ho. Y~Normal

\([\chi^2_Y \notin \text{RC} \quad \chi^2_Y = 3.0976 < 9.4877]\), no pertenece a la región crítica, por lo tanto, no rechazamos (\(H_0\)): \(Y \sim N(\mu_Y, \sigma_Y^2)\). No hay evidencia suficiente para afirmar que las ventas después del curso no siguen una distribución normal.

Además, el valor_\(p\) es \((P_{\text{valor}} = 0.5416 > 0.05)\), por lo que tampoco rechazamos (\(H_0\)): \(Y \sim N(\mu_Y, \sigma_Y^2)\).

Prueba de Jarque - Bera

jb_test_X <- jarque.bera.test(datos5$X)
jb_test_Y <- jarque.bera.test(datos5$Y)

jb_test_X
## 
##  Jarque Bera Test
## 
## data:  datos5$X
## X-squared = 2.6403, df = 2, p-value = 0.2671
jb_test_Y
## 
##  Jarque Bera Test
## 
## data:  datos5$Y
## X-squared = 2.4128, df = 2, p-value = 0.2993
Resultados para X e Y con la prueba de Jarque Bera
Resultados para X

\([P_{\text{valor}, X} = 0.2671 > 0.05]\), no se rechaza la hipótesis nula para \(X\): no hay evidencia suficiente para afirmar que las ventas antes del curso no siguen una distribución normal.

Resultados para Y

\([P_{\text{valor}, Y} = 0.2993 > 0.05]\), no se rechaza la hipótesis nula para \(Y\): no hay evidencia suficiente para afirmar que las ventas después del curso no siguen una distribución normal.

Ejercicio 7

Una muestra aleatoria de los salarios 100 hombres (X) y 100 mujeres (Y) de la profesión de Administración de Empresas, en millones de pesos. Datos en documento de excel.

Usando las pruebas de Bondad del Ajuste y la prueba de Jarque y Bera, determine si X e Y distribuyen de forma normal. Utilice un nivel de significancia del 5%.

#rm(list=ls())
#library(readxl) 
#Datos7 = read_excel("D:/Documentos/Maestria/Probabilidad y estadistica/Unidad 9 #Datos_E7_Bondad_Salario_Hombres_Mujeres.xls",col_names=T) 
#Datos7= data.frame(Datos7)

Preparación de los datos

# Leer los datos
datos7 <- read.table(text = "
X   Y
3.4 3.01
3.59    3.87
4.37    3.47
3.97    3.54
4.42    3.53
2.66    2.83
4.21    3.61
2.94    3.52
3.81    3.88
4.34    3.35
4.51    3.69
4.74    3.45
4.95    3.51
3.81    3.4
4.2 2.76
3.22    3.58
3.54    2.99
2.53    3.42
3.34    3.78
4.97    3.69
3.98    3.21
4.16    4.17
4.19    3.41
4.2 3.76
3.89    3.8
3.99    3.11
4.13    3.33
3.06    3.51
3.77    3.67
3.31    3.52
3.46    3.28
4.43    3.5
3.88    3.5
3.39    4.14
3.74    3.98
2.64    3.69
2.68    3.51
4.12    3.56
4.16    4.1
4.1 3.8
4.35    3.95
3.67    3.8
4.03    4.43
3.24    3.55
4.14    3.75
3.72    2.94
4.39    3.08
4.08    3.48
3.55    3.14
3.28    3.28
4.23    3.89
4.31    3.98
2.98    3.8
2.92    4.43
4.46    2.9
3.68    3.42
4.39    3.97
3.94    2.6
3.35    3.26
3.51    3.56
4.78    3.52
4.09    3.25
3.83    3.67
4.22    2.81
4.24    3.69
4.68    3.6
3.44    2.64
3.42    2.96
3.21    3.48
3.59    3.75
4.48    3.85
3.74    4.3
3.56    3.6
3.72    3.5
3.58    3.98
3.91    3.5
3.12    3.25
4.17    3.74
3.48    3.76
4.31    4.04
4.76    4.1
3.87    3.61
4.65    3.44
3.34    3.78
4.05    3.67
4.3 3.77
3.74    3.74
3.56    3.87
4.56    3.37
4.48    3.76
3.69    3.47
3.74    3.67
3.91    3.38
3.86    3.94
4.2 3.6
4.63    4.11
4.41    3.76
3.53    3.05
3.51    3.46
3.6 2.9
", header = TRUE)
total_datos <- nrow(datos7)

# Contar los datos por cada variable
total_X <- sum(!is.na(datos7$X))  # Cuenta los valores no NA en X
total_Y <- sum(!is.na(datos7$Y))  # Cuenta los valores no NA en Y

# Imprimir los resultados
print(paste("Total de datos:", total_datos))
## [1] "Total de datos: 100"
print(paste("Total de datos en X:", total_X))
## [1] "Total de datos en X: 100"
print(paste("Total de datos en Y:", total_Y))
## [1] "Total de datos en Y: 100"

\(X\) = Salario de los hombres de administración de empresas } \(Y\)= Salario de las mujeres de administración de empresas.

Dado que la media y la desviación estandar para \(X\) y \(Y\) es desconocida, hay que estimarlos, por lo tanto \(r=2\)

#Se calcula la media y desviación estándar para cada variable
mean_Xt <- mean(datos7$X)
sd_Xt <- sd(datos7$X)

mean_Yt <- mean(datos7$Y)
sd_Yt <- sd(datos7$Y)

print(paste("La media de X es:" , mean_Xt, paste("y su desviación estándar es de:", sd_Xt)))
## [1] "La media de X es: 3.8698 y su desviación estándar es de: 0.533196914371182"
print(paste("La media de Y es:" , mean_Yt, paste("y su desviación estándar es de:", sd_Yt)))
## [1] "La media de Y es: 3.5598 y su desviación estándar es de: 0.371804173503127"

Para la realización del contraste dividimos la muestra en \(k=6\) clases. La longitud de cada clase es 0.41

lo=(max(datos7$X)-min(datos7$X))/6
#Distribución de frecuencias de X
Rx=0.41*6-(max(datos7$X)-min(datos7$X))
#Distribuimos 0.43 unidad a la izquierda del mínimo
library(fdth)
max=max(datos7$X)
min=min(datos7$X)
dist_X = fdt(datos7$X, start = 2.51, end = 4.97, h=0.41, right=T)
dist_X
##  Class limits  f   rf rf(%)  cf cf(%)
##   (2.51,2.92]  5 0.05     5   5     5
##   (2.92,3.33]  9 0.09     9  14    14
##   (3.33,3.74] 25 0.25    25  39    39
##   (3.74,4.15] 26 0.26    26  65    65
##   (4.15,4.56] 27 0.27    27  92    92
##   (4.56,4.97]  8 0.08     8 100   100

###Distribución de frecuencias de Y

#Distribución de frecuencias de Y
mi=min(datos7$Y)
ma=max(datos7$Y)
l=(max(datos7$Y)-min(datos7$Y))/6

Ry=l*6-(max(datos7$Y)-min(datos7$Y))

dist_Y = fdt(datos7$Y, start = 2.295, end = 4.43, h=l, right=T)
dist_Y
##  Class limits  f   rf rf(%)  cf cf(%)
##   (2.295,2.6]  0 0.00     0   0     0
##   (2.6,2.905]  7 0.07     7   7     7
##  (2.905,3.21]  9 0.09     9  16    16
##  (3.21,3.515] 27 0.27    27  43    43
##  (3.515,3.82] 37 0.37    37  80    80
##  (3.82,4.125] 15 0.15    15  95    95
##  (4.125,4.43]  5 0.05     5 100   100

Grafica de densidad de los datos

plot(density(datos7$X), col=2, lty = 2, lwd = 1, main = "Curva de densidad X")

plot(density(datos7$Y), col=2, lty = 2, lwd = 1, main = "Curva de densidad Y")

#Según los gráficos anteriores, se evidencia que los datos de X y Y se pueden distribuir de forma normal.

Planteamiento de la Prueba de Hipótesis

El objetivo de la prueba de hipótesis en este caso es evaluar si los salarios de los hombres \((X)\) y mujeres \((Y)\) de Administración de Empresas se ajustan a una distribución normal.

Prueba de Hipótesis: X= Salario de los hombres de administración de empresas Y= Salario de las mujeres de administración de empresas.

  • (\(H_0\)): \(X \sim N(\mu_X, \sigma_X^2)\) vs (\(H_a\)): \(X \not\sim N(\mu_X, \sigma_X^2)\)

  • (\(H_0\)): \(Y \sim N(\mu_Y, \sigma_Y^2)\) vs (\(H_a\)): \(Y \not\sim N(\mu_Y, \sigma_Y^2)\)

  • El nivel de significancia para tomar la decisión de si se acepta o rechaza la hipótesis nula \((H_0)\) es de \(\alpha = 0.05\).

Prueba de bondad de ajuste

#Región critica
alpha=0.05
k=6
r=2
vc=qchisq(alpha,k-1-r,lower.tail=F)
vc
## [1] 7.814728

Chi cuadrado para X, salario de los hombres

m=100
#"----Clase 1.  2.51<X<=2.92 ----"
#" Freq. Observada"
O1 = 5
#" Freq. Esperada"
#"La probabilidad p1"
p1=pnorm(2.92, mean_Xt, sd_Xt)
#"La freq. E1 es"
E1 = m*p1
#"El valor chi1"
chi1=(O1-E1)^2/E1

#"----Clase 2.  2.92<X<=3.33 ----"
#" Freq. Observada"
O2 = 9
#" Freq. Esperada"
#"La probabilidad p2"
p2=pnorm(3.33, mean_Xt, sd_Xt)-pnorm(2.92, mean_Xt, sd_Xt)
#"La freq. E2 es"
E2 = m*p2
#"El valor chi2"
chi2=(O2-E2)^2/E2

#"----Clase 3.  3.33<X<=3.74 ----"
#" Freq. Observada"
O3 = 25
#" Freq. Esperada"
#"La probabilidad p3"
p3=pnorm(3.74, mean_Xt, sd_Xt)-pnorm(3.33, mean_Xt, sd_Xt)
#"La freq. E3 es"
E3 = m*p3
#"El valor chi3"
chi3=(O3-E3)^2/E3

#"----Clase 4.  3.74<X<=4.15 ----"
#" Freq. Observada"
O4 = 26
#" Freq. Esperada"
#"La probabilidad p4"
p4=pnorm(4.15, mean_Xt, sd_Xt)-pnorm(3.74, mean_Xt, sd_Xt)
#"La freq. E4 es"
E4 = m*p4
#"El valor chi4"
chi4=(O4-E4)^2/E4

#"----Clase 5.  4.15<X<=4.56 ----"
#" Freq. Observada"
O5 = 27
#" Freq. Esperada"
#"La probabilidad p5"
p5=pnorm(4.56, mean_Xt, sd_Xt)-pnorm(4.15, mean_Xt, sd_Xt)
#"La freq. E5 es"
E5 = m*p5
#"El valor chi5"
chi5=(O5-E5)^2/E5

#"----Clase 6.  4.56<X<=4.97 ----"
#Debido a que la normal es continua, calculamos la probabilidad a la derecha
#" Freq. Observada"
O6 = 8
#" Freq. Esperada"
#"La probabilidad p6"
p6=pnorm(4.56, mean_Xt, sd_Xt,lower.tail=F)
#"La freq. E6 es"
E6 = m*p6
#"El valor chi6"
chi6=(O6-E6)^2/E6

F_O=c(O1,O2,O3,O4,O5,O6)
F_E=c(E1,E2,E3,E4,E5,E6)
P_i=c(p1,p2,p3,p4,p5,p6)
chi_cua=c(chi1,chi2,chi3,chi4,chi5,chi6)
tabla7= data.frame(
  c0=c('(2.51,2.92]','(2.92,3.33]','(3.33,3.74]','(3.74,4.15]','(4.15,4.56]','(4.56,4.97]', 'Total'),
  c1=c(O1,O2,O3,O4,O5,O6,sum(F_O)),
  c=round(c(p1,p2,p3,p4,p5,p6,sum(P_i)),4),
  c2=round(c(E1,E2,E3,E4,E5,E6,sum(F_E)),0),
  c3=round(c(chi1,chi2,chi3,chi4,chi5,chi6,sum(chi_cua)),4)
)
colnames(tabla7)=c('Clases-X','Frec_Obs','Pi= P[Ci]','Frec_Esp','Est_Calc')
tabla7
##      Clases-X Frec_Obs Pi= P[Ci] Frec_Esp Est_Calc
## 1 (2.51,2.92]        5    0.0374        4   0.4222
## 2 (2.92,3.33]        9    0.1182       12   0.6748
## 3 (3.33,3.74]       25    0.2482       25   0.0014
## 4 (3.74,4.15]       26    0.2966       30   0.4505
## 5 (4.15,4.56]       27    0.2019       20   2.3001
## 6 (4.56,4.97]        8    0.0978       10   0.3224
## 7       Total      100    1.0000      100   4.1714
#"El valor p es"
p_v=pchisq(sum(chi_cua), 6-1-2, lower.tail = F)
p_v
## [1] 0.2435365
"----- La decision -------"
## [1] "----- La decision -------"
if(p_v>=0.05) {print("El salario de los hombres distribuye de forma normal")} else{ print("El salario de los hombres no distribuye de forma normal")}
## [1] "El salario de los hombres distribuye de forma normal"

Chi cuadrado para Y, salario de las mujeres

m=100
#"----Clase 1.  2.6<Y<=2.905 ----"
#" Freq. Observada"
O1 = 7
#" Freq. Esperada"
#"La probabilidad p1"
p1=pnorm(2.905, mean_Yt, sd_Yt)
#"La freq. E1 es"
E1 = m*p1
#"El valor chi1"
chi1=(O1-E1)^2/E1

#"----Clase 2.  2.905<Y<=3.21 ----"
#" Freq. Observada"
O2 = 9
#" Freq. Esperada"
#"La probabilidad p2"
p2=pnorm(3.21, mean_Yt, sd_Yt)-pnorm(2.905, mean_Yt, sd_Yt)
#"La freq. E2 es"
E2 = m*p2
#"El valor chi2"
chi2=(O2-E2)^2/E2

#"----Clase 3.  3.21<Y<=3.515 ----"
#" Freq. Observada"
O3 = 27
#" Freq. Esperada"
#"La probabilidad p3"
p3=pnorm(3.515, mean_Yt, sd_Yt)-pnorm(3.21, mean_Yt, sd_Yt)
#"La freq. E3 es"
E3 = m*p3
#"El valor chi3"
chi3=(O3-E3)^2/E3

#"----Clase 4.  3.515<Y<=3.82 ----"
#" Freq. Observada"
O4 = 37
#" Freq. Esperada"
#"La probabilidad p4"
p4=pnorm(3.82, mean_Yt, sd_Yt)-pnorm(3.515, mean_Yt, sd_Yt)
#"La freq. E4 es"
E4 = m*p4
#"El valor chi4"
chi4=(O4-E4)^2/E4

#"----Clase 5.  3.82<Y<=4.125 ----"
#" Freq. Observada"
O5 = 15
#" Freq. Esperada"
#"La probabilidad p5"
p5=pnorm(4.125, mean_Yt, sd_Yt)-pnorm(3.82, mean_Yt, sd_Yt)
#"La freq. E5 es"
E5 = m*p5
#"El valor chi5"
chi5=(O5-E5)^2/E5

#"----Clase 6.  4.125<Y<=4.43 ----"
#" Freq. Observada"
O6 = 5
#" Freq. Esperada"
#"La probabilidad p6"
p6=pnorm(4.125, mean_Yt, sd_Yt,lower.tail=F)
#"La freq. E6 es"
E6 = m*p6
#"El valor chi6"
chi6=(O6-E6)^2/E6


F_O=c(O1,O2,O3,O4,O5,O6)
F_E=c(E1,E2,E3,E4,E5,E6)
P_i=c(p1,p2,p3,p4,p5,p6)
chi_cua=c(chi1,chi2,chi3,chi4,chi5,chi6)
tabla8= data.frame(
  c0=c('(2.6,2.905]','(2.905,3.21]','(3.21,3.515]','(3.515,3.82]','(3.82,4.125]','(4.125,4.43]','Total'),
  c1=c(O1,O2,O3,O4,O5,O6,sum(F_O)),
  c=round(c(p1,p2,p3,p4,p5,p6,sum(P_i)),4),
  c2=round(c(E1,E2,E3,E4,E5,E6,sum(F_E)),0),
  c3=round(c(chi1,chi2,chi3,chi4,chi5,chi6,sum(chi_cua)),4)
)
colnames(tabla8)=c('Clases-Y','Frec_Obs','Pi= P[Ci]','Frec_Esp','Est_Calc')
tabla8
##       Clases-Y Frec_Obs Pi= P[Ci] Frec_Esp Est_Calc
## 1  (2.6,2.905]        7    0.0391        4   2.4404
## 2 (2.905,3.21]        9    0.1343       13   1.4608
## 3 (3.21,3.515]       27    0.2786       28   0.0268
## 4 (3.515,3.82]       37    0.3059       31   1.3415
## 5 (3.82,4.125]       15    0.1778       18   0.4341
## 6 (4.125,4.43]        5    0.0642        6   0.3155
## 7        Total      100    1.0000      100   6.0191
#"El valor p es"
p_v=pchisq(sum(chi_cua), 6-1-2, lower.tail = F)
p_v
## [1] 0.1106841
"----- La decision -------"
## [1] "----- La decision -------"
if(p_v>=0.05) {print("El salario de las mujeres distribuye de forma normal")} else{ print("El salario de las mujeres no distribuye de forma normal")}
## [1] "El salario de las mujeres distribuye de forma normal"

Resultados de X e Y con bondad de ajuste

Resultados de X

\([X^2 \notin \text{RC} \quad X^2_X = 4.1714 < 7.8147]\), no pertenece a la región crítica, por lo tanto no rechazamos (\(H_0\)): \(X \sim N(\mu_X, \sigma_X^2)\).

\([P_{\text{valor}} = 0.2435 > 0.05]\), no rechazamos (\(H_0\)): \(X \sim N(\mu_X, \sigma_X^2)\).

No hay evidencia suficiente para afirmar que el salario de los hombres no sigue una distribución normal.

Resultados de Y

\([X^2 \notin \text{RC} \quad X^2_Y = 6.0191 < 7.8147]\), no pertenece a la región crítica, por lo tanto no rechazamos (\(H_0\)): \(Y \sim N(\mu_Y, \sigma_Y^2)\).

No hay evidencia suficiente para afirmar que el salario de las mujeres no sigue una distribución normal.

\([P_{\text{valor}} = 0.1106 > 0.05]\), no rechazamos (\(H_0\)): \(Y \sim N(\mu_Y, \sigma_Y^2)\).

Prueba de Jarque - Bera

jb_test_Xt <- jarque.bera.test(datos7$X)
jb_test_Yt <- jarque.bera.test(datos7$Y)

jb_test_Xt
## 
##  Jarque Bera Test
## 
## data:  datos7$X
## X-squared = 1.7454, df = 2, p-value = 0.4178
jb_test_Yt
## 
##  Jarque Bera Test
## 
## data:  datos7$Y
## X-squared = 1.6746, df = 2, p-value = 0.4329

Resultados para X e Y de la prueba de Jarque Bera

Resultados para X

\([P_{\text{valor}} = 0.4178 > 0.05]\), no se rechaza la hipótesis nula para \(X\): no hay evidencia suficiente para afirmar que el salario de los hombres de Administración de Empresas no sigue una distribución normal.

Resultados para Y

\([P_{\text{valor}} = 0.4329 > 0.05]\), no se rechaza la hipótesis nula para \(Y\): no hay evidencia suficiente para afirmar que el salario de las mujeres de Administración de Empresas no sigue una distribución normal.