Juan Pablo Rojas Veloza
Juan Gallardo
David Gracia
Katherine Restrepo
El presente trabajo ha sido realizado por el siguiente equipo:
Estudiante de Ingeniería Eléctrica
Estudiante de Ingeniería Eléctrica
Estudiante de Ingeniería Industrial
Estudiante de Ingeniería Química
Si todas las muestras de un tamaño en particular se seleccionan de cualquier población, la distribución muestral de la media se aproxima a una distribución normal. Esta aproximación mejora con muestras más grandes. Si la población obedece a una distribución normal, entonces, en el caso de cualquier tamaño de muestra, la distribución muestral de las medias también será de naturaleza normal. Si la distribución poblacional es simétrica (pero no normal), se verá que la forma normal de la distribución muestral de las medias se presenta con muestras tan pequeñas como 10. Por otra parte, si se comienza con una distribución sesgada o con colas anchas, quizá se requieran muestras de 30 o más para observar la característica de normalidad. A continuación, se presentará una Figura que resuma el teorema.[1]
Figura 1. Resultados del teorema central del límite para diversas poblaciones.[1]
El número de distribuciones normales es ilimitado, y cada una posee diferente media (\(\mu\)), desviación estándar (\(\sigma\)), o ambas. Mientras que es posible proporcionar tablas de probabilidad de distribuciones discretas, como la binomial y la de Poisson, es imposible elaborar tablas de una infinidad de distribuciones normales.
Por fortuna, una distribución se utiliza para determinar las probabilidades de todas las distribuciones de probabilidad normal. Es la distribución de probabilidad normal estándar y es única, pues tiene una media de 0 y una desviación estándar de 1. Cualquier distribución de probabilidad normal puede convertirse en una distribución de probabilidad normal estándar si se resta la media de cada observación y se divide esta diferencia entre la desviación estándar. Los resultados reciben el nombre de valores \(z\) o valores tipificados.[1]
\[ Z = \frac{X - \mu}{\sigma} \quad (1) \]
La distribución de probabilidad normal y normal estándar poseen las siguientes características principales:
Tiene forma de campana y posee una sola cima en el centro de la distribución. La media aritmética, la mediana y la moda son iguales, y se localizan en el centro de la distribución. El área total bajo la curva es de 1.00. La mitad del área bajo la curva normal se localiza a la derecha de este punto central, y la otra mitad, a la izquierda.[1]
Es simétrica respecto de la media. Si hace un corte vertical, por el valor central, a la curva normal, las dos mitades son imágenes especulares.[1]
Desciende suavemente en ambas direcciones del valor central. Es decir, la distribución es asintótica. La curva se aproxima más y más al eje \(X\), sin tocarlo. En otras palabras, las colas de la curva se extienden indefinidamente en ambas direcciones.[1]
La localización de una distribución normal se determina a través de la media, \(\mu\). La dispersión o propagación de la distribución se determina por medio de la desviación estándar, \(\sigma\).[1]
Los grados de libertad (GL) representan el número de valores independientes que un análisis estadístico puede estimar. También puedes pensarlo como la cantidad de valores que pueden variar libremente mientras se estiman los parámetros.
Los GL reflejan la idea de que la cantidad de información independiente disponible limita el número de parámetros que se pueden estimar. Generalmente, los grados de libertad se calculan como el tamaño de la muestra menos el número de parámetros que deben calcularse en un análisis. Normalmente, es un número entero positivo.
Los grados de libertad combinan la cantidad de datos disponibles con el número de parámetros que se deben estimar. Indican cuánta información independiente contribuye a una estimación de parámetros.[2]
La distribución \(t\) es una distribución de probabilidad continua, con muchas características similares a las de la distribución \(Z\). William Gosset, experto cervecero, fue el primero en estudiarla e introducirla. Estaba especialmente interesado en el comportamiento exacto de la distribución de \(t\) en muestras pequeñas.[2]
\[ t = \frac{\bar{X} - \mu}{s / \sqrt{n}} \quad (2) \]
Aquí, \(s\) es un estimador de \(\sigma\). A William le preocupaba en particular la discrepancia entre \(s\) y \(\sigma\) cuando \(s\) se calculaba a partir de una muestra muy pequeña.
Véase la Figura 2 en la que la distribución \(t\) es más plana y que se extiende más que la distribución normal estándar. Esto se debe a que la desviación estándar de la distribución \(t\) es mayor que la distribución normal estándar.[1]
Figura 2. Distribución normal estándar y distribución t de Student.
Las siguientes características de la distribución \(t\) se basan en el supuesto de que la población de interés es de naturaleza normal, o casi normal.
Como la distribución \(t\) de Studentb posee mayor dispersión que la distribución \(z\), el valor de \(t\) en un nivel de confianza dado tiene una magnitud mayor que el valor \(z\) correspondiente.[1]
Hay una definición más formal sobre la distribución \(t\) de Student, la cual se presentará a continuación.
Teorema:
Sea \(Z\) una variable aleatoria normal
estándar y \(V\) una variable aleatoria
chi cuadrada con \(\nu\) grados de
libertad. Si \(Z\) y \(V\) son independientes, entonces la
distribución de la variable aleatoria \(T\), donde:
\[ T = \frac{Z}{\sqrt{V / \nu}} \quad (3) \]
es dada por la función de densidad:[3]
\[ h(x) = \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\Gamma\left(\frac{\nu}{2}\right) \sqrt{\nu \pi}} \left(1 + \frac{x^2}{\nu} \right)^{-\frac{\nu+1}{2}}, \quad -\infty < t < \infty. \quad (4) \]
Esta se conoce como la distribución \(t\) con \(\nu\) grados de libertad.
Conjunto de valores que se forma a partir de una muestra de datos de forma que exista la posibilidad de que el parámetro poblacional ocurra dentro de dicho conjunto con una probabilidad específica. La probabilidad específica recibe el nombre de nivel de confianza.
Para calcular el intervalo de confianza se tienen que considerar las siguientes situaciones, consideraremos dos situaciones:[1]
Para el primer caso, se emplea la siguiente ecuación:
\[ \bar{X} \pm z \frac{\sigma}{\sqrt{n}} \quad (5) \]
No se va a enfatizar demasiado en esta ecuación ya que casi siempre la desviación estándar de la población es desconocida, por lo que para ello se ajustará la ecuación 5 de la siguiente manera:[1]
\[ \bar{X} \pm t \frac{s}{\sqrt{n}} \quad (6) \]
Para crear un intervalo de confianza de la media poblacional con una desviación estándar desconocida:
Se supone que la población muestreada es normal o aproximadamente normal. De acuerdo con el teorema central del límite, se sabe que este supuesto es cuestionable en el caso de muestras pequeñas, y es más válido en el de muestras más grandes.
Se estima la desviación estándar de la población (\(\sigma\)) con la desviación estándar de la muestra (\(s\)).
Se utiliza la distribución \(t\) en lugar de la distribución \(z\).
Cabe hacer una aclaración en este momento. La decisión de utilizar \(t\) o \(z\) se basa en el hecho de que se conozca \(\sigma\), la desviación estándar poblacional. Si se conoce, se utiliza \(z\). Si no se conoce, se debe utilizar \(t\).[1]
Teorema:
Si \(S^2\) es la varianza de una
muestra aleatoria de tamaño \(n\) que
se toma de una población normal que tiene la varianza \(\sigma^2\), entonces el estadístico
\[ \chi^2 = \frac{(n - 1) s^2}{\sigma^2} \quad (7) \]
La probabilidad de que una muestra aleatoria produzca un valor \(\chi^2\) mayor que algún valor específico es igual al área bajo la curva a la derecha de este valor.
El valor \(\chi^2\) por arriba del cual se encuentra un área de \(\alpha\) por lo general se representa con \(\chi^2_{\alpha}\).[3]
Para explicar este concepto se va a recurrir a un ejemplo, el cual facilitará su entendimiento.
“Un embotellador de bebidas sugiere plantea que el contenido promedio del producto es de 16 onzas (\(\mu = 16\)). Esta hipótesis nula (\(H_0\)) se prueba contra la hipótesis alternativa (\(H_a\)), que establece lo contrario. En este caso, el contenido promedio no es de 16 onzas (\(\mu \neq 16\)). Por tanto, se tendría que:
\[ H_0: \mu = 16 \] \[ H_a: \mu \neq 16 \]
Se sabe que, históricamente, el término surge de sus primeras aplicaciones por parte de los investigadores agrícolas quienes probaron la efectividad de un nuevo fertilizante para determinar su impacto en la producción de la cosecha.
Asumieron que el fertilizante no hacía ninguna diferencia en el rendimiento hasta que se produjo algún efecto. Por tanto, la hipótesis nula, tradicionalmente, contiene alguna referencia de un signo con igualdad como \(=\), \(\leq\).
Con base en los datos muestrales, esta hipótesis nula es rechazada o no rechazada. Nunca se puede “aceptar” la hipótesis nula como verdadera. El no rechazo de la hipótesis nula solamente significa que la evidencia muestral no es lo suficientemente fuerte como para llevar a su rechazo.
Incluso si \(\bar{X} = 16\), no prueba que \(\mu = 16\). Podría ser que sea 15.8 (o cualquier otro número), y debido al error de muestreo la media muestral acaba de igualar al valor de 16 que se plantea como hipótesis.
Como mencionó el profesor en clase se podría explicar una prueba de hipótesis mediante la analogía de un juicio. El acusado se halla culpable o no culpable. Un veredicto de “inocente” nunca se considera. Un veredicto de no culpable simplemente significa que la evidencia no es lo suficientemente fuerte como para encontrar culpable al acusado. No significa que él o ella sea inocente.[4], [5]
Cuando se realiza una prueba de hipótesis, la hipótesis nula se supone que es “inocente” (verdadera) hasta que una preponderancia de la evidencia indique que es “culpable” (falsa).
Al igual que en un escenario legal, la evidencia del culpable debe establecerse más allá de toda duda razonable. Antes de que se rechace la hipótesis nula, la media muestral debe diferir significativamente de la media poblacional planteada como hipótesis.
Es decir, que la evidencia debe ser muy convincente y concluyente. Una conclusión con base en un rechazo de la hipótesis nula es más significativa que una que termina en una decisión de no rechazo.[4], [5]
Se asume que el contenido de \(n\) botellas se halla una media de \(\bar{X} = 16.1515\) onzas. ¿Se puede concluir que la media poblacional no es 16?
Después de todo, \(16.15\) no es \(16\). ¿Probablemente no? Esta pequeña diferencia podría ser estadísticamente insignificante puesto que podría explicarse fácilmente como un simple error de muestreo.
Es decir, que debido al error de muestreo es posible tener una población con una media de 16 y salir con una media muestral de \(\bar{X} = 16.15\).
Debido al azar, algunas botellas de la muestra pueden estar algo más llenas, produciendo una media muestral que sobrestime levemente la media poblacional.
El valor p o nivel de significancia observado de una prueba estadística es el valor más pequeño de \(\alpha\) para el cual \(H_0\) se puede rechazar.
Es el riesgo real de cometer un error tipo I, si \(H_0\) es rechazada con base en el valor observado del estadístico de prueba. El valor p mide la fuerza de la evidencia contra \(H_0\).
Un valor p pequeño indica que el valor observado del estadístico de prueba se encuentra alejado del valor hipotético de \(\mu\).
Esto presenta fuerte evidencia de que \(H_0\) es falsa y debe ser rechazada. Valores de p grandes indican que la estadística observada de prueba no está alejada de la media hipotética y no apoya el rechazo de \(H_0\).
Para saber que un p valor necesita ser tal o menor a un cierto \(\alpha\) antes de que \(H_0\) pueda ser rechazada, debemos tener en cuenta que si el p valor es menor o igual a un nivel de significancia \(\alpha\) asignado previamente, entonces la hipótesis nula puede ser rechazada y se puede informar que los resultados son estadísticamente significativos al nivel \(\alpha\).[6]
Un error tipo I para una prueba estadística es el error de rechazar la hipótesis nula cuando sea verdadera. La probabilidad de cometer un error tipo I se denota por el símbolo α. Un error tipo II para una prueba estadística es el error de aceptar la hipótesis nula cuando es falsa y alguna hipótesis alternativa es verdadera. La probabilidad de cometer un error tipo II se denota por el símbolo β. Observe que la probabilidad de un error tipo I es exactamente igual que el nivel de significancia α y, por tanto, es controlada por el investigador. Cuando H0 es rechazada, se tiene una medida precisa de la confiabilidad de la inferencia; la probabilidad de una decisión incorrecta es α, pero la probabilidad β de un error tipo II no siempre es controlada por el experimentador. De hecho, cuando H0 es falsa y H1 es verdadera, puede que no sea posible especificar un valor exacto para µ, sino sólo un intervalo de valores. Esto hace difícil, si no imposible, calcular β. Sin una medida de confiabilidad, no es inteligente concluir que H0 sea verdadera. En lugar de arriesgarse a una decisión incorrecta, el experimentador debe detener el juicio, concluyendo que no hay evidencia suficiente para rechazar H0. En lugar de aceptar H0, no se debe rechazar H0. Como se mencionó en la sección de prueba de hipótesis, aceptar una hipótesis particular significa decidir en su favor. Cualquiera que sea el resultado de una prueba, nunca se está seguro de que la hipótesis que se “acepte” es verdadera. Siempre hay un riesgo de estar equivocado (medido por α o β). En consecuencia, nunca se debe “aceptar” H0 si β es desconocida o su valor es inaceptable para el experimentador. [6]
library(dplyr)
library(descriptr)
library(ggplot2)
library(datos)
library(fdth)
library(readxl)
library(stats)
library(car)
library(nortest)
library(stests)
library(BSDA)
library(knitr)
file_path <- "C:/Users/USER/Documents/R/Parcial 2 - Estadistica/encuesta.xls"
if (!file.exists(file_path)) {
stop("El archivo no se encuentra en la ruta especificada.")
}
Parcial4 <- read_excel(file_path)
encuesta <- data.frame(Parcial4)
View(encuesta)
set.seed(2343)
muestra1 <- sample_n(encuesta,size=995,replace=FALSE)
dmuestra1 <- as.data.frame(muestra1)
View(dmuestra1)Se cree que menos de un cuarto de los hombres de la muestra fuma, por lo que se plantearán las siguientes hipótesis:
valp1 <- prop.test(x = 135,
n = 995,
p = 0.25,
alternative = 'greater',
conf.level = 0.95,
correct = FALSE)$p.value
cat("El valor-p obtenido en la prueba de proporciones es: ", format(valp1, digits=4), "\n\n")El valor-p obtenido en la prueba de proporciones es: 1
if (valp1 > 0.05) {
cat("Como el valor-p es ", format(valp1, digits=4), " y es mayor que alfa = 0.05, no se rechaza H0.\n\n")
cat("Por lo tanto, no hay suficiente evidencia para afirmar que más del 25% de los hombres en la muestra fuman.\n")
} else {
cat("Como el valor-p es ", format(valp1, digits=4), " y es menor que alfa = 0.05, se rechaza H0.\n\n")
cat("Esto indica que más del 25% de los hombres en la muestra fuman.\n")
}Como el valor-p es 1 y es mayor que alfa = 0.05, no se rechaza H0.
Por lo tanto, no hay suficiente evidencia para afirmar que más del 25% de los hombres en la muestra fuman.
Se cree que más del 15% de las mujeres fuman, por lo que se plantearán las siguientes hipótesis:
valp2 <- prop.test(x = 168,
n = 995,
p = 0.15,
alternative = 'less',
conf.level = 0.95,
correct = FALSE)$p.value
cat("El valor-p obtenido en la prueba de proporciones es: ", format(valp2, digits=4), "\n\n")El valor-p obtenido en la prueba de proporciones es: 0.952
if (valp2 > 0.05) {
cat("Como el valor-p es ", format(valp2, digits=4), " y es mayor que alfa = 0.05, no se rechaza H0.\n\n")
cat("Por lo tanto, no hay suficiente evidencia para afirmar que menos del 15% de las mujeres en la muestra fuman.\n")
} else {
cat("Como el valor-p es ", format(valp2, digits=4), " y es menor que alfa = 0.05, se rechaza H0.\n\n")
cat("Esto indica que menos del 15% de las mujeres en la muestra fuman.\n")
}Como el valor-p es 0.952 y es mayor que alfa = 0.05, no se rechaza H0.
Por lo tanto, no hay suficiente evidencia para afirmar que menos del 15% de las mujeres en la muestra fuman.
Se cree que la proporción de hombres fumadores es mayor a la de mujeres fumadoras, por lo que se plantean las siguientes hipótesis:
valp3 <- prop.test(x = c(135, 168),
n = c(995, 995),
alternative = 'less',
conf.level = 0.95)$p.value
cat("El valor-p obtenido en la prueba de proporciones es: ", format(valp3, digits=4), "\n\n")El valor-p obtenido en la prueba de proporciones es: 0.02293
if (valp3 < 0.05) {
cat("Como el valor-p es ", format(valp3, digits=4), " y es menor que alfa = 0.05, se rechaza H0.\n\n")
cat("Esto indica que la proporción de hombres fumadores es **menor** a la de mujeres fumadoras.\n")
} else {
cat("Como el valor-p es ", format(valp3, digits=4), " y es mayor que alfa = 0.05, no se rechaza H0.\n\n")
cat("No hay suficiente evidencia para afirmar que la proporción de hombres fumadores sea menor a la de mujeres fumadoras.\n")
}Como el valor-p es 0.02293 y es menor que alfa = 0.05, se rechaza H0.
Esto indica que la proporción de hombres fumadores es menor a la de mujeres fumadoras.
Dado que se busca comparar una varianza, se utilizará una prueba chi-cuadrado para conocer si la varianza de los gastos es mayor o igual a 100,000,000,000.
gastos <- c(dmuestra1$gastos)
varianza_muestra <- var(gastos)
p_cvm <- cvm.test(gastos)$p.value
p_lillie <- lillie.test(gastos)$p.value
p_ad <- ad.test(gastos)$p.valueVarianza de la muestra: 3.1122841^{10}
valor_p <- var.test(x = gastos, alternative = 'less',
null.value = 100000000000, conf.level = 0.95)$p.value
cat("El valor-p obtenido en la prueba de proporciones es: ", format(valor_p, digits=4), "\n\n")El valor-p obtenido en la prueba de proporciones es: 1.386e-105
if (valor_p < 0.05) {
cat("Como el valor-p =", format(valor_p, digits=4),
"es menor que alfa (0.05), se rechaza H0.\n")
cat("Esto indica que la varianza de los gastos es **menor** a 100,000,000,000.\n")
} else {
cat(" Como el valor-p =", format(valor_p, digits=4),
"es mayor que alfa (0.05), no se rechaza H0.\n")
cat("No hay suficiente evidencia para afirmar que la varianza es menor a 100,000,000,000.\n")
}Como el valor-p = 1.386e-105 es menor que alfa (0.05), se rechaza H0. Esto indica que la varianza de los gastos es menor a 100,000,000,000.
Se cree que la media de gastos de las personas casadas es menor o igual a la media de gastos de las personas solteras.
gastos_casados <- subset(dmuestra1, estado_civil == "Casado", select = gastos)
gastos_solteros <- subset(dmuestra1, estado_civil == "Soltero", select = gastos)
p_cvm_casados <- cvm.test(gastos_casados$gastos)$p.value
p_cvm_solteros <- cvm.test(gastos_solteros$gastos)$p.valuevalor_p_ttest <- t.test(x = gastos_casados$gastos,
y = gastos_solteros$gastos,
alternative = "greater",
mu = 0,
paired = FALSE,
var.equal = FALSE,
conf.level = 0.95)$p.value
cat("El valor-p obtenido en la prueba de proporciones es: ", format(valor_p_ttest, digits=4), "\n\n")El valor-p obtenido en la prueba de proporciones es: 0.624
if (valor_p_ttest < 0.05) {
cat("Como el valor-p =", format(valor_p_ttest, digits=4),
"es menor que alfa (0.05), se rechaza H0.\n")
cat("Esto indica que la media de gastos de las personas **casadas** es significativamente **mayor** a la de las personas **solteras**.\n")
} else {
cat("Como el valor-p =", format(valor_p_ttest, digits=4),
"es mayor que alfa (0.05), no se rechaza H0.\n")
cat("No hay suficiente evidencia para afirmar que la media de gastos de las personas casadas sea mayor a la de las solteras.\n")
}Como el valor-p = 0.624 es mayor que alfa (0.05), no se rechaza H0. No hay suficiente evidencia para afirmar que la media de gastos de las personas casadas sea mayor a la de las solteras.
Se cree que la media de gastos de las personas menores o iguales a 50 años es menor o igual que la media de gastos de las personas mayores de 50 años.
gastos_50 <- subset(dmuestra1, edad <= 50, select = gastos)
gastos_mas50 <- subset(dmuestra1, edad > 50, select = gastos)
p_cvm_50 <- cvm.test(gastos_50$gastos)$p.value
p_cvm_mas50 <- cvm.test(gastos_mas50$gastos)$p.valuecat("- **Cramer-Von Mises p-valor (Menores o iguales a 50 años):**", format(p_cvm_50, digits=4), "\n")valprom2 <- t.test(x = gastos_50$gastos,
y = gastos_mas50$gastos,
alternative = "greater",
mu = 0,
paired = FALSE,
var.equal = FALSE,
conf.level = 0.95)$p.value
cat("El valor-p obtenido en la prueba de proporciones es: ", format(valprom2, digits=4), "\n\n")El valor-p obtenido en la prueba de proporciones es: 0.6315
if (valprom2 > 0.10) {
cat("Como el valor-p es ", format(valprom2, digits=4), " y es mayor que alfa = 0.10, no se rechaza H0.\n\n")
cat("Por tanto, la media de gastos de las personas menores o iguales a 50 años es **menor o igual** a la de las personas mayores de 50 años.\n")
} else {
cat("Como el valor-p es ", format(valprom2, digits=4), " y es menor que alfa = 0.10, se rechaza H0.\n\n")
cat("Esto indica que la media de gastos de las personas menores o iguales a 50 años es **mayor** a la de las personas mayores de 50 años.\n")
}Como el valor-p es 0.6315 y es mayor que alfa = 0.10, no se rechaza H0.
Por tanto, la media de gastos de las personas menores o iguales a 50 años es menor o igual a la de las personas mayores de 50 años.
Se cree que la media de los ingresos de las mujeres es mayor o igual a 2.000.000.
sal_mujeres <- subset(dmuestra1, genero == "M", select = ingresos)
p_cvm_mujeres <- cvm.test(sal_mujeres$ingresos)$p.valueEl valor-p obtenido en la prueba de proporciones es: 0.0396
if (valprom3 < 0.10) {
cat("Como el valor-p es ", format(valprom3, digits=4), " y es menor que alfa = 0.10, se rechaza H0.\n\n")
cat("Por tanto, la media de ingresos de las mujeres es **menor** a 2.000.000.\n")
} else {
cat("Como el valor-p es ", format(valprom3, digits=4), " y es mayor que alfa = 0.10, no se rechaza H0.\n\n")
cat("No hay suficiente evidencia para afirmar que la media de ingresos de las mujeres es menor a 2.000.000.\n")
}Como el valor-p es 0.0396 y es menor que alfa = 0.10, se rechaza H0.
Por tanto, la media de ingresos de las mujeres es menor a 2.000.000.
Se cree que la proporción de personas nacidas en Bogotá es mayor o igual al 30%.
p_0 <- 0.30
q_0 <- 1 - p_0
z <- (pgorro - p_0) / sqrt((p_0 * q_0) / n)
valor.p <- pnorm(z)
cat("El valor-p obtenido en la prueba de proporciones es: ", format(valor.p, digits=4), "\n\n")El valor-p obtenido en la prueba de proporciones es: 0.6735
if (valor.p > 0.05) {
cat("Como el valor-p es ", format(valor.p, digits=4), " y es mayor que alfa = 0.05, no se rechaza H0.\n\n")
cat("Por tanto, la proporción de personas nacidas en Bogotá es **mayor o igual al 30%**.\n")
} else {
cat("Como el valor-p es ", format(valor.p, digits=4), " y es menor que alfa = 0.05, se rechaza H0.\n\n")
cat("Esto indica que la proporción de personas nacidas en Bogotá es **menor al 30%**.\n")
}Como el valor-p es 0.6735 y es mayor que alfa = 0.05, no se rechaza H0.
Por tanto, la proporción de personas nacidas en Bogotá es mayor o igual al 30%.
Se cree que el porcentaje de las personas que fuman y están casadas no es mayor al 20%, por lo que se plantean las siguientes hipótesis:
H0: p ≤ 0.20
H1: p > 0.20
Nivel de confianza: 90%
El valor-p obtenido en la prueba de proporciones es: 6.578e-29
if (valor.p < 0.10) {
cat("Como el valor-p es ", format(valor.p, digits=4), " y es menor que alfa = 0.10, se rechaza H0.\n\n")
cat("Por tanto, más del **20%** de las personas que fuman están casadas.\n")
} else {
cat("Como el valor-p es ", format(valor.p, digits=4), " y es mayor que alfa = 0.10, no se rechaza H0.\n\n")
cat("No hay suficiente evidencia para afirmar que más del **20%** de las personas que fuman están casadas.\n")
}Como el valor-p es 6.578e-29 y es menor que alfa = 0.10, se rechaza H0.
Por tanto, más del 20% de las personas que fuman están casadas.
Se cree que el 8% de las personas viudas nacieron en Barranquilla.
valor.p <- binom.test(x = x,
n = n,
p = 0.08,
alternative = "two.sided",
conf.level = 0.95)$p.value
cat("El valor-p obtenido en la prueba de proporciones es: ", format(valor.p, digits=4), "\n\n")El valor-p obtenido en la prueba de proporciones es: 3.951e-09
if (valor.p < 0.05) {
cat("Como el valor-p es ", format(valor.p, digits=4), " y es menor que alfa = 0.05, se rechaza H0.\n\n")
cat("Por tanto, el porcentaje de personas **viudas** nacidas en **Barranquilla** es **diferente** al 8%.\n")
} else {
cat("Como el valor-p es ", format(valor.p, digits=4), " y es mayor que alfa = 0.05, no se rechaza H0.\n\n")
cat("No hay suficiente evidencia para afirmar que el porcentaje de personas **viudas** nacidas en **Barranquilla** sea diferente al 8%.\n")
}Como el valor-p es 3.951e-09 y es menor que alfa = 0.05, se rechaza H0.
Por tanto, el porcentaje de personas viudas nacidas en Barranquilla es diferente al 8%.
Se cree que el 50% o más de las personas en la muestra son mujeres.
El valor-p obtenido en la prueba de proporciones es: 0.9997
Como el valor-p es 0.9997 y es mayor que alfa = 0.05, no se rechaza H0.
Por tanto, más del 50% de las personas de la muestra son mujeres.
Se cree que la proporción de personas casadas nacidas en Bogotá es menor o igual a la proporción de personas casadas nacidas en Cali.
library(dplyr)
conteo_casados_ciudad <- count(dmuestra1, estado_civil, ciudad)
num_casados <- sum(dmuestra1$estado_civil == "Casado")El valor-p obtenido en la prueba de proporciones es: 0.9975
Como el valor-p es 0.9975 y es mayor que alfa = 0.10, no se rechaza H0.
Por tanto, la proporción de personas casadas nacidas en Bogotá es menor o igual a la proporción de personas casadas nacidas en Cali.
df_frecuencias <- data.frame(
Variable = c(rep("Ciudad", length(table(dmuestra1$ciudad))),
rep("Género", length(table(dmuestra1$genero))),
rep("Estado Civil", length(table(dmuestra1$estado_civil))),
rep("Fuma", length(table(dmuestra1$fuma)))),
Categoría = c(names(table(dmuestra1$ciudad)),
names(table(dmuestra1$genero)),
names(table(dmuestra1$estado_civil)),
names(table(dmuestra1$fuma))),
Frecuencia = c(as.vector(table(dmuestra1$ciudad)),
as.vector(table(dmuestra1$genero)),
as.vector(table(dmuestra1$estado_civil)),
as.vector(table(dmuestra1$fuma)))
)
df_frecuencias$Frecuencia <- as.numeric(df_frecuencias$Frecuencia)
frecuencias_totales <- aggregate(Frecuencia ~ Variable, data = df_frecuencias, sum)
df_frecuencias$Proporción <- round(df_frecuencias$Frecuencia /
frecuencias_totales$Frecuencia[match(df_frecuencias$Variable, frecuencias_totales$Variable)] * 100, 2)
kable(df_frecuencias, align = 'c', digits = 2, caption = "Tabla de Frecuencias y Proporciones de Variables Cualitativas")| Variable | Categoría | Frecuencia | Proporción |
|---|---|---|---|
| Ciudad | Barranquilla | 237 | 23.82 |
| Ciudad | Bogotá | 305 | 30.65 |
| Ciudad | Bucaramanga | 103 | 10.35 |
| Ciudad | Cali | 159 | 15.98 |
| Ciudad | Medellín | 191 | 19.20 |
| Género | H | 444 | 44.62 |
| Género | M | 551 | 55.38 |
| Estado Civil | Casado | 203 | 20.40 |
| Estado Civil | Divorciado | 343 | 34.47 |
| Estado Civil | Soltero | 308 | 30.95 |
| Estado Civil | Viudo | 141 | 14.17 |
| Fuma | No | 710 | 71.36 |
| Fuma | Sí | 285 | 28.64 |
df_ciudad <- df_frecuencias[df_frecuencias$Variable == "Ciudad", ]
graf_ciudad <- ggplot(df_ciudad, aes(x = Categoría, y = Frecuencia, fill = Categoría)) +
geom_bar(stat = "identity") +
scale_fill_manual(values = c("#EEE9BF", "#87CEFA", "#90EE90", "#CD5555", "#CCEDB1")) +
geom_text(aes(label = Frecuencia), vjust = -1, colour = "black", size = 4) +
ylim(c(0, max(df_ciudad$Frecuencia) + 5)) +
labs(title = "Distribución de Ciudad", x = "Ciudad", y = "Frecuencia") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
print(graf_ciudad)df_genero <- df_frecuencias[df_frecuencias$Variable == "Género", ]
graf_genero <- ggplot(df_genero, aes(x = Categoría, y = Frecuencia, fill = Categoría)) +
geom_bar(stat = "identity") +
scale_fill_manual(values = c("#EEE9BF", "#87CEFA")) +
geom_text(aes(label = Frecuencia), vjust = -1, colour = "black", size = 4) +
ylim(c(0, max(df_genero$Frecuencia) + 5)) +
labs(title = "Distribución de Género", x = "Género", y = "Frecuencia") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
print(graf_genero)df_estado_civil <- df_frecuencias[df_frecuencias$Variable == "Estado Civil", ]
graf_estado_civil <- ggplot(df_estado_civil, aes(x = Categoría, y = Frecuencia, fill = Categoría)) +
geom_bar(stat = "identity") +
scale_fill_manual(values = c("#EEE9BF", "#87CEFA", "#90EE90", "#CD5555")) +
geom_text(aes(label = Frecuencia), vjust = -1, colour = "black", size = 4) +
ylim(c(0, max(df_estado_civil$Frecuencia) + 5)) +
labs(title = "Distribución de Estado Civil", x = "Estado Civil", y = "Frecuencia") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
print(graf_estado_civil)df_fumador <- df_frecuencias[df_frecuencias$Variable == "Fuma", ]
graf_fumador <- ggplot(df_fumador, aes(x = Categoría, y = Frecuencia, fill = Categoría)) +
geom_bar(stat = "identity") +
scale_fill_manual(values = c("#EEE9BF", "#87CEFA")) +
geom_text(aes(label = Frecuencia), vjust = -1, colour = "black", size = 4) +
ylim(c(0, max(df_fumador$Frecuencia) + 5)) +
labs(title = "Distribución de Fumadores", x = "Fumador", y = "Frecuencia") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
print(graf_fumador)estadisticas_cuantitativas <- data.frame(
Variable = c("Edad", "Ingresos", "Gastos", "Tiempo de Viaje"),
Media = format(round(c(mean(dmuestra1$edad),
mean(dmuestra1$ingresos),
mean(dmuestra1$gastos),
mean(dmuestra1$tiempo_viaje)), 0), big.mark = "."),
Mediana = format(round(c(median(dmuestra1$edad),
median(dmuestra1$ingresos),
median(dmuestra1$gastos),
median(dmuestra1$tiempo_viaje)), 0), big.mark = "."),
Varianza = format(round(c(var(dmuestra1$edad),
var(dmuestra1$ingresos),
var(dmuestra1$gastos),
var(dmuestra1$tiempo_viaje)), 0), big.mark = "."),
Desviación_Estándar = format(round(c(sd(dmuestra1$edad),
sd(dmuestra1$ingresos),
sd(dmuestra1$gastos),
sd(dmuestra1$tiempo_viaje)), 0), big.mark = ".")
)
kable(estadisticas_cuantitativas, align = 'c', caption = "Análisis Cuantitativo Completo de Variables Cuantitativas")| Variable | Media | Mediana | Varianza | Desviación_Estándar |
|---|---|---|---|---|
| Edad | 50 | 51 | 318 | 18 |
| Ingresos | 2.003.556 | 2.009.722 | 38.857.393.632 | 197.123 |
| Gastos | 1.503.825 | 1.503.379 | 31.122.841.303 | 176.417 |
| Tiempo de Viaje | 55 | 55 | 391 | 20 |
boxplot_edad <- ggplot(data = dmuestra1, aes(x = "", y = edad)) +
geom_boxplot(fill = "#8ECAE6", width = 0.5) +
stat_boxplot(geom = "errorbar", width = 0.3) +
labs(title = "Distribución de la Edad", y = "Edad (años)", x = NULL) +
theme_light() +
theme(plot.title = element_text(hjust = 0.5),
legend.position = "none")
print(boxplot_edad)boxplot_ingresos <- ggplot(data = dmuestra1, aes(x = "", y = ingresos)) +
geom_boxplot(fill = "#8ECAE6", width = 0.5) +
stat_boxplot(geom = "errorbar", width = 0.3) +
labs(title = "Distribución de los Ingresos", y = "Ingresos ($)", x = NULL) +
theme_light() +
theme(plot.title = element_text(hjust = 0.5),
legend.position = "none")
print(boxplot_ingresos)boxplot_gastos <- ggplot(data = dmuestra1, aes(x = "", y = gastos)) +
geom_boxplot(fill = "#8ECAE6", width = 0.5) +
stat_boxplot(geom = "errorbar", width = 0.3) +
labs(title = "Distribución de los Gastos", y = "Gastos ($)", x = NULL) +
theme_light() +
theme(plot.title = element_text(hjust = 0.5),
legend.position = "none")
print(boxplot_gastos)boxplot_tiempo_viaje <- ggplot(data = dmuestra1, aes(x = "", y = tiempo_viaje)) +
geom_boxplot(fill = "#8ECAE6", width = 0.5) +
stat_boxplot(geom = "errorbar", width = 0.3) +
labs(title = "Distribución del Tiempo de Viaje", y = "Tiempo de Viaje (minutos)", x = NULL) +
theme_light() +
theme(plot.title = element_text(hjust = 0.5),
legend.position = "none")
print(boxplot_tiempo_viaje)df_fumador <- df_frecuencias[df_frecuencias$Variable == "Fuma", ]
grafico_prop_fumadores <- ggplot(df_fumador, aes(x = "", y = Proporción, fill = Categoría)) +
geom_bar(stat = "identity", width = 1) +
coord_polar("y", start = 0) +
geom_text(aes(label = paste0(Proporción, "%")), position = position_stack(vjust = 0.5)) +
labs(title = "Proporción de Fumadores", fill = "Fuma") +
theme_void() +
theme(plot.title = element_text(hjust = 0.5))
print(grafico_prop_fumadores)tabla_fuma_genero <- as.data.frame(table(dmuestra1$genero, dmuestra1$fuma))
colnames(tabla_fuma_genero) <- c("Género", "Fuma", "Frecuencia")
kable(tabla_fuma_genero, align = 'c', caption = "Frecuencia Absoluta de Fumadores por Género")| Género | Fuma | Frecuencia |
|---|---|---|
| H | No | 330 |
| M | No | 380 |
| H | Sí | 114 |
| M | Sí | 171 |
graf_edad_ingresos <- ggplot(dmuestra1, aes(x = edad, y = ingresos)) +
geom_point(color = "#2A9D8F", alpha = 0.7) +
labs(title = "Edad vs Ingresos",
x = "Edad (años)",
y = "Ingresos") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
print(graf_edad_ingresos)tabla_genero_fuma <- as.data.frame(table(dmuestra1$genero, dmuestra1$fuma))
colnames(tabla_genero_fuma) <- c("Género", "Fuma", "Frecuencia")
total_hombres <- sum(tabla_genero_fuma$Frecuencia[tabla_genero_fuma$Género == "H"])
total_mujeres <- sum(tabla_genero_fuma$Frecuencia[tabla_genero_fuma$Género == "M"])
tabla_genero_fuma$Proporción <- ifelse(tabla_genero_fuma$Género == "H",
round((tabla_genero_fuma$Frecuencia / total_hombres) * 100, 2),
round((tabla_genero_fuma$Frecuencia / total_mujeres) * 100, 2))
kable(tabla_genero_fuma, align = 'c', caption = "Frecuencia y Proporción de Fumadores por Género")| Género | Fuma | Frecuencia | Proporción |
|---|---|---|---|
| H | No | 330 | 74.32 |
| M | No | 380 | 68.97 |
| H | Sí | 114 | 25.68 |
| M | Sí | 171 | 31.03 |
graf_genero_fuma <- ggplot(tabla_genero_fuma, aes(x = Género, y = Proporción, fill = Fuma)) +
geom_bar(stat = "identity", position = "dodge") +
geom_text(aes(label = paste0(Proporción, "%")), vjust = -0.5, size = 3) +
labs(title = "Proporción de Fumadores según Género",
x = "Género",
y = "Proporción (%)",
fill = "Fuma") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
print(graf_genero_fuma)tabla_ciudad_estado <- as.data.frame(table(dmuestra1$ciudad, dmuestra1$estado_civil))
colnames(tabla_ciudad_estado) <- c("Ciudad", "Estado Civil", "Frecuencia")
total_ciudad <- aggregate(Frecuencia ~ Ciudad, data = tabla_ciudad_estado, sum)
tabla_ciudad_estado$Proporción <- round(
tabla_ciudad_estado$Frecuencia / total_ciudad$Frecuencia[match(tabla_ciudad_estado$Ciudad, total_ciudad$Ciudad)] * 100, 2
)
kable(tabla_ciudad_estado, align = 'c', caption = "Frecuencia y Proporción de Estado Civil por Ciudad")| Ciudad | Estado Civil | Frecuencia | Proporción |
|---|---|---|---|
| Barranquilla | Casado | 44 | 18.57 |
| Bogotá | Casado | 67 | 21.97 |
| Bucaramanga | Casado | 18 | 17.48 |
| Cali | Casado | 38 | 23.90 |
| Medellín | Casado | 36 | 18.85 |
| Barranquilla | Divorciado | 84 | 35.44 |
| Bogotá | Divorciado | 108 | 35.41 |
| Bucaramanga | Divorciado | 43 | 41.75 |
| Cali | Divorciado | 44 | 27.67 |
| Medellín | Divorciado | 64 | 33.51 |
| Barranquilla | Soltero | 75 | 31.65 |
| Bogotá | Soltero | 91 | 29.84 |
| Bucaramanga | Soltero | 30 | 29.13 |
| Cali | Soltero | 56 | 35.22 |
| Medellín | Soltero | 56 | 29.32 |
| Barranquilla | Viudo | 34 | 14.35 |
| Bogotá | Viudo | 39 | 12.79 |
| Bucaramanga | Viudo | 12 | 11.65 |
| Cali | Viudo | 21 | 13.21 |
| Medellín | Viudo | 35 | 18.32 |
graf_ciudad_estado <- ggplot(tabla_ciudad_estado, aes(x = Ciudad, y = Proporción, fill = `Estado Civil`)) +
geom_bar(stat = "identity", position = "stack") +
geom_text(aes(label = paste0(Proporción, "%")), position = position_stack(vjust = 0.5), size = 4, color = "black") +
labs(title = "Distribución de Estado Civil por Ciudad de Origen",
x = "Ciudad de Origen",
y = "Proporción (%)",
fill = "Estado Civil") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5),
axis.text.x = element_text(angle = 45, hjust = 1))
print(graf_ciudad_estado)graf_ingresos_gastos <- ggplot(dmuestra1, aes(x = ingresos, y = gastos)) +
geom_point(color = "#2A9D8F", alpha = 0.7) +
labs(title = "Relación entre Ingresos y Gastos",
x = "Ingresos",
y = "Gastos") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
print(graf_ingresos_gastos)graf_edad_tiempo <- ggplot(dmuestra1, aes(x = edad, y = tiempo_viaje)) +
geom_point(color = "#2A9D8F", alpha = 0.7) +
labs(title = "Relación entre Edad y Tiempo de Viaje",
x = "Edad (años)",
y = "Tiempo de Viaje (minutos)") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
print(graf_edad_tiempo)boxplot_genero_ingresos <- ggplot(data = dmuestra1, aes(x = genero, y = ingresos, fill = genero)) +
geom_boxplot() +
stat_boxplot(geom = "errorbar", width = 0.35) +
labs(x = "Género", y = "Ingreso Mensual", title = "Ingreso Mensual por Género") +
theme_light() +
theme(plot.title = element_text(hjust = 0.5),
legend.position = "right",
legend.title = element_blank())
print(boxplot_genero_ingresos)boxplot_estado_tiempo <- ggplot(data = dmuestra1, aes(x = estado_civil, y = tiempo_viaje, fill = estado_civil)) +
geom_boxplot() +
stat_boxplot(geom = "errorbar", width = 0.35) +
labs(x = "Estado Civil", y = "Tiempo de Viaje (minutos)", title = "Tiempo de Viaje según Estado Civil") +
theme_light() +
theme(plot.title = element_text(hjust = 0.5),
legend.position = "right",
legend.title = element_blank())
print(boxplot_estado_tiempo)Se realizará una prueba chi-cuadrado para conocer si la varianza de los ingresos es mayor a 35,000,000,000.
Cramer-von Mises normality test
data: ingre W = 0.12273, p-value = 0.05501
var_ing <- stests::var.test(x=ingre, alternative='greater',
null.value=35000000000, conf.level=0.95)$p.value
cat("El valor-p obtenido en la prueba de varianza es: ", format(var_ing, digits=4), "\n\n")El valor-p obtenido en la prueba de varianza es: 0.008495
if (var_ing > 0.05) {
cat("Como el valor-p es ", format(var_ing, digits=4), " y es mayor que alfa = 0.05, no se rechaza H0.\n\n")
cat("Esto sugiere que la varianza de los ingresos no es significativamente mayor a **35,000,000,000**.\n")
} else {
cat("Como el valor-p es ", format(var_ing, digits=4), " y es menor que alfa = 0.05, se rechaza H0.\n\n")
cat("Esto indica que la varianza de los ingresos es significativamente mayor a **35,000,000,000**.\n")
}Como el valor-p es 0.008495 y es menor que alfa = 0.05, se rechaza H0.
Esto indica que la varianza de los ingresos es significativamente mayor a 35,000,000,000.
muestra2 <- sample_n(encuesta, size=2000, replace=FALSE)
dmuestra2 <- as.data.frame(muestra2)
tiemp <- dmuestra2$tiempo_viaje
edad <- dmuestra2$edad
cvm.test(edad)Cramer-von Mises normality test
data: edad W = 2.7183, p-value = 7.37e-10
Lilliefors (Kolmogorov-Smirnov) normality test
data: tiemp D = 0.072361, p-value < 2.2e-16
cat("Se deseo realizar una prueba para identificar si la media de edad es significativamente diferente de 40 años, pero los valores no se distribuyen normalmente,por lo que se decidio agrandar la muestra, pero esto no funciono. Por esta razon se buscaran otras variables a analizar\n")Se deseo realizar una prueba para identificar si la media de edad es significativamente diferente de 40 años, pero los valores no se distribuyen normalmente,por lo que se decidio agrandar la muestra, pero esto no funciono. Por esta razon se buscaran otras variables a analizar
Se realiza una prueba para identificar si la media de gastos es diferente para 2 muestras, empleando un nivel de significancia del 90%”
Cramer-von Mises normality test
data: gastos1 W = 0.028254, p-value = 0.8698
Cramer-von Mises normality test
data: gastos2 W = 0.042217, p-value = 0.6406
valpg <- t.test(x=gastos1, y=gastos2, alternative="two.sided", mu=0,
paired=FALSE, var.equal=FALSE, conf.level=0.90)$p.value
cat("Como valor-p es mayor que alfa=0.1, no se rechaza H0,valor-p = ", format(valpg, digits=4), "\n\n")Como valor-p es mayor que alfa=0.1, no se rechaza H0,valor-p = 0.3494
Se realiza una prueba para identificar si la media de ingresos es diferente para 2 muestras, empleando un nivel de significancia del 90%
Ambas muestras se distribuyen de manera normal y presentan varianzas distintas, por lo que se puede realizar:
Cramer-von Mises normality test
data: ingresos1 W = 0.12273, p-value = 0.05501
Cramer-von Mises normality test
data: ingresos2 W = 0.12514, p-value = 0.05109
valpi <- t.test(x=ingresos1, y=ingresos2, alternative="two.sided", mu=0,
paired=FALSE, var.equal=FALSE, conf.level=0.90)$p.value
cat("El valor-p obtenido en la prueba de diferencia de medias de ingresos es: ", format(valpi, digits=4), "\n\n")El valor-p obtenido en la prueba de diferencia de medias de ingresos es: 0.85
Se cree que más del 20% de los hombres están divorciados.
valphd <- prop.test(x=165, n=995, p=0.2, alternative='greater',
conf.level=0.90, correct=FALSE)$p.value
cat("El valor-p obtenido en la prueba de proporción de hombres divorciados es: ", format(valphd, digits=4), "\n\n")El valor-p obtenido en la prueba de proporción de hombres divorciados es: 0.9965
Se cree que más del 15% de las mujeres están divorciadas.
valpmd <- prop.test(x=198, n=995, p=0.15, alternative='greater',
conf.level=0.90, correct=FALSE)$p.value
cat("El valor-p obtenido en la prueba de proporción de mujeres divorciadas es: ", format(valpmd, digits=4), "\n\n")El valor-p obtenido en la prueba de proporción de mujeres divorciadas es: 7.516e-06
Se cree que la proporción de hombres divorciados es igual a la de mujeres divorciadas.
valphmd <- prop.test(x=c(165, 198), n=c(995, 995),
alternative='two.sided', conf.level=0.95)$p.value
cat("El valor-p obtenido en la prueba de proporción entre hombres y mujeres divorciados es: ", format(valphmd, digits=4), "\n\n")El valor-p obtenido en la prueba de proporción entre hombres y mujeres divorciados es: 0.06324
[1] D. Lind, W. Marchall, y S. Wathen, Estadística aplicada a los negocios y la economía, 15.a ed. 2008.
[2] J. Frost, «Degrees of Freedom in Statistics», Statistics
By Jim. Accedido: 25 de febrero de 2025.
[En línea]. Disponible en: http://statisticsbyjim.com/hypothesis-testing/degrees-freedom-statistics/
[3] M. Walpole, R. Myers, y Myers, Probabilidad y estadística para ingeniería y ciencias, Novena. Pearson, 2012.
[4] O. J. Pacheco Perez, «Pruebas de Hipótesis», Universidad Nacional de Colombia, 25 de febrero de 2025.
[5] A. L. Webster, Estadística aplicada a los negocios y la economía, Tercera. 2001.
[6] Mendenhall, Beaver, y Beaver, Introducción a la probabilidad y estadística, Décimo tercera. 2010.
OpenAI. (2024). Asistencia técnica y creación de contenido proporcionada por ChatGPT.
YouTube. (2023). Introducción a R Markdown.