🦁 Descargue aquí el PDF

Equipo de Trabajo

El presente trabajo ha sido realizado por el siguiente equipo:

David Andrés Gracia Rosero

Estudiante de Ingeniería Eléctrica

Juan Esteban Gallardo Bustos

Estudiante de Ingeniería Eléctrica

Juan Pablo Rojas Veloza

Estudiante de Ingeniería Industrial

Katherine Restrepo Rodriguez

Estudiante de Ingeniería Química

Objetivos

Objetivo General:

  • Comprender las nociones básicas de las pruebas de hipótesis y su importancia en la estadística, permitiendo analizar el comportamiento de las variables y plantear conclusiones fundamentadas mediante pruebas estadísticas.

Objetivo Especifico:

  • Identificar mediante la realización de tablas y diagramas el comportamiento de las variables a estudiae.
  • Plantear conclusiones mediante pruebas de hipótesis que permitan reconocer las relaciones y comportamientos que presentan las variables.
  • Presenciar el teorema del limite central

Teorema central del limite

Si todas las muestras de un tamaño en particular se seleccionan de cualquier población, la distribución muestral de la media se aproxima a una distribución normal. Esta aproximación mejora con muestras más grandes. Si la población obedece a una distribución normal, entonces, en el caso de cualquier tamaño de muestra, la distribución muestral de las medias también será de naturaleza normal. Si la distribución poblacional es simétrica (pero no normal), se verá que la forma normal de la distribución muestral de las medias se presenta con muestras tan pequeñas como 10. Por otra parte, si se comienza con una distribución sesgada o con colas anchas, quizá se requieran muestras de 30 o más para observar la característica de normalidad. A continuación, se presentará una Figura que resuma el teorema.[1]

Figura 1. Resultados del teorema central del límite para diversas poblaciones.[1]

Distribución de probabilidad normal y normal estándar

El número de distribuciones normales es ilimitado, y cada una posee diferente media (\(\mu\)), desviación estándar (\(\sigma\)), o ambas. Mientras que es posible proporcionar tablas de probabilidad de distribuciones discretas, como la binomial y la de Poisson, es imposible elaborar tablas de una infinidad de distribuciones normales.

Por fortuna, una distribución se utiliza para determinar las probabilidades de todas las distribuciones de probabilidad normal. Es la distribución de probabilidad normal estándar y es única, pues tiene una media de 0 y una desviación estándar de 1. Cualquier distribución de probabilidad normal puede convertirse en una distribución de probabilidad normal estándar si se resta la media de cada observación y se divide esta diferencia entre la desviación estándar. Los resultados reciben el nombre de valores \(z\) o valores tipificados.[1]

\[ Z = \frac{X - \mu}{\sigma} \quad (1) \]

La distribución de probabilidad normal y normal estándar poseen las siguientes características principales:

  • Tiene forma de campana y posee una sola cima en el centro de la distribución. La media aritmética, la mediana y la moda son iguales, y se localizan en el centro de la distribución. El área total bajo la curva es de 1.00. La mitad del área bajo la curva normal se localiza a la derecha de este punto central, y la otra mitad, a la izquierda.[1]

  • Es simétrica respecto de la media. Si hace un corte vertical, por el valor central, a la curva normal, las dos mitades son imágenes especulares.[1]

  • Desciende suavemente en ambas direcciones del valor central. Es decir, la distribución es asintótica. La curva se aproxima más y más al eje \(X\), sin tocarlo. En otras palabras, las colas de la curva se extienden indefinidamente en ambas direcciones.[1]

  • La localización de una distribución normal se determina a través de la media, \(\mu\). La dispersión o propagación de la distribución se determina por medio de la desviación estándar, \(\sigma\).[1]

Grados de libertad

Los grados de libertad (GL) representan el número de valores independientes que un análisis estadístico puede estimar. También puedes pensarlo como la cantidad de valores que pueden variar libremente mientras se estiman los parámetros.

Los GL reflejan la idea de que la cantidad de información independiente disponible limita el número de parámetros que se pueden estimar. Generalmente, los grados de libertad se calculan como el tamaño de la muestra menos el número de parámetros que deben calcularse en un análisis. Normalmente, es un número entero positivo.

Los grados de libertad combinan la cantidad de datos disponibles con el número de parámetros que se deben estimar. Indican cuánta información independiente contribuye a una estimación de parámetros.[2]

Distribución t de Student

La distribución \(t\) es una distribución de probabilidad continua, con muchas características similares a las de la distribución \(Z\). William Gosset, experto cervecero, fue el primero en estudiarla e introducirla. Estaba especialmente interesado en el comportamiento exacto de la distribución de \(t\) en muestras pequeñas.[2]

\[ t = \frac{\bar{X} - \mu}{s / \sqrt{n}} \quad (2) \]

Aquí, \(s\) es un estimador de \(\sigma\). A William le preocupaba en particular la discrepancia entre \(s\) y \(\sigma\) cuando \(s\) se calculaba a partir de una muestra muy pequeña.

Véase la Figura 2 en la que la distribución \(t\) es más plana y que se extiende más que la distribución normal estándar. Esto se debe a que la desviación estándar de la distribución \(t\) es mayor que la distribución normal estándar.[1]

Figura 2. Distribución normal estándar y distribución t de Student.

Las siguientes características de la distribución \(t\) se basan en el supuesto de que la población de interés es de naturaleza normal, o casi normal.

  • Como en el caso de la distribución \(z\), es una distribución continua.
  • Como en el caso de la distribución \(z\), tiene forma de campana y es simétrica.
  • No existe una distribución \(t\), sino una familia de distribuciones \(t\). Todas las distribuciones \(t\) tienen una media de 0, y sus desviaciones estándar difieren de acuerdo con el tamaño de la muestra, \(n\). Existe una distribución \(t\) para un tamaño de muestra de 20, otro para un tamaño de muestra de 22, etc. La desviación estándar de una distribución t con 5 observaciones es mayor que en el caso de una distribución t con 20 observaciones. [1]
  • La distribución t se extiende más y es más plana por el centro que la distribución normal estándar (Figura 1). Sin embargo, conforme se incrementa el tamaño de la muestra, la distribución t se aproxima a la distribución normal estándar, pues los errores que se cometen al utilizar s para estimar σ disminuyen con muestras más grandes. [1]

Como la distribución \(t\) de Studentb posee mayor dispersión que la distribución \(z\), el valor de \(t\) en un nivel de confianza dado tiene una magnitud mayor que el valor \(z\) correspondiente.[1]

Hay una definición más formal sobre la distribución \(t\) de Student, la cual se presentará a continuación.

Teorema:
Sea \(Z\) una variable aleatoria normal estándar y \(V\) una variable aleatoria chi cuadrada con \(\nu\) grados de libertad. Si \(Z\) y \(V\) son independientes, entonces la distribución de la variable aleatoria \(T\), donde:

\[ T = \frac{Z}{\sqrt{V / \nu}} \quad (3) \]

es dada por la función de densidad:[3]

\[ h(x) = \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\Gamma\left(\frac{\nu}{2}\right) \sqrt{\nu \pi}} \left(1 + \frac{x^2}{\nu} \right)^{-\frac{\nu+1}{2}}, \quad -\infty < t < \infty. \quad (4) \]

Esta se conoce como la distribución \(t\) con \(\nu\) grados de libertad.

Intervalo de confianza

Conjunto de valores que se forma a partir de una muestra de datos de forma que exista la posibilidad de que el parámetro poblacional ocurra dentro de dicho conjunto con una probabilidad específica. La probabilidad específica recibe el nombre de nivel de confianza.

Para calcular el intervalo de confianza se tienen que considerar las siguientes situaciones, consideraremos dos situaciones:[1]

  • La desviación estándar de la población (\(\sigma\)) es conocida.
  • La desviación estándar de la población (\(\sigma\)) es desconocida.

Para el primer caso, se emplea la siguiente ecuación:

\[ \bar{X} \pm z \frac{\sigma}{\sqrt{n}} \quad (5) \]

No se va a enfatizar demasiado en esta ecuación ya que casi siempre la desviación estándar de la población es desconocida, por lo que para ello se ajustará la ecuación 5 de la siguiente manera:[1]

\[ \bar{X} \pm t \frac{s}{\sqrt{n}} \quad (6) \]

Para crear un intervalo de confianza de la media poblacional con una desviación estándar desconocida:

  1. Se supone que la población muestreada es normal o aproximadamente normal. De acuerdo con el teorema central del límite, se sabe que este supuesto es cuestionable en el caso de muestras pequeñas, y es más válido en el de muestras más grandes.

  2. Se estima la desviación estándar de la población (\(\sigma\)) con la desviación estándar de la muestra (\(s\)).

  3. Se utiliza la distribución \(t\) en lugar de la distribución \(z\).

Cabe hacer una aclaración en este momento. La decisión de utilizar \(t\) o \(z\) se basa en el hecho de que se conozca \(\sigma\), la desviación estándar poblacional. Si se conoce, se utiliza \(z\). Si no se conoce, se debe utilizar \(t\).[1]

Chi cuadrado

Teorema:
Si \(S^2\) es la varianza de una muestra aleatoria de tamaño \(n\) que se toma de una población normal que tiene la varianza \(\sigma^2\), entonces el estadístico

\[ \chi^2 = \frac{(n - 1) s^2}{\sigma^2} \quad (7) \]

La probabilidad de que una muestra aleatoria produzca un valor \(\chi^2\) mayor que algún valor específico es igual al área bajo la curva a la derecha de este valor.

El valor \(\chi^2\) por arriba del cual se encuentra un área de \(\alpha\) por lo general se representa con \(\chi^2_{\alpha}\).[3]

Prueba de Hipótesis

Para explicar este concepto se va a recurrir a un ejemplo, el cual facilitará su entendimiento.

“Un embotellador de bebidas sugiere plantea que el contenido promedio del producto es de 16 onzas (\(\mu = 16\)). Esta hipótesis nula (\(H_0\)) se prueba contra la hipótesis alternativa (\(H_a\)), que establece lo contrario. En este caso, el contenido promedio no es de 16 onzas (\(\mu \neq 16\)). Por tanto, se tendría que:

\[ H_0: \mu = 16 \] \[ H_a: \mu \neq 16 \]

Se sabe que, históricamente, el término surge de sus primeras aplicaciones por parte de los investigadores agrícolas quienes probaron la efectividad de un nuevo fertilizante para determinar su impacto en la producción de la cosecha.

Asumieron que el fertilizante no hacía ninguna diferencia en el rendimiento hasta que se produjo algún efecto. Por tanto, la hipótesis nula, tradicionalmente, contiene alguna referencia de un signo con igualdad como \(=\), \(\leq\).

Con base en los datos muestrales, esta hipótesis nula es rechazada o no rechazada. Nunca se puede “aceptar” la hipótesis nula como verdadera. El no rechazo de la hipótesis nula solamente significa que la evidencia muestral no es lo suficientemente fuerte como para llevar a su rechazo.

Incluso si \(\bar{X} = 16\), no prueba que \(\mu = 16\). Podría ser que sea 15.8 (o cualquier otro número), y debido al error de muestreo la media muestral acaba de igualar al valor de 16 que se plantea como hipótesis.

Como mencionó el profesor en clase se podría explicar una prueba de hipótesis mediante la analogía de un juicio. El acusado se halla culpable o no culpable. Un veredicto de “inocente” nunca se considera. Un veredicto de no culpable simplemente significa que la evidencia no es lo suficientemente fuerte como para encontrar culpable al acusado. No significa que él o ella sea inocente.[4], [5]

Cuando se realiza una prueba de hipótesis, la hipótesis nula se supone que es “inocente” (verdadera) hasta que una preponderancia de la evidencia indique que es “culpable” (falsa).

Al igual que en un escenario legal, la evidencia del culpable debe establecerse más allá de toda duda razonable. Antes de que se rechace la hipótesis nula, la media muestral debe diferir significativamente de la media poblacional planteada como hipótesis.

Es decir, que la evidencia debe ser muy convincente y concluyente. Una conclusión con base en un rechazo de la hipótesis nula es más significativa que una que termina en una decisión de no rechazo.[4], [5]

Se asume que el contenido de \(n\) botellas se halla una media de \(\bar{X} = 16.1515\) onzas. ¿Se puede concluir que la media poblacional no es 16?

Después de todo, \(16.15\) no es \(16\). ¿Probablemente no? Esta pequeña diferencia podría ser estadísticamente insignificante puesto que podría explicarse fácilmente como un simple error de muestreo.

Es decir, que debido al error de muestreo es posible tener una población con una media de 16 y salir con una media muestral de \(\bar{X} = 16.15\).

Debido al azar, algunas botellas de la muestra pueden estar algo más llenas, produciendo una media muestral que sobrestime levemente la media poblacional.

Valor de p

El valor p o nivel de significancia observado de una prueba estadística es el valor más pequeño de \(\alpha\) para el cual \(H_0\) se puede rechazar.

Es el riesgo real de cometer un error tipo I, si \(H_0\) es rechazada con base en el valor observado del estadístico de prueba. El valor p mide la fuerza de la evidencia contra \(H_0\).

Un valor p pequeño indica que el valor observado del estadístico de prueba se encuentra alejado del valor hipotético de \(\mu\).

Esto presenta fuerte evidencia de que \(H_0\) es falsa y debe ser rechazada. Valores de p grandes indican que la estadística observada de prueba no está alejada de la media hipotética y no apoya el rechazo de \(H_0\).

Para saber que un p valor necesita ser tal o menor a un cierto \(\alpha\) antes de que \(H_0\) pueda ser rechazada, debemos tener en cuenta que si el p valor es menor o igual a un nivel de significancia \(\alpha\) asignado previamente, entonces la hipótesis nula puede ser rechazada y se puede informar que los resultados son estadísticamente significativos al nivel \(\alpha\).[6]

Tipos de errores

Un error tipo I para una prueba estadística es el error de rechazar la hipótesis nula cuando sea verdadera. La probabilidad de cometer un error tipo I se denota por el símbolo α. Un error tipo II para una prueba estadística es el error de aceptar la hipótesis nula cuando es falsa y alguna hipótesis alternativa es verdadera. La probabilidad de cometer un error tipo II se denota por el símbolo β. Observe que la probabilidad de un error tipo I es exactamente igual que el nivel de significancia α y, por tanto, es controlada por el investigador. Cuando H0 es rechazada, se tiene una medida precisa de la confiabilidad de la inferencia; la probabilidad de una decisión incorrecta es α, pero la probabilidad β de un error tipo II no siempre es controlada por el experimentador. De hecho, cuando H0 es falsa y H1 es verdadera, puede que no sea posible especificar un valor exacto para µ, sino sólo un intervalo de valores. Esto hace difícil, si no imposible, calcular β. Sin una medida de confiabilidad, no es inteligente concluir que H0 sea verdadera. En lugar de arriesgarse a una decisión incorrecta, el experimentador debe detener el juicio, concluyendo que no hay evidencia suficiente para rechazar H0. En lugar de aceptar H0, no se debe rechazar H0. Como se mencionó en la sección de prueba de hipótesis, aceptar una hipótesis particular significa decidir en su favor. Cualquiera que sea el resultado de una prueba, nunca se está seguro de que la hipótesis que se “acepte” es verdadera. Siempre hay un riesgo de estar equivocado (medido por α o β). En consecuencia, nunca se debe “aceptar” H0 si β es desconocida o su valor es inaceptable para el experimentador. [6]

Parcial 4

library(dplyr)
library(descriptr)
library(ggplot2)
library(datos)
library(fdth)
library(readxl)
library(stats)
library(car)
library(nortest)
library(stests)
library(BSDA)
library(knitr)

file_path <- "C:/Users/USER/Documents/R/Parcial 2 - Estadistica/encuesta.xls"

if (!file.exists(file_path)) {
  stop("El archivo no se encuentra en la ruta especificada.")
}

Parcial4 <- read_excel(file_path)
encuesta <- data.frame(Parcial4)
View(encuesta)

set.seed(2343)
muestra1 <- sample_n(encuesta,size=995,replace=FALSE)
dmuestra1 <- as.data.frame(muestra1)
View(dmuestra1)

Pruebas de hipótesis realizadas

Hipótesis 1:

Se cree que menos de un cuarto de los hombres de la muestra fuma, por lo que se plantearán las siguientes hipótesis:

  • H0: p ≤ 0.25
  • H1: p > 0.25
  • Nivel de significancia: 95%
valp1 <- prop.test(x = 135, 
                   n = 995, 
                   p = 0.25, 
                   alternative = 'greater',
                   conf.level = 0.95, 
                   correct = FALSE)$p.value

cat("El valor-p obtenido en la prueba de proporciones es: ", format(valp1, digits=4), "\n\n")

El valor-p obtenido en la prueba de proporciones es: 1

Conclusión hipótesis 1:

if (valp1 > 0.05) {
  cat("Como el valor-p es ", format(valp1, digits=4), " y es mayor que alfa = 0.05, no se rechaza H0.\n\n")
  cat("Por lo tanto, no hay suficiente evidencia para afirmar que más del 25% de los hombres en la muestra fuman.\n")
} else {
  cat("Como el valor-p es ", format(valp1, digits=4), " y es menor que alfa = 0.05, se rechaza H0.\n\n")
  cat("Esto indica que más del 25% de los hombres en la muestra fuman.\n")
}

Como el valor-p es 1 y es mayor que alfa = 0.05, no se rechaza H0.

Por lo tanto, no hay suficiente evidencia para afirmar que más del 25% de los hombres en la muestra fuman.

Hipótesis 2:

Se cree que más del 15% de las mujeres fuman, por lo que se plantearán las siguientes hipótesis:

  • H₀: p ≥ 0.15
  • H₁: p < 0.15
  • Nivel de significancia: 95%
valp2 <- prop.test(x = 168, 
                   n = 995, 
                   p = 0.15, 
                   alternative = 'less',
                   conf.level = 0.95, 
                   correct = FALSE)$p.value

cat("El valor-p obtenido en la prueba de proporciones es: ", format(valp2, digits=4), "\n\n")

El valor-p obtenido en la prueba de proporciones es: 0.952

Conclusión hipótesis 2:

if (valp2 > 0.05) {
  cat("Como el valor-p es ", format(valp2, digits=4), " y es mayor que alfa = 0.05, no se rechaza H0.\n\n")
  cat("Por lo tanto, no hay suficiente evidencia para afirmar que menos del 15% de las mujeres en la muestra fuman.\n")
} else {
  cat("Como el valor-p es ", format(valp2, digits=4), " y es menor que alfa = 0.05, se rechaza H0.\n\n")
  cat("Esto indica que menos del 15% de las mujeres en la muestra fuman.\n")
}

Como el valor-p es 0.952 y es mayor que alfa = 0.05, no se rechaza H0.

Por lo tanto, no hay suficiente evidencia para afirmar que menos del 15% de las mujeres en la muestra fuman.

Hipótesis 3:

Se cree que la proporción de hombres fumadores es mayor a la de mujeres fumadoras, por lo que se plantean las siguientes hipótesis:

  • H₀: p₁ ≥ p₂
  • H₁: p₁ < p₂
  • Nivel de significancia: 95%
valp3 <- prop.test(x = c(135, 168), 
                   n = c(995, 995),
                   alternative = 'less', 
                   conf.level = 0.95)$p.value

cat("El valor-p obtenido en la prueba de proporciones es: ", format(valp3, digits=4), "\n\n")

El valor-p obtenido en la prueba de proporciones es: 0.02293

Conclusión hipótesis 3:

if (valp3 < 0.05) {
  cat("Como el valor-p es ", format(valp3, digits=4), " y es menor que alfa = 0.05, se rechaza H0.\n\n")
  cat("Esto indica que la proporción de hombres fumadores es **menor** a la de mujeres fumadoras.\n")
} else {
  cat("Como el valor-p es ", format(valp3, digits=4), " y es mayor que alfa = 0.05, no se rechaza H0.\n\n")
  cat("No hay suficiente evidencia para afirmar que la proporción de hombres fumadores sea menor a la de mujeres fumadoras.\n")
}

Como el valor-p es 0.02293 y es menor que alfa = 0.05, se rechaza H0.

Esto indica que la proporción de hombres fumadores es menor a la de mujeres fumadoras.

Hipótesis 4:

Dado que se busca comparar una varianza, se utilizará una prueba chi-cuadrado para conocer si la varianza de los gastos es mayor o igual a 100,000,000,000.

  • H0: σ² ≥ 100,000,000,000
  • H1: σ² < 100,000,000,000
  • Nivel de confianza: 95%
gastos <- c(dmuestra1$gastos)

varianza_muestra <- var(gastos)

p_cvm <- cvm.test(gastos)$p.value
p_lillie <- lillie.test(gastos)$p.value
p_ad <- ad.test(gastos)$p.value

Varianza de la muestra: 3.1122841^{10}

cat("- **Cramer-Von Mises p-valor:**", format(p_cvm, digits=4), "\n")
  • Cramer-Von Mises p-valor: 0.8698
cat("- **Lilliefors p-valor:**", format(p_lillie, digits=4), "\n")
  • Lilliefors p-valor: 0.8044
cat("- **Anderson-Darling p-valor:**", format(p_ad, digits=4), "\n\n")
  • Anderson-Darling p-valor: 0.9005
valor_p <- var.test(x = gastos, alternative = 'less',
                    null.value = 100000000000, conf.level = 0.95)$p.value

cat("El valor-p obtenido en la prueba de proporciones es: ", format(valor_p, digits=4), "\n\n")

El valor-p obtenido en la prueba de proporciones es: 1.386e-105

Conclusión hipótesis 4:

if (valor_p < 0.05) {
  cat("Como el valor-p =", format(valor_p, digits=4), 
      "es menor que alfa (0.05), se rechaza H0.\n")
  cat("Esto indica que la varianza de los gastos es **menor** a 100,000,000,000.\n")
} else {
  cat(" Como el valor-p =", format(valor_p, digits=4), 
      "es mayor que alfa (0.05), no se rechaza H0.\n")
  cat("No hay suficiente evidencia para afirmar que la varianza es menor a 100,000,000,000.\n")
}

Como el valor-p = 1.386e-105 es menor que alfa (0.05), se rechaza H0. Esto indica que la varianza de los gastos es menor a 100,000,000,000.

Hipótesis 5:

  • x1: media gastos personas casadas
  • x2: media de gastos personas solteras

Se cree que la media de gastos de las personas casadas es menor o igual a la media de gastos de las personas solteras.

  • H0: x1 ≤ x2 (La media de gastos de personas casadas es menor o igual a la de personas solteras)
  • H1: x1 > x2 (La media de gastos de personas casadas es mayor que la de personas solteras)
  • Nivel de confianza: 5%
gastos_casados <- subset(dmuestra1, estado_civil == "Casado", select = gastos)
gastos_solteros <- subset(dmuestra1, estado_civil == "Soltero", select = gastos)

p_cvm_casados <- cvm.test(gastos_casados$gastos)$p.value
p_cvm_solteros <- cvm.test(gastos_solteros$gastos)$p.value
cat("- **Cramer-Von Mises p-valor (Casados):**", format(p_cvm_casados, digits=4), "\n")
  • Cramer-Von Mises p-valor (Casados): 0.05113
cat("- **Cramer-Von Mises p-valor (Solteros):**", format(p_cvm_solteros, digits=4), "\n\n")
  • Cramer-Von Mises p-valor (Solteros): 0.8528
valor_p_ttest <- t.test(x = gastos_casados$gastos, 
                         y = gastos_solteros$gastos, 
                         alternative = "greater", 
                         mu = 0, 
                         paired = FALSE, 
                         var.equal = FALSE, 
                         conf.level = 0.95)$p.value

cat("El valor-p obtenido en la prueba de proporciones es: ", format(valor_p_ttest, digits=4), "\n\n")

El valor-p obtenido en la prueba de proporciones es: 0.624

Conclusión hipótesis 5:

if (valor_p_ttest < 0.05) {
  cat("Como el valor-p =", format(valor_p_ttest, digits=4), 
      "es menor que alfa (0.05), se rechaza H0.\n")
  cat("Esto indica que la media de gastos de las personas **casadas** es significativamente **mayor** a la de las personas **solteras**.\n")
} else {
  cat("Como el valor-p =", format(valor_p_ttest, digits=4), 
      "es mayor que alfa (0.05), no se rechaza H0.\n")
  cat("No hay suficiente evidencia para afirmar que la media de gastos de las personas casadas sea mayor a la de las solteras.\n")
}

Como el valor-p = 0.624 es mayor que alfa (0.05), no se rechaza H0. No hay suficiente evidencia para afirmar que la media de gastos de las personas casadas sea mayor a la de las solteras.

Hipótesis 6:

Se cree que la media de gastos de las personas menores o iguales a 50 años es menor o igual que la media de gastos de las personas mayores de 50 años.

  • H0: x₁ ≤ x₂
  • H1: x₁ > x₂
  • Nivel de significancia: 10%
gastos_50 <- subset(dmuestra1, edad <= 50, select = gastos)
gastos_mas50 <- subset(dmuestra1, edad > 50, select = gastos)

p_cvm_50 <- cvm.test(gastos_50$gastos)$p.value
p_cvm_mas50 <- cvm.test(gastos_mas50$gastos)$p.value
cat("- **Cramer-Von Mises p-valor (Menores o iguales a 50 años):**", format(p_cvm_50, digits=4), "\n")
  • Cramer-Von Mises p-valor (Menores o iguales a 50 años): 0.2694
cat("- **Cramer-Von Mises p-valor (Mayores de 50 años):**", format(p_cvm_mas50, digits=4), "\n\n")
  • Cramer-Von Mises p-valor (Mayores de 50 años): 0.9655
valprom2 <- t.test(x = gastos_50$gastos, 
                   y = gastos_mas50$gastos, 
                   alternative = "greater", 
                   mu = 0, 
                   paired = FALSE, 
                   var.equal = FALSE, 
                   conf.level = 0.95)$p.value

cat("El valor-p obtenido en la prueba de proporciones es: ", format(valprom2, digits=4), "\n\n")

El valor-p obtenido en la prueba de proporciones es: 0.6315

Conclusión hipótesis 6:

if (valprom2 > 0.10) {
  cat("Como el valor-p es ", format(valprom2, digits=4), " y es mayor que alfa = 0.10, no se rechaza H0.\n\n")
  cat("Por tanto, la media de gastos de las personas menores o iguales a 50 años es **menor o igual** a la de las personas mayores de 50 años.\n")
} else {
  cat("Como el valor-p es ", format(valprom2, digits=4), " y es menor que alfa = 0.10, se rechaza H0.\n\n")
  cat("Esto indica que la media de gastos de las personas menores o iguales a 50 años es **mayor** a la de las personas mayores de 50 años.\n")
}

Como el valor-p es 0.6315 y es mayor que alfa = 0.10, no se rechaza H0.

Por tanto, la media de gastos de las personas menores o iguales a 50 años es menor o igual a la de las personas mayores de 50 años.

Hipótesis 7:

Se cree que la media de los ingresos de las mujeres es mayor o igual a 2.000.000.

  • H0: μ ≥ 2.000.000
  • H1: μ < 2.000.000
  • Nivel de significancia: 10%
sal_mujeres <- subset(dmuestra1, genero == "M", select = ingresos)

p_cvm_mujeres <- cvm.test(sal_mujeres$ingresos)$p.value
cat("- **Cramer-Von Mises p-valor (Mujeres):**", format(p_cvm_mujeres, digits=4), "\n\n")
  • Cramer-Von Mises p-valor (Mujeres): 0.1074

El valor-p obtenido en la prueba de proporciones es: 0.0396

Conclusión hipótesis 7:

if (valprom3 < 0.10) {
  cat("Como el valor-p es ", format(valprom3, digits=4), " y es menor que alfa = 0.10, se rechaza H0.\n\n")
  cat("Por tanto, la media de ingresos de las mujeres es **menor** a 2.000.000.\n")
} else {
  cat("Como el valor-p es ", format(valprom3, digits=4), " y es mayor que alfa = 0.10, no se rechaza H0.\n\n")
  cat("No hay suficiente evidencia para afirmar que la media de ingresos de las mujeres es menor a 2.000.000.\n")
}

Como el valor-p es 0.0396 y es menor que alfa = 0.10, se rechaza H0.

Por tanto, la media de ingresos de las mujeres es menor a 2.000.000.

Hipótesis 8:

Se cree que la proporción de personas nacidas en Bogotá es mayor o igual al 30%.

  • H0: p ≥ 0.30
  • H1: p < 0.30
  • Nivel de significancia: 5%
conteo_ciudades <- table(dmuestra1$ciudad)

n <- 995

x <- conteo_ciudades["Bogotá"]

pgorro <- x / n
p_0 <- 0.30
q_0 <- 1 - p_0

z <- (pgorro - p_0) / sqrt((p_0 * q_0) / n)

valor.p <- pnorm(z)

cat("El valor-p obtenido en la prueba de proporciones es: ", format(valor.p, digits=4), "\n\n")

El valor-p obtenido en la prueba de proporciones es: 0.6735

Conclusión hipótesis 8:

if (valor.p > 0.05) {
  cat("Como el valor-p es ", format(valor.p, digits=4), " y es mayor que alfa = 0.05, no se rechaza H0.\n\n")
  cat("Por tanto, la proporción de personas nacidas en Bogotá es **mayor o igual al 30%**.\n")
} else {
  cat("Como el valor-p es ", format(valor.p, digits=4), " y es menor que alfa = 0.05, se rechaza H0.\n\n")
  cat("Esto indica que la proporción de personas nacidas en Bogotá es **menor al 30%**.\n")
}

Como el valor-p es 0.6735 y es mayor que alfa = 0.05, no se rechaza H0.

Por tanto, la proporción de personas nacidas en Bogotá es mayor o igual al 30%.

Hipótesis 9:

Se cree que el porcentaje de las personas que fuman y están casadas no es mayor al 20%, por lo que se plantean las siguientes hipótesis:

  • H0: p ≤ 0.20

  • H1: p > 0.20

  • Nivel de confianza: 90%


conteo_fumadores_casados <- count(dmuestra1, fuma, estado_civil)

n <- 995

x <- 59

pgorro <- x / n

El valor-p obtenido en la prueba de proporciones es: 6.578e-29

Conclusión hipótesis 9:

if (valor.p < 0.10) {
  cat("Como el valor-p es ", format(valor.p, digits=4), " y es menor que alfa = 0.10, se rechaza H0.\n\n")
  cat("Por tanto, más del **20%** de las personas que fuman están casadas.\n")
} else {
  cat("Como el valor-p es ", format(valor.p, digits=4), " y es mayor que alfa = 0.10, no se rechaza H0.\n\n")
  cat("No hay suficiente evidencia para afirmar que más del **20%** de las personas que fuman están casadas.\n")
}

Como el valor-p es 6.578e-29 y es menor que alfa = 0.10, se rechaza H0.

Por tanto, más del 20% de las personas que fuman están casadas.

Hipótesis 10:

Se cree que el 8% de las personas viudas nacieron en Barranquilla.

  • H0: p = 0.08
  • H1: p ≠ 0.08
  • Nivel de confianza: 95%
library(dplyr)

conteo_viudas_ciudad <- count(dmuestra1, estado_civil, ciudad)

x <- 34

n <- 995
valor.p <- binom.test(x = x, 
                      n = n, 
                      p = 0.08, 
                      alternative = "two.sided", 
                      conf.level = 0.95)$p.value

cat("El valor-p obtenido en la prueba de proporciones es: ", format(valor.p, digits=4), "\n\n")

El valor-p obtenido en la prueba de proporciones es: 3.951e-09

Conclusión hipótesis 10:

if (valor.p < 0.05) {
  cat("Como el valor-p es ", format(valor.p, digits=4), " y es menor que alfa = 0.05, se rechaza H0.\n\n")
  cat("Por tanto, el porcentaje de personas **viudas** nacidas en **Barranquilla** es **diferente** al 8%.\n")
} else {
  cat("Como el valor-p es ", format(valor.p, digits=4), " y es mayor que alfa = 0.05, no se rechaza H0.\n\n")
  cat("No hay suficiente evidencia para afirmar que el porcentaje de personas **viudas** nacidas en **Barranquilla** sea diferente al 8%.\n")
}

Como el valor-p es 3.951e-09 y es menor que alfa = 0.05, se rechaza H0.

Por tanto, el porcentaje de personas viudas nacidas en Barranquilla es diferente al 8%.

Hipótesis 11:

Se cree que el 50% o más de las personas en la muestra son mujeres.

  • H0: p ≥ 0.50
  • H1: p < 0.50
  • Nivel de confianza: 95%
conteo_mujeres <- table(dmuestra1$genero)

n <- 995

x <- 551

El valor-p obtenido en la prueba de proporciones es: 0.9997

Conclusión hipótesis 11:

Como el valor-p es 0.9997 y es mayor que alfa = 0.05, no se rechaza H0.

Por tanto, más del 50% de las personas de la muestra son mujeres.

Hipótesis 12:

Se cree que la proporción de personas casadas nacidas en Bogotá es menor o igual a la proporción de personas casadas nacidas en Cali.

  • H0: p₁ ≥ p₂ (La proporción de personas casadas nacidas en Bogotá es mayor o igual a la de Cali)
  • H1: p₁ < p₂ (La proporción de personas casadas nacidas en Bogotá es menor a la de Cali)
  • Nivel de confianza: 90%
library(dplyr)
conteo_casados_ciudad <- count(dmuestra1, estado_civil, ciudad)

num_casados <- sum(dmuestra1$estado_civil == "Casado")

El valor-p obtenido en la prueba de proporciones es: 0.9975

Conclusión hipótesis 12:

Como el valor-p es 0.9975 y es mayor que alfa = 0.10, no se rechaza H0.

Por tanto, la proporción de personas casadas nacidas en Bogotá es menor o igual a la proporción de personas casadas nacidas en Cali.

Analisis univariado

Analisis descrptivo variables cualitativas

df_frecuencias <- data.frame(
  Variable = c(rep("Ciudad", length(table(dmuestra1$ciudad))),
               rep("Género", length(table(dmuestra1$genero))),
               rep("Estado Civil", length(table(dmuestra1$estado_civil))),
               rep("Fuma", length(table(dmuestra1$fuma)))),
  Categoría = c(names(table(dmuestra1$ciudad)),
                names(table(dmuestra1$genero)),
                names(table(dmuestra1$estado_civil)),
                names(table(dmuestra1$fuma))),
  Frecuencia = c(as.vector(table(dmuestra1$ciudad)),
                 as.vector(table(dmuestra1$genero)),
                 as.vector(table(dmuestra1$estado_civil)),
                 as.vector(table(dmuestra1$fuma)))
)

df_frecuencias$Frecuencia <- as.numeric(df_frecuencias$Frecuencia)

frecuencias_totales <- aggregate(Frecuencia ~ Variable, data = df_frecuencias, sum)
df_frecuencias$Proporción <- round(df_frecuencias$Frecuencia / 
                                     frecuencias_totales$Frecuencia[match(df_frecuencias$Variable, frecuencias_totales$Variable)] * 100, 2)

kable(df_frecuencias, align = 'c', digits = 2, caption = "Tabla de Frecuencias y Proporciones de Variables Cualitativas")
Tabla de Frecuencias y Proporciones de Variables Cualitativas
Variable Categoría Frecuencia Proporción
Ciudad Barranquilla 237 23.82
Ciudad Bogotá 305 30.65
Ciudad Bucaramanga 103 10.35
Ciudad Cali 159 15.98
Ciudad Medellín 191 19.20
Género H 444 44.62
Género M 551 55.38
Estado Civil Casado 203 20.40
Estado Civil Divorciado 343 34.47
Estado Civil Soltero 308 30.95
Estado Civil Viudo 141 14.17
Fuma No 710 71.36
Fuma 285 28.64

Gráficos variables cualitativas

Gráfico distribucion de ciudad

df_ciudad <- df_frecuencias[df_frecuencias$Variable == "Ciudad", ]

graf_ciudad <- ggplot(df_ciudad, aes(x = Categoría, y = Frecuencia, fill = Categoría)) +
  geom_bar(stat = "identity") +
  scale_fill_manual(values = c("#EEE9BF", "#87CEFA", "#90EE90", "#CD5555", "#CCEDB1")) +
  geom_text(aes(label = Frecuencia), vjust = -1, colour = "black", size = 4) +
  ylim(c(0, max(df_ciudad$Frecuencia) + 5)) +
  labs(title = "Distribución de Ciudad", x = "Ciudad", y = "Frecuencia") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))

print(graf_ciudad)

Gráfico distribucion de genero

df_genero <- df_frecuencias[df_frecuencias$Variable == "Género", ]

graf_genero <- ggplot(df_genero, aes(x = Categoría, y = Frecuencia, fill = Categoría)) +
  geom_bar(stat = "identity") +
  scale_fill_manual(values = c("#EEE9BF", "#87CEFA")) +
  geom_text(aes(label = Frecuencia), vjust = -1, colour = "black", size = 4) +
  ylim(c(0, max(df_genero$Frecuencia) + 5)) +
  labs(title = "Distribución de Género", x = "Género", y = "Frecuencia") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))

print(graf_genero)

Gráfico distribucion estado civil

df_estado_civil <- df_frecuencias[df_frecuencias$Variable == "Estado Civil", ]

graf_estado_civil <- ggplot(df_estado_civil, aes(x = Categoría, y = Frecuencia, fill = Categoría)) +
  geom_bar(stat = "identity") +
  scale_fill_manual(values = c("#EEE9BF", "#87CEFA", "#90EE90", "#CD5555")) +
  geom_text(aes(label = Frecuencia), vjust = -1, colour = "black", size = 4) +
  ylim(c(0, max(df_estado_civil$Frecuencia) + 5)) +
  labs(title = "Distribución de Estado Civil", x = "Estado Civil", y = "Frecuencia") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))

print(graf_estado_civil)

Gráfico distribucion fuma

df_fumador <- df_frecuencias[df_frecuencias$Variable == "Fuma", ]

graf_fumador <- ggplot(df_fumador, aes(x = Categoría, y = Frecuencia, fill = Categoría)) +
  geom_bar(stat = "identity") +
  scale_fill_manual(values = c("#EEE9BF", "#87CEFA")) +
  geom_text(aes(label = Frecuencia), vjust = -1, colour = "black", size = 4) +
  ylim(c(0, max(df_fumador$Frecuencia) + 5)) +
  labs(title = "Distribución de Fumadores", x = "Fumador", y = "Frecuencia") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))

print(graf_fumador)

Analisis cuantitativo variables cuantitativas

estadisticas_cuantitativas <- data.frame(
  Variable = c("Edad", "Ingresos", "Gastos", "Tiempo de Viaje"),
  Media = format(round(c(mean(dmuestra1$edad),
                         mean(dmuestra1$ingresos),
                         mean(dmuestra1$gastos),
                         mean(dmuestra1$tiempo_viaje)), 0), big.mark = "."),
  Mediana = format(round(c(median(dmuestra1$edad),
                           median(dmuestra1$ingresos),
                           median(dmuestra1$gastos),
                           median(dmuestra1$tiempo_viaje)), 0), big.mark = "."),
  Varianza = format(round(c(var(dmuestra1$edad),
                            var(dmuestra1$ingresos),
                            var(dmuestra1$gastos),
                            var(dmuestra1$tiempo_viaje)), 0), big.mark = "."),
  Desviación_Estándar = format(round(c(sd(dmuestra1$edad),
                                       sd(dmuestra1$ingresos),
                                       sd(dmuestra1$gastos),
                                       sd(dmuestra1$tiempo_viaje)), 0), big.mark = ".")
)

kable(estadisticas_cuantitativas, align = 'c', caption = "Análisis Cuantitativo Completo de Variables Cuantitativas")
Análisis Cuantitativo Completo de Variables Cuantitativas
Variable Media Mediana Varianza Desviación_Estándar
Edad 50 51 318 18
Ingresos 2.003.556 2.009.722 38.857.393.632 197.123
Gastos 1.503.825 1.503.379 31.122.841.303 176.417
Tiempo de Viaje 55 55 391 20

Gráfico de Distribución de la Edad

boxplot_edad <- ggplot(data = dmuestra1, aes(x = "", y = edad)) +
  geom_boxplot(fill = "#8ECAE6", width = 0.5) +
  stat_boxplot(geom = "errorbar", width = 0.3) +
  labs(title = "Distribución de la Edad", y = "Edad (años)", x = NULL) +
  theme_light() +
  theme(plot.title = element_text(hjust = 0.5),
        legend.position = "none")

print(boxplot_edad)

Gráfico de Distribución de los Ingresos

boxplot_ingresos <- ggplot(data = dmuestra1, aes(x = "", y = ingresos)) +
  geom_boxplot(fill = "#8ECAE6", width = 0.5) +
  stat_boxplot(geom = "errorbar", width = 0.3) +
  labs(title = "Distribución de los Ingresos", y = "Ingresos ($)", x = NULL) +
  theme_light() +
  theme(plot.title = element_text(hjust = 0.5),
        legend.position = "none")

print(boxplot_ingresos)

Gráfico de Distribución de los Gastos

boxplot_gastos <- ggplot(data = dmuestra1, aes(x = "", y = gastos)) +
  geom_boxplot(fill = "#8ECAE6", width = 0.5) +
  stat_boxplot(geom = "errorbar", width = 0.3) +
  labs(title = "Distribución de los Gastos", y = "Gastos ($)", x = NULL) +
  theme_light() +
  theme(plot.title = element_text(hjust = 0.5),
        legend.position = "none")

print(boxplot_gastos)

Gráfico de Distribución del Tiempo de Viaje

boxplot_tiempo_viaje <- ggplot(data = dmuestra1, aes(x = "", y = tiempo_viaje)) +
  geom_boxplot(fill = "#8ECAE6", width = 0.5) +
  stat_boxplot(geom = "errorbar", width = 0.3) +
  labs(title = "Distribución del Tiempo de Viaje", y = "Tiempo de Viaje (minutos)", x = NULL) +
  theme_light() +
  theme(plot.title = element_text(hjust = 0.5),
        legend.position = "none")

print(boxplot_tiempo_viaje)

Proporción de Fumadores

df_fumador <- df_frecuencias[df_frecuencias$Variable == "Fuma", ]

grafico_prop_fumadores <- ggplot(df_fumador, aes(x = "", y = Proporción, fill = Categoría)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar("y", start = 0) +
  geom_text(aes(label = paste0(Proporción, "%")), position = position_stack(vjust = 0.5)) +
  labs(title = "Proporción de Fumadores", fill = "Fuma") +
  theme_void() +
  theme(plot.title = element_text(hjust = 0.5))

print(grafico_prop_fumadores)

Frecuencia Absoluta de Fumadores por Género

tabla_fuma_genero <- as.data.frame(table(dmuestra1$genero, dmuestra1$fuma))
colnames(tabla_fuma_genero) <- c("Género", "Fuma", "Frecuencia")

kable(tabla_fuma_genero, align = 'c', caption = "Frecuencia Absoluta de Fumadores por Género")
Frecuencia Absoluta de Fumadores por Género
Género Fuma Frecuencia
H No 330
M No 380
H 114
M 171

Gráfico de analisís bivariado

Edad vs Ingresos

graf_edad_ingresos <- ggplot(dmuestra1, aes(x = edad, y = ingresos)) +
  geom_point(color = "#2A9D8F", alpha = 0.7) +
  labs(title = "Edad vs Ingresos",
       x = "Edad (años)",
       y = "Ingresos") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))

print(graf_edad_ingresos)

Género vs Fuma

tabla_genero_fuma <- as.data.frame(table(dmuestra1$genero, dmuestra1$fuma))
colnames(tabla_genero_fuma) <- c("Género", "Fuma", "Frecuencia")

total_hombres <- sum(tabla_genero_fuma$Frecuencia[tabla_genero_fuma$Género == "H"])
total_mujeres <- sum(tabla_genero_fuma$Frecuencia[tabla_genero_fuma$Género == "M"])

tabla_genero_fuma$Proporción <- ifelse(tabla_genero_fuma$Género == "H",
                                       round((tabla_genero_fuma$Frecuencia / total_hombres) * 100, 2),
                                       round((tabla_genero_fuma$Frecuencia / total_mujeres) * 100, 2))

kable(tabla_genero_fuma, align = 'c', caption = "Frecuencia y Proporción de Fumadores por Género")
Frecuencia y Proporción de Fumadores por Género
Género Fuma Frecuencia Proporción
H No 330 74.32
M No 380 68.97
H 114 25.68
M 171 31.03
graf_genero_fuma <- ggplot(tabla_genero_fuma, aes(x = Género, y = Proporción, fill = Fuma)) +
  geom_bar(stat = "identity", position = "dodge") +
  geom_text(aes(label = paste0(Proporción, "%")), vjust = -0.5, size = 3) +
  labs(title = "Proporción de Fumadores según Género",
       x = "Género",
       y = "Proporción (%)",
       fill = "Fuma") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))

print(graf_genero_fuma)

Ciudad vs Estado Civil

tabla_ciudad_estado <- as.data.frame(table(dmuestra1$ciudad, dmuestra1$estado_civil))
colnames(tabla_ciudad_estado) <- c("Ciudad", "Estado Civil", "Frecuencia")

total_ciudad <- aggregate(Frecuencia ~ Ciudad, data = tabla_ciudad_estado, sum)

tabla_ciudad_estado$Proporción <- round(
  tabla_ciudad_estado$Frecuencia / total_ciudad$Frecuencia[match(tabla_ciudad_estado$Ciudad, total_ciudad$Ciudad)] * 100, 2
)

kable(tabla_ciudad_estado, align = 'c', caption = "Frecuencia y Proporción de Estado Civil por Ciudad")
Frecuencia y Proporción de Estado Civil por Ciudad
Ciudad Estado Civil Frecuencia Proporción
Barranquilla Casado 44 18.57
Bogotá Casado 67 21.97
Bucaramanga Casado 18 17.48
Cali Casado 38 23.90
Medellín Casado 36 18.85
Barranquilla Divorciado 84 35.44
Bogotá Divorciado 108 35.41
Bucaramanga Divorciado 43 41.75
Cali Divorciado 44 27.67
Medellín Divorciado 64 33.51
Barranquilla Soltero 75 31.65
Bogotá Soltero 91 29.84
Bucaramanga Soltero 30 29.13
Cali Soltero 56 35.22
Medellín Soltero 56 29.32
Barranquilla Viudo 34 14.35
Bogotá Viudo 39 12.79
Bucaramanga Viudo 12 11.65
Cali Viudo 21 13.21
Medellín Viudo 35 18.32
graf_ciudad_estado <- ggplot(tabla_ciudad_estado, aes(x = Ciudad, y = Proporción, fill = `Estado Civil`)) +
  geom_bar(stat = "identity", position = "stack") +
  geom_text(aes(label = paste0(Proporción, "%")), position = position_stack(vjust = 0.5), size = 4, color = "black") +
  labs(title = "Distribución de Estado Civil por Ciudad de Origen",
       x = "Ciudad de Origen",
       y = "Proporción (%)",
       fill = "Estado Civil") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5),
        axis.text.x = element_text(angle = 45, hjust = 1)) 

print(graf_ciudad_estado)

Ingresos vs Gastos

graf_ingresos_gastos <- ggplot(dmuestra1, aes(x = ingresos, y = gastos)) +
  geom_point(color = "#2A9D8F", alpha = 0.7) +
  labs(title = "Relación entre Ingresos y Gastos",
       x = "Ingresos",
       y = "Gastos") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))

print(graf_ingresos_gastos)

Edad vs Tiempo de Viaje

graf_edad_tiempo <- ggplot(dmuestra1, aes(x = edad, y = tiempo_viaje)) +
  geom_point(color = "#2A9D8F", alpha = 0.7) +
  labs(title = "Relación entre Edad y Tiempo de Viaje",
       x = "Edad (años)",
       y = "Tiempo de Viaje (minutos)") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))

print(graf_edad_tiempo)

Género vs Ingresos

boxplot_genero_ingresos <- ggplot(data = dmuestra1, aes(x = genero, y = ingresos, fill = genero)) +
  geom_boxplot() +
  stat_boxplot(geom = "errorbar", width = 0.35) +
  labs(x = "Género", y = "Ingreso Mensual", title = "Ingreso Mensual por Género") +
  theme_light() +
  theme(plot.title = element_text(hjust = 0.5),
        legend.position = "right",
        legend.title = element_blank())

print(boxplot_genero_ingresos)

Estado Civil vs Tiempo de Viaje

boxplot_estado_tiempo <- ggplot(data = dmuestra1, aes(x = estado_civil, y = tiempo_viaje, fill = estado_civil)) +
  geom_boxplot() +
  stat_boxplot(geom = "errorbar", width = 0.35) +
  labs(x = "Estado Civil", y = "Tiempo de Viaje (minutos)", title = "Tiempo de Viaje según Estado Civil") +
  theme_light() +
  theme(plot.title = element_text(hjust = 0.5),
        legend.position = "right",
        legend.title = element_blank())

print(boxplot_estado_tiempo)

Prueba para la Varianza de los Ingresos

Se realizará una prueba chi-cuadrado para conocer si la varianza de los ingresos es mayor a 35,000,000,000.

Hipótesis:

  • H₀: σ² ≤ 35,000,000,000
  • H₁: σ² > 35,000,000,000
ingre <- dmuestra1$ingresos

cvm.test(ingre)
Cramer-von Mises normality test

data: ingre W = 0.12273, p-value = 0.05501

var_ing <- stests::var.test(x=ingre, alternative='greater',
                            null.value=35000000000, conf.level=0.95)$p.value

cat("El valor-p obtenido en la prueba de varianza es: ", format(var_ing, digits=4), "\n\n")

El valor-p obtenido en la prueba de varianza es: 0.008495

Conclusión:

if (var_ing > 0.05) {
  cat("Como el valor-p es ", format(var_ing, digits=4), " y es mayor que alfa = 0.05, no se rechaza H0.\n\n")
  cat("Esto sugiere que la varianza de los ingresos no es significativamente mayor a **35,000,000,000**.\n")
} else {
  cat("Como el valor-p es ", format(var_ing, digits=4), " y es menor que alfa = 0.05, se rechaza H0.\n\n")
  cat("Esto indica que la varianza de los ingresos es significativamente mayor a **35,000,000,000**.\n")
}

Como el valor-p es 0.008495 y es menor que alfa = 0.05, se rechaza H0.

Esto indica que la varianza de los ingresos es significativamente mayor a 35,000,000,000.

Prueba para Identificar si la Media de Edad es Diferente de 40 Años

muestra2 <- sample_n(encuesta, size=2000, replace=FALSE)
dmuestra2 <- as.data.frame(muestra2)

tiemp <- dmuestra2$tiempo_viaje
edad <- dmuestra2$edad

cvm.test(edad)
Cramer-von Mises normality test

data: edad W = 2.7183, p-value = 7.37e-10

lillie.test(tiemp)
Lilliefors (Kolmogorov-Smirnov) normality test

data: tiemp D = 0.072361, p-value < 2.2e-16

cat("Se deseo realizar una prueba para identificar si la media de edad es significativamente diferente de 40 años, pero los valores no se distribuyen normalmente,por lo que se decidio agrandar la muestra, pero esto no funciono. Por esta razon se buscaran otras variables a analizar\n")

Se deseo realizar una prueba para identificar si la media de edad es significativamente diferente de 40 años, pero los valores no se distribuyen normalmente,por lo que se decidio agrandar la muestra, pero esto no funciono. Por esta razon se buscaran otras variables a analizar

Prueba para Identificar si la Media de Gastos es Diferente para Dos Muestras

Se realiza una prueba para identificar si la media de gastos es diferente para 2 muestras, empleando un nivel de significancia del 90%”

  • H0: N<1 = N<2
  • H1: N<1 es diferente de N<2
gastos1 <- dmuestra1$gastos
gastos2 <- dmuestra2$gastos

cvm.test(gastos1)
Cramer-von Mises normality test

data: gastos1 W = 0.028254, p-value = 0.8698

cvm.test(gastos2)
Cramer-von Mises normality test

data: gastos2 W = 0.042217, p-value = 0.6406

valpg <- t.test(x=gastos1, y=gastos2, alternative="two.sided", mu=0, 
                paired=FALSE, var.equal=FALSE, conf.level=0.90)$p.value

cat("Como valor-p es mayor que alfa=0.1, no se rechaza H0,valor-p = ", format(valpg, digits=4), "\n\n")

Como valor-p es mayor que alfa=0.1, no se rechaza H0,valor-p = 0.3494

Prueba para Identificar si la Media de Ingresos es Diferente para Dos Muestras

Se realiza una prueba para identificar si la media de ingresos es diferente para 2 muestras, empleando un nivel de significancia del 90%

  • H0: N<1 = N<2
  • H1: N<1 es diferente de N<2

Ambas muestras se distribuyen de manera normal y presentan varianzas distintas, por lo que se puede realizar:

ingresos1 <- dmuestra1$ingresos
ingresos2 <- dmuestra2$ingresos

cvm.test(ingresos1)
Cramer-von Mises normality test

data: ingresos1 W = 0.12273, p-value = 0.05501

cvm.test(ingresos2)
Cramer-von Mises normality test

data: ingresos2 W = 0.12514, p-value = 0.05109

valpi <- t.test(x=ingresos1, y=ingresos2, alternative="two.sided", mu=0, 
                paired=FALSE, var.equal=FALSE, conf.level=0.90)$p.value

cat("El valor-p obtenido en la prueba de diferencia de medias de ingresos es: ", format(valpi, digits=4), "\n\n")

El valor-p obtenido en la prueba de diferencia de medias de ingresos es: 0.85

Proporción de Hombres Divorciados

Se cree que más del 20% de los hombres están divorciados.

  • H₀: p ≤ 0.2
  • H₁: p > 0.2
  • Nivel de significancia: 90%
valphd <- prop.test(x=165, n=995, p=0.2, alternative='greater',
                    conf.level=0.90, correct=FALSE)$p.value

cat("El valor-p obtenido en la prueba de proporción de hombres divorciados es: ", format(valphd, digits=4), "\n\n")

El valor-p obtenido en la prueba de proporción de hombres divorciados es: 0.9965

Proporción de Mujeres Divorciadas

Se cree que más del 15% de las mujeres están divorciadas.

  • H₀: p ≤ 0.15
  • H₁: p > 0.15
  • Nivel de significancia: 90%
valpmd <- prop.test(x=198, n=995, p=0.15, alternative='greater',
                    conf.level=0.90, correct=FALSE)$p.value

cat("El valor-p obtenido en la prueba de proporción de mujeres divorciadas es: ", format(valpmd, digits=4), "\n\n")

El valor-p obtenido en la prueba de proporción de mujeres divorciadas es: 7.516e-06

Comparación de la Proporción de Hombres y Mujeres Divorciados

Se cree que la proporción de hombres divorciados es igual a la de mujeres divorciadas.

  • H₀: p₁ = p₂
  • H₁: p₁ ≠ p₂
  • Nivel de significancia: 95%
valphmd <- prop.test(x=c(165, 198), n=c(995, 995),
                     alternative='two.sided', conf.level=0.95)$p.value

cat("El valor-p obtenido en la prueba de proporción entre hombres y mujeres divorciados es: ", format(valphmd, digits=4), "\n\n")

El valor-p obtenido en la prueba de proporción entre hombres y mujeres divorciados es: 0.06324

Análisis bivariado

Edad vs. ingresos: ¿Hay una relación entre la edad y los ingresos?

  • No parece haber una relación clara entre la edad y los ingresos, ya que los puntos en el gráfico están bastante dispersos y no siguen una tendencia definida. Aunque hay una concentración de individuos entre los 20 y 60 años, los ingresos varían ampliamente dentro de ese rango, lo que da a entender que la edad no influye directamente en los niveles de ingresos.

Género vs. sí fuma: ¿Hay una diferencia en la proporción de fumadores entre hombres y mujeres?

  • Sí, hay una diferencia en la proporción de fumadores entre hombres y mujeres. Según el gráfico, el 25.68% de los hombres fuma, mientras que entre las mujeres la proporción es ligeramente mayor, alcanzando el 31.03%. Por otro lado, el porcentaje de personas que no fuman es un poco más alto entre los hombres 74.32% comparado con las mujeres 68.97%. Aunque la diferencia no es muy grande, se observa que proporcionalmente hay más mujeres fumadoras que hombres.

Ciudad origen vs. estado civil: ¿Hay una relación entre la ciudad de origen y el estado civil?

  • Sí, parece haber una relación entre la ciudad de origen y el estado civil, ya que las proporciones de cada estado civil varían según la ciudad. Por ejemplo: Bucaramanga tiene el porcentaje más alto de personas divorciadas (41.75%), destacándose frente a otras ciudades. Cali muestra una mayor proporción de personas casadas (23.9%) en comparación con Bucaramanga (17.48%). La proporción de personas solteras es más alta en Cali (35.22%) y más baja en Medellín (29.32%). El porcentaje de personas viudos también varia, siendo mayor en Medellín (18.32%) y menor en Bucaramanga (11.65%). Estas diferencias sugieren que el estado civil no se distribuye de la misma manera en todas las ciudades, lo que indica una posible relación entre ambas variables.

Ingresos vs. Gastos: ¿Existe una tendencia a gastar más si ganas más?

  • Analizando el grafico no parece haber una relación clara entre ingresos y gastos. Los puntos están muy dispersos sin formar una tendencia definida, lo que indica que ganar más no necesariamente implica gastar más. No se observa un patrón ascendente o descendente evidente, lo que da a entender una relación débil o no existente entre ambas variables. Edad vs. Tiempo de Viaje: ¿Las personas mayores pasan más o menos tiempo viajando? No parece haber una relación clara entre la edad y el tiempo de viaje. Los puntos están bastante dispersos a lo largo de todas las edades, y no se observa una tendencia evidente de que las personas mayores pasen más o menos tiempo viajando. Tanto las personas jóvenes como las mayores presentan tiempos de viaje variados, lo que sugiere que la edad no influye significativamente en el tiempo dedicado a trasladarse.

Género vs Ingresos: ¿Existe una diferencia en los ingresos entre hombres y mujeres?

  • A partir del diagrama, no se observa una diferencia marcada en los ingresos mensuales entre hombres y mujeres. Las medianas de ambos grupos son bastante similares, lo que indica que, en promedio, sus ingresos no varían de forma considerable. Además, las distribuciones presentan una dispersión comparable, con rangos intercuartílicos parecidos y algunos valores atípicos en ambos grupos. Esto sugiere que el género no parece tener un impacto claro en los niveles de ingreso según los datos analizados. Estado civil vs tiempo de viaje: ¿El estado civil influye en el tiempo que las personas tardan en desplazarse? Según el diagrama de cajas, no se aprecia una diferencia notable en el tiempo de viaje según el estado civil. Las medianas de los tiempos de desplazamiento son similares para las personas casadas, divorciadas, solteras y viudas, lo que sugiere que el estado civil no tiene un impacto claro en el tiempo que las personas tardan en trasladarse. Las distribuciones también muestran una variabilidad comparable entre los distintos grupos.

¿Cuál es la probabilidad de que, al seleccionar un grupo aleatorio de 40 personas, el promedio de sus gastos sea menor que la media de los gastos de la muestra?

  • El Teorema Central del Límite dice que, cuando se toman muestras aleatorias lo suficientemente grandes, las medias muestrales se distribuyen aproximadamente de forma normal, sin importar la forma de la distribución original de la población. En este caso, si se selecciona un grupo de 40 personas, el promedio de sus gastos seguirá una distribución normal centrada alrededor de la media poblacional. La variabilidad de estas medias muestrales se mide mediante el error estándar, que depende de la desviación estándar de la población y del tamaño de la muestra. Para encontrar la probabilidad de que el promedio de los gastos de estas 40 personas sea menor que la media de los gastos de la muestra, tendríamos que estandarizar el valor utilizando la distribución normal, y calcular el área bajo la curva a la izquierda del valor estandarizado. Dado que el Teorema central del límite asegura que las medias muestrales están normalmente distribuidas, esta probabilidad se puede interpretar como el área acumulada bajo la curva normal estándar.

Referencias

  • [1] D. Lind, W. Marchall, y S. Wathen, Estadística aplicada a los negocios y la economía, 15.a ed. 2008.

  • [2] J. Frost, «Degrees of Freedom in Statistics», Statistics By Jim. Accedido: 25 de febrero de 2025.
    [En línea]. Disponible en: http://statisticsbyjim.com/hypothesis-testing/degrees-freedom-statistics/

  • [3] M. Walpole, R. Myers, y Myers, Probabilidad y estadística para ingeniería y ciencias, Novena. Pearson, 2012.

  • [4] O. J. Pacheco Perez, «Pruebas de Hipótesis», Universidad Nacional de Colombia, 25 de febrero de 2025.

  • [5] A. L. Webster, Estadística aplicada a los negocios y la economía, Tercera. 2001.

  • [6] Mendenhall, Beaver, y Beaver, Introducción a la probabilidad y estadística, Décimo tercera. 2010.

  • OpenAI. (2024). Asistencia técnica y creación de contenido proporcionada por ChatGPT.

  • YouTube. (2023). Introducción a R Markdown.