Primera entrega

El presente informe reúne los avances desarrollados a lo largo del proyecto aplicado del curso de Estadística, el cual se estructuró en tres entregas progresivas. En la primera fase se seleccionó y describió una base de datos adecuada para el análisis estadístico, identificando una variable cualitativa con dos categorías y varias variables cuantitativas que permitieran realizar comparaciones e identificar patrones relevantes. Esta etapa incluyó la presentación de estadísticas descriptivas, representaciones gráficas y el análisis de la relación lineal entre variables, garantizando una comprensión inicial del comportamiento de los datos. En la segunda entrega, el proyecto avanzó hacia la estimación e inferencia de parámetros poblacionales mediante cálculos puntuales, intervalos de confianza y pruebas de hipótesis para una y dos poblaciones, profundizando en la comparación entre grupos y en la interpretación inferencial de los resultados.

Finalmente, en esta tercera y última entrega se realizó el ajuste de un modelo de regresión lineal utilizando las variables cuantitativas seleccionadas. Se tomó como variable dependiente el salario inicial y se emplearon como predictores el GPA de la escuela secundaria y el puntaje en el SAT con el fin de evaluar su capacidad explicativa sobre el fenómeno de estudio.

1.1 Identificación de los datos selecionados

Variable Tipo Clasificación
Gender Cualitativo Nominal
SAT_Score Cuantitativa Discreta
Starting_Salary Cuantitativa Continua
Age Cuantitativa Razón
Field_of_Study Cualitativa Nominal
  • Gender: Male or Famale.
  • SAT_Score: es una prueba estandarizada que evalúa las habilidades de lectura, escritura y matemáticas de un estudiante para su admisión a universidades en Estados Unidos. La puntuación total es la suma de las puntuaciones individuales de las secciones de Lectura y Escritura y de Matemáticas, y se presenta en una escala de 400 a 1600.
  • Age: Edad de los estudiantes.
  • Field_of_Study: carrera de estudio.
  • Starting_Salary: salario inicial después de haberse graduado de la universidad.

1.2 Indicadores estadísticos por variables

1.2.1 Género

El 50% de las personas de la muestra son hombres y el otro 50% son mujeres.

1.2.2 Puntaje SAT

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1160    1300    1380    1389    1480    1580
## [1] 114.3119
## # A tibble: 2 × 2
##   Gender Promedio_SAT
##   <chr>         <dbl>
## 1 Female        1420.
## 2 Male          1358.

En la muestra los puntajes obtenidos oscilaron entre un mínimo de 1160 y un máximo de 1580, dentro de una escala que va de 400 a 1600. El puntaje promedio alcanzado por los estudiantes fue de 1389. Con una desviación estándar de 114.3 lo que significa que en promedio, los puntajes de los estudiantes se alejan unos 114 puntos de la media. Además, en general las mujeres obtuvieron un puntaje mayor que los hombres.

1.2.3 Edad

## 
##  21  22  23  24  25 
## 0.2 0.2 0.2 0.2 0.2

En general, los estudiantes de la muestra tienen entre 21 y 25 años, con una edad promedio de 23. La distribución por edades es uniforme, ya que cada grupo etario cuenta con 80 estudiantes; por ejemplo, 80 tienen 21 años y 80 tienen 25 años.

1.2.4 Salario inicial

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   31000   68000   84000   87562  105250  152000
## [1] 29685.42
## # A tibble: 2 × 2
##   Gender Starting_Salary
##   <chr>            <dbl>
## 1 Female           92470
## 2 Male             82655

En la muestra, los salarios iniciales oscilaron entre un mínimo de 31.000 USD y un máximo de 152.000 USD. El salario promedio fue de 87.562 USD, con una desviación estándar de 29.685 USD, lo que indica que, en promedio, los salarios se alejaron aproximadamente 30.000 USD de la media.

Asimismo, el salario inicial promedio de las mujeres resulta superior al de los hombres, lo que refleja una tendencia en la que las brechas salariales comienzan a cerrarse.

1.2.5 Campo de estudio y Salario inicial

De las 11 carreras se encontró se contró lo siguiente con respecto al salario:

Categoria Frecuencia_Absoluta Frecuencia_Relativa Frec_Abs_Acumulada Frec_Rel_Acumulada
Arts 32 0.080 32 0.080
Business 72 0.180 104 0.260
Computer Science 49 0.122 153 0.382
Education 3 0.007 156 0.390
Engineering 58 0.145 214 0.535
Finance 5 0.013 219 0.547
Law 44 0.110 263 0.657
Marketing 44 0.110 307 0.767
Medicine 35 0.088 342 0.855
Nursing 3 0.007 345 0.862
Psychology 55 0.138 400 1.000

  • Áreas con mayores salarios iniciales: Medicina y Computer Science presentan los salarios iniciales más altos, con medianas que superan los 110.000 USD. También muestran gran dispersión, lo que indica que dentro de estas carreras hay estudiantes que logran salarios muy elevados en comparación con otros.

  • Áreas con salarios iniciales intermedios: Engineering, Finance, Law, Marketing y Psychology tienen medianas entre 70.000 y 90.000 USD. Estas áreas muestran mayor consistencia, aunque con algunos valores atípicos, sobre todo en Law y Marketing.

  • Áreas con menores salarios iniciales: Arts y Education son las que reportan los salarios iniciales más bajos, con medianas cercanas a los 45.000 USD. Además, presentan baja dispersión, lo que significa que los salarios en estas áreas son más homogéneos, aunque también más reducidos.

  • Dispersión y outliers: Áreas como Medicine y Computer Science presentan los mayores rangos intercuartílicos y valores extremos, reflejando gran variabilidad en las oportunidades salariales. En contraste, Nursing y Education son más estables, con poca variación entre los salarios iniciales.

  • Las mujeres tienen el salario más alto en promedio que los hombres excepto en las carreras de Arte, Medecine y Computer Science.

1.3 Relación lineal

La relación lineal se hace teniendo en cuenta dos variables: SAT_Score y Starting_Salary. El resultado obtenido es una correlación positiva de 0.95.

## [1] 0.9521848

1.4 Conclusión

El presente avance cumple con los objetivos planteados en el proyecto de Estadística Aplicada, ya que se logró seleccionar una base de datos adecuada, caracterizar las variables, calcular indicadores descriptivos, realizar comparaciones entre categorías y representar los resultados mediante herramientas gráficas. Asimismo, se evaluó la relación lineal entre dos variables cuantitativas (SAT_Score y Starting_Salary), obteniéndose un coeficiente de correlación de 0,95, lo que evidencia una asociación altamente significativa y de gran relevancia para el análisis.

De los resultados encontrados la comparación por género mostró lo siguiente: en promedio las mujeres obtuvieron valores superiores a los de los hombres en las variables seleccionadas (en el SAT_Score y en el Starting_Score), lo cual constituye un hallazgo importante para la comprensión de diferencias entre categorías; además, de las 11 carreras las mujeres tuvieron salarios más altos en 8 de ellas, solo en las carreras de Art, Medicine y Computer Science los hombres obtuvieron un promedio mayo.

Segunda entrega

2.1 Promedio, desviación e intervalo de confianza

Promedio, desviación estándar e intervalos de confianza del salario inicial por género
Gender promedio desviacion_estandar n error_estandar IC_inferior IC_superior
Female 92470 26583.31 200 1879.72 88785.74 96154.26
Male 82655 31808.72 200 2249.22 78246.54 87063.46

2.2 Descripción del punto anterior

Los resultados muestran que el salario inicial promedio de las mujeres (92,470) es superior al de los hombres (82,655). Además, los intervalos de confianza al 95% confirman esta diferencia: para las mujeres, el salario inicial poblacional se estima entre 88,785.74 y 96,154.26, mientras que para los hombres se encuentra entre 78,246.54 y 87,063.46. Dado que los intervalos no se superponen de forma considerable, se sugiere que existe una diferencia estadísticamente significativa entre ambos grupos, donde las mujeres presentan, en promedio, un salario inicial mayor dentro de la muestra analizada.

Observación: Se aplicó la prueba de normalidad de Shapiro-Wilk a la variable cuantitativa Starting_Salary. El resultado obtenido fue W = 0.95622 con un valor p = 1.577e-09, el cual es menor que el nivel de significancia habitual (α = 0.05). Por lo tanto, se rechaza la hipótesis nula de normalidad, concluyéndose que la distribución de la variable Starting_Salary no sigue una distribución normal.

## 
##  Shapiro-Wilk normality test
## 
## data:  education_career_success$Starting_Salary
## W = 0.95622, p-value = 1.577e-09

2.3 Estimación por intervalo

  • Estime puntualmente y por intervalo la proporcion de acuerdo a la variable cualitativa.

  • Estime la diferencia entre las proporciones de las variables cuantitativas, con base en la variable cualitativa.

Proporciones por género en la carrera Psicología
Gender n proporcion error_estandar IC_inferior IC_superior
Female 34 0.676 0.0802309 0.519 0.834
Male 21 0.286 0.0985808 0.092 0.479
Diferencia entre proporciones (Hombres - Mujeres)
Diferencia IC_inferior IC_superior
-0.391 -0.64 -0.142

2.4 Interpretación de las medidas anteriores

Los resultados muestran una diferencia marcada entre hombres y mujeres en la carrera de Psicología. La proporción de mujeres con salario inicial superior al promedio (0.676) es considerablemente mayor que la de hombres (0.286). Esto sugiere que, dentro de este campo de estudio, las mujeres tienen mayor probabilidad de alcanzar salarios por encima del promedio general. Además, los intervalos de confianza no se superponen de manera significativa, lo que refuerza la idea de una brecha real en las proporciones.

La diferencia estimada entre las proporciones (–0.391) indica que los hombres presentan una proporción 39.1 puntos porcentuales menor que las mujeres en cuanto a salarios altos dentro de Psicología. Dado que el intervalo de confianza (–0.64, –0.142) no incluye el valor cero, se puede concluir con un 95 % de confianza que esta diferencia es estadísticamente significativa. En términos prácticos, la evidencia sugiere que el género sí influye en la probabilidad de percibir un salario inicial elevado en esta disciplina.

2.5 Hipótesis y estimadores

Repita todo lo anterior, para lo que usted considere, de acuerdo a sus datos, pruebas de hipotesis para los parametros de una poblacion y de dos poblaciones, respectivamente. Tenga presente lo visto en el curso, es importante la notacion y debe dejar explcito parametro, estimadores, etc. La notacion tambien hace parte de la evaluacion, ademas, los calculos se deben realizar en R.

Prueba de hipótesis para dos poblaciones (por género): Parámetro de interés

Queremos contrastar si existe diferencia entre las medias poblacionales de los dos grupos.

\[ \mu_H = \text{media del salario inicial de los hombres} \]

\[ \mu_M = \text{media del salario inicial de las mujeres} \]

Queremos contrastar si existe diferencia entre las medias poblacionales de los dos grupos.

2.5.1 Hipótesis

\[ H_0: \mu_H = \mu_M \]

\[ H_1: \mu_H \neq \mu_M \]

2.5.2 Estimadores

Las medias muestrales y desviaciones estándar se denotan como:

  • Para hombres: \(\bar{X}_H, S_H\)
  • Para mujeres: \(\bar{X}_M, S_M\)

El estimador de la diferencia entre medias poblacionales es:

\[ \delta = \bar{X}_H - \bar{X}_M \]

Estadístico de prueba

\[ z = \frac{(\bar{X}_1 - \bar{X}_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \]

## 
##  Welch Two Sample t-test
## 
## data:  Starting_Salary by Gender
## t = 3.3484, df = 385.84, p-value = 0.0008928
## alternative hypothesis: true difference in means between group Female and group Male is not equal to 0
## 95 percent confidence interval:
##   4051.74 15578.26
## sample estimates:
## mean in group Female   mean in group Male 
##                92470                82655

Con un nivel de significancia de 𝛼= 0.05 y un valor p de 0.0008928, se rechaza la hipótesis nula, ya que el valor p es menor que el nivel de significancia. Esto indica que existe evidencia estadísticamente significativa de que los salarios iniciales promedio difieren entre hombres y mujeres.

Tercera entrega

El presente avance continúa con el desarrollo progresivo del proyecto aplicado del curso de Estadística y, como fue mencionado en la introducción, esta tercera y última entrega se centra en el ajuste de un modelo de regresión lineal utilizando las variables cuantitativas seleccionadas de la base de datos del grupo. El propósito de este análisis es identificar y justificar la relación existente entre las variables, evaluando cómo se comportan y qué tan útiles resultan para explicar el fenómeno de estudio. Para ello, se estableció como variable dependiente el salario inicial y se utilizaron como variables independientes el GPA de la escuela secundaria y el puntaje SAT, con el fin de determinar su capacidad predictiva y la magnitud de su efecto sobre la variable de interés.

3.1 Modelo

## 
## Call:
## lm(formula = Starting_Salary ~ High_School_GPA + SAT_Score, data = df2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -27774.9  -5369.8     56.1   5272.3  20130.7 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -350245.83   18078.95 -19.373  < 2e-16 ***
## High_School_GPA    6837.50    1250.19   5.469 8.02e-08 ***
## SAT_Score           136.83      20.56   6.657 9.34e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8768 on 397 degrees of freedom
## Multiple R-squared:  0.9132, Adjusted R-squared:  0.9128 
## F-statistic:  2088 on 2 and 397 DF,  p-value: < 2.2e-16

El intercepto dio un valor de -350245.83, cuando las variables independientes son constantes, pero no significa que los estudiantes tengan un ingreso negativo, aunque éste represente el salario esperado.

  • Por cada punto adicional de GPA en secundaria, el salario inicial aumenta en promedio 6,837.5 unidades, manteniendo constante el SAT Score.

  • Por cada punto adicional en SAT, el salario inicial aumenta en promedio 136.83 unidades, manteniendo constante el GPA.

  • Ambos p-valor son diferente de cero lo que implica que Tanto GPA como SAT son predictores estadísticamente significativos del salario inicial.

  • El residuo mediano es ≈ 56 lo que es un buen ajuste aunque, lo mejor sería que fuera cero ya que representaría que no hay sesgo.

  • R2: El modelo explica el 91.32% de la variabilidad del salario inicial. Lo que nos dice que no alcanza a explicar el ≈ 8.68% de la variabilidad del salario.

  • R2 ajustado: como es muy similar al R2 quiere decir que no es muy grande el sobreajuste.

  • El error estándar del modelo arroja un valor de 8768 teniendo en cuenta 397 grados de libertad, lo que representa que en promedio el modelo se equivoca +/- 8.768 unidades del salario.

  • El estadístico de prueba F dio un valor diferente de cero lo que implica que el modelo es altamente significativo y las variables predicen muy bien el salario.

3.1.1 Densidad de los residuos del modelo

El test de Shapiro-Wilk evalúa la hipótesis: * H0 (hipótesis nula): Los residuos siguen una distribución normal. * H1 (hipótesis alternativa): Los residuos NO siguen una distribución normal.

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.98359, p-value = 0.0001661

los resultados muestran lo siguiente: eniendo en cuenta que el valor p es menor a 0 se rechaza la hipótesis nula y por ende los residuos no siguen una distribución normal.

La prueba de shapiro.test nos dice que el supuesto de homodesticidad no se cumple lo que significa que la varianza de los errores del modelo de regresión no es constante, sino que está cambiando según el nivel de las variables independientes o de los valores predicho.

3.1.2 Ajuste del modelo

Se busca visualizar los valores residuales del modelo con los valores ajustados.

Según el diagrama de dispersión se puede observar que la homocedasticidad no se cumple.

A continuación usaremos otra prueba para corrobar lo anterior.

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 44.474, df = 2, p-value = 2.201e-10

H₀: existe homocedasticidad, la varianza de los errores es constante.

H₁: hay heterocedasticidad, la varianza de los errores cambia con las variables explicativas.

Resultados:

  • Estadístico = 44.474

  • Grados de libertad = 2

  • P valor menor a 0.05 Los resultados muestran que el modelo no cumple el supuesto de homocedasticidad, por lo cual se rechaza H0 y se afirma que hay evidencia muy fuerte de heterocedasticidad.

A continuación vamos a comprobar si se cumple el supuesto de especificidad.

## [1] 5.447309e-13

El supuesto de especificidad del modelo se cumple, dado que la media de los residuos es prácticamente cero (5.44e-13), un valor tan pequeño que corresponde únicamente a precisión numérica del software. Esto indica que los errores no presentan un sesgo sistemático y que, en promedio, se distribuyen equilibradamente alrededor de cero, lo cual confirma que el modelo está correctamente especificado en términos de su estructura funcional.

3.1.3 Transformación del modelo

3.1.3.1 Lambda óptimo

## [1] 0.2222222

Según la transformación nos dice que el valor del lamba óptimo es = 0.2222222

3.1.3.2 Transformación de la variable dependiente: caso general (λ ≠ 0)

3.2 Nuevo modelo

## 
## Call:
## lm(formula = Starting_Salary_bc ~ High_School_GPA + SAT_Score, 
##     data = df2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.8480 -0.6749  0.1522  0.7399  2.6276 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -21.271960   2.218612  -9.588  < 2e-16 ***
## High_School_GPA   1.609727   0.153421  10.492  < 2e-16 ***
## SAT_Score         0.010290   0.002523   4.079 5.46e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.076 on 397 degrees of freedom
## Multiple R-squared:  0.9383, Adjusted R-squared:  0.938 
## F-statistic:  3021 on 2 and 397 DF,  p-value: < 2.2e-16
  • Por cada punto adicional de GPA en secundaria, el salario inicial aumenta en promedio 1.609 unidades, manteniendo constante el SAT Score.

  • Por cada punto adicional en SAT, el salario inicial aumenta en promedio 0.010 unidades, manteniendo constante el GPA.

  • Ambos p-valor son diferente de cero lo que implica que Tanto GPA como SAT son predictores estadísticamente significativos del salario inicial.

  • El residuo mediano es ≈ 1 lo que implica que los residuos están concentrados.

  • R2: El modelo explica el 93.8% de la variabilidad del salario inicial. Lo que nos dice que no alcanza a explicar el ≈ 6.92% de la variabilidad del salario.

  • R2 ajustado: como es muy similar al R2 quiere decir que no es muy grande el sobreajuste.

3.2.1 Comprobación de los supuestos nuevo modelo

A continuación se realizaran los supuestos de normalidad con shapiro wilk y el supuesto de homocedasticidad con bptest del nuevo modelo, también se hará el de especificidad aunque se haya cumplido con el anterior modelo.

Especificidad

## [1] 3.348098e-17

Se sigue cumpliendo el supuesto de escificidad ya que el valor obtenido es casi cero.

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_bc$residuals
## W = 0.95165, p-value = 3.651e-10

El valor p es mejor al nivel de significancia del 0.05 por ende, se sigue rechazando el supuesto de normalidad.

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_bc
## BP = 0.899, df = 2, p-value = 0.6379

H₀: existe homocedasticidad, la varianza de los errores es constante.

H₁: hay heterocedasticidad, la varianza de los errores cambia con las variables explicativas.

El valor p es alto (0.6379), lo que significa que no hay evidencia estadística de heterocedasticidad, por ende se cumple el supuesto de homocedasticidad que antes no se cumplía.

El nuevo modelo muestra que los residuos se distribuyen de manera más uniforme alrededor de la línea roja en cero, sin una forma cónica ni un patrón definido, lo cual es consistente con el cumplimiento del supuesto de homocedasticidad confirmado por la prueba de Breusch-Pagan. Aunque siguen existiendo algunos puntos alejados del resto, no se observa una tendencia sistemática ni acumulaciones que indiquen problemas estructurales graves en el modelo.

3.3 Conclusión

En esta tercera y última entrega del proyecto aplicado de Estadística se logró ajustar, evaluar y mejorar un modelo de regresión lineal destinado a explicar el salario inicial a partir del GPA de secundaria y el puntaje SAT. El modelo inicial mostró una alta capacidad explicativa, pero incumplió los supuestos fundamentales de normalidad y homocedasticidad, pero no el de especificidad, los dos supuestos anteriores afetaron la validez inferencial del análisis. Mediante la aplicación de la transformación Box-Cox se obtuvo un nuevo modelo con mejores propiedades estadísticas: si bien el supuesto de normalidad continuó sin cumplirse, el supuesto de homocedasticidad sí fue corregido exitosamente y se comprobó que el supuesto de especificidad se seguía cumpliendo, eso demuestra que la transformación del modelo ayuda a mejorar su predición.