El presente informe corresponde al primer avance del proyecto del curso Estadística Aplicada, cuyo propósito es seleccionar y analizar una base de datos que servirá como eje de trabajo durante el semestre. El principal requisito de dicha base de datos es que permita realizar comparaciones de variables cuantitativas en función de una variable cualitativa con dos categorías, de manera que se puedan identificar patrones, diferencias y relaciones estadísticas entre los datos.
Este avance contempla cinco apartados fundamentales. En primer lugar, se presenta la identificación de la base de datos seleccionada, detallando el tipo de variables que la componen y, en particular, la variable cualitativa que servirá como punto de comparación. En segundo lugar, se incluyen los indicadores estadísticos descriptivos de cada variable cuantitativa seleccionada, acompañados de sus respectivas representaciones gráficas, lo que facilita una interpretación más clara de los resultados. Posteriormente, se evalúa la relación lineal entre dos variables cuantitativas, asegurando que el coeficiente de correlación supere un valor de 0,55, lo cual indica una asociación estadísticamente significativa.
Además, se incorporan gráficos pertinentes (como histogramas, diagramas de dispersión y diagramas de cajas) que permiten visualizar de manera clara los comportamientos de las variables. Finalmente, se analiza uno de los diagramas de caja con el fin de profundizar en la interpretación de la dispersión, asimetría y posibles valores atípicos presentes en los datos.
La base de datos seleccionada consta de 400 observaciones y 19 variables que recogen información sobre salarios, edad, carrera, puntaje en el SAT y otros aspectos relacionados con estudiantes estadounidenses de distintas universidades. Para este informe se seleccionaron 5 variables específicas, sobre las cuales se desarrollará el análisis estadístico y gráfico descrito anteriormente.
| Variable | Tipo | Clasificación |
|---|---|---|
| Gender | Cualitativo | Nominal |
| SAT_Score | Cuantitativa | Discreta |
| Starting_Salary | Cuantitativa | Continua |
| Age | Cuantitativa | Razón |
| Field_of_Study | Cualitativa | Nominal |
El 50% de las personas de la muestra son hombres y el otro 50% son mujeres.
summary(education_career_success$SAT_Score)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1160 1300 1380 1389 1480 1580
sd(education_career_success$SAT_Score)
## [1] 114.3119
## # A tibble: 2 × 2
## Gender Promedio_SAT
## <chr> <dbl>
## 1 Female 1420.
## 2 Male 1358.
En la muestra los puntajes obtenidos oscilaron entre un mínimo de 1160 y un máximo de 1580, dentro de una escala que va de 400 a 1600. El puntaje promedio alcanzado por los estudiantes fue de 1389. Con una desviación estándar de 114.3 lo que significa que en promedio, los puntajes de los estudiantes se alejan unos 114 puntos de la media. Además, en general las mujeres obtuvieron un puntaje mayor que los hombres.
prop.table(table(education_career_success$Age))
##
## 21 22 23 24 25
## 0.2 0.2 0.2 0.2 0.2
En general, los estudiantes de la muestra tienen entre 21 y 25 años, con una edad promedio de 23. La distribución por edades es uniforme, ya que cada grupo etario cuenta con 80 estudiantes; por ejemplo, 80 tienen 21 años y 80 tienen 25 años.
summary(education_career_success$Starting_Salary)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 31000 68000 84000 87562 105250 152000
sd(education_career_success$Starting_Salary)
## [1] 29685.42
library(dplyr)
education_career_success %>%
group_by(Gender) %>%
summarise(Starting_Salary = mean(Starting_Salary, na.rm = TRUE))
## # A tibble: 2 × 2
## Gender Starting_Salary
## <chr> <dbl>
## 1 Female 92470
## 2 Male 82655
En la muestra, los salarios iniciales oscilaron entre un mínimo de 31.000 USD y un máximo de 152.000 USD. El salario promedio fue de 87.562 USD, con una desviación estándar de 29.685 USD, lo que indica que, en promedio, los salarios se alejaron aproximadamente 30.000 USD de la media.
Asimismo, el salario inicial promedio de las mujeres resulta superior al de los hombres, lo que refleja una tendencia en la que las brechas salariales comienzan a cerrarse.
De las 11 carreras se encontró se contró lo siguiente con respecto al salario:
| Categoria | Frecuencia_Absoluta | Frecuencia_Relativa | Frec_Abs_Acumulada | Frec_Rel_Acumulada |
|---|---|---|---|---|
| Arts | 32 | 0.080 | 32 | 0.080 |
| Business | 72 | 0.180 | 104 | 0.260 |
| Computer Science | 49 | 0.122 | 153 | 0.382 |
| Education | 3 | 0.007 | 156 | 0.390 |
| Engineering | 58 | 0.145 | 214 | 0.535 |
| Finance | 5 | 0.013 | 219 | 0.547 |
| Law | 44 | 0.110 | 263 | 0.657 |
| Marketing | 44 | 0.110 | 307 | 0.767 |
| Medicine | 35 | 0.088 | 342 | 0.855 |
| Nursing | 3 | 0.007 | 345 | 0.862 |
| Psychology | 55 | 0.138 | 400 | 1.000 |
Áreas con mayores salarios iniciales: Medicina y Computer Science presentan los salarios iniciales más altos, con medianas que superan los 110.000 USD. También muestran gran dispersión, lo que indica que dentro de estas carreras hay estudiantes que logran salarios muy elevados en comparación con otros.
Áreas con salarios iniciales intermedios: Engineering, Finance, Law, Marketing y Psychology tienen medianas entre 70.000 y 90.000 USD. Estas áreas muestran mayor consistencia, aunque con algunos valores atípicos, sobre todo en Law y Marketing.
Áreas con menores salarios iniciales: Arts y Education son las que reportan los salarios iniciales más bajos, con medianas cercanas a los 45.000 USD. Además, presentan baja dispersión, lo que significa que los salarios en estas áreas son más homogéneos, aunque también más reducidos.
Dispersión y outliers: Áreas como Medicine y Computer Science presentan los mayores rangos intercuartílicos y valores extremos, reflejando gran variabilidad en las oportunidades salariales. En contraste, Nursing y Education son más estables, con poca variación entre los salarios iniciales.
Las mujeres tienen el salario más alto en promedio que los hombres excepto en las carreras de Arte, Medecine y Computer Science.
La relación lineal se hace teniendo en cuenta dos variables: SAT_Score y Starting_Salary. El resultado obtenido es una correlación positiva de 0.95.
cor(education_career_success$SAT_Score, education_career_success$Starting_Salary)
## [1] 0.9521848
El presente avance cumple con los objetivos planteados en el proyecto de Estadística Aplicada, ya que se logró seleccionar una base de datos adecuada, caracterizar las variables, calcular indicadores descriptivos, realizar comparaciones entre categorías y representar los resultados mediante herramientas gráficas. Asimismo, se evaluó la relación lineal entre dos variables cuantitativas (SAT_Score y Starting_Salary), obteniéndose un coeficiente de correlación de 0,95, lo que evidencia una asociación altamente significativa y de gran relevancia para el análisis.
De los resultados encontrados la comparación por género mostró lo siguiente: en promedio las mujeres obtuvieron valores superiores a los de los hombres en las variables seleccionadas (en el SAT_Score y en el Starting_Score), lo cual constituye un hallazgo importante para la comprensión de diferencias entre categorías; además, de las 11 carreras las mujeres tuvieron salarios más altos en 8 de ellas, solo en las carreras de Art, Medicine y Computer Science los hombres obtuvieron un promedio mayo.
https://www.kaggle.com/datasets/adilshamim8/education-and-career-success