D
Nuestra base de datos fue tomada desde internet siendo esta, una aleatoria. Se evalúan las profesiones, ocupaciones, edad y diferentes datos, tomados a personas entre 18-30 añosen un contexto ciudadano de Estados Unidos.
Analizar la relación entre las características demográficas y socioeconómicas que tienen las personas en una ciudad en Estados Unidos, como la edad, número de hijos, género, profesión, nivel educativo y salario anual, para identificar patrones y tendencias en la base de datos.
1. Cuantitativa-Cuantitativa: Edad-Número de hijos.
La intención de esta comparación es determinar a qué edad las personas entre 18 y 30 años tienen hijos y si los tienen qué cantidad de estos tienen.
| Variable | N | Media | Desviación Estándar | Mínimo | Q1 | Mediana (Q2) | Q3 | Máximo | NA | NA | NA | NA | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Edad | 1 | 800 | 23.7750 | 3.705271 | 24 | 23.737500 | 4.4478 | 18 | 30 | 12 | 0.0659902 | -1.195487 | 0.1310011 |
| Numero_hijos | 2 | 800 | 2.3925 | 1.716720 | 2 | 2.365625 | 2.9652 | 0 | 5 | 5 | 0.0684129 | -1.288008 | 0.0606952 |
## [1] "Correlación entre Edad y Número de Hijos: -0.0228928629063921"
| Correlación |
|---|
| -0.0228929 |
La gráfica muestra que el promedio del número de hijos disminuye conforme aumenta el rango de edad. Esto podría reflejar cambios en las dinámicas familiares o en las decisiones reproductivas de las personas a lo largo del tiempo. El grupo de personas entre 0 y 20 años tiene el promedio más alto de hijos (2.42), lo cual puede deberse a factores como una mayor fertilidad en los primeros años de vida reproductiva o a diferencias en las expectativas sociales y culturales. En los rangos de edad de 21-30 años y 31-40 años, el promedio de hijos disminuye progresivamente (2.40 y 2.36, respectivamente). Esto puede deberse a que con la edad hay cambios en las prioridades personales.
2. Cualitativa-Cualitativa: Género-Ocupación.
Analizar si el género de las personas influye en que tenga alguna preferencia por una profesión.
| Artes | Ciencias | Ciencias Sociales | Comunicación | Educación | Ingenierías | Otros | Salud | Sin empleo formal | |
|---|---|---|---|---|---|---|---|---|---|
| Female | 62 | 42 | 5 | 4 | 28 | 26 | 64 | 26 | 15 |
| Male | 56 | 51 | 7 | 10 | 20 | 33 | 51 | 22 | 11 |
| Artes | Ciencias | Ciencias Sociales | Comunicación | Educación | Ingenierías | Otros | Salud | Sin empleo formal | |
|---|---|---|---|---|---|---|---|---|---|
| Female | 0.2279412 | 0.1544118 | 0.0183824 | 0.0147059 | 0.1029412 | 0.0955882 | 0.2352941 | 0.0955882 | 0.0551471 |
| Male | 0.2145594 | 0.1954023 | 0.0268199 | 0.0383142 | 0.0766284 | 0.1264368 | 0.1954023 | 0.0842912 | 0.0421456 |
La gráfica muestra que las proporciones totales de participación en diferentes áreas ocupacionales son similares entre géneros (Female y Male). Esto indica que no hay una gran disparidad en términos generales, aunque las preferencias o tendencias varían según el área. Un segmento considerable de ambos géneros se clasifica como “Sin empleo formal” o “NA” (no especificado). Esto refleja una alta proporción de personas fuera del mercado laboral formal o sin datos claros sobre su ocupación. Las tendencias en áreas específicas son las siguientes: -Educación y Salud: Se observa que estas áreas tienen una mayor proporción de participación femenina en comparación con la masculina. Esto sugiere una tendencia hacia profesiones relacionadas con el cuidado y la enseñanza en el caso de las mujeres. -Ingenierías: Este campo muestra una mayor proporción de hombres, indicando una preferencia o predominancia masculina en ocupaciones técnicas. -Artes y Ciencias Sociales: Estas áreas presentan distribuciones relativamente equilibradas entre géneros, aunque hay una ligera inclinación femenina en algunos casos. Por último, la mayor proporción sin empleo formal podría ser un indicio de vulnerabilidad económica o falta de acceso al mercado laboral estructurado.
3. Cualitativa-Cuantitativa: Educación-Salario Anual.
El objetivo de esta comparación es identificar si el nivel de educación de una persona logra influir en su salario anual.
| Education | Salario_anual.mean | Salario_anual.sd |
|---|---|---|
| Bachelor | 105154.5 | 52981.16 |
| Doctoral | 119522.6 | 51394.72 |
| Lower secondary | 113266.9 | 48239.72 |
| Master | 112694.2 | 47916.07 |
| Primary | 114779.0 | 48948.88 |
| Upper secondary | 120695.5 | 50070.98 |
A partir del análisis del boxplot que representa el salario anual según el nivel educativo, se observa que, en este conjunto de datos, las personas con nivel educativo de “upper secondary” (educación secundaria superior) tienen, en promedio, un salario mayor que aquellas con nivel de “bachelor” (licenciatura). Sin embargo, este resultado es contrario a lo que normalmente se esperaría, donde un mayor nivel educativo suele estar asociado con un mayor ingreso. Es importante aclarar que los datos utilizados fueron generados de manera aleatoria, por lo que no reflejan patrones reales. Debido a su naturaleza simulada, no se pueden extraer conclusiones representativas sobre la relación entre educación y salario en la vida real.
##
## Call:
## lm(formula = Salario_anual ~ Edad, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -86930 -45728 892 44438 92313
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 146993.8 11457.9 12.829 < 2e-16 ***
## Edad -1383.4 476.2 -2.905 0.00377 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 49870 on 798 degrees of freedom
## Multiple R-squared: 0.01046, Adjusted R-squared: 0.009225
## F-statistic: 8.439 on 1 and 798 DF, p-value: 0.003773
La regresión lineal muestra una tendencia decreciente entre la edad y el salario anual. Esto implica que, en este conjunto de datos, a medida que la edad aumenta dentro del rango analizado (aproximadamente de 17.5 a 30 años), el salario anual promedio tiende a disminuir. Aunque la línea de regresión indica una tendencia general, los puntos están muy dispersos, lo que sugiere que la relación entre edad y salario no es fuerte o está influenciada por otros factores no considerados en esta regresión. Se observa una gran variación en los salarios dentro de cada rango de edad, con valores que van desde aproximadamente 50,000 dólares hasta 200,000 dólares, lo que podría reflejar diferencias en nivel educativo, experiencia laboral, o industria.
El histograma de los residuos muestra que estos no siguen una distribución normal, ya que la curva de densidad presenta oscilaciones y asimetrías. Esto sugiere que el modelo de regresión lineal entre el salario anual y la edad no ajusta perfectamente los datos, indicando posibles problemas como la subestimación o sobreestimación en ciertos rangos de edad. Esta falta de normalidad podría deberse a que la relación entre las variables no es estrictamente lineal o a la omisión de factores relevantes en el modelo.
El gráfico Q-Q (cuantiles-cuántiles) de los residuos indica que estos se desvían de la línea teórica de normalidad, especialmente en los extremos, donde se observa una curvatura significativa. Esto sugiere que los residuos no siguen una distribución normal, lo que viola uno de los supuestos fundamentales de la regresión lineal. Esta desviación podría estar relacionada con datos atípicos, una relación no lineal entre las variables o una inadecuada especificación del modelo.
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.95144, p-value = 1.42e-15
El gráfico de residuos vs valores ajustados muestra que los residuos están dispersos de manera aleatoria alrededor de la línea roja (residuo = 0), lo cual es un buen indicador de que no hay patrones sistemáticos evidentes en los residuos. Sin embargo, la varianza parece ser relativamente constante, aunque hay cierta dispersión en los extremos.
##
## Durbin-Watson test
##
## data: modelo_regresion
## DW = 2.0505, p-value = 0.7624
## alternative hypothesis: true autocorrelation is greater than 0
link (https://bucket-tableros-carga.s3.us-east-1.amazonaws.com/28ba197e-fe89-40f4-91f4-705a0f713ecc.csv)