\[ p = \frac{a}{N} \]
Una proporción es la razón entre el número de casos que presentan una característica particular y el número total de casos en un conjunto de datos o muestra. Se calcula dividiendo el número de casos de interés \(a\) entre el total de casos \(N\), dando como resultado un valor entre 0 y 1, que puede expresarse como porcentaje.
| Nivel Educativo | Frecuencia (n) | Porcentaje (%) |
|---|---|---|
| Primaria | 229 | 22.9% |
| Secundaria | 288 | 28.8% |
| Técnico | 231 | 23.1% |
| Universitario | 252 | 25.2% |
| Total | 1000 | 100.0% |
En este caso la proporción se obtuvo dividiendo el total de personas en cada nivel educativo sobre 1000 (el número total de personas), pero esto no quiere decir que se divida entre 1000 siempre.
\[ \% = \frac{a}{N} \times 100 \] El porcentaje es una forma de representar una parte \(a\) de un total\(N\) de 100. Se simboliza con el signo “%” y se utiliza para expresar proporciones y relaciones entre cantidades. Es decir, nos indica una fracción en la que el denominador es siempre 100.
Nota: El gráfico es interactivo ya que permite especificar que datos se desean ver en la torta dando click en la leyenda (Otro,Masculino,Femenino)
Media (Promedio): 41.53 años
Mediana: 41 años
Desviación Estándar: 13.72 años
La edad promedio de las personas en tu base de datos es de ≈41.5 años. El 50% de las personas tienen una edad igual o menor a 41 años. La dispersión promedio de las edades con respecto a la media es de ≈13.7 años.
comparación de personas que tienen 3 o menos hermanos y el número de
personas que tengan mas de 3 hermanos.
El Rango calculada como la diferencia entre el valor máximo y el valor mínimo de la variable.
$5,266.70
la diferencia de ingresos entre los individuos en los extremos es de $5,266.7.
La Varianza mide qué tan dispersos están los datos respecto a su media
631,117.32
La varianza es el promedio de las diferencias al cuadrado de cada ingreso con respecto al ingreso promedio (media).
El Coeficiente de Variación (CV) es una medida de dispersión relativa que se expresa como un porcentaje. Es útil para comparar la variabilidad de dos conjuntos de datos con medias muy diferentes. Se calcula como la desviación estándar dividida por la media.
40.22 %
Un 40.22% indica que los ingresos están muy dispersos respecto a la media. existe una gran heterogeneidad en los ingresos mensuales. Esta alta variabilidad sugiere que hay grandes diferencias salariales entre los individuos de la muestra.
La presencia de varios picos altos sugiere que la población de la
muestra no es homogénea y podría estar compuesta por la mezcla de varias
subpoblaciones con diferentes estaturas promedio (por ejemplo,
diferentes grupos de edad, género o etnia).
el gráfico muestra que la estatura de la población estudiada no sigue una distribución normal simple, sino que es multimodal (lo que hace que la regla simple de la relación entre la media, la mediana y la moda sea menos fiable), tampoco está notablemente más extendida a un lado que al otro, y tiene un rango amplio de valores.
El análisis de este tipo de asociación entre variables cuantitativas (Estatura) y cualitativas (Género); implica comparar la distribución de una variable para los distintos valores que toma la otra. Normalmente, se considera a la variable cualitativa como independiente o condicionante, mientras que la variable cuantitativa es la dependiente o condicionada. Comparación de la media de dos grupos Está basado en la prueba t, un procedimiento estadístico que comprueba si existe una diferencia significativa entre las medias de dos grupos. Hay tres tipos diferentes de pruebas t:
En este caso las muestras son independientes ya que cada persona pertenece solo a un género y este resultado no depende de los demás. Para analizar la relación es útil el uso de diagramas de caja ya que muestran mediana, cuartiles, rango y outliers, además permiten ver la distribución y no solo la media:
| Género | Media Estatura | Desv. Estándar | Mínimo | Máximo | Muestra |
|---|---|---|---|---|---|
| Otro | 1.76 | 0.14 | 1.5 | 2.00 | 355 |
| Femenino | 1.75 | 0.14 | 1.5 | 1.99 | 306 |
| Masculino | 1.74 | 0.15 | 1.5 | 2.00 | 339 |
Los resultados no dan una relación entre la estatura y el género. Las pequeñas diferencias observadas probablemente se deban al azar o características particulares de la población muestreada.
| Nivel Educativo | Media Ingreso Mensual | Muestra |
|---|---|---|
| Primaria | 2037.13 | 229 |
| Secundaria | 2012.24 | 288 |
| Universitario | 1948.15 | 252 |
| Técnico | 1897.03 | 231 |
Mediante el diagrama y la tabla se observa que no hay relación directa entre el nivel educativo y el ingreso mensual, no hay un patrón claro, en el diagrama las distribuciones son similares y sus cambios no inducen una relación.
En conclusión el uso de diagramas de caja y Diagrama de violin (Similar al boxplot, pero añade la densidad de la distribución.) es muy útil a la hora de comparar relaciones entre variables.
A partir de diferentes tablas como una gráfica de comparación o un Diagrama de caja se pueden evidenciar diferentes datos que se encuentran por medio de diferentes operaciones pero de una manera gráfica permitiendo saber cosas como su simetría, su media, datos anormales o inclusive la tendencia que están tomando los datos del muestreo, por ejemplo para ver si los datos son consistentes en la relación entre los ingresos mensuales por el nivel educativo la mejor forma es una grafica de caja.
A partir de este diagrama en el cual cada caja muestra la mediana (línea horizontal dentro de la caja) y la media (el rombo negro) y Se puede notar que los ingresos aumentan ligeramente con el nivel educativo, aunque no de manera tan marcada.
La altura de cada caja representa el rango intercuartílico (IQR: entre Q1 y Q3), Los niveles Secundaria y Técnico presentan cajas un poco más amplias es decir que tienen una mayor variabilidad en los ingresos.
La Primaria y Universitario tienen dispersión moderada, pero aún muestran amplitud, indicando que no todos los individuos en un mismo nivel ganan lo mismo.
Existe desigualdad interna dentro de cada nivel educativo ya que en todos los niveles aparecen puntos rojos aislados, que son indicadores de personas con ingresos mucho mayores o mucho menores que el resto.
En Técnico y Universitario se destacan varios casos con ingresos muy bajos (cerca de 0) y también otros muy altos (sobre 4000–5000).
Entre grupos se puede evidenciar que:
Primaria: ingresos más bajos en general, con un rango relativamente estrecho.
Secundaria: ingresos medianos más altos que primaria, pero con bastante dispersión y presencia de valores extremos altos.
Técnico: mediana similar a secundaria, aunque con mayor dispersión y presencia de extremos bajos y altos.
Universitario: mediana similar a técnico, pero con algunos casos de ingresos muy bajos y muy altos → gran heterogeneidad.
| Resumen Estadístico de Ingresos | |||||||
| Comparación por Nivel Educativo | |||||||
| NivelEducativo | Minimo | Q1 | Mediana | Media | Q3 | Maximo | Moda |
|---|---|---|---|---|---|---|---|
| Primaria | 6.6 | 1,524.8 | 2,080.0 | 2,037.1 | 2,528.2 | 4,617.4 | 2,078.2 |
| Secundaria | 112.2 | 1,435.9 | 1,964.3 | 2,012.2 | 2,540.2 | 4,756.8 | 1,167.6 |
| Técnico | −509.9 | 1,411.6 | 1,895.2 | 1,897.0 | 2,457.7 | 4,588.4 | 2,557.5 |
| Universitario | −434.5 | 1,394.9 | 1,999.2 | 1,948.1 | 2,452.3 | 4,017.9 | 1,313.2 |
Gracias a esta tabla se puede corroborar lo dicho anteriormente y se pueden evidenciar la similitud entre los datos derivados de operaciones entre el muestreo y los presentados de forma gráfica en el diagrama de caja.
Para poder observar relaciones lineales o no lineales, tendencias,concentraciones de datos ente dos variables cuantitativas es ideal usar un grafico de dispersion, por ejemplo para identificar gráficamente si existe una tendencia entre la Edad de las personas y su ingreso mensual se puede usar un grafico como el siguiente:
Gracias a este grafico general el cual solo compara la edad y los ingresos de todos las personas de la muestra los cuales son bastantes y por ende los puntos estas difuminados y de menor tamaño al estándar.
El gráfico demuestra que hay una gran dispersión en los datos presentes pero mantiene una tendencia entre los 2000 como ingreso promedio, ademas muestra que entre mayor edad existe una linea de regresión lineal la que nos dice que:
Ya que la dispersión general es tanta se dice que la tendencia es muy débil.
Debido a que la pendiente de la línea es ligeramente positiva,significa que, en promedio, los ingresos tienden a aumentar levemente con la edad, sin embargo, como el crecimiento no es pronunciado, indica que la edad por sí sola no explica mucho las diferencias de ingreso.
Otra gráfica posible de este mismo tipo es la grafica de edad con ingresos sin embargo mostrando los niveles de educación permitiendo comparar con el diagrama de caja y la dispersión que muestran estos dos.
También se observan valores atípicos (personas con ingresos muy altos
o muy bajos en cualquier edad).
Gracias a este otro grafico podemos comentar que: 1. No hay una tendencia fuerte en la relación entre edad e ingreso.
Los ingresos parecen estar bastante dispersos en todos los rangos de edad.
Se evidencia que las personas con mayor educación (Universitario, Técnico, Secundaria) tienden a concentrarse en ingresos un poco más altos que las de Primaria, aunque la diferencia no es muy marcada.
La dispersión es alta → a una misma edad, puede haber ingresos muy bajos o muy altos.
el nivel educativo tiene más peso en el ingreso que la edad, aunque dentro de cada nivel educativo hay mucha variabilidad.
#Crear la tabla de doble entrada (frecuencias absolutas)
tabla_conjunta <- table(datos_excel$Genero, datos_excel$NivelEducativo)| Primaria | Secundaria | Técnico | Universitario | |
|---|---|---|---|---|
| Femenino | 72 | 88 | 71 | 75 |
| Masculino | 74 | 93 | 82 | 90 |
| Otro | 83 | 107 | 78 | 87 |
#Calculamos las proporciones conjuntas
tabla_prop_df <- datos_excel %>%
group_by(Genero, NivelEducativo) %>%
summarise(Frecuencia = n()) %>%
mutate(Proporcion = Frecuencia / sum(Frecuencia))#Filtrar personas con más de 2 hermanos
mas_de_2_hermanos <- datos_excel%>%
filter(Hermanos > 2)
#Calcular la proporción con ingreso > 3000
proporcion_ingreso <- sum(mas_de_2_hermanos$IngresoMensual > 3000,
na.rm = TRUE) / nrow(mas_de_2_hermanos)9.33%