## Warning: package 'dslabs' was built under R version 4.4.3
El conjunto de datos gapminder, esta incluido en el paquete de dslabs y contiene indicadores sobre salud, fertilidad, economia y poblacion para 184 paises, desde el año 1960 hasta el 2016. Incluye variables como la tasa de mortalidad infantil, esperanza de vida, el Producto Interno Bruto (PIB o GDP) por continente y region. Este conjunto de datos permite explorar y analizar cambios sociales y economicos en diferentes regiones del mundo a lo largo del tiempo
Los datos provienen del proyecto Gapminder que es una fundacion sin fines de lucro que recopila y publica datos estadisticos de organismos internacionales como el Banco Mundial y la ONU. El dataset fue compilado y adaptado para que el paquete dslabs lo utilizara. Especificamente, fue preparado por el equipo de autores del libro “Introduction to Data Science” de Rafael A. Irizarry
Segun lo que dice la documentacion oficial de R, los datos se basan en indicadores economicos y de salud para 184 paises entre 1960 y 2016. Incluye ademas listas de paises miembros de la Organización para la Cooperación y el Desarrollo Económicos (OCDE) y la Organización de Países Exportadores de Petróleo (OPEP)
Referencia: Irizarry, R. A. (2020). Introduction to Data Science: Data Analysis and Prediction Algorithms with R. CRC Press. Más información en https://www.gapminder.org
Dentro de del resumen podemos obtener la siguiente informacion sobre los datos
Country – Cada país aparece 57 veces Year – Sabemos que el rango de los datos es de 1960 hasta 2016 Infant_mortality – Tiene 1453 valores faltantes y tiene un mínimo de 1.5 y un máximo de 276.9 Life_expectancy – No tiene valores faltantes y tiene un mínimo de 13.2 y un máximo de 83.9 Fertility – Tiene 187 valores faltantes y tiene un mínimo de 0.84 y un máximo de 9.22 Population – Tiene 185 valores faltantes y tiene un mínimo de 31240 y un máximo de 1.376 mil millones Gdp – Tiene 2972 valores faltantes y un mínimo de 40 millones y un máximo de 11.74 billones
Plantilla de tabla resumen:
| Variable | Descripción |
|---|---|
| country | Nombre del país que es una cadena de caracteres |
| year | Año de observación que es numérico |
| infant_mortality | Mortalidad infantil (muertes por cada 1,000 nacidos vivos) que es numérico |
| life_expectancy | Esperanza de vida al nacer (en años) que es numérico |
| fertility | Tasa de fertilidad (número de hijos por mujer) que es numérico |
| population | Población total del país que es numérico |
| gdp | Producto Interno Bruto (PIB) en dólares que es numérico |
| continent | Continente al que pertenece el país que es una cadena de caracteres |
| region | Región geográfica dentro del continente que es una cadena de caracteres |
# Escriba el código R aquí para cargar su archivo de datos
data(gapminder)
# Escriba el código R aquí para crear su primer gráfico
gapminder_1980 <- subset(gapminder, year == 1980)
# Gráfico de dispersión entre 'population' y 'fertility' solo para el año 1980
ggplot(gapminder_1980, aes(x = population, y = fertility, color = continent)) +
geom_point(alpha = 0.7) + # Agregar transparencia a los puntos
scale_x_log10() + # Escala logarítmica para la población
labs(title = "Relación entre Población y Fertilidad en 1980",
x = "Población (en millones, escala logarítmica)",
y = "Fertilidad (promedio de hijos por mujer)") +
theme_minimal()
El grafico esta representando la relacion entre dos variables para diferentes paises en el año 1980:
En el eje horizontal (x): Poblacion (en millones y escala logaritmica). Esta variable indica el numero total de habitantes de cada pais. Se utiliza una escala logaritmica para visualizar la gran cantidad de registros que se tiene de la poblacion, desde países con pocos millones hasta aquellos con miles de millones de habitantes, sin que los países más poblados compriman visualmente a los demás.
En el eje vertical (y): Fertilidad (promedio de hijos por mujer). Esta variable representa el numero promedio de hijos que tendria una mujer a lo largo de su vida reproductiva en cada pais
Cada punto en el gráfico representa un país específico, y el color del punto indica el continente al que pertenece ese país (África, América, Asia, Europa y Oceanía), según la leyenda proporcionada.
La razón de este grafico es verificar si existe alguna correlación o tendencia entre el tamaño de la población de un país y su tasa de fertilidad. Por ejemplo, ¿tienden los países con poblaciones más grandes a tener tasas de fertilidad más altas o más bajas? ¿Existen diferencias en esta relación entre los diferentes continentes?
Al observar la dispersión de los puntos en el gráfico, podemos empezar a identificar algunas tendencias y patrones, aunque es importante recordar que esto es una instantánea de un solo año (1980) y no muestra la evolución a lo largo del tiempo.
Tendencia General (Aunque Débil): A nivel global, no se observa una correlación lineal fuerte y evidente entre el tamaño de la población y la tasa de fertilidad. Los puntos están bastante dispersos en todo el gráfico. Sin embargo, si observamos los extremos, podríamos insinuar una tendencia débil a que los países con poblaciones más pequeñas tiendan a tener una mayor variabilidad en sus tasas de fertilidad, mientras que los países con poblaciones muy grandes (hacia la derecha del gráfico) parecen concentrarse en rangos de fertilidad más bajos o intermedios.
Patrones por Continente:
África (Naranja): Los puntos naranjas tienden a agruparse en la parte superior del gráfico, lo que indica que los países africanos en 1980 generalmente tenían tasas de fertilidad más altas, independientemente de si su población era relativamente pequeña o mediana (dentro de la escala logarítmica mostrada).
América (Verde): Los puntos verdes están más dispersos en el rango medio de fertilidad. Vemos países con poblaciones relativamente pequeñas y fertilidades medias, así como países con poblaciones más grandes también con fertilidades en este rango.
Asia (Azul): Los puntos azules muestran una tendencia hacia tasas de fertilidad más bajas a medida que la población aumenta. Vemos una concentración de países asiáticos con poblaciones grandes (hacia la derecha) en la parte inferior y media del gráfico, indicando una fertilidad más baja en comparación con África. Sin embargo, también hay países asiáticos con poblaciones más pequeñas y fertilidades más altas.
Europa (Celeste): Los puntos celestes se agrupan claramente en la parte inferior del gráfico, indicando que los países europeos en 1980 generalmente tenían tasas de fertilidad más bajas, independientemente del tamaño de su población (que en su mayoría se sitúa en rangos medios a altos en la escala logarítmica).
Oceanía (Rosa): Los puntos rosa son menos numerosos, pero parecen situarse en un rango de fertilidad medio a alto, con poblaciones relativamente pequeñas en comparación con Asia o algunos países de América.
Información Principal:
La fertilidad parece estar más fuertemente influenciada por el continente que por el tamaño absoluto de la población en 1980. Vemos claras diferencias en los rangos de fertilidad típicos para los países de África, Europa y, en menor medida, Asia. Los países africanos tienden a tener las tasas de fertilidad más altas. Los países europeos tienden a tener las tasas de fertilidad más bajas. Asia muestra una variedad, pero con una inclinación hacia una menor fertilidad en países más poblados. América y Oceanía presentan una mayor variabilidad dentro de sus respectivos rangos de población.
En resumen, el gráfico sugiere que, en 1980, el continente al que pertenecía un país era un factor más importante para predecir su tasa de fertilidad que el tamaño de su población. Aunque se insinúa una débil tendencia a la baja de la fertilidad en países asiáticos más poblados, la imagen general destaca las diferencias regionales significativas en los patrones de fertilidad.
# Escriba el código R aquí para crear su segundo gráfico
gapminder_1980 <- subset(gapminder, year == 1980)
ggplot(gapminder_1980, aes(x = life_expectancy)) +
geom_histogram(binwidth = 2, fill = "skyblue", color = "black", alpha = 0.7) +
labs(title = "Distribución de la Esperanza de Vida en 1980",
x = "Esperanza de Vida (años)",
y = "Número de países") +
theme_minimal()
Descripción de las Variables:
En el eje horizontal (X): Esperanza de Vida (años). Este eje representa los diferentes rangos de esperanza de vida, medidos en años. Las barras del histograma se agrupan en intervalos de esperanza de vida (por ejemplo, de 40 a 45 años, de 45 a 50 años, y así sucesivamente).
En el eje vertical (Y): Número de países. Este eje indica la frecuencia, es decir, cuántos países tenían una esperanza de vida dentro de cada uno de los intervalos definidos en el eje horizontal.
Este histograma nos muestra cómo se distribuía la esperanza de vida al nacer entre diferentes países del mundo en el año 1980. Al observar la altura de las barras en cada intervalo, podemos identificar las siguientes tendencias:
Concentración hacia la derecha: La mayoría de las barras se concentran en la parte derecha del gráfico, especialmente en los intervalos de esperanza de vida entre 65 y 75 años. Esto sugiere que en 1980, un número considerable de países tenían una esperanza de vida relativamente alta.
Pico prominente: Se observa un pico significativo en el intervalo de esperanza de vida alrededor de los 70-75 años, indicando que este era un rango de esperanza de vida común para un gran número de países en ese año.
Distribución sesgada a la derecha: La forma general de la distribución parece estar sesgada hacia la derecha. La distribución se extiende más hacia los valores más bajos de esperanza de vida (izquierda), mientras que la mayoría de los países se agrupan en valores más altos.
Valores bajos menos frecuentes: Hay relativamente pocos países con una esperanza de vida muy baja (por debajo de los 50 años). La barra más a la izquierda, alrededor de los 25-30 años, es muy baja, indicando que solo un número reducido de países se encontraba en ese rango. También hay pocos países en el rango de 40-45 años.
Aumento gradual: A medida que nos movemos hacia la derecha desde los valores más bajos, la frecuencia de países en cada intervalo de esperanza de vida tiende a aumentar, alcanzando su punto máximo alrededor de los 70-75 años, para luego disminuir ligeramente en el intervalo siguiente.
La esperanza de vida a nivel mundial en 1980 tendía a ser relativamente alta para un número significativo de países. Existía una variabilidad considerable en la esperanza de vida entre los diferentes países. Aunque muchos países tenían una esperanza de vida alta, todavía había países con una esperanza de vida notablemente más baja. La mayoría de los países habían superado una esperanza de vida promedio de 60 años en 1980. Los casos de esperanza de vida muy baja eran menos comunes en 1980, aunque aún existían.