dfsui <- read.csv("/Users/juansebastianquintanacontreras/Documents/6 semestre/DATAVIZ/master 2.csv")
head(dfsui)
## country year sex age suicides_no population suicides.100k.pop
## 1 Albania 1987 male 15-24 years 21 312900 6.71
## 2 Albania 1987 male 35-54 years 16 308000 5.19
## 3 Albania 1987 female 15-24 years 14 289700 4.83
## 4 Albania 1987 male 75+ years 1 21800 4.59
## 5 Albania 1987 male 25-34 years 9 274300 3.28
## 6 Albania 1987 female 75+ years 1 35600 2.81
## country.year HDI.for.year gdp_for_year.... gdp_per_capita.... generation
## 1 Albania1987 NA 2,156,624,900 796 Generation X
## 2 Albania1987 NA 2,156,624,900 796 Silent
## 3 Albania1987 NA 2,156,624,900 796 Generation X
## 4 Albania1987 NA 2,156,624,900 796 G.I. Generation
## 5 Albania1987 NA 2,156,624,900 796 Boomers
## 6 Albania1987 NA 2,156,624,900 796 G.I. Generation
summary(dfsui)
## country year sex age
## Length:27820 Min. :1985 Length:27820 Length:27820
## Class :character 1st Qu.:1995 Class :character Class :character
## Mode :character Median :2002 Mode :character Mode :character
## Mean :2001
## 3rd Qu.:2008
## Max. :2016
##
## suicides_no population suicides.100k.pop country.year
## Min. : 0.0 Min. : 278 Min. : 0.00 Length:27820
## 1st Qu.: 3.0 1st Qu.: 97498 1st Qu.: 0.92 Class :character
## Median : 25.0 Median : 430150 Median : 5.99 Mode :character
## Mean : 242.6 Mean : 1844794 Mean : 12.82
## 3rd Qu.: 131.0 3rd Qu.: 1486143 3rd Qu.: 16.62
## Max. :22338.0 Max. :43805214 Max. :224.97
##
## HDI.for.year gdp_for_year.... gdp_per_capita.... generation
## Min. :0.483 Length:27820 Min. : 251 Length:27820
## 1st Qu.:0.713 Class :character 1st Qu.: 3447 Class :character
## Median :0.779 Mode :character Median : 9372 Mode :character
## Mean :0.777 Mean : 16866
## 3rd Qu.:0.855 3rd Qu.: 24874
## Max. :0.944 Max. :126352
## NA's :19456
names(dfsui)
## [1] "country" "year" "sex"
## [4] "age" "suicides_no" "population"
## [7] "suicides.100k.pop" "country.year" "HDI.for.year"
## [10] "gdp_for_year...." "gdp_per_capita...." "generation"
dim(dfsui)
## [1] 27820 12
La base de datos contiene 27,820 observaciones y 12 variables, de las
cuales algunas son categóricas (country, sex,
age, generation) y otras numéricas
(year, suicides_no, population,
suicides.100k.pop, gdp_per_capita....).
Observamos una gran cantidad de valores faltantes en la variable
HDI.for.year, con 19,456 valores NA.
El gdp_per_capita.... varía significativamente, desde
251 hasta 126,352. Igualmente, los valores de
suicides.100k.pop presentan alta dispersión, con un rango
de 0 a 224.97, indicando la posible presencia de valores atípicos.
barplot(sort(table(dfsui$country), decreasing = TRUE),
las = 2, col = "lightblue", main = "Frecuencia de Suicidios por País")
plot(table(dfsui$year), type = "o", col = "blue",
main = "Tendencia de Suicidios a lo Largo del Tiempo",
xlab = "Año", ylab = "Número de Suicidios")
## female male
## 1559510 5188910
## 15-24 years 25-34 years 35-54 years 5-14 years 55-74 years 75+ years
## 808542 1123912 2452141 52264 1658443 653118
Análisis de Tendencias de Suicidios por Año, Pais ,Género y Grupo de Edad
El gráfico de barras Frecuencia de Suicidios por País muestra cómo se distribuyen los suicidios en cada país de forma descendente. Observamos que Austria ocupa el primer lugar en número de suicidios, mientras que Macao se encuentra en el último lugar.
La gráfica de Tendencia de Suicidios a lo Largo del Tiempo abarca el período desde 1985 hasta 2015. Se aprecia un aumento en el número de suicidios hasta aproximadamente 2005, seguido de un período de estabilidad, y luego una disminución significativa a partir de 2013.
Otra gráfica presenta la Distribución de Suicidios por Género. En esta se muestra que el número de suicidios es mayor entre los hombres, con una diferencia significativa respecto a las mujeres.
El histograma expone la Distribución de Suicidios por Grupo de Edad. Se observa que los suicidios están distribuidos de forma descendente, siendo el grupo de 35-54 años el que presenta más suicidios, y el grupo de 5-14 años el que tiene la menor cantidad.
hist(dfsui$population, col = "lightgreen", main = "Distribución de la Población",
xlab = "Población")
Se observa que en los países con una población menor a 10 millones, hay más suicidios en comparación con aquellos que tienen una población mayor. A medida que la población disminuye, parece haber un aumento en la cantidad de suicidios.
Observamos que la relación de suicidios por cada 100,000 habitantes muestra una mayor concentración de casos por debajo de 50, lo que indica que en la mayoría de los lugares, menos de 50 personas por cada 100,000 habitantes se han suicidado. Sin embargo, también se registran datos atípicos con cifras superiores a 200 suicidios por cada 100,000 habitantes.
hist(dfsui$HDI.for.year, col = "purple",
main = "Distribución del IDH por año",
xlab = " Indice de Desarrollo Humano")
barplot(sort(table(dfsui$generation),decreasing=FALSE),
las=2, col = "#FFA07A", main = "Distribución de registros por generación")
El histograma de Distribución del IDH por Año muestra una concentración de suicidios en un Índice de Desarrollo Humano (IDH) entre 0.7 y 0.9, y observamos que la cantidad de suicidios disminuye a medida que nos alejamos de esta concentración.
La gráfica de Distribución de PIB con los Suicidios muestra una gran concentración de suicidios en los países con un PIB mayor a 12,0, mientras que en los países con un PIB menor, la cantidad de suicidios es significativamente baja. Esto se reafirma con la gráfica de Relación entre el PIB y el Número de Suicidios, que presenta de manera más precisa la distribución y destaca algunos datos atípicos.
La siguiente gráfica de Distribución de PIB Per Cápita muestra una mayor concentración de suicidios en países con un PIB per cápita por debajo de 20,000, lo que indica que los suicidios son más frecuentes en países con un PIB per cápita menor a 20,000. A medida que el PIB per cápita aumenta, los suicidios disminuyen, y esto se observa con mayor claridad en la gráfica de Relación entre PIB Per Cápita y Número de Suicidios.
El último histograma presenta la Distribución de Registros por Generación. Se observa que los suicidios están distribuidos de forma ascendente, siendo la generación X y la generación Silent las que registran más suicidios, mientras que la generación Z tiene la menor cantidad de suicidios.
sum(is.na(dfsui))
## [1] 19456
colSums(is.na(dfsui))
## country year sex age
## 0 0 0 0
## suicides_no population suicides.100k.pop country.year
## 0 0 0 0
## HDI.for.year gdp_for_year.... gdp_per_capita.... generation
## 19456 0 0 0
## gdp_for_year
## 0
unique(dfsui$HDI.for.year)
## [1] NA 0.619 0.656 0.695 0.722 0.781 0.783 0.694 0.705 0.731 0.762 0.775
## [13] 0.811 0.818 0.831 0.833 0.836 0.632 0.605 0.648 0.721 0.723 0.728 0.733
## [25] 0.865 0.882 0.898 0.927 0.930 0.932 0.933 0.935 0.764 0.794 0.815 0.853
## [37] 0.879 0.881 0.884 0.885 0.609 0.640 0.778 0.780 0.774 0.786 0.727 0.816
## [49] 0.819 0.817 0.821 0.824 0.700 0.716 0.753 0.765 0.793 0.785 0.683 0.796
## [61] 0.798 0.806 0.851 0.874 0.866 0.883 0.886 0.889 0.888 0.890 0.644 0.664
## [73] 0.701 0.710 0.711 0.715 0.724 0.576 0.608 0.702 0.737 0.742 0.746 0.752
## [85] 0.755 0.686 0.696 0.713 0.749 0.773 0.779 0.782 0.827 0.849 0.861 0.867
## [97] 0.892 0.903 0.909 0.910 0.912 0.654 0.699 0.788 0.814 0.830 0.832 0.573
## [109] 0.596 0.629 0.679 0.706 0.718 0.720 0.623 0.652 0.682 0.704 0.750 0.756
## [121] 0.761 0.766 0.807 0.653 0.685 0.730 0.776 0.772 0.768 0.769 0.800 0.848
## [133] 0.852 0.850 0.847 0.863 0.868 0.870 0.862 0.902 0.908 0.920 0.921 0.923
## [145] 0.631 0.645 0.665 0.674 0.698 0.717 0.732 0.522 0.566 0.603 0.638 0.658
## [157] 0.662 0.666 0.719 0.838 0.855 0.859 0.857 0.869 0.878 0.741 0.825 0.887
## [169] 0.672 0.735 0.740 0.747 0.754 0.801 0.906 0.911 0.915 0.916 0.759 0.799
## [181] 0.864 0.739 0.483 0.513 0.552 0.611 0.617 0.624 0.626 0.627 0.542 0.581
## [193] 0.618 0.630 0.634 0.802 0.823 0.828 0.826 0.896 0.897 0.899 0.770 0.803
## [205] 0.895 0.893 0.894 0.738 0.829 0.856 0.873 0.872 0.650 0.671 0.729 0.791
## [217] 0.891 0.690 0.804 0.795 0.809 0.812 0.615 0.562 0.593 0.614 0.639 0.655
## [229] 0.670 0.813 0.837 0.839 0.805 0.880 0.822 0.575 0.647 0.777 0.748 0.877
## [241] 0.919 0.922 0.820 0.905 0.907 0.625 0.628 0.917 0.931 0.940 0.941 0.942
## [253] 0.944 0.714 0.564 0.579 0.604 0.646 0.668 0.669 0.677 0.840 0.843 0.676
## [265] 0.844 0.841 0.703 0.751 0.691 0.697 0.757 0.771 0.736 0.743 0.767 0.763
## [277] 0.876 0.613 0.643 0.651 0.659 0.663 0.725 0.845 0.597 0.692 0.707 0.709
## [289] 0.901 0.904 0.846 0.924 0.925 0.928 0.539 0.572 0.684 0.726 0.673 0.688
## [301] 0.913 0.667 0.790 0.594 0.661 0.675
Observamos la distribución de los valores NA en el conjunto de datos, prestando especial atención a la variable HDI.for.year, donde se concentran todos los NA. Además, examinamos los demás valores presentes en esa columna para entender mejor la información disponible.
suppressWarnings(require(Amelia))
## Loading required package: Amelia
## Loading required package: Rcpp
## ##
## ## Amelia II: Multiple Imputation
## ## (Version 1.8.2, built: 2024-04-10)
## ## Copyright (C) 2005-2024 James Honaker, Gary King and Matthew Blackwell
## ## Refer to http://gking.harvard.edu/amelia/ for more information
## ##
suppressWarnings(missmap(dfsui))
suppressWarnings(missmap(as.data.frame(dfsui$HDI.for.year)))
En estas gráficas, se observa visualmente la presencia de los valores
NA en la base de datos. Estos valores solo se presentan en la variable
**HDI.for.year**. Además, la cantidad de NA en esta
variable es mayor que la cantidad de datos disponibles, lo que indica
que los NA constituyen el 70% de los datos de la variable. debido a la
proporcion de los datos faltantes habra que inputar los datos NA’S con
la media o la mediana pero tendremos que analizar cual de las dos
La variable HDI.for.year contenía una gran cantidad de
valores faltantes (NA), específicamente 19,456 valores. Esto representa
aproximadamente el 70% del total de datos en esta columna. Los valores
disponibles tenían un rango entre 0.483 y 0.944, con una media de
0.777.
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: dfsui$HDI.for.year
## D = 0.055914, p-value < 2.2e-16
## alternative hypothesis: two-sided
Como podemos observar, el p-valor es menor a cualquier nivel de significancia. Por esta razón, la variable HDI.for.year no sigue una distribución normal. Dado esto, se realizará la imputación con la mediana.
## [1] 0
hist(dfsui$HDI.for.year,
col = "lightblue",
main = "Distribución del IDH por Año (Sin NA's)",
xlab = "Índice de Desarrollo Humano (IDH)",
border = "white")
Con esta imputación, la variable HDI.for.year ha sido ajustada utilizando la mediana para reemplazar los NA’S. Esto asegura que la distribución de los datos sea más completa y permita un análisis más preciso.