Tarea #2

dfsui <- read.csv("/Users/juansebastianquintanacontreras/Documents/6 semestre/DATAVIZ/master 2.csv")
head(dfsui)

##   country year    sex         age suicides_no population suicides.100k.pop
## 1 Albania 1987   male 15-24 years          21     312900              6.71
## 2 Albania 1987   male 35-54 years          16     308000              5.19
## 3 Albania 1987 female 15-24 years          14     289700              4.83
## 4 Albania 1987   male   75+ years           1      21800              4.59
## 5 Albania 1987   male 25-34 years           9     274300              3.28
## 6 Albania 1987 female   75+ years           1      35600              2.81
##   country.year HDI.for.year gdp_for_year.... gdp_per_capita....      generation
## 1  Albania1987           NA    2,156,624,900                796    Generation X
## 2  Albania1987           NA    2,156,624,900                796          Silent
## 3  Albania1987           NA    2,156,624,900                796    Generation X
## 4  Albania1987           NA    2,156,624,900                796 G.I. Generation
## 5  Albania1987           NA    2,156,624,900                796         Boomers
## 6  Albania1987           NA    2,156,624,900                796 G.I. Generation

summary(dfsui)

##    country               year          sex                age           
##  Length:27820       Min.   :1985   Length:27820       Length:27820      
##  Class :character   1st Qu.:1995   Class :character   Class :character  
##  Mode  :character   Median :2002   Mode  :character   Mode  :character  
##                     Mean   :2001                                        
##                     3rd Qu.:2008                                        
##                     Max.   :2016                                        
##                                                                         
##   suicides_no        population       suicides.100k.pop country.year      
##  Min.   :    0.0   Min.   :     278   Min.   :  0.00    Length:27820      
##  1st Qu.:    3.0   1st Qu.:   97498   1st Qu.:  0.92    Class :character  
##  Median :   25.0   Median :  430150   Median :  5.99    Mode  :character  
##  Mean   :  242.6   Mean   : 1844794   Mean   : 12.82                      
##  3rd Qu.:  131.0   3rd Qu.: 1486143   3rd Qu.: 16.62                      
##  Max.   :22338.0   Max.   :43805214   Max.   :224.97                      
##                                                                           
##   HDI.for.year   gdp_for_year....   gdp_per_capita....  generation       
##  Min.   :0.483   Length:27820       Min.   :   251     Length:27820      
##  1st Qu.:0.713   Class :character   1st Qu.:  3447     Class :character  
##  Median :0.779   Mode  :character   Median :  9372     Mode  :character  
##  Mean   :0.777                      Mean   : 16866                       
##  3rd Qu.:0.855                      3rd Qu.: 24874                       
##  Max.   :0.944                      Max.   :126352                       
##  NA's   :19456

names(dfsui)

##  [1] "country"            "year"               "sex"               
##  [4] "age"                "suicides_no"        "population"        
##  [7] "suicides.100k.pop"  "country.year"       "HDI.for.year"      
## [10] "gdp_for_year...."   "gdp_per_capita...." "generation"

dim(dfsui)

## [1] 27820    12

Análisis de las características de la base de datos

La base de datos contiene 27,820 observaciones y 12 variables, de las cuales algunas son categóricas (country, sex, age, generation) y otras numéricas (year, suicides_no, population, suicides.100k.pop, gdp_per_capita....).

Observamos una gran cantidad de valores faltantes en la variable HDI.for.year, con 19,456 valores NA.

El gdp_per_capita.... varía significativamente, desde 251 hasta 126,352. Igualmente, los valores de suicides.100k.pop presentan alta dispersión, con un rango de 0 a 224.97, indicando la posible presencia de valores atípicos.

barplot(sort(table(dfsui$country), decreasing = TRUE), 
  las = 2, col = "lightblue", main = "Frecuencia de Suicidios por País")

plot(table(dfsui$year), type = "o", col = "blue", 
     main = "Tendencia de Suicidios a lo Largo del Tiempo", 
     xlab = "Año", ylab = "Número de Suicidios")

##  female    male 
## 1559510 5188910

## 15-24 years 25-34 years 35-54 years  5-14 years 55-74 years   75+ years 
##      808542     1123912     2452141       52264     1658443      653118

Análisis de Tendencias de Suicidios por Año, Pais ,Género y Grupo de Edad

El gráfico de barras Frecuencia de Suicidios por País muestra cómo se distribuyen los suicidios en cada país de forma descendente. Observamos que Austria ocupa el primer lugar en número de suicidios, mientras que Macao se encuentra en el último lugar.

La gráfica de Tendencia de Suicidios a lo Largo del Tiempo abarca el período desde 1985 hasta 2015. Se aprecia un aumento en el número de suicidios hasta aproximadamente 2005, seguido de un período de estabilidad, y luego una disminución significativa a partir de 2013.

Otra gráfica presenta la Distribución de Suicidios por Género. En esta se muestra que el número de suicidios es mayor entre los hombres, con una diferencia significativa respecto a las mujeres.

El histograma expone la Distribución de Suicidios por Grupo de Edad. Se observa que los suicidios están distribuidos de forma descendente, siendo el grupo de 35-54 años el que presenta más suicidios, y el grupo de 5-14 años el que tiene la menor cantidad.

hist(dfsui$population, col = "lightgreen", main = "Distribución de la Población", 
     xlab = "Población")

Distribución de la Población:

Se observa que en los países con una población menor a 10 millones, hay más suicidios en comparación con aquellos que tienen una población mayor. A medida que la población disminuye, parece haber un aumento en la cantidad de suicidios.

Distribución de Suicidios por 100k Habitantes:

Observamos que la relación de suicidios por cada 100,000 habitantes muestra una mayor concentración de casos por debajo de 50, lo que indica que en la mayoría de los lugares, menos de 50 personas por cada 100,000 habitantes se han suicidado. Sin embargo, también se registran datos atípicos con cifras superiores a 200 suicidios por cada 100,000 habitantes.

hist(dfsui$HDI.for.year, col = "purple", 
     main = "Distribución del IDH por año", 
     xlab = " Indice de Desarrollo Humano")

barplot(sort(table(dfsui$generation),decreasing=FALSE),
 las=2, col = "#FFA07A", main = "Distribución de registros por generación")

Análisis de Tendencias de Suicidios por IDH, PIB ,Per Capita y Generación:

El histograma de Distribución del IDH por Año muestra una concentración de suicidios en un Índice de Desarrollo Humano (IDH) entre 0.7 y 0.9, y observamos que la cantidad de suicidios disminuye a medida que nos alejamos de esta concentración.

La gráfica de Distribución de PIB con los Suicidios muestra una gran concentración de suicidios en los países con un PIB mayor a 12,0, mientras que en los países con un PIB menor, la cantidad de suicidios es significativamente baja. Esto se reafirma con la gráfica de Relación entre el PIB y el Número de Suicidios, que presenta de manera más precisa la distribución y destaca algunos datos atípicos.

La siguiente gráfica de Distribución de PIB Per Cápita muestra una mayor concentración de suicidios en países con un PIB per cápita por debajo de 20,000, lo que indica que los suicidios son más frecuentes en países con un PIB per cápita menor a 20,000. A medida que el PIB per cápita aumenta, los suicidios disminuyen, y esto se observa con mayor claridad en la gráfica de Relación entre PIB Per Cápita y Número de Suicidios.

El último histograma presenta la Distribución de Registros por Generación. Se observa que los suicidios están distribuidos de forma ascendente, siendo la generación X y la generación Silent las que registran más suicidios, mientras que la generación Z tiene la menor cantidad de suicidios.

sum(is.na(dfsui))

## [1] 19456

colSums(is.na(dfsui))

##            country               year                sex                age 
##                  0                  0                  0                  0 
##        suicides_no         population  suicides.100k.pop       country.year 
##                  0                  0                  0                  0 
##       HDI.for.year   gdp_for_year.... gdp_per_capita....         generation 
##              19456                  0                  0                  0 
##       gdp_for_year 
##                  0

unique(dfsui$HDI.for.year)

##   [1]    NA 0.619 0.656 0.695 0.722 0.781 0.783 0.694 0.705 0.731 0.762 0.775
##  [13] 0.811 0.818 0.831 0.833 0.836 0.632 0.605 0.648 0.721 0.723 0.728 0.733
##  [25] 0.865 0.882 0.898 0.927 0.930 0.932 0.933 0.935 0.764 0.794 0.815 0.853
##  [37] 0.879 0.881 0.884 0.885 0.609 0.640 0.778 0.780 0.774 0.786 0.727 0.816
##  [49] 0.819 0.817 0.821 0.824 0.700 0.716 0.753 0.765 0.793 0.785 0.683 0.796
##  [61] 0.798 0.806 0.851 0.874 0.866 0.883 0.886 0.889 0.888 0.890 0.644 0.664
##  [73] 0.701 0.710 0.711 0.715 0.724 0.576 0.608 0.702 0.737 0.742 0.746 0.752
##  [85] 0.755 0.686 0.696 0.713 0.749 0.773 0.779 0.782 0.827 0.849 0.861 0.867
##  [97] 0.892 0.903 0.909 0.910 0.912 0.654 0.699 0.788 0.814 0.830 0.832 0.573
## [109] 0.596 0.629 0.679 0.706 0.718 0.720 0.623 0.652 0.682 0.704 0.750 0.756
## [121] 0.761 0.766 0.807 0.653 0.685 0.730 0.776 0.772 0.768 0.769 0.800 0.848
## [133] 0.852 0.850 0.847 0.863 0.868 0.870 0.862 0.902 0.908 0.920 0.921 0.923
## [145] 0.631 0.645 0.665 0.674 0.698 0.717 0.732 0.522 0.566 0.603 0.638 0.658
## [157] 0.662 0.666 0.719 0.838 0.855 0.859 0.857 0.869 0.878 0.741 0.825 0.887
## [169] 0.672 0.735 0.740 0.747 0.754 0.801 0.906 0.911 0.915 0.916 0.759 0.799
## [181] 0.864 0.739 0.483 0.513 0.552 0.611 0.617 0.624 0.626 0.627 0.542 0.581
## [193] 0.618 0.630 0.634 0.802 0.823 0.828 0.826 0.896 0.897 0.899 0.770 0.803
## [205] 0.895 0.893 0.894 0.738 0.829 0.856 0.873 0.872 0.650 0.671 0.729 0.791
## [217] 0.891 0.690 0.804 0.795 0.809 0.812 0.615 0.562 0.593 0.614 0.639 0.655
## [229] 0.670 0.813 0.837 0.839 0.805 0.880 0.822 0.575 0.647 0.777 0.748 0.877
## [241] 0.919 0.922 0.820 0.905 0.907 0.625 0.628 0.917 0.931 0.940 0.941 0.942
## [253] 0.944 0.714 0.564 0.579 0.604 0.646 0.668 0.669 0.677 0.840 0.843 0.676
## [265] 0.844 0.841 0.703 0.751 0.691 0.697 0.757 0.771 0.736 0.743 0.767 0.763
## [277] 0.876 0.613 0.643 0.651 0.659 0.663 0.725 0.845 0.597 0.692 0.707 0.709
## [289] 0.901 0.904 0.846 0.924 0.925 0.928 0.539 0.572 0.684 0.726 0.673 0.688
## [301] 0.913 0.667 0.790 0.594 0.661 0.675

NA’S en base de datos

Observamos la distribución de los valores NA en el conjunto de datos, prestando especial atención a la variable HDI.for.year, donde se concentran todos los NA. Además, examinamos los demás valores presentes en esa columna para entender mejor la información disponible.

suppressWarnings(require(Amelia))

## Loading required package: Amelia

## Loading required package: Rcpp

## ## 
## ## Amelia II: Multiple Imputation
## ## (Version 1.8.2, built: 2024-04-10)
## ## Copyright (C) 2005-2024 James Honaker, Gary King and Matthew Blackwell
## ## Refer to http://gking.harvard.edu/amelia/ for more information
## ##

suppressWarnings(missmap(dfsui))

suppressWarnings(missmap(as.data.frame(dfsui$HDI.for.year)))

Graficas de NA’S:

En estas gráficas, se observa visualmente la presencia de los valores NA en la base de datos. Estos valores solo se presentan en la variable **HDI.for.year**. Además, la cantidad de NA en esta variable es mayor que la cantidad de datos disponibles, lo que indica que los NA constituyen el 70% de los datos de la variable. debido a la proporcion de los datos faltantes habra que inputar los datos NA’S con la media o la mediana pero tendremos que analizar cual de las dos

Resumen antes de inputar los NA’s:

La variable HDI.for.year contenía una gran cantidad de valores faltantes (NA), específicamente 19,456 valores. Esto representa aproximadamente el 70% del total de datos en esta columna. Los valores disponibles tenían un rango entre 0.483 y 0.944, con una media de 0.777.

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  dfsui$HDI.for.year
## D = 0.055914, p-value < 2.2e-16
## alternative hypothesis: two-sided

Como podemos observar, el p-valor es menor a cualquier nivel de significancia. Por esta razón, la variable HDI.for.year no sigue una distribución normal. Dado esto, se realizará la imputación con la mediana.

## [1] 0

hist(dfsui$HDI.for.year, 
     col = "lightblue", 
     main = "Distribución del IDH por Año (Sin NA's)", 
     xlab = "Índice de Desarrollo Humano (IDH)",
     border = "white")

Con esta imputación, la variable HDI.for.year ha sido ajustada utilizando la mediana para reemplazar los NA’S. Esto asegura que la distribución de los datos sea más completa y permita un análisis más preciso.