Crear un nuevo dataframe que sea un subconjunto del dataframe original de dfFires. El subconjunto debe contener todos los incendios del Estado de Idaho y las columnas deben ser limitadas para que sólo estén presentes las columnas YEAR_, CAUSE y TOTALACRES. Cambie el nombre de las columnas. Agrupe los datos por CAUSE y YEAR_ y luego resuma por el total de acres quemados. Trazar los resultados.
Desarrollo
Creación de dfFires
dfFires <-read_csv("StudyArea.csv")kable(head(dfFires), caption ="Acres quemados por causa y año",format ="html", digits =2, align ='c')
Acres quemados por causa y año
FID
ORGANIZATI
UNIT
SUBUNIT
SUBUNIT2
FIRENAME
CAUSE
YEAR_
STARTDATED
CONTRDATED
OUTDATED
STATE
STATE_FIPS
TOTALACRES
0
FWS
81682
USCADBR
San Diego Bay National Wildlife Refuge
PUMP HOUSE
Human
2001
1/1/01 0:00
1/1/01 0:00
NA
California
6
0.1
1
FWS
81682
USCADBR
San Diego Bay National Wildlife Refuge
I5
Human
2002
5/3/02 0:00
5/3/02 0:00
NA
California
6
3.0
2
FWS
81682
USCADBR
San Diego Bay National Wildlife Refuge
SOUTHBAY
Human
2002
6/1/02 0:00
6/1/02 0:00
NA
California
6
0.5
3
FWS
81682
USCADBR
San Diego Bay National Wildlife Refuge
MARINA
Human
2001
7/12/01 0:00
7/12/01 0:00
NA
California
6
0.1
4
FWS
81682
USCADBR
San Diego Bay National Wildlife Refuge
HILL
Human
1994
9/13/94 0:00
9/13/94 0:00
NA
California
6
1.0
5
FWS
81682
USCADBR
San Diego Bay National Wildlife Refuge
IRRIGATION
Human
1994
4/22/94 0:00
4/22/94 0:00
NA
California
6
0.1
Manipulación de columnas
Primero se realiza un filtrado para el estado de Idaho, luego nos quedamos solo con las columnas relacionas con el año, causa y total de acres incendiadas, para posteriormente realizar un cambio en el nombre de las columnas.
dffilter <-filter(dfFires, STATE =="Idaho")dffilter <-select(dffilter, YEAR_, CAUSE, TOTALACRES)dffilter <-rename(dffilter, AÑO = YEAR_, CAUSA = CAUSE, ACRESQUEMADOS = TOTALACRES)kable(head(dffilter), format ="html", digits =2, align ='c')
AÑO
CAUSA
ACRESQUEMADOS
1987
Human
5
1991
Natural
150
1991
Human
800
1990
Natural
2
1985
Human
38
1988
Human
2
Agrupe de datos
Luego, se realiza un agrupe en los datos con base a su año y causa de incendio. Esto lo que realiza es por cada año y causa calcular el total de acres quemadas. Por ejemplo, en 1980, 71974.7 acres fueron incendiadas por mano del hombre y 42938.2 por causas naturales.
ggplot(dff, aes(x = AÑO, y = TOTALACRESQUEMADOS, color = CAUSA)) +geom_line() +labs(title ="Total de acres quemados por año y causa en Idaho",x ="Año",y ="Total de Acres Quemados" )+theme_minimal()
Es indudable el aumento que se ha presenciado en la cantidad de acres quemadas en Idaho con el paso del tiempo, siendo la causa predominante de manera natural. También llaman mucho la atención los picos visibles en el comportamiento de la variable TOTALACRESQUEMADOS. De igual manera se realizó una reclasificación, esta vez no por años, sino por décadas, donde se puede observar una disminución en la cantidad de acres quemadas por causa humana, donde además causas como indeterminadas o NA no representan un porcentaje grande de la muestra.
ggplot(dff_d, aes(x = DECADA, y = TOTALACRESQUEMADOS, fill = CAUSA)) +geom_bar(stat ="identity", position ="dodge") +geom_text(aes(label =round(TOTALACRESQUEMADOS, 1)),position =position_dodge(width =0.9),vjust =-0.8,size =2) +labs(title ="Total de acres quemados por causa y década en Idaho",x ="Década",y ="Acres quemados" ) +theme_minimal() +theme(legend.title =element_blank()) +scale_fill_brewer(palette ="Set2")
Segunda entrega: 9.1.1 y 9.2
Instrucciones
Existen varias señales correlacionadas con el aumento de las tasas de suicidios mundial, este conjunto de datos fue creado para encontrar este tipo de señales y contiene 27,820 observaciones que aportan información tanto socioeconómica como demográfica de cada país.
Las variables se codificaron como:
suicides/100k: suicidios por cada 100 mil habitantes (tasas de suicidio).
country: país.
year: año.
sex: género (male, female).
age: edad (grupo de edad).
suicides_no: número de suicidios.
population: población.
country-year: clave compuesta país-año.
HDI: índice de desarrollo humano (IDH) por año.
gdp_for_year ($): producto interno bruto (PIB) por año.
gdp_per_capita: producto interno bruto per capita.
generation: generación.
Importe la base de datos.
Analice las características de la base de datos. Estas pueden incluir: número de filas, número de columnas, nombres de las variables, tipos de variables, entre otras.
Analice cada una de las variables según su tipo: numéricas y categóricas.
Filtre la base de datos para entender mejor su estructura.
Explore la ayuda de la función table del paquete base y utilícela para explorar la base de datos.
Identifique los valores NA (Not Available) en la base de datos.
Analice la presencia de posibles valores atípicos.
Decida qué hacer con los valores NA.
Considere la base de datos master y realice lo siguiente (utilice los operadores pipe de continuidad y compuesto):
Edite y explore reglas para verificar que la base de datos no contenga posibles registros erróneos.
Filtre los datos de Colombia y los de EEUU, generando dos bases de datos, llamadas master_col y master_eu.
Realice un análisis de la evolución de los suicidios por cada 100.000 habitantes, del PIB per cápita y del IDH, a lo largo de los años en ambos países.
Realice un análisis de la evolución de los suicidios por cada 100.000 habitantes, del PIB per cápita y del IDH, a lo largo de los años en ambos países por género.
Realice un análisis de la evolución de los suicidios por cada 100.000 habitantes, del PIB per cápita y del IDH, a lo largo de los años en ambos países por grupo de edad.
country year sex age
Length:27820 Min. :1985 Length:27820 Length:27820
Class :character 1st Qu.:1995 Class :character Class :character
Mode :character Median :2002 Mode :character Mode :character
Mean :2001
3rd Qu.:2008
Max. :2016
suicides_no population suicides/100k pop country-year
Min. : 0.0 Min. : 278 Min. : 0.00 Length:27820
1st Qu.: 3.0 1st Qu.: 97498 1st Qu.: 0.92 Class :character
Median : 25.0 Median : 430150 Median : 5.99 Mode :character
Mean : 242.6 Mean : 1844794 Mean : 12.82
3rd Qu.: 131.0 3rd Qu.: 1486143 3rd Qu.: 16.62
Max. :22338.0 Max. :43805214 Max. :224.97
HDI for year gdp_for_year ($) gdp_per_capita ($) generation
Min. :0.483 Min. :4.692e+07 Min. : 251 Length:27820
1st Qu.:0.713 1st Qu.:8.985e+09 1st Qu.: 3447 Class :character
Median :0.779 Median :4.811e+10 Median : 9372 Mode :character
Mean :0.777 Mean :4.456e+11 Mean : 16866
3rd Qu.:0.855 3rd Qu.:2.602e+11 3rd Qu.: 24874
Max. :0.944 Max. :1.812e+13 Max. :126352
NA's :19456
master es una base de datos que cuenta con 12 variables y 27820 registros. De las 12 variables encontradas, 5 son categóricas y corresponden al país, sexo, rango de edad, país - año y generación. De las 7 variables numéricas restantes, se puede encontrar el año, el número de suicidios, población, suicidios por cada 100000 habitantes, índice de desarrollo humano, PIB por año y PIB per capita.
Var1 Freq
1 Austria 382
2 Iceland 382
3 Mauritius 382
4 Netherlands 382
5 Argentina 372
6 Belgium 372
7 Brazil 372
8 Chile 372
9 Colombia 372
10 Ecuador 372
11 Greece 372
12 Israel 372
13 Italy 372
14 Japan 372
15 Luxembourg 372
16 Malta 372
17 Mexico 372
18 Puerto Rico 372
19 Republic of Korea 372
20 Singapore 372
21 Spain 372
22 United Kingdom 372
23 United States 372
24 Australia 360
25 Bulgaria 360
26 Costa Rica 360
27 France 360
28 Guatemala 360
29 Ireland 360
30 Norway 360
31 Sweden 358
32 Canada 348
33 Finland 348
34 New Zealand 348
35 Turkmenistan 348
36 Belize 336
37 Saint Lucia 336
38 Suriname 336
39 Ukraine 336
40 Uruguay 336
41 Romania 334
42 Thailand 334
43 Antigua and Barbuda 324
44 Paraguay 324
45 Portugal 324
46 Russian Federation 324
47 Trinidad and Tobago 324
48 Czech Republic 322
49 Germany 312
50 Kazakhstan 312
51 Kyrgyzstan 312
52 Grenada 310
53 Hungary 310
54 Barbados 300
55 Guyana 300
56 Kuwait 300
57 Panama 300
58 Saint Vincent and Grenadines 300
59 Armenia 298
60 Cuba 288
61 El Salvador 288
62 Poland 288
63 Bahamas 276
64 Albania 264
65 Denmark 264
66 Georgia 264
67 Slovakia 264
68 Uzbekistan 264
69 Croatia 262
70 Lithuania 262
71 Bahrain 252
72 Belarus 252
73 Estonia 252
74 Latvia 252
75 Slovenia 252
76 Switzerland 252
77 South Africa 240
78 Serbia 216
79 Seychelles 216
80 Jamaica 204
81 Azerbaijan 192
82 Philippines 180
83 Cyprus 178
84 Qatar 178
85 Aruba 168
86 Fiji 132
87 Kiribati 132
88 Sri Lanka 132
89 Maldives 120
90 Montenegro 120
91 Turkey 84
92 Nicaragua 72
93 United Arab Emirates 72
94 Oman 36
95 Saint Kitts and Nevis 36
96 San Marino 36
97 Bosnia and Herzegovina 24
98 Cabo Verde 12
99 Dominica 12
100 Macau 12
101 Mongolia 10
En total se tiene información de 101 países, siendo Austria, Islandia, Mauricio y Países Bajos quienes cuentan con un mayor número de registros (382). En Mongolia, por ejemplo, solo se cuentan 10 registros con información relacionada al 2016. En Cabo Verde (12 registros) asociados al 2011 y en Macau (12 registros) de 1994.
ggplot(master, aes(x=age, y=master$`suicides/100k pop`, fill=sex)) +geom_boxplot() +ylab('Suicidos por cada 100000 habitantes') +xlab('Edad') +scale_fill_brewer(palette ="Set2")
De manera general, se observan tasas de suicidio menores en mujeres. Además, de un mayor rango de las tasas de suicidio en personas mayores de 75 años y un menor rango entre los 5 y 14 años.
# A tibble: 12 × 3
# Groups: sex [2]
sex age tasasui
<chr> <chr> <dbl>
1 female 15-24 years 4.33
2 female 25-34 years 4.57
3 female 35-54 years 5.92
4 female 5-14 years 0.462
5 female 55-74 years 7.12
6 female 75+ years 9.92
7 male 15-24 years 13.6
8 male 25-34 years 19.8
9 male 35-54 years 24.0
10 male 5-14 years 0.778
11 male 55-74 years 25.2
12 male 75+ years 38.0
ggplot(res1, aes(x=age, y=tasasui, fill=sex)) +geom_bar(stat ="identity", position ="dodge") +ylab('Promedio de la tasa de suicidios') +xlab('Edad')
Del resumen realizado con `summary al inicio del desarrollo, se destaca la ausencia de valores (19456), más del 69%, en la variable del índice del desarrollo humano.
ggplot(master, aes(y=master$`HDI for year`)) +geom_boxplot(fill="slateblue", alpha=0.2) +ylab("Índice de desarrollo humano")
summary(master$`HDI for year`)
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
0.483 0.713 0.779 0.777 0.855 0.944 19456
Del boxplot generado se puede notar la presencia de un dato atípico muy bajo, este corresponde al índice del desarrollo humano de Guatemala en 1990.
ggplot(master, aes(x = year, y =`HDI for year`)) +geom_point(size =1) +labs(title ="Relación entre Año e IDH",x ="Año",y ="Índice de Desarrollo Humano (IDH)" )
Al observar el comportamiento de los registros con valores válidos para el índice del desarrollo humano, se observa que en los años anteriores al 2010, solo se ingresaron los IDH cada cinco años. Aunque el informe de desarrollo humano se reporta anualmente. También se puede notar cierto aumento en los índices a medida que pasan los años, esto mirando los valores extremos de cada año reportado.
master %>%filter(year ==1985) %>%pull(`HDI for year`) %>%summary()
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
0.5390 0.6480 0.7130 0.6992 0.7530 0.8410 132
master %>%filter(year ==1990) %>%pull(`HDI for year`) %>%summary()
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
0.4830 0.6480 0.7145 0.7158 0.7850 0.8650 168
Aún así, siguen existiendo NAs incluso en aquellos años en los que sí hay registros del IDH. Es por eso, que se realizará una imputación de datos con la mediana (0.779) para todos los NAs. Al tratarse de una imputación de datos muy simple, se usarán comandos básicos en vez de una librería más potente como mice.
median(master$`HDI for year`, na.rm =TRUE)
[1] 0.779
master_i <- master %>%mutate(`HDI for year`=ifelse(is.na(`HDI for year`), median(`HDI for year`, na.rm =TRUE), `HDI for year`))summary(master_i$`HDI for year`)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.4830 0.7790 0.7790 0.7783 0.7790 0.9440
Segunda parte: 9.2
Primero se filtró de la base de datos para quedarnos con dos dataframes derivados de esta relacionados a los registros de Colombia y Estados Unidos.
master_col <-filter(master_i, country =="Colombia")master_eu<-filter(master_i, country =="United States")
cdf <-bind_rows(master_col, master_eu)plot_hdi <- cdf %>%group_by(year, country) %>%summarize(mean_hdi =mean(`HDI for year`, na.rm =TRUE), .groups ='drop') %>%ggplot(aes(x = year, y = mean_hdi, color = country, group = country)) +geom_line() +labs(title ="Evolución del índice de desarrollo humano",x ="Año",y ="Índice del desarrollo humano",color ="País" ) +theme_minimal()plot_pib <- cdf %>%group_by(year, country) %>%summarize(mean_pib =mean(`gdp_per_capita ($)`, na.rm =TRUE), .groups ='drop') %>%ggplot(aes(x = year, y = mean_pib, color = country, group = country)) +geom_line() +labs(title ="Evolución del PIB per cápita",x ="Año",y ="PIB per cápita",color ="País" ) +theme_minimal()grid.arrange(plot_hdi, plot_pib, ncol =2)
Al gráficar la evolución del índice de desarrollo humano, se entiende que los picos y partes planas en ambos países están dados por la imputación de datos realizadas hasta el 2010, aún así, se puede notar una gran diferencia en el promedio del índice a lo largo de los años en Colombia y en Estados Unidos, siendo muchísimo mayor en todo momento en Estados Unidos. Un comportamiento similar se puede observar en el PIB per cápita, donde Colombia tiene un PBI muchísimo menor en todos los años.
common_ylim <-range(c( master_col %>%pull(`suicides/100k pop`), master_eu %>%pull(`suicides/100k pop`)), na.rm =TRUE)plot_col <- master_col %>%group_by(year, sex) %>%summarize(mean_suicides =mean(`suicides/100k pop`, na.rm =TRUE), .groups ='drop') %>%ggplot(aes(x = year, y = mean_suicides, group = sex, color = sex)) +geom_line() +theme_minimal() +xlab('Año') +ylab('Tasa de suicidio en Colombia') +ylim(common_ylim)plot_eu <- master_eu %>%group_by(year, sex) %>%summarize(mean_suicides =mean(`suicides/100k pop`, na.rm =TRUE), .groups ='drop') %>%ggplot(aes(x = year, y = mean_suicides, group = sex, color = sex)) +geom_line() +theme_minimal() +xlab('Año') +ylab('Tasa de suicidio en Estados Unidos') +ylim(common_ylim)grid.arrange(plot_col, plot_eu, ncol =2)
Al analizar la tasa de suicidios por sexo, se puede notar que el comportamiento de una tasa de suicidios en hombres mayor al de las mujeres se mantiene. Sin embargo, al comparar los valores entre hombres y mujeres de los diferentes países, la tasa de suicidios es mucho menor al compararse entre el mismo sexo en Colombia que en estados Unidos.
plot_col <- master_col %>%group_by(year, age) %>%summarize(mean_suicides =mean(`suicides/100k pop`, na.rm =TRUE), .groups ='drop') %>%ggplot(aes(x = year, y = mean_suicides, group = age, color = age)) +geom_line() +theme_minimal() +xlab('Año') +ylab('Tasa de suicidio en Colombia') plot_eu <- master_eu %>%group_by(year, age) %>%summarize(mean_suicides =mean(`suicides/100k pop`, na.rm =TRUE), .groups ='drop') %>%ggplot(aes(x = year, y = mean_suicides, group = age, color = age)) +geom_line() +theme_minimal() +xlab('Año') +ylab('Tasa de suicidio en Estados Unidos')grid.arrange(plot_col, plot_eu, ncol =2)
En cuanto a la tasa de suicidios en Colombia y Estados Unidos por edad, se puede observar que es mayor en personas sobre los 75 años. Es curioso como la tasa más baja en Estados Unidos, el suicidio en personas entre 15 y 24 años, es una de las más altas en Colombia y como la más baja en Colombia, de personas entre 35 y 54 años, a partir de 1995 se mantiene como el segundo rango de edad con mayor tasa de suicidio en Estados Unidos. La diferencia entre las tasas en ambos países para el mismo rango de edad parece ser bastante diferente, manteniéndose en Colombia bastante más bajas que en Estados Unidos.
cdf %>%group_by(year, country) %>%summarize(mean_suicides =mean(`suicides/100k pop`, na.rm =TRUE), .groups ='drop') %>%ggplot(aes(x = year, y = mean_suicides, color = country, group = country)) +geom_line(size =1) +labs(title ="Evolución de la tasa de suicidio promedio en Colombia y Estados Unidos",x ="Año",y ="Tasa de suicidio (por 100,000 habitantes)",color ="País" ) +theme_minimal()
Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
ℹ Please use `linewidth` instead.
Al no realizar ningún tipo de clasificación por categorías, se puede notar que la tasa de suicidios promedio general en ambos países siempre es menor en Colombia.