Code
#Recorda que tots els chunks estan en eval = F, per activar-los has de canviar a eval = T
library(readxl)
cron <- read_xlsx("CRON_fin.xlsx")En aquesta activitat utilitzarem un marc de dades que conté informació de l’European Social Survey (ESS). L’ESS és una enquesta que es realitza a nivell europeu i és molt utilitzada en els camps de la Sociologia i la Ciència Política. Amb aquestes dades, analitzarem les diverses dimensions del desenvolupament social entre paisos. Importarem les dades que es troben emmagatzemades a CRON_fin.xlsx amb la funció read_xls() i li donarem el nom de cron. Un cop realitzada la importació, assegura’t que a l’Environment aparegui l’objecte cron.
#Recorda que tots els chunks estan en eval = F, per activar-los has de canviar a eval = T
library(readxl)
cron <- read_xlsx("CRON_fin.xlsx")Realitza una exploració ràpida del mateix amb les funcions que coneixes, identificant el nombre d’observacions, quines variables té com estan codificades i la unitat d’observació.
glimpse("cron") chr "cron"
Podem veure que el marc de dades “cron” està fromat per 6.032 files i 24 columnes. Trobem 6032 observacions i diferents variables (24 en total), com el gènere, l’edat, els anys d’escolartzació complerts, l’ús d’internet, el país, la regió, entre moltes altres. També és tracta d’una enquesta que per tant utilitza un mètode quantitatiu.
Per examinar a fons la taula, és important que utilitzis el llibre de codis CRON2W4e01 codebook.html inclòs a l’arxiu zip que t’has descarregat. Contesta a les seguents preguntes amb el resultat i un breu anàlisi.
w4q13 i comenta el resultat.cron |>
count(w4q13, sort = T)# A tibble: 6 × 2
w4q13 n
<dbl> <int>
1 5 3370
2 4 2094
3 3 429
4 2 68
5 9 54
6 1 17
Aquesta variable esta analitzan com d’importantels enquestats troban que és la protecció dels drets humans per tal de que un país convisqui en una societat ideal. On cinc és una prioritat toatal i 1 no és una prioritat del tot, així que com veïem en la taula de freqüències pels enquestats és molt important. -el num 9 correspon als no contestats.-
cntry. Representa la frequencia i comenta breuement el resultat.barplot(table(cron$cntry))cron |>
count(cntry)# A tibble: 11 × 2
cntry n
<chr> <int>
1 AT 647
2 BE 573
3 CZ 284
4 FI 739
5 FR 724
6 GB 487
7 IS 525
8 IT 243
9 PT 396
10 SE 845
11 SI 569
Aquí és mostren les freqüències relatives dels diferents països; 1 AT 647 2 BE 573 3 CZ 284 4 FI 739 5 FR 724 6 GB 487 7 IS 525 8 IT 243 9 PT 396 10 SE 845 11 SI 569
El numero que té cada país correspon al nombre de persones que han contestat l’enquesta i que tenen la nacionalitat del país corresponent. Per exemple, ha FR, França, han contestat 724 persones.
w4q3, a Portugal, Frància i Suècia i raona sobre els resultats. Pista: filter(), count(x) i la variable w4q3 indica la prioritat d’“Emfatitzar els valors religiosos”.cron |>
filter(cntry == c("PT"))|>
count(w4q3, sort = T) # A tibble: 6 × 2
w4q3 n
<dbl> <int>
1 3 139
2 1 96
3 2 89
4 4 49
5 5 17
6 9 6
cron |>
filter(cntry == c("FR"))|>
count(w4q3, sort = T)# A tibble: 6 × 2
w4q3 n
<dbl> <int>
1 1 355
2 3 147
3 2 140
4 4 51
5 5 16
6 9 15
cron |>
filter(cntry == c("SE"))|>
count(w4q3, sort = T)# A tibble: 6 × 2
w4q3 n
<dbl> <int>
1 1 312
2 2 309
3 3 159
4 4 48
5 5 9
6 9 8
A França ia a Suècia la majoria de la població és posiciona en les tres primeres opcions, les quals fan rèferencia a no donar-li gran importància a la religió per tal d’assolir aquesta societat ideal. Mentre que a Portgual la resposta majoritaria és la tres, on és dona una importància mitjana. Aquesta pregunta en serveix també per analitzar el nivell religos de la societat del país en questió.
4.Quin percentatge de persones han respost amb un valor de 5 a la pregunta w4q15? El 21.8% ha respost amb un valor de 5 a la pregunta w4q15.
cron |>
summarize(percentatge_5 = mean(w4q15 == 5) * 100)# A tibble: 1 × 1
percentatge_5
<dbl>
1 21.8
w4q1? La moda en la variable w4q1 -aquesta variable fa referéncia en desferçe de la pobresa- és la resposta quatre -la qual és una prioritat important-.cron |>
count(w4q1)# A tibble: 6 × 2
w4q1 n
<dbl> <int>
1 1 42
2 2 117
3 3 896
4 4 3067
5 5 1890
6 9 20
6.Calcula la mitjana i la mediana de la variable eduyrs per país i comenta breument el resultat més elevat i el més baix. En aquest cas la mitjana més alta la trobem a la República Txeca, amb 17 anys d’escolaritació de mitja, i la més baixa la té Portugal, amb exactament 13.65404 anys d’esocolartzació. Respectivament; la media més alta la té Islandia amb 17 i la més baixa també Portugal, amb 12.
mitjnmed <- cron |>
group_by(cntry) |>
summarize(
mitjana_eduyrs = mean(eduyrs, na.rm = TRUE),
mediana_eduyrs = median(eduyrs, na.rm = TRUE))eduyrs? (pista - et resultarà més pràctic si crees un nou dataset, de nom, per exemple, cron_2).cron_2 <- cron |>
filter(!eduyrs %in% c(77, 88, 99))eduyrs per país i comenta els resultats.Sincerament; no sé si ha sortit bé el gràfic de caixes, ja que ,’esta costant interpretar-lo. És a dir, només han sortit dues caixes; quan hauria d’ahver una per cada pais.
library(ggplot2)
cron_2 |>
ggplot(aes(x = cntry,
y = eduyrs )) +
geom_boxplot()En aquesta activitat analitzarem una versió ampliada del marc de dades gapminder. El projecte Gapminder està orientat a recollir dades dels països en diverses dimensions del desenvolupament, com el medi ambient, la pobresa o el mercat laboral. Nosaltres descarregarem una versió reduïda de les dades, que es troba al paquet dslabs. Si no tens el paquet installat has d’installar-ho amb la funció install.packages(“dslabs”) i carregar-ho.
library(dslabs)
library(ggplot2)
library(dplyr)
gap <- tibble(dslabs::gapminder)En aquest marc dedades trobem 10545 observacions i nou variables, com per efemple el PIB del país, la mortalitat infantil, la població, l’esperança de vida, entre d’altres. També trobem que hi ha algunes casselles sense dades, com la mortalitat infantil a Armenia o Azerbaia, el PIB d’Albania entre molts altres.
glimpse(gap)En el cas de Madagascar la feritlitat estava estancada durant la década dels 60, peró a partir de principis dels setanta ha començat a caoure, quasi en picat, amb una parada l’any 1885 i després ha continuat caient fins avui dia. En el cass de Rússia, també ha caigut, peró la remontada comentada anteriorment respecte als anys 1985 és molt més pronuncaida, ara bé, després ha seguit en baixada fins als 2000, o a partir de la data s’ha anat recuperant i finalemnt els últims anys s’ha estnacat al nivell dels 1.5 nens per mare.
gap |>
filter( country %in% c('Madagascar')) |>
ggplot(aes(x = year,
y = fertility)) +
geom_line()
gap |>
filter( country %in% c('Russia')) |>
ggplot(aes(x = year,
y = fertility)) +
geom_line()gap |>
filter(country %in% c('Madagascar')) |>
ggplot(aes(x = fertility)) +
geom_histogram()
gap |>
filter(country %in% c('Russia')) |>
ggplot(aes(x = fertility)) +
geom_histogram() El PIB Espanyol segons les dades proporcionades pel marc de dades, no ha parat de crèixer desde 1960, exepte durant la crisis del 2008, que va ser negatiu.
gap |>
filter(country %in% c('Spain')) |>
ggplot( aes(x = year, y = gdp)) +
geom_line()