PAC3

Solució PAC3

Leo MArzal Altemir

Última modificació

18 de novembre de 2024

Activitat 1

En aquesta activitat utilitzarem un marc de dades que conté informació de l’European Social Survey (ESS). L’ESS és una enquesta que es realitza a nivell europeu i és molt utilitzada en els camps de la Sociologia i la Ciència Política. Amb aquestes dades, analitzarem les diverses dimensions del desenvolupament social entre paisos. Importarem les dades que es troben emmagatzemades a CRON_fin.xlsx amb la funció read_xls() i li donarem el nom de cron. Un cop realitzada la importació, assegura’t que a l’Environment aparegui l’objecte cron.

Code

#Recorda que tots els chunks estan en eval = F, per activar-los has de canviar a eval = T
library(readxl)
cron <- read_xlsx("CRON_fin.xlsx")

Realitza una exploració ràpida del mateix amb les funcions que coneixes, identificant el nombre d’observacions, quines variables té com estan codificades i la unitat d’observació.

Code

glimpse("cron")

 chr "cron"

Podem veure que el marc de dades “cron” està fromat per 6.032 files i 24 columnes. Trobem 6032 observacions i diferents variables (24 en total), com el gènere, l’edat, els anys d’escolartzació complerts, l’ús d’internet, el país, la regió, entre moltes altres. També és tracta d’una enquesta que per tant utilitza un mètode quantitatiu.

Activitat 2

Per examinar a fons la taula, és important que utilitzis el llibre de codis CRON2W4e01 codebook.html inclòs a l’arxiu zip que t’has descarregat. Contesta a les seguents preguntes amb el resultat i un breu anàlisi.

Crea una taula de freqüències per la variable w4q13 i comenta el resultat.

Code

cron |> 
  count(w4q13, sort = T)

# A tibble: 6 × 2
  w4q13     n
  <dbl> <int>
1     5  3370
2     4  2094
3     3   429
4     2    68
5     9    54
6     1    17

Aquesta variable esta analitzan com d’importantels enquestats troban que és la protecció dels drets humans per tal de que un país convisqui en una societat ideal. On cinc és una prioritat toatal i 1 no és una prioritat del tot, així que com veïem en la taula de freqüències pels enquestats és molt important. -el num 9 correspon als no contestats.-

Calcula la frequencia absoluta de la variable cntry. Representa la frequencia i comenta breuement el resultat.

Code

barplot(table(cron$cntry))

Code

cron |> 
  count(cntry)

# A tibble: 11 × 2
   cntry     n
   <chr> <int>
 1 AT      647
 2 BE      573
 3 CZ      284
 4 FI      739
 5 FR      724
 6 GB      487
 7 IS      525
 8 IT      243
 9 PT      396
10 SE      845
11 SI      569

Aquí és mostren les freqüències relatives dels diferents països; 1 AT 647 2 BE 573 3 CZ 284 4 FI 739 5 FR 724 6 GB 487 7 IS 525 8 IT 243 9 PT 396 10 SE 845 11 SI 569

El numero que té cada país correspon al nombre de persones que han contestat l’enquesta i que tenen la nacionalitat del país corresponent. Per exemple, ha FR, França, han contestat 724 persones.

Explica la variable w4q3, a Portugal, Frància i Suècia i raona sobre els resultats. Pista: filter(), count(x) i la variable w4q3 indica la prioritat d’“Emfatitzar els valors religiosos”.

Code

cron |> 
filter(cntry == c("PT"))|>
 count(w4q3, sort = T)

# A tibble: 6 × 2
   w4q3     n
  <dbl> <int>
1     3   139
2     1    96
3     2    89
4     4    49
5     5    17
6     9     6

Code

 cron |> 
filter(cntry == c("FR"))|>
 count(w4q3, sort = T)

# A tibble: 6 × 2
   w4q3     n
  <dbl> <int>
1     1   355
2     3   147
3     2   140
4     4    51
5     5    16
6     9    15

Code

 cron |> 
filter(cntry == c("SE"))|>
 count(w4q3, sort = T)

# A tibble: 6 × 2
   w4q3     n
  <dbl> <int>
1     1   312
2     2   309
3     3   159
4     4    48
5     5     9
6     9     8

A França ia a Suècia la majoria de la població és posiciona en les tres primeres opcions, les quals fan rèferencia a no donar-li gran importància a la religió per tal d’assolir aquesta societat ideal. Mentre que a Portgual la resposta majoritaria és la tres, on és dona una importància mitjana. Aquesta pregunta en serveix també per analitzar el nivell religos de la societat del país en questió.

4.Quin percentatge de persones han respost amb un valor de 5 a la pregunta w4q15? El 21.8% ha respost amb un valor de 5 a la pregunta w4q15.

Code

cron |> 
  summarize(percentatge_5 = mean(w4q15 == 5) * 100)

# A tibble: 1 × 1
  percentatge_5
          <dbl>
1          21.8

Quin és el valor més freqüent (moda) per a la variable w4q1? La moda en la variable w4q1 -aquesta variable fa referéncia en desferçe de la pobresa- és la resposta quatre -la qual és una prioritat important-.

Code

cron |> 
count(w4q1)

# A tibble: 6 × 2
   w4q1     n
  <dbl> <int>
1     1    42
2     2   117
3     3   896
4     4  3067
5     5  1890
6     9    20

6.Calcula la mitjana i la mediana de la variable eduyrs per país i comenta breument el resultat més elevat i el més baix. En aquest cas la mitjana més alta la trobem a la República Txeca, amb 17 anys d’escolaritació de mitja, i la més baixa la té Portugal, amb exactament 13.65404 anys d’esocolartzació. Respectivament; la media més alta la té Islandia amb 17 i la més baixa també Portugal, amb 12.

Code

mitjnmed <- cron |> 
  group_by(cntry) |>
  summarize(
    mitjana_eduyrs = mean(eduyrs, na.rm = TRUE),  
    mediana_eduyrs = median(eduyrs, na.rm = TRUE))

Treu els valors 77, 88 i 99 de la variable eduyrs? (pista - et resultarà més pràctic si crees un nou dataset, de nom, per exemple, cron_2).

Code

cron_2 <- cron |> 
  filter(!eduyrs %in% c(77, 88, 99))

Ara utiltizant el nou cron_2 Fes un boxplot de la distribució de la variable eduyrs per país i comenta els resultats.

Sincerament; no sé si ha sortit bé el gràfic de caixes, ja que ,’esta costant interpretar-lo. És a dir, només han sortit dues caixes; quan hauria d’ahver una per cada pais.

Code

library(ggplot2)
cron_2 |> 
  ggplot(aes(x = cntry,
             y = eduyrs )) +
  geom_boxplot()

Activitat 3

En aquesta activitat analitzarem una versió ampliada del marc de dades gapminder. El projecte Gapminder està orientat a recollir dades dels països en diverses dimensions del desenvolupament, com el medi ambient, la pobresa o el mercat laboral. Nosaltres descarregarem una versió reduïda de les dades, que es troba al paquet dslabs. Si no tens el paquet installat has d’installar-ho amb la funció install.packages(“dslabs”) i carregar-ho.

Code

library(dslabs)
library(ggplot2)
library(dplyr)
gap <- tibble(dslabs::gapminder)

En primer lloc realitza una exploració del marc de dades gap. No oblidis d’explicar si tenim NA i en quines variables.

En aquest marc dedades trobem 10545 observacions i nou variables, com per efemple el PIB del país, la mortalitat infantil, la població, l’esperança de vida, entre d’altres. També trobem que hi ha algunes casselles sense dades, com la mortalitat infantil a Armenia o Azerbaia, el PIB d’Albania entre molts altres.

Code

glimpse(gap)

Escull dos països i visualitza com ha evolucionat la fertilitat al llarg del temps. Comenta breuement estava distribuïda la fertilitat als dos països entre el 1966 i el 2016?

En el cas de Madagascar la feritlitat estava estancada durant la década dels 60, peró a partir de principis dels setanta ha començat a caoure, quasi en picat, amb una parada l’any 1885 i després ha continuat caient fins avui dia. En el cass de Rússia, també ha caigut, peró la remontada comentada anteriorment respecte als anys 1985 és molt més pronuncaida, ara bé, després ha seguit en baixada fins als 2000, o a partir de la data s’ha anat recuperant i finalemnt els últims anys s’ha estnacat al nivell dels 1.5 nens per mare.

Code

gap |> 
  filter( country %in% c('Madagascar')) |> 
  ggplot(aes(x = year,
             y = fertility)) +
  geom_line()

gap |> 
  filter( country %in% c('Russia')) |> 
  ggplot(aes(x = year,
             y = fertility)) +
  geom_line()

Fes un histograma amb els dos paísos de cada any, separat per un facet.

Code

gap |> 
  filter(country %in% c('Madagascar')) |>  
  ggplot(aes(x = fertility)) +  
  geom_histogram() 
gap |> 
  filter(country %in% c('Russia')) |>  
  ggplot(aes(x = fertility)) +  
  geom_histogram()

Fes-te una pregunta sobre un o varis països que puguis resoldre mitjançant una visualització de les que has estudiat en aquesta unitat. Respon-la amb un gràfic. Quin ha estat el recorregut del PIB Espanyol desde 1960?

El PIB Espanyol segons les dades proporcionades pel marc de dades, no ha parat de crèixer desde 1960, exepte durant la crisis del 2008, que va ser negatiu.

Code

gap |> 
  filter(country %in% c('Spain')) |>  
ggplot( aes(x = year, y = gdp)) +
  geom_line()