Aquesta PAC esta basada en una base de dades obtinguda a partir del llocweb de l’Euroestat Euroestat (Oficina Europea de Estadística). Les dades les teniu disponibles al fitxer “data_pac” en format csv i xlsx.

Aquesta base de dades conté informació sobre el percentatge de compres que es realitzen per internet de particulars (fins 2019), per a homes i dones d’entre 16 y 74 anys.

Conté les següents variables:

Us pot ser útil consultar el següent material:

  1. Manuals 1 i 3 de R
  2. Activitats Resoltes del Repte 1 (Estadística Descriptiva)

Cal lliurar la pràctica en forma de fitxer pdf o html al registre d’AC. Es recomana generar l’informe amb Rmarkdown que genera automàticament el pdf/html a entregar

Un cop importades les dades:

Pregunta 1. (25%)

Realitzeu un resum numèric i gràfic per a la variable electronic_equipment i comenteu el resultat.

Pregunta 2. (25%)

Realitzeu un resum numèric i gràfic per a la variable sex i comenteu el resultat.

Pregunta 3. (25%)

Distingint entre homes i dones, realitzeu un resum numèric i gràfic per a la variable electronic_equipment. Compareu això amb el que s’ha observat a l’apartat 1.

Pregunta 4. (25%)

Trobeu el valor mínim i màxim de la variable travel_and_holiday_accommodation i els corresponents països on es dona aquest valor.

Resposta 1.

Primer carreguem el csv per a poder treballar en les següents preguntes.

df <- read.csv("/Users/lluiscollmas/Desktop/master_datasci/2021_2_sem/probabilitat/repte1/pac1/data_pac1.csv", sep = ",")
mostra_pr1 <- length(df$electronic_equipment)
mitj_pr1 <- mean(df$electronic_equipment)
med_pr1 <- median(df$electronic_equipment)
desv_pr1 <- sd(df$electronic_equipment)

La variable de electronic_equipment té una mitjana de 26.42, una mediana de 24 i una desviació típica de 11.59, amb una població de 62 resultats.

Aquest és el resum numèric i un histograma representatiu de les dades:

summary(df$electronic_equipment)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   17.25   24.00   26.42   35.00   53.00
hist(df$electronic_equipment, col = 'orange', xlab='electronic_equipment', main="Histograma de la variable electronic_equipment")

Podem veure que es tracta d’una variable amb una forma prou simètrica. Amb l’excepció del valors entre 25 i 30. No té valors atípics.

Resposta 2.

Aquest el resum numèric i gràfic de la distribució de la variable sex.

table(df$sex)
## 
## Females   Males 
##      31      31
pie(table(df$sex))

Podem veure que hi ha un balanç totalment equilibrat entre els resultats de la variable.

Resposta 3.

Primer visualitzem un resum numèric, seguit d’una representació gràfica de les dades dels dos gèneres.

genere <- df$sex
f.genere <- factor(genere)
tags <- levels(f.genere)
tapply(df$electronic_equipment,f.genere, summary) # Aquí tenim un resum numèric dels dos gèneres
## $Females
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   14.00   17.00   17.71   21.00   33.00 
## 
## $Males
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   22.00   29.00   35.00   35.13   40.50   53.00
tapply(df$electronic_equipment,f.genere, sd) # Aquesta és la desviació típica per cada un dels gèneres
##  Females    Males 
## 6.461133 8.628410
df_male <- df[df$sex == 'Males',]
df_female <- df[df$sex == 'Females',]
hist(df_male$electronic_equipment, col = rgb(1,1,0,0.2), xlim=c(0,60), ylim = c(0,12), xlab='Valors', main="Histograma d'electronic_equipment per gèneres")
hist(df_female$electronic_equipment, col = rgb(0,1,1,0.2), add=TRUE)

desv_pr2_male <- sd(df_male$electronic_equipment)
desv_pr2_female <- sd(df_female$electronic_equipment)

Comparant els resultats d’ambdós gèneres per separat podríem treure la conclusió de que tenen una forma simètrica, sense grans punts distants. Però al comparar-ho l’una amb l’altra veiem que hi ha una distribució molt clara. En el cas d’homes , només hi ha 5 resultats que estiguin per sota de la mediana total de la variable (24). Cosa que significa que gairebé la meitat dels que més compren equipament electrònic són homes.

També podem veure que en tots dos casos no hi ha una gran dispersió dels resultats. En el cas de les dones la desviació típica és de 6.46 i en el cas del homes és de 8.63.

Resposta 4.

valor_min <- min(df$travel_and_holiday_accommodation)
valor_max <- max(df$travel_and_holiday_accommodation)
min_country <-df[df$travel_and_holiday_accommodation == min(df$travel_and_holiday_accommodation), ]
max_country <-df[df$travel_and_holiday_accommodation == max(df$travel_and_holiday_accommodation), ]

El valor mínim per a la variable travel_and_holiday_accommodation és 10. Hi surt 8 cops i hi és en aquests països: Croatia, Croatia, Romania.

El valor màxim d’aquesta vairable és 83. Només hi surt 8 cop i és un resultat de Switzerland.