PEC1: Estadística Descriptiva y Muestreo UOC NOMBRE:David Joan Jiménez-Girard

Indique claramente el nombre y apellidos en la primera página del informe. Resuelva los ejercicios utilizando R siempre que sea necesario; es importante mostrar cada uno de los pasos realizados para llegar al resultado final. Indique en cada caso qué instrucciones de R ha utilizado y las salidas que se obtienen. Importante: el informe final se entregará en un archivo con formato “pdf”. No se debe entregar el archivo con formato “Rmd” ni se acepatará el informe en ningún otro formato.

Esta PEC debe realizarse de forma estrictamente individual, quedando totalmente prohibido el uso de herramientas de IA. Cualquier indicio de copia será penalizado con un suspenso (D) para todas las partes implicadas y la posible evaluación negativa de la asignatura de forma íntegra.

Recordatorio: Verificación de autoría mediante entrevista de contraste. Esta actividad está sujeta a la verificación de la autoría, la cual puede incluir entrevistas de contraste, tal como se describe en el plan docente de la asignatura. En caso de que el profesorado lo considere necesario, se podrá convocar al estudiante para realizar una entrevista con el objetivo de comprobar la correspondencia entre el contenido presentado y los conocimientos adquiridos, así como la autoría independiente de la actividad. Encontraréis más información en el plan docente de la asignatura. Introducción

El objetivo de esta PEC es analizar la gestión de residuos en una muestra de municipios. Los datos se encuentran en el archivo Municipios_Sostenibles.csv. Este dataset incluye información sobre la población, el tipo de municipio y los principales indicadores de reciclaje. Variables :

• Municipio_ID: Identificador único. • Habitantes: Número de personas residentes. • Tipo_Municipio: Categoría (Urbano, Rural, Turístico). • Residuos_kg_capita: Kilogramos de residuos generados por persona y año. • Tasa_Reciclaje: Porcentaje de recogida selectiva. • Coste_Gestion_EUR: Coste por habitante de la gestión de residuos. • Puerta_a_Puerta: Si el municipio tiene implementado este sistema (Sí/No). Problema 1 (4 puntos) Importe los datos del archivo Municipios_Sostenibles.csv al programa R.

#Importe los datos

Una agencia ambiental quiere evaluar la eficiencia de los municipios. a) Describa el tipo de cada variable (Nominal, Ordinal, Discreta o Continua). Justifique la respuesta basándose en los apuntes de la asignatura. #Espacio para la solución

Las variables discretas son las siguientes: "Municipio_ID", "Habitantes".
Son variables discretas porque son números enteros que sirven para enumerar o contar.

En el caso de "Municipio_ID", es un número de identificación único para cada municipio.
Si sumamos todos los valores de esta columna, obtendríamos el número total de municipios en el archivo.
En el caso de "Habitantes", indica cuántos habitantes hay por municipio.

Las variables nominales son las siguientes: "Tipo_Municipio", "Puerta_a_Puerta".
Son variables nominales porque son etiquetas que permiten identificar categorías 
en estas dos columnas del archivo.

Las variables continuas son las siguientes: "Residuos_kg_capita", "Tasa_Reciclaje", 
"Coste_Gestion_EUR". Son variables continuas porque sirven para indicar medidas precisas,
que pueden incluir decimales.
  1. Calcule un resumen numérico completo (media, mediana, cuartiles y desviación típica) de la variable Tasa_Reciclaje. ¿Qué nos indica la diferencia entre la media y la mediana sobre la simetría de los datos? #Espacio para la solución
Los valores extremos o outliers no tienen incidencia sobre la mediana, pero sí sobre la media.
Esto nos indica que algunos valores son particularmente bajos.
summary(data_PEC1$Tasa_Reciclaje)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.50   32.00   40.65   40.01   48.23   69.90
sd(summary(data_PEC1$Tasa_Reciclaje))
## [1] 20.09103
  1. Cree una nueva variable denominada Eficiencia_Coste que sea el resultado de dividir la Tasa_Reciclaje entre el Coste_Gestion_EUR. Presente las primeras 5 filas de la nueva variable. #Espacio para la solución
Eficiencia_Coste <- data_PEC1$Tasa_Reciclaje/data_PEC1$Coste_Gestion_EUR
head(Eficiencia_Coste, 5)
## [1] 0.1696648 0.1449938 0.1862832 0.1390449 0.1555714
  1. Realice una descripción estadística de la variable cualitativa Tipo_Municipio. Calcule la tabla de frecuencias absolutas y frecuencias relativas, y represente la distribución de los datos mediante un gráfico de sectores. ¿Qué categoría de municipio es la más frecuente en la muestra? #Espacio para la solución
Los municipios más frecuentes en el conjunto de datos son los municipios urbanos.
freq_abs_mun <- table(data_PEC1$Tipo_Municipio)
freq_rel_num <- prop.table(freq_abs_mun)*100
print(freq_abs_mun)
## 
##     Rural Turístico    Urbano 
##        29        31        40
print(freq_rel_num)
## 
##     Rural Turístico    Urbano 
##        29        31        40
pie(table(freq_rel_num))

Problema 2 (3 puntos) La agencia sospecha que el sistema de recogida influye en los resultados. a) Realice un diagrama de cajas (boxplot) de la Tasa_Reciclaje según si el municipio utiliza el sistema Puerta_a_Puerta. Comente las diferencias observadas en la dispersión y en los valores centrales. #Espacio para la solución

Podemos ver, observando el valor central, que la mediana es muy parecida en los dos casos,
lo que indica que los resultados no cambian mucho según el tipo de recogida.
Sin embargo, si observamos la dispersión, nos damos cuenta de que la dispersión 
alrededor del valor central es reducida en el caso del sistema puerta a puerta, 
lo que indica que este sistema permite una variabilidad menor, mejorando así la tasa de reciclaje.
boxplot(Tasa_Reciclaje ~ Puerta_a_Puerta, data = data_PEC1, main="test", col = "pink")

  1. Si un municipio presenta una tasa de reciclaje del 90 %, ¿lo consideraría un “outlier”? Razone la respuesta según el concepto de datos atípicos de los apuntes.

#Espacio para la

media_tasa_reciclaje <- mean(data_PEC1$Tasa_Reciclaje)
print(media_tasa_reciclaje)
## [1] 40.006
Como lo hemos visto más arriba, la media de la tasa de reciclaje de todos los municipios
es de 40.01%. Por lo tanto, un municipio que presentara una tasa del 90% podría
considerarse como un outlier o dato atípico.

En este caso, tendríamos que:
1. Verificar si hay errores en la introducción de los datos.
2. Si no hay errores, investigar las causas y los factores.que podrían explicar
una tasa de reciclaje tan alta.

Problema 3 (3 puntos) Se quiere realizar una encuesta detallada a 15 municipios para conocer la opinión de la ciudadanía. a) Explique cómo aplicaría un muestreo estratificado para asegurar que los tres tipos de municipios (Rural, Urbano, Turístico) estén representados proporcionalmente. Cite en qué parte de los apuntes ha encontrado cómo hacerlo. #Espacio para la solución

Como mencionado en el índice 5 del manual "muestreo", en primer lugar tenemos que
asegurarnos de que la proporción en la muestra estratificada sea la misma que en
la población total de todos los municipios. Por lo tanto, las proporciones
son: 29% rurales, 31% turísticos, 40% urbanos.

En los 15 municipios seleccionados, esto se traduciría en:
- 4 municipios rurales (29% de 15, aproximado de 4.5),
- 5 municipios turísticos (31% de 15, aproximado de 4.65),
- 6 municipios urbanos (40% de 15).
  1. ¿Porqué en este contexto sería mejor un muestre estratificado que un muestre aleatorio simple? Justifique la respuesta basándose en la representatividad de la muestra. #Espacio para la solución
Con una muestra aleatoria simple, algunos municipios podrían estar sobrerrepresentados.
Por ejemplo, podríamos obtener una distribución como 2 rurales, 1 turístico y 12 urbanos,
lo que no reflejaría la estructura real de la población.

Una muestra estratificada permite evitar estos sesgos, asegurando que cada tipo de
municipio (rural, turístico y urbano) esté representado en la muestra según su proporción
real en la población.