TAREA 2.DISEÑO DE EXPERIMENTOS Y FUNDAMENTOS DE ANÁLISIS DE DATOS (II-REPRESENTACIÓN Y TABULACIÓN DE DATOS)

1. Leer el fichero de datos pobMur15.csv y asignarlo al objeto df. Comprueba que lo has leído bien. ¿Cómo son los datos?

df <- read.csv(file = "pobMur15.csv", sep = ";", header = T)
head (df)

##   codMun      Mun year pobHom pobMuj
## 1      1 Abanilla 2000   3050   3056
## 2      1 Abanilla 2001   3030   3003
## 3      1 Abanilla 2002   3045   2995
## 4      1 Abanilla 2003   3151   3088
## 5      1 Abanilla 2004   3084   3061
## 6      1 Abanilla 2005   3171   3094

str (df)

## 'data.frame':    720 obs. of  5 variables:
##  $ codMun: int  1 1 1 1 1 1 1 1 1 1 ...
##  $ Mun   : Factor w/ 45 levels "Ãguilas","Abanilla",..: 2 2 2 2 2 2 2 2 2 2 ...
##  $ year  : int  2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 ...
##  $ pobHom: int  3050 3030 3045 3151 3084 3171 3212 3350 3390 3315 ...
##  $ pobMuj: int  3056 3003 2995 3088 3061 3094 3121 3218 3252 3274 ...

Para comprobar que el fichero le ha leído bien utilizamos la función “head” dónde podemos ver las datos pertenecientes a las seis primeras observaciones.

“df” es un “data frame” con 720 observaciones, recogidas en 5 variables.

La función “str” nos ayuda a conocer que tipo de variables tenemos en “df” (4 de tipo numérico y 1 factor), así como los posibles valores que adoptan las mismas (“Mun” es una variable factor que tiene 45 niveles, es decir, adopta 45 valores diferentes).

2. Selecciona de df la información correspondiente al año 2000 (todos los registros para ese año). Utilízala para calcular la población total de la Región de Murcia.

library( dplyr )

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

df2000<- df %>% filter (year == 2000)

df2000 = cbind( df2000, poblacion = df2000$pobHom + df2000$pobMuj)

colSums( df2000[6])

## poblacion 
##   1149328

Creamos un nuevo data frame (df2000) con los datos recogidos para el año 2000.

Usamos, posteriormente, la función “cbin” para añadir a “df2000” una nueva variable “población”, resultado de la suma de la población de hombres y mujeres para el año 2000.

Para realizar la suma de todas las poblaciones en las diferentes localidades de la Región de Murcia en el año 2000 usamos la función “colSums”, obteniendo un total de población de 1149328 habitantes.

3. Calcula ahora, para cada año y municipio, la población total (mujeres + hombres) y guardalo cómo pobTotal, variable que debes añadir a df.

df = cbind (df, pobTotal = df$pobHom + df$pobMuj)
head (df)

##   codMun      Mun year pobHom pobMuj pobTotal
## 1      1 Abanilla 2000   3050   3056     6106
## 2      1 Abanilla 2001   3030   3003     6033
## 3      1 Abanilla 2002   3045   2995     6040
## 4      1 Abanilla 2003   3151   3088     6239
## 5      1 Abanilla 2004   3084   3061     6145
## 6      1 Abanilla 2005   3171   3094     6265

4. Filtra a partir de df la información correspondiente a un municipio, el que prefieras, y calcula la media de las 3 poblaciones (total, hombres y mujeres).

dfricote <- df %>% filter (Mun == "Ricote")

mean (dfricote$pobHom)

## [1] 754.125

mean (dfricote$pobMuj)

## [1] 742.1875

mean (dfricote$pobTotal)

## [1] 1496.312

5. Con los datos del municipio seleccionado reproduce el siguiente gráfico.

plot ( c(2000,2016), c(0, 2000), type = "n", main = "Población en Ricote", 
       xlab= "Año", ylab= "Número de habitantes")
lines (x= dfricote$year, y= dfricote$pobTotal, lwd =4)

lines (x= dfricote$year, y= dfricote$pobHom, col= "blue")
lines (x= dfricote$year, y= dfricote$pobMuj, col= "blue", lty= 2)
legend ("bottomright", c("Total", "Hombres", "Mujeres"), horiz = FALSE, col= c(1, "blue", "blue"), title = "Poblaciones", lty = c (1,1,2), lwd = c (4,1,1), fill = c(1, "blue", "blue"))

Tarea 2