lala="https://es.wikipedia.org/wiki/Anexo:Pel%C3%ADculas_con_las_mayores_recaudaciones"
library(htmltab)
Pelis = htmltab(doc = lala,
which = '//*[@id="mw-content-text"]/div/table[2]' )
str(Pelis)
## 'data.frame': 50 obs. of 9 variables:
## $ # : chr "1" "2" "3" "4" ...
## $ Película : chr "Avengers: Endgame" "Avatar" "Titanic" "Star Wars: Episodio VII - El despertar de la Fuerza" ...
## $ Distribuidora(s) : chr "Marvel Studios/Walt Disney Pictures" "20th Century Fox" "20th Century Fox" "Walt Disney Pictures" ...
## $ Taquilla (Estados Unidos) : chr "$858 373 000 (41,8 %)" "$760 507 625 (27,3 %)" "$659 363 944 (30,1 %)" "$936 662 225 (45,3 %)" ...
## $ Taquilla (fuera de EE UU ): chr "$1 939 427 564 (58,2 %)" "$2 029 172 169 (72,7 %)" "$1 528 100 000 (69,9 %)" "$1 131 561 399 (54,7 %)" ...
## $ Recaudación mundial : chr "$2 797 800 564" "$2 787 965 087" "$2 187 463 944" "$2 068 223 624" ...
## $ Presupuesto : chr "$400 000 000" "$237 000 000" "$200 000 000" "$245 000 000" ...
## $ Año de estreno : chr "2019" "2009" "1997" "2015" ...
## $ Director(es) : chr "Anthony y Joe Russo" "James Cameron" "James Cameron" "J. J. Abrams" ...
Las variables sin “ñ” ni “´”.
Números sin comillas
HAZ UN SUMMARY PARA CORROBORAR SI SE HIZO BIEN LA RECODIFICACIÓN (O SUMMARY O HMISC)
Pelis= Pelis [,c (1:3,8,9)]
str (Pelis)
## 'data.frame': 50 obs. of 5 variables:
## $ # : chr "1" "2" "3" "4" ...
## $ Película : chr "Avengers: Endgame" "Avatar" "Titanic" "Star Wars: Episodio VII - El despertar de la Fuerza" ...
## $ Distribuidora(s): chr "Marvel Studios/Walt Disney Pictures" "20th Century Fox" "20th Century Fox" "Walt Disney Pictures" ...
## $ Año de estreno : chr "2019" "2009" "1997" "2015" ...
## $ Director(es) : chr "Anthony y Joe Russo" "James Cameron" "James Cameron" "J. J. Abrams" ...
Una variable - X $ Y= as.factor/as.numeric/as.ordered(X$Y)
De una a más variables - lapply:
Pelis[,c(1,4)]=lapply(Pelis[,c(1,4)], as.numeric)
K=c("Authoritarian","Hybrid regime", "Flawed democracy","Full democracy")
X$Y = factor(X$Y, levels=K,ordered = TRUE)
names(Pelis)[4]="AñoEstreno"
str (Pelis)
## 'data.frame': 50 obs. of 5 variables:
## $ # : num 1 2 3 4 5 6 7 8 9 10 ...
## $ Película : chr "Avengers: Endgame" "Avatar" "Titanic" "Star Wars: Episodio VII - El despertar de la Fuerza" ...
## $ Distribuidora(s): chr "Marvel Studios/Walt Disney Pictures" "20th Century Fox" "20th Century Fox" "Walt Disney Pictures" ...
## $ AñoEstreno : num 2019 2009 1997 2015 2018 ...
## $ Director(es) : chr "Anthony y Joe Russo" "James Cameron" "James Cameron" "J. J. Abrams" ...
ZZZ=c("rank", "country","score","electoral", "functioning",
"participation","culture","civilliber","regimetype","continent")
names(X)= ZZZ
library(stringr) [primero esto eh]
En la data
X[,]=lapply(X[,],trimws,whitespace = "[\\h\\v]") En los nombres de las variables
names(X)=str_split(names(X)," ",simplify = T)[,1]En los nombres de las variables:
names(X)=str_replace_all(names(X), "[^[:ascii:]]", "")En la data:
X[,]=lapply(X[,], str_replace_all,"[^[:ascii:]]","")“\D” Eliminar lo que NO sea numero
library(readr)
X$Y = gsub('\\D','',X$Y)X$Y=NULL
library(readr) [Primero esto, eh!]
X[,c(2:7)]=lapply(X[,c(2:7)],parse_number)
X=rbind(A,B,C) [junta lo determinado] A,B,C = tabla de frecuencias
library(knitr)
dataTable=table(Pelis$`Director(es)`)
kable(dataTable)
| Var1 | Freq |
|---|---|
| Andrew Stanton, Angus McLane | 1 |
| Anna Boden, Ryan Fleck | 1 |
| Anthony y Joe Russo | 3 |
| Bill Condon | 1 |
| Brad Bird | 1 |
| Byron Howard, Rich Moore | 1 |
| Chris Buck, Jennifer Lee | 1 |
| Chris Columbus | 1 |
| Christopher Nolan | 2 |
| Colin Trevorrow | 1 |
| David Yates | 1 |
| F. Gary Gray | 1 |
| Gareth Edwards | 1 |
| George Lucas | 1 |
| Gore Verbinski | 2 |
| Guy Ritchie | 1 |
| J A Bayona | 1 |
| J. J. Abrams | 1 |
| Jake Kasdan | 1 |
| James Cameron | 2 |
| James Wan | 2 |
| Jon Favreau | 2 |
| Jon Watts | 1 |
| Josh Cooley | 1 |
| Joss Whedon | 2 |
| Lee Unkrich | 1 |
| Michael Bay | 2 |
| Peter Jackson | 2 |
| Pierre Coffin | 2 |
| Pierre Coffin, Kyle Balda, Eric Guillon | 1 |
| Rian Johnson | 1 |
| Rob Marshall | 1 |
| Rob Minkoff | 1 |
| Ryan Coogler | 1 |
| Sam Mendes | 1 |
| Shane Black | 1 |
| Steven Spielberg | 1 |
| Tim Burton | 1 |
| Todd Phillips | 1 |