#Ranking usando Markov
library(rvest)
library(tidyverse)
library(stringr)
library(parallel)
Función para hacer el scan de wikipedia
dataframlinks <- function(url){
print(url)
read_html(url) %>%
html_nodes("a") %>%
html_attr('href') %>%
data_frame() %>%
rename(links='.') %>%
filter(str_detect(links,"/wiki/")) %>%
filter(!str_detect(links,"#")) %>%
filter(!str_detect(links,"image")) %>%
filter(!str_detect(tolower(links),"file"))%>%
filter(!str_detect(links,"https:")) %>%
filter(!str_detect(links,"//")) %>%
filter(!str_detect(links,":"))%>% return()
}
Función para contruir la matriz de relaciones
buildmatrix <- function(vlist, vmaxrows){
mat<-matrix(0, nrow = maxrows,ncol = maxrows)
for(i in 1:vmaxrows){
textid=vlist[[i]]$link
for(j in 1:vmaxrows){
mat[i,j]=0
content=vlist[[j]]$content
total=nrow(content%>%filter(str_detect(links,textid)))
if(total>0 && i!=j){
mat[i,j]=1
}
}
print(paste("i:",i,'/',vmaxrows,Sys.time()))
}
return(mat)
}
Función para contruir la matriz base de markov Esta matriz contiene el artefacto para conectar closters
buildmarkovmatrix <- function(mat, vmaxrows){
m_scluster=matrix(data = rep(.2, vmaxrows*vmaxrows), nrow = vmaxrows, ncol = vmaxrows)
matoper=mat*.85+m_scluster*.15
for(i in 1:vmaxrows) {
# i-th element of `u1` squared into `i`-th position of `usq`
matoper[i,] <- matoper[i,] / sum(matoper[i,])
print(c(matoper[i,],i,sum(matoper[i,])))
}
return(matoper)
}
Funcion de multiplicacion de matrices en paralelo
matprod.par <- function(cl, A, B){
if (ncol(A) != nrow(B)) stop("Matrices do not conforme")
idx <- splitIndices(nrow(A), length(cl))
Alist <- lapply(idx, function(ii) A[ii,,drop=FALSE])
## ans <- clusterApply(cl, Alist, function(aa, B) aa %*% B, B)
## Same as above, but faster:
ans <- clusterApply(cl, Alist, get("%*%"), B)
do.call(rbind, ans)
}
Función de multiplicacion de matrices en paralelo
matprod.par <- function(cl, A, B){
if (ncol(A) != nrow(B)) stop("Matrices do not conforme")
idx <- splitIndices(nrow(A), length(cl))
Alist <- lapply(idx, function(ii) A[ii,,drop=FALSE])
## ans <- clusterApply(cl, Alist, function(aa, B) aa %*% B, B)
## Same as above, but faster:
ans <- clusterApply(cl, Alist, get("%*%"), B)
do.call(rbind, ans)
}
Función Para asignar el Ranking
assignScore <- function(mat,dataset ,vmaxrows){
for(i in 1:vmaxrows){
dataset$ranking[i]= mat[i,i]
}
return(dataset)
}
Funcion para listar el ranking de las artistas
mostrar_artistas_ranking <- function(textsearch,dataset){
filteredtable<-dataset %>%
filter(str_detect(links, regex(textsearch, ignore_case = T)))
filteredtable<-filteredtable[order(filteredtable$ranking),c(1,2)]
return(filteredtable)
}
Test de funcion para obtener el data frame de urls
glimpse( test_links)
Observations: 1,954
Variables: 1
$ links <chr> "/wiki/List_of_American_television_actresses", "/wiki/Beverly_Aadland", "/wiki/Mariann_Aalda", "/wiki/Caroline_Aaron", "/wiki/Diahnne_...
Proyecto: paso 1. leer el root del directorio de actresses
Listof_links<-dataframlinks("https://en.wikipedia.org/wiki/List_of_American_film_actresses")
glimpse( Listof_links)
paso 2. Contruir la lista de objetos con su respectivo URK para cada una de las actrices
paso 3. Contruir el arreglo de referencias de cada una de las actrices si el bucle da error de comunicacion reintentar nuevamente desde el for hasta completar la lista Nota: el campo prapared$processed se volvera verdadero una vez el URL request se haya realizado
paso 4. Se procede a contruir la matriz de markov paso 4.1. se crea la matriz de relaciones paso 4.2. se construye la matriz de markov con el la inclusion de saltos por cluster paso 4.2 se procesa en paralelo la matriz de markov
mat<-c()
mat<-buildmatrix(veclist,maxrows)
markov<-buildmarkovmatrix(mat,maxrows)
(nc <- detectCores())
cl <- makeCluster(rep("localhost", nc))
matpown=matprod.par(cl,markov,markov)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
stopCluster(cl)
Matriz de relaciones
glimpse(mat , ... = )
num [1:1954, 1:1954] 0 0 0 0 0 0 0 0 0 1 ...
Matriz de markov
glimpse(markov )
num [1:1954, 1:1954] 0.000471 0.00049 0.000497 0.000401 0.000497 ...
Matriz con potencia a n=12
glimpse(matpown )
num [1:1954, 1:1954] 0.00298 0.00298 0.00298 0.00298 0.00298 ...
Asignacion de los score basados en el producto de matrices scoredlist<-assignScore(matpown,prapared,maxrows)
Mostrar el ranking de las artistas basados en texto
- jen
respuesta<-mostrar_artistas_ranking(“jen”,scoredlist)
respuesta<-mostrar_artistas_ranking("jen",scoredlist)
respuesta
- boy respuesta<-mostrar_artistas_ranking(“boy”,scoredlist)
respuesta<-mostrar_artistas_ranking("boy",scoredlist)
respuesta
- Bell respuesta<-mostrar_artistas_ranking(“Bell”,scoredlist)
respuesta<-mostrar_artistas_ranking("Bell",scoredlist)
respuesta
