#Ranking usando Markov

library(rvest)
library(tidyverse)
library(stringr)
library(parallel)

Función para hacer el scan de wikipedia

dataframlinks <- function(url){
  print(url) 
    read_html(url) %>% 
    html_nodes("a") %>% 
    html_attr('href') %>% 
    data_frame() %>%
    rename(links='.') %>% 
    filter(str_detect(links,"/wiki/")) %>%
    filter(!str_detect(links,"#")) %>%
    filter(!str_detect(links,"image")) %>% 
    filter(!str_detect(tolower(links),"file"))%>%
    filter(!str_detect(links,"https:")) %>% 
    filter(!str_detect(links,"//")) %>% 
    filter(!str_detect(links,":"))%>% return()
  
  
   
}

Función para contruir la matriz de relaciones

buildmatrix <- function(vlist, vmaxrows){
  mat<-matrix(0, nrow = maxrows,ncol = maxrows)
  
  for(i in 1:vmaxrows){
    textid=vlist[[i]]$link
    
    for(j in 1:vmaxrows){
      
      mat[i,j]=0
      content=vlist[[j]]$content
      total=nrow(content%>%filter(str_detect(links,textid)))
      if(total>0 && i!=j){
        mat[i,j]=1 

      }
    }
    print(paste("i:",i,'/',vmaxrows,Sys.time()))

    
    
  }  
  

  return(mat)
}

Función para contruir la matriz base de markov Esta matriz contiene el artefacto para conectar closters

buildmarkovmatrix <- function(mat, vmaxrows){

  
  m_scluster=matrix(data = rep(.2, vmaxrows*vmaxrows), nrow = vmaxrows, ncol = vmaxrows)
  matoper=mat*.85+m_scluster*.15
  for(i in 1:vmaxrows) {
    # i-th element of `u1` squared into `i`-th position of `usq`
    matoper[i,] <- matoper[i,] / sum(matoper[i,])
    print(c(matoper[i,],i,sum(matoper[i,])))
  }
  
  
  return(matoper)
}

Funcion de multiplicacion de matrices en paralelo

matprod.par <- function(cl, A, B){
  if (ncol(A) != nrow(B)) stop("Matrices do not conforme")
  idx <- splitIndices(nrow(A), length(cl))
  Alist <- lapply(idx, function(ii) A[ii,,drop=FALSE])
  ## ans <- clusterApply(cl, Alist, function(aa, B) aa %*% B, B)
  ## Same as above, but faster:
  ans <- clusterApply(cl, Alist, get("%*%"), B)
  do.call(rbind, ans)
}

Función de multiplicacion de matrices en paralelo

matprod.par <- function(cl, A, B){
  if (ncol(A) != nrow(B)) stop("Matrices do not conforme")
  idx <- splitIndices(nrow(A), length(cl))
  Alist <- lapply(idx, function(ii) A[ii,,drop=FALSE])
  ## ans <- clusterApply(cl, Alist, function(aa, B) aa %*% B, B)
  ## Same as above, but faster:
  ans <- clusterApply(cl, Alist, get("%*%"), B)
  do.call(rbind, ans)
}

Función Para asignar el Ranking

assignScore <- function(mat,dataset ,vmaxrows){
  
  
  for(i in 1:vmaxrows){
    dataset$ranking[i]=  mat[i,i]
  

  }

  return(dataset)
}

Funcion para listar el ranking de las artistas

mostrar_artistas_ranking <- function(textsearch,dataset){
  
  filteredtable<-dataset %>% 
    filter(str_detect(links, regex(textsearch, ignore_case = T)))
  
  filteredtable<-filteredtable[order(filteredtable$ranking),c(1,2)]
    
  
  
  return(filteredtable)
}

Test de funcion para obtener el data frame de urls

glimpse( test_links)
Observations: 1,954
Variables: 1
$ links <chr> "/wiki/List_of_American_television_actresses", "/wiki/Beverly_Aadland", "/wiki/Mariann_Aalda", "/wiki/Caroline_Aaron", "/wiki/Diahnne_...

Proyecto: paso 1. leer el root del directorio de actresses

Listof_links<-dataframlinks("https://en.wikipedia.org/wiki/List_of_American_film_actresses")

glimpse( Listof_links)

paso 2. Contruir la lista de objetos con su respectivo URK para cada una de las actrices

paso 3. Contruir el arreglo de referencias de cada una de las actrices si el bucle da error de comunicacion reintentar nuevamente desde el for hasta completar la lista Nota: el campo prapared$processed se volvera verdadero una vez el URL request se haya realizado

paso 4. Se procede a contruir la matriz de markov paso 4.1. se crea la matriz de relaciones paso 4.2. se construye la matriz de markov con el la inclusion de saltos por cluster paso 4.2 se procesa en paralelo la matriz de markov

mat<-c()
mat<-buildmatrix(veclist,maxrows)
markov<-buildmarkovmatrix(mat,maxrows)

(nc <- detectCores())
cl <- makeCluster(rep("localhost", nc))

matpown=matprod.par(cl,markov,markov)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
stopCluster(cl)

Matriz de relaciones

glimpse(mat , ... = )
 num [1:1954, 1:1954] 0 0 0 0 0 0 0 0 0 1 ...

Matriz de markov

glimpse(markov )
 num [1:1954, 1:1954] 0.000471 0.00049 0.000497 0.000401 0.000497 ...

Matriz con potencia a n=12

glimpse(matpown )
 num [1:1954, 1:1954] 0.00298 0.00298 0.00298 0.00298 0.00298 ...

Asignacion de los score basados en el producto de matrices scoredlist<-assignScore(matpown,prapared,maxrows)

Mostrar el ranking de las artistas basados en texto

  1. jen

respuesta<-mostrar_artistas_ranking(“jen”,scoredlist)

respuesta<-mostrar_artistas_ranking("jen",scoredlist)
respuesta
  1. boy respuesta<-mostrar_artistas_ranking(“boy”,scoredlist)
respuesta<-mostrar_artistas_ranking("boy",scoredlist)
respuesta
  1. Bell respuesta<-mostrar_artistas_ranking(“Bell”,scoredlist)
respuesta<-mostrar_artistas_ranking("Bell",scoredlist)
respuesta
