#Ranking usando Markov

library(rvest)
library(tidyverse)
library(stringr)
library(parallel)

Función para hacer el scan de wikipedia

dataframlinks <- function(url){
  print(url) 
    read_html(url) %>% 
    html_nodes("a") %>% 
    html_attr('href') %>% 
    data_frame() %>%
    rename(links='.') %>% 
    filter(str_detect(links,"/wiki/")) %>%
    filter(!str_detect(links,"#")) %>%
    filter(!str_detect(links,"image")) %>% 
    filter(!str_detect(tolower(links),"file"))%>%
    filter(!str_detect(links,"https:")) %>% 
    filter(!str_detect(links,"//")) %>% 
    filter(!str_detect(links,":"))%>% return()
  
  
   
}

Función para contruir la matriz de relaciones

buildmatrix <- function(vlist, vmaxrows){
  mat<-matrix(0, nrow = maxrows,ncol = maxrows)
  
  for(i in 1:vmaxrows){
    textid=vlist[[i]]$link
    
    for(j in 1:vmaxrows){
      
      mat[i,j]=0
      content=vlist[[j]]$content
      total=nrow(content%>%filter(str_detect(links,textid)))
      if(total>0 && i!=j){
        mat[i,j]=1 

      }
    }
    print(paste("i:",i,'/',vmaxrows,Sys.time()))

    
    
  }  
  

  return(mat)
}

Función para contruir la matriz base de markov Esta matriz contiene el artefacto para conectar closters

buildmarkovmatrix <- function(mat, vmaxrows){

  
  m_scluster=matrix(data = rep(.2, vmaxrows*vmaxrows), nrow = vmaxrows, ncol = vmaxrows)
  matoper=mat*.85+m_scluster*.15
  for(i in 1:vmaxrows) {
    # i-th element of `u1` squared into `i`-th position of `usq`
    matoper[i,] <- matoper[i,] / sum(matoper[i,])
    print(c(matoper[i,],i,sum(matoper[i,])))
  }
  
  
  return(matoper)
}

Funcion de multiplicacion de matrices en paralelo

matprod.par <- function(cl, A, B){
  if (ncol(A) != nrow(B)) stop("Matrices do not conforme")
  idx <- splitIndices(nrow(A), length(cl))
  Alist <- lapply(idx, function(ii) A[ii,,drop=FALSE])
  ## ans <- clusterApply(cl, Alist, function(aa, B) aa %*% B, B)
  ## Same as above, but faster:
  ans <- clusterApply(cl, Alist, get("%*%"), B)
  do.call(rbind, ans)
}

Función de multiplicacion de matrices en paralelo

matprod.par <- function(cl, A, B){
  if (ncol(A) != nrow(B)) stop("Matrices do not conforme")
  idx <- splitIndices(nrow(A), length(cl))
  Alist <- lapply(idx, function(ii) A[ii,,drop=FALSE])
  ## ans <- clusterApply(cl, Alist, function(aa, B) aa %*% B, B)
  ## Same as above, but faster:
  ans <- clusterApply(cl, Alist, get("%*%"), B)
  do.call(rbind, ans)
}

Función Para asignar el Ranking

assignScore <- function(mat,dataset ,vmaxrows){
  
  
  for(i in 1:vmaxrows){
    dataset$ranking[i]=  mat[i,i]
  

  }

  return(dataset)
}

Funcion para listar el ranking de las artistas

mostrar_artistas_ranking <- function(textsearch,dataset){
  
  filteredtable<-dataset %>% 
    filter(str_detect(links, regex(textsearch, ignore_case = T)))
  
  filteredtable<-filteredtable[order(filteredtable$ranking),c(1,2)]
    
  
  
  return(filteredtable)
}

Test de funcion para obtener el data frame de urls

glimpse( test_links)
Observations: 1,954
Variables: 1
$ links <chr> "/wiki/List_of_American_television_actresses", "/wiki/Beverly_Aadland", "/wiki/Mariann_Aalda", "/wiki/Caroline_Aaron", "/wiki/Diahnne_...

Proyecto: paso 1. leer el root del directorio de actresses

Listof_links<-dataframlinks("https://en.wikipedia.org/wiki/List_of_American_film_actresses")

glimpse( Listof_links)

paso 2. Contruir la lista de objetos con su respectivo URK para cada una de las actrices

paso 3. Contruir el arreglo de referencias de cada una de las actrices si el bucle da error de comunicacion reintentar nuevamente desde el for hasta completar la lista Nota: el campo prapared$processed se volvera verdadero una vez el URL request se haya realizado

paso 4. Se procede a contruir la matriz de markov paso 4.1. se crea la matriz de relaciones paso 4.2. se construye la matriz de markov con el la inclusion de saltos por cluster paso 4.2 se procesa en paralelo la matriz de markov

mat<-c()
mat<-buildmatrix(veclist,maxrows)
markov<-buildmarkovmatrix(mat,maxrows)

(nc <- detectCores())
cl <- makeCluster(rep("localhost", nc))

matpown=matprod.par(cl,markov,markov)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
stopCluster(cl)

Matriz de relaciones

glimpse(mat , ... = )
 num [1:1954, 1:1954] 0 0 0 0 0 0 0 0 0 1 ...

Matriz de markov

glimpse(markov )
 num [1:1954, 1:1954] 0.000471 0.00049 0.000497 0.000401 0.000497 ...

Matriz con potencia a n=12

glimpse(matpown )
 num [1:1954, 1:1954] 0.00298 0.00298 0.00298 0.00298 0.00298 ...

Asignacion de los score basados en el producto de matrices scoredlist<-assignScore(matpown,prapared,maxrows)

Mostrar el ranking de las artistas basados en texto

  1. jen

respuesta<-mostrar_artistas_ranking(“jen”,scoredlist)

respuesta<-mostrar_artistas_ranking("jen",scoredlist)
respuesta
  1. boy respuesta<-mostrar_artistas_ranking(“boy”,scoredlist)
respuesta<-mostrar_artistas_ranking("boy",scoredlist)
respuesta
  1. Bell respuesta<-mostrar_artistas_ranking(“Bell”,scoredlist)
respuesta<-mostrar_artistas_ranking("Bell",scoredlist)
respuesta
---
title: "Ranking haciendo uso de Cadenas de markov proyecto estadistica 2, Byron Hernandez"
output: html_notebook
---
#Ranking usando Markov


```{r}
library(rvest)
library(tidyverse)
library(stringr)
library(parallel)

```

Función para hacer el scan de wikipedia
```{r}
dataframlinks <- function(url){
  print(url) 
    read_html(url) %>% 
    html_nodes("a") %>% 
    html_attr('href') %>% 
    data_frame() %>%
    rename(links='.') %>% 
    filter(str_detect(links,"/wiki/")) %>%
    filter(!str_detect(links,"#")) %>%
    filter(!str_detect(links,"image")) %>% 
    filter(!str_detect(tolower(links),"file"))%>%
    filter(!str_detect(links,"https:")) %>% 
    filter(!str_detect(links,"//")) %>% 
    filter(!str_detect(links,":"))%>% return()
  
  
   
}
```
Función para contruir la matriz de relaciones 
```{r}
buildmatrix <- function(vlist, vmaxrows){
  mat<-matrix(0, nrow = maxrows,ncol = maxrows)
  
  for(i in 1:vmaxrows){
    textid=vlist[[i]]$link
    
    for(j in 1:vmaxrows){
      
      mat[i,j]=0
      content=vlist[[j]]$content
      total=nrow(content%>%filter(str_detect(links,textid)))
      if(total>0 && i!=j){
        mat[i,j]=1 

      }
    }
    print(paste("i:",i,'/',vmaxrows,Sys.time()))


    
    
  }  
  

  return(mat)
}
```
Función para contruir la matriz base de markov
Esta matriz contiene el artefacto para conectar closters
```{r}
buildmarkovmatrix <- function(mat, vmaxrows){

  
  m_scluster=matrix(data = rep(.2, vmaxrows*vmaxrows), nrow = vmaxrows, ncol = vmaxrows)
  matoper=mat*.85+m_scluster*.15
  for(i in 1:vmaxrows) {
    # i-th element of `u1` squared into `i`-th position of `usq`
    matoper[i,] <- matoper[i,] / sum(matoper[i,])
    print(c(matoper[i,],i,sum(matoper[i,])))
  }
  
  
  return(matoper)
}
```
Funcion de multiplicacion de matrices en paralelo
```{r}
matprod.par <- function(cl, A, B){
  if (ncol(A) != nrow(B)) stop("Matrices do not conforme")
  idx <- splitIndices(nrow(A), length(cl))
  Alist <- lapply(idx, function(ii) A[ii,,drop=FALSE])
  ## ans <- clusterApply(cl, Alist, function(aa, B) aa %*% B, B)
  ## Same as above, but faster:
  ans <- clusterApply(cl, Alist, get("%*%"), B)
  do.call(rbind, ans)
}
```

Función de multiplicacion de matrices en paralelo
```{r}
matprod.par <- function(cl, A, B){
  if (ncol(A) != nrow(B)) stop("Matrices do not conforme")
  idx <- splitIndices(nrow(A), length(cl))
  Alist <- lapply(idx, function(ii) A[ii,,drop=FALSE])
  ## ans <- clusterApply(cl, Alist, function(aa, B) aa %*% B, B)
  ## Same as above, but faster:
  ans <- clusterApply(cl, Alist, get("%*%"), B)
  do.call(rbind, ans)
}
```
Función Para asignar el Ranking
```{r}
assignScore <- function(mat,dataset ,vmaxrows){
  
  
  for(i in 1:vmaxrows){
    dataset$ranking[i]=  mat[i,i]
  

  }

  return(dataset)
}
```
Funcion para listar el ranking de las artistas 
```{r}
mostrar_artistas_ranking <- function(textsearch,dataset){
  
  filteredtable<-dataset %>% 
    filter(str_detect(links, regex(textsearch, ignore_case = T)))
  
  filteredtable<-filteredtable[order(-filteredtable$ranking),c(1,2)]
    

  
  
  return(filteredtable)
}
```
Test de funcion para obtener el data frame de urls
```{r}
#lectura del root
test_links<-dataframlinks("https://en.wikipedia.org/wiki/List_of_American_film_actresses")
glimpse( test_links)
#lectura del root
```  









Proyecto:
paso 1. leer el root del directorio de actresses
```{r}
Listof_links<-dataframlinks("https://en.wikipedia.org/wiki/List_of_American_film_actresses")

glimpse( Listof_links)
```
paso 2. Contruir la lista de objetos con su respectivo URK para cada una de las actrices
```{r}
prapared<- Listof_links%>%mutate(ranking=0, index= 1, processed=FALSE,url=paste("https://en.wikipedia.org",Listof_links$links, sep =  ""  )  )

```
paso 3. Contruir el arreglo de referencias de cada una de las actrices 
si el bucle da error de comunicacion reintentar nuevamente desde el for hasta completar la lista
Nota: el campo prapared$processed se volvera verdadero una vez el URL request se haya realizado
```{r}
veclist=list()
maxrows=nrow(prapared)
#maxrows=15
for(i in 1:maxrows) {
  # i-th element of `u1` squared into `i`-th position of `usq`
  prapared[i,'index']=i
  if(!prapared$processed[i] ){
    
    print(paste(i,"/",nrow(prapared))) 
    lstlinks<-dataframlinks(prapared$url[i])
    vecref=list("idx"= i,"link"= prapared$links[i],"content"=lstlinks)
    prapared[i,'processed']=TRUE
    print(vecref)
    veclist[[i]] <- vecref
    
    print(paste("...",veclist[[i]]$link))
  }
}

prapared
```
paso 4. Se procede a contruir la matriz de markov
  paso 4.1. se crea la matriz de relaciones
  paso 4.2. se construye la matriz de markov con el la inclusion de saltos por cluster 
  paso 4.2 se procesa en paralelo la matriz de markov

```{r}
mat<-c()
mat<-buildmatrix(veclist,maxrows)
markov<-buildmarkovmatrix(mat,maxrows)

(nc <- detectCores())
cl <- makeCluster(rep("localhost", nc))

matpown=matprod.par(cl,markov,markov)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
stopCluster(cl)
```

Matriz de relaciones
```{r}
glimpse(mat )
```
Matriz de markov
```{r}
glimpse(markov )
```

Matriz con potencia a n=12
```{r}
glimpse(matpown )
```

Asignacion de los score basados en el producto de matrices
scoredlist<-assignScore(matpown,prapared,maxrows)
```{r}
scoredlist<-assignScore(matpown,prapared,maxrows)
scoredlist
```
Mostrar el ranking de las artistas basados en texto

1. jen

respuesta<-mostrar_artistas_ranking("jen",scoredlist)
```{r}
respuesta<-mostrar_artistas_ranking("jen",scoredlist)
respuesta
```

2. boy
respuesta<-mostrar_artistas_ranking("boy",scoredlist)
```{r}
respuesta<-mostrar_artistas_ranking("boy",scoredlist)
respuesta
```

2. Bell
respuesta<-mostrar_artistas_ranking("Bell",scoredlist)
```{r}
respuesta<-mostrar_artistas_ranking("Bell",scoredlist)
respuesta
```