#Ranking usando Markov
library(rvest)
library(tidyverse)
library(stringr)
library(parallel)
Función para hacer el scan de wikipedia
dataframlinks <- function(url){
print(url)
read_html(url) %>%
html_nodes("a") %>%
html_attr('href') %>%
data_frame() %>%
rename(links='.') %>%
filter(str_detect(links,"/wiki/")) %>%
filter(!str_detect(links,"#")) %>%
filter(!str_detect(links,"image")) %>%
filter(!str_detect(tolower(links),"file"))%>%
filter(!str_detect(links,"https:")) %>%
filter(!str_detect(links,"//")) %>%
filter(!str_detect(links,":"))%>% return()
}
Función para contruir la matriz de relaciones
buildmatrix <- function(vlist, vmaxrows){
mat<-matrix(0, nrow = maxrows,ncol = maxrows)
for(i in 1:vmaxrows){
textid=vlist[[i]]$link
for(j in 1:vmaxrows){
mat[i,j]=0
content=vlist[[j]]$content
total=nrow(content%>%filter(str_detect(links,textid)))
if(total>0 && i!=j){
mat[i,j]=1
}
}
print(paste("i:",i,'/',vmaxrows,Sys.time()))
}
return(mat)
}
Función para contruir la matriz base de markov Esta matriz contiene el artefacto para conectar closters
buildmarkovmatrix <- function(mat, vmaxrows){
m_scluster=matrix(data = rep(.2, vmaxrows*vmaxrows), nrow = vmaxrows, ncol = vmaxrows)
matoper=mat*.85+m_scluster*.15
for(i in 1:vmaxrows) {
# i-th element of `u1` squared into `i`-th position of `usq`
matoper[i,] <- matoper[i,] / sum(matoper[i,])
print(c(matoper[i,],i,sum(matoper[i,])))
}
return(matoper)
}
Funcion de multiplicacion de matrices en paralelo
matprod.par <- function(cl, A, B){
if (ncol(A) != nrow(B)) stop("Matrices do not conforme")
idx <- splitIndices(nrow(A), length(cl))
Alist <- lapply(idx, function(ii) A[ii,,drop=FALSE])
## ans <- clusterApply(cl, Alist, function(aa, B) aa %*% B, B)
## Same as above, but faster:
ans <- clusterApply(cl, Alist, get("%*%"), B)
do.call(rbind, ans)
}
Función de multiplicacion de matrices en paralelo
matprod.par <- function(cl, A, B){
if (ncol(A) != nrow(B)) stop("Matrices do not conforme")
idx <- splitIndices(nrow(A), length(cl))
Alist <- lapply(idx, function(ii) A[ii,,drop=FALSE])
## ans <- clusterApply(cl, Alist, function(aa, B) aa %*% B, B)
## Same as above, but faster:
ans <- clusterApply(cl, Alist, get("%*%"), B)
do.call(rbind, ans)
}
Función Para asignar el Ranking
assignScore <- function(mat,dataset ,vmaxrows){
for(i in 1:vmaxrows){
dataset$ranking[i]= mat[i,i]
}
return(dataset)
}
Funcion para listar el ranking de las artistas
mostrar_artistas_ranking <- function(textsearch,dataset){
filteredtable<-dataset %>%
filter(str_detect(links, regex(textsearch, ignore_case = T)))
filteredtable<-filteredtable[order(filteredtable$ranking),c(1,2)]
return(filteredtable)
}
Test de funcion para obtener el data frame de urls
glimpse( test_links)
Observations: 1,954
Variables: 1
$ links <chr> "/wiki/List_of_American_television_actresses", "/wiki/Beverly_Aadland", "/wiki/Mariann_Aalda", "/wiki/Caroline_Aaron", "/wiki/Diahnne_...
Proyecto: paso 1. leer el root del directorio de actresses
Listof_links<-dataframlinks("https://en.wikipedia.org/wiki/List_of_American_film_actresses")
glimpse( Listof_links)
paso 2. Contruir la lista de objetos con su respectivo URK para cada una de las actrices
paso 3. Contruir el arreglo de referencias de cada una de las actrices si el bucle da error de comunicacion reintentar nuevamente desde el for hasta completar la lista Nota: el campo prapared$processed se volvera verdadero una vez el URL request se haya realizado
paso 4. Se procede a contruir la matriz de markov paso 4.1. se crea la matriz de relaciones paso 4.2. se construye la matriz de markov con el la inclusion de saltos por cluster paso 4.2 se procesa en paralelo la matriz de markov
mat<-c()
mat<-buildmatrix(veclist,maxrows)
markov<-buildmarkovmatrix(mat,maxrows)
(nc <- detectCores())
cl <- makeCluster(rep("localhost", nc))
matpown=matprod.par(cl,markov,markov)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
stopCluster(cl)
Matriz de relaciones
glimpse(mat , ... = )
num [1:1954, 1:1954] 0 0 0 0 0 0 0 0 0 1 ...
Matriz de markov
glimpse(markov )
num [1:1954, 1:1954] 0.000471 0.00049 0.000497 0.000401 0.000497 ...
Matriz con potencia a n=12
glimpse(matpown )
num [1:1954, 1:1954] 0.00298 0.00298 0.00298 0.00298 0.00298 ...
Asignacion de los score basados en el producto de matrices scoredlist<-assignScore(matpown,prapared,maxrows)
Mostrar el ranking de las artistas basados en texto
- jen
respuesta<-mostrar_artistas_ranking(“jen”,scoredlist)
respuesta<-mostrar_artistas_ranking("jen",scoredlist)
respuesta
- boy respuesta<-mostrar_artistas_ranking(“boy”,scoredlist)
respuesta<-mostrar_artistas_ranking("boy",scoredlist)
respuesta
- Bell respuesta<-mostrar_artistas_ranking(“Bell”,scoredlist)
respuesta<-mostrar_artistas_ranking("Bell",scoredlist)
respuesta
---
title: "Ranking haciendo uso de Cadenas de markov proyecto estadistica 2, Byron Hernandez"
output: html_notebook
---
#Ranking usando Markov


```{r}
library(rvest)
library(tidyverse)
library(stringr)
library(parallel)

```

Función para hacer el scan de wikipedia
```{r}
dataframlinks <- function(url){
  print(url) 
    read_html(url) %>% 
    html_nodes("a") %>% 
    html_attr('href') %>% 
    data_frame() %>%
    rename(links='.') %>% 
    filter(str_detect(links,"/wiki/")) %>%
    filter(!str_detect(links,"#")) %>%
    filter(!str_detect(links,"image")) %>% 
    filter(!str_detect(tolower(links),"file"))%>%
    filter(!str_detect(links,"https:")) %>% 
    filter(!str_detect(links,"//")) %>% 
    filter(!str_detect(links,":"))%>% return()
  
  
   
}
```
Función para contruir la matriz de relaciones 
```{r}
buildmatrix <- function(vlist, vmaxrows){
  mat<-matrix(0, nrow = maxrows,ncol = maxrows)
  
  for(i in 1:vmaxrows){
    textid=vlist[[i]]$link
    
    for(j in 1:vmaxrows){
      
      mat[i,j]=0
      content=vlist[[j]]$content
      total=nrow(content%>%filter(str_detect(links,textid)))
      if(total>0 && i!=j){
        mat[i,j]=1 

      }
    }
    print(paste("i:",i,'/',vmaxrows,Sys.time()))


    
    
  }  
  

  return(mat)
}
```
Función para contruir la matriz base de markov
Esta matriz contiene el artefacto para conectar closters
```{r}
buildmarkovmatrix <- function(mat, vmaxrows){

  
  m_scluster=matrix(data = rep(.2, vmaxrows*vmaxrows), nrow = vmaxrows, ncol = vmaxrows)
  matoper=mat*.85+m_scluster*.15
  for(i in 1:vmaxrows) {
    # i-th element of `u1` squared into `i`-th position of `usq`
    matoper[i,] <- matoper[i,] / sum(matoper[i,])
    print(c(matoper[i,],i,sum(matoper[i,])))
  }
  
  
  return(matoper)
}
```
Funcion de multiplicacion de matrices en paralelo
```{r}
matprod.par <- function(cl, A, B){
  if (ncol(A) != nrow(B)) stop("Matrices do not conforme")
  idx <- splitIndices(nrow(A), length(cl))
  Alist <- lapply(idx, function(ii) A[ii,,drop=FALSE])
  ## ans <- clusterApply(cl, Alist, function(aa, B) aa %*% B, B)
  ## Same as above, but faster:
  ans <- clusterApply(cl, Alist, get("%*%"), B)
  do.call(rbind, ans)
}
```

Función de multiplicacion de matrices en paralelo
```{r}
matprod.par <- function(cl, A, B){
  if (ncol(A) != nrow(B)) stop("Matrices do not conforme")
  idx <- splitIndices(nrow(A), length(cl))
  Alist <- lapply(idx, function(ii) A[ii,,drop=FALSE])
  ## ans <- clusterApply(cl, Alist, function(aa, B) aa %*% B, B)
  ## Same as above, but faster:
  ans <- clusterApply(cl, Alist, get("%*%"), B)
  do.call(rbind, ans)
}
```
Función Para asignar el Ranking
```{r}
assignScore <- function(mat,dataset ,vmaxrows){
  
  
  for(i in 1:vmaxrows){
    dataset$ranking[i]=  mat[i,i]
  

  }

  return(dataset)
}
```
Funcion para listar el ranking de las artistas 
```{r}
mostrar_artistas_ranking <- function(textsearch,dataset){
  
  filteredtable<-dataset %>% 
    filter(str_detect(links, regex(textsearch, ignore_case = T)))
  
  filteredtable<-filteredtable[order(-filteredtable$ranking),c(1,2)]
    

  
  
  return(filteredtable)
}
```
Test de funcion para obtener el data frame de urls
```{r}
#lectura del root
test_links<-dataframlinks("https://en.wikipedia.org/wiki/List_of_American_film_actresses")
glimpse( test_links)
#lectura del root
```  









Proyecto:
paso 1. leer el root del directorio de actresses
```{r}
Listof_links<-dataframlinks("https://en.wikipedia.org/wiki/List_of_American_film_actresses")

glimpse( Listof_links)
```
paso 2. Contruir la lista de objetos con su respectivo URK para cada una de las actrices
```{r}
prapared<- Listof_links%>%mutate(ranking=0, index= 1, processed=FALSE,url=paste("https://en.wikipedia.org",Listof_links$links, sep =  ""  )  )

```
paso 3. Contruir el arreglo de referencias de cada una de las actrices 
si el bucle da error de comunicacion reintentar nuevamente desde el for hasta completar la lista
Nota: el campo prapared$processed se volvera verdadero una vez el URL request se haya realizado
```{r}
veclist=list()
maxrows=nrow(prapared)
#maxrows=15
for(i in 1:maxrows) {
  # i-th element of `u1` squared into `i`-th position of `usq`
  prapared[i,'index']=i
  if(!prapared$processed[i] ){
    
    print(paste(i,"/",nrow(prapared))) 
    lstlinks<-dataframlinks(prapared$url[i])
    vecref=list("idx"= i,"link"= prapared$links[i],"content"=lstlinks)
    prapared[i,'processed']=TRUE
    print(vecref)
    veclist[[i]] <- vecref
    
    print(paste("...",veclist[[i]]$link))
  }
}

prapared
```
paso 4. Se procede a contruir la matriz de markov
  paso 4.1. se crea la matriz de relaciones
  paso 4.2. se construye la matriz de markov con el la inclusion de saltos por cluster 
  paso 4.2 se procesa en paralelo la matriz de markov

```{r}
mat<-c()
mat<-buildmatrix(veclist,maxrows)
markov<-buildmarkovmatrix(mat,maxrows)

(nc <- detectCores())
cl <- makeCluster(rep("localhost", nc))

matpown=matprod.par(cl,markov,markov)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
matpown=matprod.par(cl,matpown,matpown)
stopCluster(cl)
```

Matriz de relaciones
```{r}
glimpse(mat )
```
Matriz de markov
```{r}
glimpse(markov )
```

Matriz con potencia a n=12
```{r}
glimpse(matpown )
```

Asignacion de los score basados en el producto de matrices
scoredlist<-assignScore(matpown,prapared,maxrows)
```{r}
scoredlist<-assignScore(matpown,prapared,maxrows)
scoredlist
```
Mostrar el ranking de las artistas basados en texto

1. jen

respuesta<-mostrar_artistas_ranking("jen",scoredlist)
```{r}
respuesta<-mostrar_artistas_ranking("jen",scoredlist)
respuesta
```

2. boy
respuesta<-mostrar_artistas_ranking("boy",scoredlist)
```{r}
respuesta<-mostrar_artistas_ranking("boy",scoredlist)
respuesta
```

2. Bell
respuesta<-mostrar_artistas_ranking("Bell",scoredlist)
```{r}
respuesta<-mostrar_artistas_ranking("Bell",scoredlist)
respuesta
```