spoiler_data=read_csv(file="~/Dropbox/metricas.csv")
spoiler_data
spoiler_data %>% group_by(nu,gamma) %>% summarise(avg=mean(specificity),sd=sd(specificity))

Distribucion del recall usando boxplot

El grafico se conoce como boxplot. Lo que hace el boxplot es mostrar los valores de los cuatro cuartiles. Los cuartiles son valores que dividen una muestra de datos en cuatro partes iguales. La linea horizontal dentro de la caja representa la mediana, es decir es el el valor que divide la muestra en 2 partes iguales. La linea base inferior de la caja presenta el primer cuartil, y la base superior de la caja representa el tercer cuartil. Los tamaños de las cajas nos diran entre que valores se encuentran los datos para un cuartil dado.

Si miramos el grafico para recall podemos decir que los valores de recall van desde un valor cercano a cero hasta 0.9. Pero mas de la mitad de los valores estan en un valor superior a 0.45. Un 25% esta entre 0.68 y 0.9.

Los boxplot ademas nos ofrecen la posibilidad de ver outliers. Los outliers son aquellos valores que estan fuera de los cuartiles. Estos se muestran como un punto fuera de la caja. AL excluir estos outliers, los boxplot nos dan una idea mas adecuada de como es la distribucion de los datos. Cosa que con el promedio no se obtiene.

Distribucion del Recall y la specificity a lo largo de los diferentes clusters

Distribucion del Recall en funcion de nu para cada cluster

Distribucion de la specificity y el recall en funcion de nu para cada cluster

ggplot(spoiler_data)+
  geom_boxplot(aes(x=as.factor(nu),y=recall),color='skyblue')+
  geom_boxplot(aes(x=as.factor(nu),y=specificity),color='orange')+
  ylab("recall+specificity")+
  theme_bw()+
  
  facet_wrap(~clusters)

NA

que podemos observar el grafico?

La specificity esta mas concentrada y en general siempre cerca de 1.0 salvo para que caso de nu=0.4 donde disminuye. El recall si tiene mas variacion a lo largo de nu. A mayor de nu(i.e. un marge mas restrictivo) se observa una tendencia decreciente en el recall para todos los clusters.

En el cluster 25 se observan varios outliers que tienen muy buena performance. Lo que indica que un valor de gamma que parece ser muy bueno y que lo separa del resto de los valores de gamma.

Distribucion de la specificity y el recall en funcion de gamma para cada cluster

ggplot(spoiler_data)+
  geom_boxplot(aes(x=as.factor(gamma),y=recall),color='skyblue')+
  geom_boxplot(aes(x=as.factor(gamma),y=specificity),color='orange')+
  ylab("recall+specificity")+
  theme_bw()+
  
  facet_wrap(~clusters)

NA

Si analizamos la distribucion de nu respecto a gamma para el cluster 25 vemos que el valor de gamma=0.1 es el que mejores resultados ofrece. Se observa que pare ese valor de gamma los valores de nu estan mucho mas concentrados, lo que indicaria que nu no influye demasiado para este caso.

Por lo que quizas seria conveniente explorar valores de gammas en ese rango. quizas 0.05, 0.11, 0.15 0.2

LS0tCnRpdGxlOiAiU3BvbGllciBkYXRhIGFuYWx5c2lzIgpvdXRwdXQ6IAogIGh0bWxfbm90ZWJvb2s6IAogICAgY29kZV9mb2xkaW5nOiBoaWRlCi0tLQoKYGBge3J9CnNwb2lsZXJfZGF0YT1yZWFkX2NzdihmaWxlPSJ+L0Ryb3Bib3gvbWV0cmljYXMuY3N2IikKc3BvaWxlcl9kYXRhCmBgYApgYGB7cn0Kc3BvaWxlcl9kYXRhICU+JSBncm91cF9ieShudSxnYW1tYSkgJT4lIHN1bW1hcmlzZShhdmc9bWVhbihzcGVjaWZpY2l0eSksc2Q9c2Qoc3BlY2lmaWNpdHkpKQpgYGAKCiMjIERpc3RyaWJ1Y2lvbiBkZWwgcmVjYWxsIHVzYW5kbyBib3hwbG90CmBgYHtyfQoKZ2dwbG90KHNwb2lsZXJfZGF0YSkrCiAgZ2VvbV9ib3hwbG90KGFlcyh4PTEseT1yZWNhbGwpLGNvbG9yPSdvcmFuZ2UnKSsKICB0aGVtZV9idygpCgoKYGBgCgoKRWwgZ3JhZmljbyBzZSBjb25vY2UgY29tbyAqYm94cGxvdCouIExvIHF1ZSBoYWNlIGVsIGJveHBsb3QgZXMgbW9zdHJhciBsb3MgdmFsb3JlcyBkZSBsb3MgY3VhdHJvIGN1YXJ0aWxlcy4gTG9zIGN1YXJ0aWxlcyBzb24gdmFsb3JlcyBxdWUgZGl2aWRlbiB1bmEgbXVlc3RyYSBkZSBkYXRvcyBlbiBjdWF0cm8gcGFydGVzIGlndWFsZXMuIExhIGxpbmVhIGhvcml6b250YWwgZGVudHJvIGRlIGxhIGNhamEgcmVwcmVzZW50YSBsYSBtZWRpYW5hLCBlcyBkZWNpciBlcyBlbCBlbCB2YWxvciBxdWUgZGl2aWRlIGxhIG11ZXN0cmEgZW4gMiBwYXJ0ZXMgaWd1YWxlcy4gTGEgbGluZWEgYmFzZSBpbmZlcmlvciBkZSBsYSBjYWphIHByZXNlbnRhIGVsIHByaW1lciBjdWFydGlsLCB5IGxhIGJhc2Ugc3VwZXJpb3IgZGUgbGEgY2FqYSByZXByZXNlbnRhIGVsIHRlcmNlciBjdWFydGlsLiBMb3MgdGFtYcOxb3MgZGUgbGFzIGNhamFzIG5vcyBkaXJhbiBlbnRyZSBxdWUgdmFsb3JlcyBzZSBlbmN1ZW50cmFuIGxvcyBkYXRvcyBwYXJhIHVuIGN1YXJ0aWwgZGFkby4KClNpIG1pcmFtb3MgZWwgZ3JhZmljbyBwYXJhIHJlY2FsbCBwb2RlbW9zIGRlY2lyIHF1ZSBsb3MgdmFsb3JlcyBkZSByZWNhbGwgdmFuIGRlc2RlIHVuIHZhbG9yIGNlcmNhbm8gYSBjZXJvICBoYXN0YSAwLjkuIFBlcm8gbWFzIGRlIGxhIG1pdGFkIGRlIGxvcyB2YWxvcmVzIGVzdGFuIGVuIHVuIHZhbG9yIHN1cGVyaW9yIGEgMC40NS4gVW4gMjUlIGVzdGEgZW50cmUgMC42OCB5IDAuOS4KCkxvcyBib3hwbG90IGFkZW1hcyAgIG5vcyBvZnJlY2VuIGxhIHBvc2liaWxpZGFkIGRlIHZlciAqKm91dGxpZXJzKiouIExvcyBvdXRsaWVycyBzb24gYXF1ZWxsb3MgdmFsb3JlcyBxdWUgZXN0YW4gIGZ1ZXJhIGRlIGxvcyBjdWFydGlsZXMuIEVzdG9zIHNlIG11ZXN0cmFuIGNvbW8gdW4gcHVudG8gZnVlcmEgZGUgbGEgY2FqYS4gQUwgZXhjbHVpciBlc3RvcyBvdXRsaWVycywgIGxvcyBib3hwbG90IG5vcyBkYW4gdW5hIGlkZWEgbWFzIGFkZWN1YWRhIGRlIGNvbW8gZXMgbGEgZGlzdHJpYnVjaW9uIGRlIGxvcyBkYXRvcy4gQ29zYSBxdWUgY29uIGVsIHByb21lZGlvIG5vIHNlIG9idGllbmUuCgoKIyMgRGlzdHJpYnVjaW9uIGRlbCBSZWNhbGwgeSBsYSBzcGVjaWZpY2l0eSAgYSBsbyBsYXJnbyBkZSBsb3MgZGlmZXJlbnRlcyBjbHVzdGVycwoKYGBge3J9CmdncGxvdChzcG9pbGVyX2RhdGEpKwogIyBnZW9tX2JveHBsb3QoYWVzKHg9YXMuZmFjdG9yKGNsdXN0ZXJzKSx5PXNwZWNpZmljaXR5KSkrCiAgZ2VvbV9ib3hwbG90KGFlcyh4PWFzLmZhY3RvcihjbHVzdGVycykseT1yZWNhbGwpLGNvbG9yPSdvcmFuZ2UnKSsKICBnZW9tX2JveHBsb3QoYWVzKHg9YXMuZmFjdG9yKGNsdXN0ZXJzKSx5PXNwZWNpZmljaXR5KSxjb2xvcj0nc2t5Ymx1ZScpKwogIHlsYWIoInJlY2FsbCtzcGVjaWZpY2l0eSIpKwogIHRoZW1lX2J3KCkKCgoKYGBgCgojIERpc3RyaWJ1Y2lvbiBkZWwgUmVjYWxsIGVuIGZ1bmNpb24gZGUgKm51KiBwYXJhIGNhZGEgY2x1c3RlcgoKIyMjIERpc3RyaWJ1Y2lvbiBkZSBsYSBzcGVjaWZpY2l0eSB5IGVsIHJlY2FsbCBlbiBmdW5jaW9uIGRlICpudSogcGFyYSBjYWRhICpjbHVzdGVyKgoKYGBge3IsIGZpZy5oZWlnaHQ9OH0KZ2dwbG90KHNwb2lsZXJfZGF0YSkrCiAgZ2VvbV9ib3hwbG90KGFlcyh4PWFzLmZhY3RvcihudSkseT1yZWNhbGwpLGNvbG9yPSdza3libHVlJykrCiAgZ2VvbV9ib3hwbG90KGFlcyh4PWFzLmZhY3RvcihudSkseT1zcGVjaWZpY2l0eSksY29sb3I9J29yYW5nZScpKwogIHlsYWIoInJlY2FsbCtzcGVjaWZpY2l0eSIpKwogIHRoZW1lX2J3KCkrCiAgCiAgZmFjZXRfd3JhcCh+Y2x1c3RlcnMpCiAgICAgICAgIApgYGAKCiMjIyBxdWUgcG9kZW1vcyBvYnNlcnZhciBlbCBncmFmaWNvPwoKCgpMYSBzcGVjaWZpY2l0eSBlc3RhIG1hcyBjb25jZW50cmFkYSB5IGVuIGdlbmVyYWwgc2llbXByZSBjZXJjYSBkZSAxLjAgc2Fsdm8gcGFyYSBxdWUgY2FzbyBkZSAqbnU9MC40KiBkb25kZSBkaXNtaW51eWUuIEVsICpyZWNhbGwqIHNpIHRpZW5lIG1hcyB2YXJpYWNpb24gYSBsbyBsYXJnbyBkZSAqbnUqLiBBIG1heW9yIGRlICpudSooaS5lLiB1biBtYXJnZSBtYXMgcmVzdHJpY3Rpdm8pIHNlIG9ic2VydmEgdW5hIHRlbmRlbmNpYSBkZWNyZWNpZW50ZSBlbiBlbCAqKnJlY2FsbCoqIHBhcmEgdG9kb3MgbG9zIGNsdXN0ZXJzLgoKRW4gZWwgY2x1c3RlciAyNSBzZSBvYnNlcnZhbiB2YXJpb3Mgb3V0bGllcnMgcXVlIHRpZW5lbiBtdXkgYnVlbmEgcGVyZm9ybWFuY2UuIExvIHF1ZSBpbmRpY2EgcXVlICB1biB2YWxvciBkZSAqZ2FtbWEqIHF1ZSBwYXJlY2Ugc2VyIG11eSBidWVubyB5IHF1ZSBsbyBzZXBhcmEgZGVsIHJlc3RvIGRlIGxvcyB2YWxvcmVzIGRlIGdhbW1hLgoKCiMjIyBEaXN0cmlidWNpb24gZGUgbGEgc3BlY2lmaWNpdHkgeSBlbCByZWNhbGwgZW4gZnVuY2lvbiBkZSAqZ2FtbWEqIHBhcmEgY2FkYSAqY2x1c3RlcioKCmBgYHtyLCBmaWcuaGVpZ2h0PTh9CmdncGxvdChzcG9pbGVyX2RhdGEpKwogIGdlb21fYm94cGxvdChhZXMoeD1hcy5mYWN0b3IoZ2FtbWEpLHk9cmVjYWxsKSxjb2xvcj0nc2t5Ymx1ZScpKwogIGdlb21fYm94cGxvdChhZXMoeD1hcy5mYWN0b3IoZ2FtbWEpLHk9c3BlY2lmaWNpdHkpLGNvbG9yPSdvcmFuZ2UnKSsKICB5bGFiKCJyZWNhbGwrc3BlY2lmaWNpdHkiKSsKICB0aGVtZV9idygpKwogIAogIGZhY2V0X3dyYXAofmNsdXN0ZXJzKQogICAgICAgICAKYGBgCgpTaSBhbmFsaXphbW9zIGxhIGRpc3RyaWJ1Y2lvbiBkZSAqbnUqIHJlc3BlY3RvIGEgKmdhbW1hKiBwYXJhIGVsIGNsdXN0ZXIgMjUgdmVtb3MgcXVlIGVsIHZhbG9yIGRlICpnYW1tYT0wLjEqIGVzIGVsIHF1ZSBtZWpvcmVzIHJlc3VsdGFkb3Mgb2ZyZWNlLiBTZSBvYnNlcnZhIHF1ZSBwYXJlIGVzZSB2YWxvciBkZSAqZ2FtbWEqIGxvcyB2YWxvcmVzIGRlICpudSogZXN0YW4gbXVjaG8gbWFzIGNvbmNlbnRyYWRvcywgbG8gcXVlIGluZGljYXJpYSBxdWUgKm51KiBubyBpbmZsdXllIGRlbWFzaWFkbyBwYXJhIGVzdGUgY2Fzby4KCioqUG9yIGxvIHF1ZSBxdWl6YXMgc2VyaWEgY29udmVuaWVudGUgZXhwbG9yYXIgdmFsb3JlcyBkZSBnYW1tYXMgZW4gZXNlIHJhbmdvLiBxdWl6YXMgMC4wNSwgMC4xMSwgMC4xNSAwLjIqKgoKYGBge3IsIGV2YWw9RkFMU0UsIGluY2x1ZGU9RkFMU0V9CmdncGxvdChzcG9pbGVyX2RhdGEpKwogIGdlb21fcG9pbnQoYWVzKHg9c3BlY2lmaWNpdHkseT1yZWNhbGwsY29sb3VyPWFzLmZhY3RvcihnYW1tYSksc2hhcGU9YXMuZmFjdG9yKGNsdXN0ZXJzKSkpKwogIHRoZW1lX2J3KCkKYGBgCgo=