library(htmltab)
linkpage='https://en.wikipedia.org/wiki/List_of_Wimbledon_gentlemen%27s_singles_champions'
linktabla='//*[@id="mw-content-text"]/div/table[4]'
country=htmltab(doc = linkpage,which = linktabla)
names(country)
## [1] "Year" "Country" "Champion"
## [4] "Country" "Runner-up" "Score in the final"
country=country[,c(1,2,3)]
names(country)
## [1] "Year" "Country" "Champion"
str(country)
## 'data.frame': 52 obs. of 3 variables:
## $ Year : chr "1968" "1969" "1970" "1971" ...
## $ Country : chr " AUS" " AUS" " AUS" " AUS" ...
## $ Champion: chr "Rod Laver" "Rod Laver" "John Newcombe" "John Newcombe" ...
table(country$Country)
##
## SUI AUS CRO ESP FRG GBR GER NED SRB SWE TCH USA
## 8 6 1 2 3 2 1 1 5 7 1 15
Tabla de frecuencias
library(questionr)
library(magrittr)
NomTTF=freq(country$Country,total=F,sort = 'dec',exclude = c(NA))%>%data.frame()
NomTTF=data.frame(variable=row.names(NomTTF),NomTTF,row.names = NULL)
NomTTF
## variable n X.
## 1 USA 15 28.8
## 2 SUI 8 15.4
## 3 SWE 7 13.5
## 4 AUS 6 11.5
## 5 SRB 5 9.6
## 6 FRG 3 5.8
## 7 ESP 2 3.8
## 8 GBR 2 3.8
## 9 CRO 1 1.9
## 10 GER 1 1.9
## 11 NED 1 1.9
## 12 TCH 1 1.9
En esta tabla de frecuencia USA lidera con 15 los torneos de varones, en segundo lugar con 8 torneos ganados le sigue SUI.
GRAFICO DE BARRAS
library(ggplot2)
base=ggplot(data =NomTTF ,aes(x=variable,y=n))
bar1=base+geom_bar(stat = 'identity')
text1="¿Que pais tiene mas torneos ganados por varones?"
text2="Pais"
text3="Cantidad"
text4="Fuente:Wikipedia"
bar2=bar1+labs(title = text1,x=text2,y=text3,caption = text4)
bar2
USA es el pais con mas ganadores varones con 15 torneos.
GRAFICO PARETO
library(qcc)
## Package 'qcc' version 2.7
## Type 'citation("qcc")' for citing this R package in publications.
pareto.chart(table(country$Country),cumperc=c(0,50,80,100))
##
## Pareto chart analysis for table(country$Country)
## Frequency Cum.Freq. Percentage Cum.Percent.
## USA 15.000000 15.000000 28.846154 28.846154
## SUI 8.000000 23.000000 15.384615 44.230769
## SWE 7.000000 30.000000 13.461538 57.692308
## AUS 6.000000 36.000000 11.538462 69.230769
## SRB 5.000000 41.000000 9.615385 78.846154
## FRG 3.000000 44.000000 5.769231 84.615385
## ESP 2.000000 46.000000 3.846154 88.461538
## GBR 2.000000 48.000000 3.846154 92.307692
## CRO 1.000000 49.000000 1.923077 94.230769
## GER 1.000000 50.000000 1.923077 96.153846
## NED 1.000000 51.000000 1.923077 98.076923
## TCH 1.000000 52.000000 1.923077 100.000000
Si tomanos a USA y SUI pueden llegar a alcanzar el 50% como los paises que lideran los torneos ganados por varones.
Centrales
la Moda
library(DescTools)
Mode(country$Country)
## [1] " USA"
Ese datos ya se sabia con la tabla de frecuencia
Concentracion
Herfindahl - Hirschman
dataTable=table(country$Country)
Herfindahl(dataTable)
## [1] 0.1553254
Recordar que: entre 0.15 - 0.3: quiere decir que hay moda
Si redondeamos tenemos como resultado 0.16, entonces se dice que hay moda.
Representatividad Efectiva: Laakso - Taagepera
1/sum(prop.table(dataTable)**2)
## [1] 6.438095
tenemos 6 grupos representativos
library(htmltab)
linkPage='https://en.wikipedia.org/wiki/List_of_Wimbledon_ladies%27_singles_champions'
linkTabla='//*[@id="mw-content-text"]/div/table[4]'
country_2=htmltab(doc = linkPage,which = linkTabla)
names(country_2)
## [1] "Year" "Country" "Champion"
## [4] "Country" "Runner-up" "Score in the final"
country_2=country_2[,c(1,2,3)]
names(country_2)
## [1] "Year" "Country" "Champion"
str(country_2)
## 'data.frame': 52 obs. of 3 variables:
## $ Year : chr "1968" "1969" "1970" "1971" ...
## $ Country : chr " USA" " GBR" " AUS" " AUS" ...
## $ Champion: chr "Billie Jean King" "Ann Jones" "Margaret Court" "Evonne Goolagong" ...
table(country_2$Country)
##
## SUI AUS CZE ESP FRA FRG GBR GER ROU RUS USA
## 1 3 3 2 2 2 2 6 1 1 29
Tabla de frecuencias
library(questionr)
library(magrittr)
NomTF=freq(country_2$Country,total=F,sort = 'dec',exclude = c(NA))%>%data.frame()
NomTF=data.frame(variable=row.names(NomTF),NomTF,row.names = NULL)
NomTF
## variable n X.
## 1 USA 29 55.8
## 2 GER 6 11.5
## 3 AUS 3 5.8
## 4 CZE 3 5.8
## 5 ESP 2 3.8
## 6 FRA 2 3.8
## 7 FRG 2 3.8
## 8 GBR 2 3.8
## 9 SUI 1 1.9
## 10 ROU 1 1.9
## 11 RUS 1 1.9
En esta tabla de frecuencia notamos que USA lidera la cantidad de torneos ganados por mujeres. Con una notable diferencia le sigue el pais de GER
GRAFICO DE BARRAS
library(ggplot2)
base=ggplot(data =NomTF ,aes(x=variable,y=n))
bar3=base+geom_bar(stat = 'identity')
text11="¿Que pais tiene mas torneos ganados por mujeres?"
text22="Pais"
text33="Cantidad"
text44="Fuente:Wikipedia"
bar4=bar3+labs(title = text11,x=text22,y=text33,caption = text44)
bar4
USA es el pais que lidera con mas torneos ganados por mujeres, pues llega a casi una cantidad de 30 torneos.
GRAFICO PARETO
library(qcc)
pareto.chart(table(country_2$Country),cumperc=c(0,50,80,100))
##
## Pareto chart analysis for table(country_2$Country)
## Frequency Cum.Freq. Percentage Cum.Percent.
## USA 29.000000 29.000000 55.769231 55.769231
## GER 6.000000 35.000000 11.538462 67.307692
## AUS 3.000000 38.000000 5.769231 73.076923
## CZE 3.000000 41.000000 5.769231 78.846154
## ESP 2.000000 43.000000 3.846154 82.692308
## FRA 2.000000 45.000000 3.846154 86.538462
## FRG 2.000000 47.000000 3.846154 90.384615
## GBR 2.000000 49.000000 3.846154 94.230769
## SUI 1.000000 50.000000 1.923077 96.153846
## ROU 1.000000 51.000000 1.923077 98.076923
## RUS 1.000000 52.000000 1.923077 100.000000
USA y GER son casi el 80% de los torneos ganados por féminas.
Centrales
la Moda
library(DescTools)
Mode(country_2$Country)
## [1] " USA"
Eso ya lo sabiamos con el grafico de barras
Conccentracion
Herfindahl - <hirschman
dataTTable=table(country_2$Country)
Herfindahl(dataTTable)
## [1] 0.3380178
Recordar que: > 0.3: la moda se diferencia de los demas
Como tenemos un resultado que se puede redondear a 0.34, se dice que la moda si se diferencia de los demas datos, eso ya se sabia notablemente desde el grafico de barras.
Representatividad Efectiva:
Laakso - Taagepera
1/sum(prop.table(dataTTable)**2)
## [1] 2.958425
tenemos 3 grupos representativos (redondeando claro esta)
USA lidera ambas categorias (Varones y Mujeres), no obstante de acuerdo a la cantidadd de torneos ganados, las mujeres ganan casi el doble de los torneos ganados por los varones siendo, 29 y 15 respectivamente.
Lo que varia respecto al grafico de barras es el segundo pais con mayores torneos ganados tanto en varones como en mujeres.
En varones, el pais que le sigue a USA, es SUIZA con unos 8 torneos ganados.
En mujeres, el pais segundo a USA, es Alemania (Germany)con 6 torneos ganados.
La diferencia entre los segundos paises con mas torneos ganados, es de 2.
Respecto al comportamiento de las barras, en el grafico de mujeres, la mayoria de paises tiene el mismo numero de torneos ganados; en cambio en el grafico de varones, la diferencia entre paises es mas variado (y notable a simple vista)
Respecto a este grafico, son las mujeres quienes logran alcanzar casi el 80% de los torneos ganados (claro esta, si juntamos los porcentajes de los dos primeros paises).
En cambio, en el grafico de los varones apenas con los dos primeros paises con más torneos ganados alcanzan casi un 50%, es decir, para lograr alcanzar al porcentaje de las mujeres, necesitarian de almenos ser 6 paises juntos para alcanzar un 80%
Esto nos quiere decir que las mujeres con el pais de USA tienen muchas mas victorias que los hombres, son mas eficientes deportivamente y engloban las listas de los torneos ganados. En cambio, los varones no llegan a resaltar con un porcentaje significativo algun pais, a pesar de que USA tambien lidera esa categoria.
Se mantiene el hecho que la moda se nota de manera muy sencilla, la diferencia esta en que en las mujeres es mas siginificativa o se diferencia de las otras con notoriedad mientras que en los hombres no, solo nos dice que hay una moda pero no llega a ser tan representativa como en las mujeres.
Respecto a los grupos representativos, en los hombres hacen un grupo de 6 mientras que en las mujeres es la mitad (3); esto quiere decir que las mujeres con menos grupos ya muestran un representacion de su categoria, mientras que en los hombres se necesitan de mas grupos para alcanzar esa representacion.
Se reitera que la diferencia entre los deportista varones y mujeres (a pesar de ser del mismo pais y en este caso ser de USA), su cantidad de torneos ganados tiene una diferencia significativa, liderando el rendimiento deportivo de las féminas con 29 mientras que los varones llegan a obtener 15.