Objetivo

Identificar datos de población y muestra.

Descripción

Se cargan datos de un archivo que representa una población de jugadores de fútbol a nivel mundial y se extraen muestras que permiten observar algunos estadísticos. Las variables de interés son nacionalidad, edad, altura y peso.

La población contiene datos de futbolistas registrados en FIFA. Aquí se hace hincapié en que tal vez no sean todos los futbolistas profesionales, es una lista que se encuentra en portales abiertos con archivos descargables, de manera especiíica el archivo original se encuentra en la direción url siguiente: https://www.kaggle.com/stefanoleone992/fifa-20-complete-player-dataset?select=players_20.csv

A partir de la población se construyen varias muestras utilizando la función sample().

Desarrollo

##Cargar librerías library(readr)

#Población

Construir los datos

# Poblacion 
poblacion <- read.csv("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/players_20.csv", encoding = "UTF-8", stringsAsFactors = TRUE)

poblacion <- poblacion[,c('short_name', 'nationality', 'age', 'height_cm', 'weight_kg')]

# Modificar nombres de columnas
colnames(poblacion) <- c('nombre', 'nacion', 'edad', 'estatura', 'peso')

# Primeros 20 registros
head(poblacion)
##              nombre    nacion edad estatura peso
## 1          L. Messi Argentina   32      170   72
## 2 Cristiano Ronaldo  Portugal   34      187   83
## 3         Neymar Jr    Brazil   27      175   68
## 4          J. Oblak  Slovenia   26      188   87
## 5         E. Hazard   Belgium   28      175   74
## 6      K. De Bruyne   Belgium   28      181   70
#Ultimos 20 registros
tail(poblacion)
##             nombre              nacion edad estatura peso
## 18273    P. Martin Republic of Ireland   20      188   84
## 18274   Shao Shuai            China PR   22      186   79
## 18275 Xiao Mingjie            China PR   22      177   66
## 18276    Zhang Wei            China PR   19      186   75
## 18277 Wang Haijian            China PR   18      185   74
## 18278   Pan Ximing            China PR   26      182   78
#Estructura de los datos
str(poblacion)
## 'data.frame':    18278 obs. of  5 variables:
##  $ nombre  : Factor w/ 17354 levels "<U+FFFD>. Blanaru","<U+FFFD>. Fara",..: 9773 3210 12708 7904 4505 8745 11813 16600 9783 11649 ...
##  $ nacion  : Factor w/ 162 levels "Afghanistan",..: 6 122 19 135 13 13 58 109 35 44 ...
##  $ edad    : int  32 34 27 26 28 28 27 27 33 27 ...
##  $ estatura: int  170 187 175 188 175 181 187 193 172 175 ...
##  $ peso    : int  72 83 68 87 74 70 85 92 66 71 ...
#Describir los datos
summary(poblacion)
##           nombre            nacion           edad          estatura    
##  J. Rodríguez:   11   England  : 1667   Min.   :16.00   Min.   :156.0  
##  Paulinho    :    9   Germany  : 1216   1st Qu.:22.00   1st Qu.:177.0  
##  J. García   :    8   Spain    : 1035   Median :25.00   Median :181.0  
##  J. Hernández:    7   France   :  984   Mean   :25.28   Mean   :181.4  
##  J. Williams :    7   Argentina:  886   3rd Qu.:29.00   3rd Qu.:186.0  
##  J. Clarke   :    6   Brazil   :  824   Max.   :42.00   Max.   :205.0  
##  (Other)     :18230   (Other)  :11666                                  
##       peso       
##  Min.   : 50.00  
##  1st Qu.: 70.00  
##  Median : 75.00  
##  Mean   : 75.28  
##  3rd Qu.: 80.00  
##  Max.   :110.00  
## 
# Muestra
N <- nrow(poblacion)
N
## [1] 18278
# Muestra1
n <- round(N * 0.10)
n
## [1] 1828
muestra1 <- sample(x = poblacion$edad, size = n, replace = FALSE)

#Descripción de muestra1
##  int [1:1828] 33 30 24 29 23 23 27 23 25 22 ...

summary(muestra1)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    17.0    22.0    25.0    25.2    28.0    42.0
#Media de edad muestra1
media1 <- round(summary(muestra1)[4],2)
media1
## Mean 
## 25.2
#Muestra2
n <- round(N * 0.20)
n
## [1] 3656
muestra2 <- sample(x = poblacion$edad, size = n, replace = FALSE)

#Descripción de muestra2
str(muestra2)
##  int [1:3656] 20 20 29 19 21 28 19 25 24 20 ...
summary(muestra2)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   16.00   22.00   25.00   25.34   29.00   40.00
#Media de edad muestra2
media2 <- round(summary(muestra2)[4],2)
media2
##  Mean 
## 25.34
#Muestra3
n <- round(N * 0.30)
n
## [1] 5483
muestra3 <- sample(x = poblacion$edad, size = n, replace = FALSE)

#Descripción de muestra3
str(muestra3)
##  int [1:5483] 21 29 19 18 19 22 29 20 25 25 ...
summary(muestra3)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   16.00   22.00   25.00   25.26   28.00   42.00
#Media de edad muestra3
media3 <- round(summary(muestra3)[4],2)
media3
##  Mean 
## 25.26

Interpretación

Teniendo en cuenta los datos de la población de los mejores jugadores del mundo que fue de 18278 registros y 5 columnas que fueron de nuestro interés que son las variables de nombre, nacionalidad, edad, estatura y peso en lo variables de interés.
En los cuales se obtuvo la media de la edad de la población la cual sería de 25.28 años, en cuanto a los valores de la media que obtuvimos en la edad de cada muestra son de: Muestra 1. Media de edad es 25.3. Muestra 2. Media de edad es 25.25. Muestra 3. Media de edad es 25.36.

Se construyen tres muestras a partir de una población que contiene 18278 registros y 5 variables de interés.

La muestra1 contiene 1828 registros, la muestra2 tiene 3656 registros y la muestra3 tiene 5483 registros.

Si la variable de interés es la edad, la media de la edad de la población es 25.28 años, los valores de la media de edad de cada muestras son: de la muestra1 su media de edad es 25.3, de la muestra2 su media de edad es 25.25 y de la muestra3 su media de edad es 25.36.

Con lo anterior se entiende que los estadísticos de una muestra deben acerarse en mucho a los parámetros poblacionales. ejemplo de ello, los valores de la media de cada muestra se acercan a los valores de la media de la población. media de muestra≈media poblacion