Acceder a los elementos de un vector
Se cargan datos de un archivo que representa Nombres , Edades , Zonas
A partir de la población se construyen varias muestras utilizando la función sample().
library(readr)
En una variable llamada poblacion, se carga un conjunto de datos con distintas variables o columnas.
poblacion <- read.csv("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/players_20.csv", encoding = "UTF-8", stringsAsFactors = TRUE)
La población es un conjunto de datos que contiene 18278 observaciones o registros y 104 variables o columnas.
Las variables de interés para este caso serán: nombre, edad y Zonas
De la población se extraen únicamente las columnas de interés usando la notación [‘nombre columna 1’, ‘nombre de columna 2’, ‘nombre de columna n’].
La variable en donde se vuelve a dejar el extracto de los datos de población únicamente cn las columnas elegidas, es nuevamente poblacion, es decir se actualiza y se sobreescribe la variable.
Con el argumento la expresión [,c(‘name’ ‘age’, zone)], se extraen todas las observaciones o registros con las columnas indicadas de poblacion.
{r}poblacion <- poblacion[,c('name', 'zone', 'age')]
Con la función colnames(poblacion) se modifica a español los nombres de columnas
colnames(poblacion) <- c('nombre', 'edad', 'zona')
Con la función head(poblacion, 9) indicándole 9 se presentan los primeros 9 registros
head(poblacion)
## nombre edad
## 1 158023 https://sofifa.com/player/158023/lionel-messi/20/159586
## 2 20801 https://sofifa.com/player/20801/c-ronaldo-dos-santos-aveiro/20/159586
## 3 190871 https://sofifa.com/player/190871/neymar-da-silva-santos-jr/20/159586
## 4 200389 https://sofifa.com/player/200389/jan-oblak/20/159586
## 5 183277 https://sofifa.com/player/183277/eden-hazard/20/159586
## 6 192985 https://sofifa.com/player/192985/kevin-de-bruyne/20/159586
## zona NA NA NA NA NA
## 1 L. Messi Lionel Andrés Messi Cuccittini 32 24/06/1987 170 72
## 2 Cristiano Ronaldo Cristiano Ronaldo dos Santos Aveiro 34 05/02/1985 187 83
## 3 Neymar Jr Neymar da Silva Santos Junior 27 05/02/1992 175 68
## 4 J. Oblak Jan Oblak 26 07/01/1993 188 87
## 5 E. Hazard Eden Hazard 28 07/01/1991 175 74
## 6 K. De Bruyne Kevin De Bruyne 28 28/06/1991 181 70
## NA NA NA NA NA NA NA NA NA NA
## 1 Argentina FC Barcelona 94 94 95500000 565000 RW, CF, ST Left 5 4
## 2 Portugal Juventus 93 93 58500000 405000 ST, LW Right 5 4
## 3 Brazil Paris Saint-Germain 92 92 105500000 290000 LW, CAM Right 5 5
## 4 Slovenia Atlético Madrid 91 93 77500000 125000 GK Right 3 3
## 5 Belgium Real Madrid 91 91 90000000 470000 LW, CF Right 4 4
## 6 Belgium Manchester City 91 91 90000000 370000 CAM, CM Right 4 5
## NA NA NA NA NA
## 1 4 Medium/Low Messi Yes 195800000
## 2 5 High/Low C. Ronaldo Yes 96500000
## 3 5 High/Medium Neymar Yes 195200000
## 4 1 Medium/Medium Normal Yes 164700000
## 5 4 High/Medium Normal Yes 184500000
## 6 4 High/High Normal Yes 166500000
## NA
## 1 #Dribbler, #Distance Shooter, #Crosser, #FK Specialist, #Acrobat, #Clinical Finisher, #Complete Forward
## 2 #Speedster, #Dribbler, #Distance Shooter, #Acrobat, #Clinical Finisher, #Complete Forward
## 3 #Speedster, #Dribbler, #Playmaker , #Crosser, #FK Specialist, #Acrobat, #Clinical Finisher, #Complete Midfielder, #Complete Forward
## 4
## 5 #Speedster, #Dribbler, #Acrobat
## 6 #Dribbler, #Playmaker , #Engine, #Distance Shooter, #Crosser, #Complete Midfielder
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 1 RW 10 01/07/2004 2021 NA 87 92 92 96 39 66 NA NA NA NA NA NA
## 2 LW 7 10/07/2018 2022 LS 7 90 93 82 89 35 78 NA NA NA NA NA NA
## 3 CAM 10 03/08/2017 2022 LW 10 91 85 87 95 32 58 NA NA NA NA NA NA
## 4 GK 13 16/07/2014 2023 GK 1 NA NA NA NA NA NA 87 92 78 89 52 90
## 5 LW 7 01/07/2019 2024 LF 10 91 83 86 94 35 66 NA NA NA NA NA NA
## 6 RCM 17 30/08/2015 2023 RCM 7 76 86 92 86 61 78 NA NA NA NA NA NA
## NA
## 1 Beat Offside Trap, Argues with Officials, Early Crosser, Finesse Shot, Speed Dribbler (CPU AI Only), 1-on-1 Rush, Giant Throw-in, Outside Foot Shot
## 2 Long Throw-in, Selfish, Argues with Officials, Early Crosser, Speed Dribbler (CPU AI Only), Skilled Dribbling
## 3 Power Free-Kick, Injury Free, Selfish, Early Crosser, Speed Dribbler (CPU AI Only), Crowd Favourite
## 4 Flair, Acrobatic Clearance
## 5 Beat Offside Trap, Selfish, Finesse Shot, Speed Dribbler (CPU AI Only), Crowd Favourite
## 6 Power Free-Kick, Avoids Using Weaker Foot, Dives Into Tackles (CPU AI Only), Leadership, Argues with Officials, Finesse Shot
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 1 88 95 70 92 88 97 93 94 92 96 91 84 93 95 95 86 68 75 68 94 48 40 94 94 75 96
## 2 84 94 89 83 87 89 81 76 77 92 89 91 87 96 71 95 95 85 78 93 63 29 95 82 85 95
## 3 87 87 62 87 87 96 88 87 81 95 94 89 96 92 84 80 61 81 49 84 51 36 87 90 90 94
## 4 13 11 15 43 13 12 13 14 40 30 43 60 67 88 49 59 78 41 78 12 34 19 11 65 11 68
## 5 81 84 61 89 83 95 83 79 83 94 94 88 95 90 94 82 56 84 63 80 54 41 87 89 88 91
## 6 93 82 55 92 82 86 85 83 91 91 77 76 78 91 76 91 63 89 74 90 76 61 88 94 79 91
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 1 33 37 26 6 11 15 14 8 89+2 89+2 89+2 93+2 93+2 93+2 93+2 93+2 93+2 93+2
## 2 28 32 24 7 11 15 14 11 91+3 91+3 91+3 89+3 90+3 90+3 90+3 89+3 88+3 88+3
## 3 27 26 29 9 9 15 15 11 84+3 84+3 84+3 90+3 89+3 89+3 89+3 90+3 90+3 90+3
## 4 27 12 18 87 92 78 90 89
## 5 34 27 22 11 12 6 8 8 83+3 83+3 83+3 89+3 88+3 88+3 88+3 89+3 89+3 89+3
## 6 68 58 51 15 13 5 10 13 82+3 82+3 82+3 87+3 87+3 87+3 87+3 87+3 88+3 88+3
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 1 93+2 92+2 87+2 87+2 87+2 92+2 68+2 66+2 66+2 66+2 68+2 63+2 52+2 52+2 52+2
## 2 88+3 88+3 81+3 81+3 81+3 88+3 65+3 61+3 61+3 61+3 65+3 61+3 53+3 53+3 53+3
## 3 90+3 89+3 82+3 82+3 82+3 89+3 66+3 61+3 61+3 61+3 66+3 61+3 46+3 46+3 46+3
## 4
## 5 89+3 89+3 83+3 83+3 83+3 89+3 66+3 63+3 63+3 63+3 66+3 61+3 49+3 49+3 49+3
## 6 88+3 88+3 87+3 87+3 87+3 88+3 77+3 77+3 77+3 77+3 77+3 73+3 66+3 66+3 66+3
## NA
## 1 63+2
## 2 61+3
## 3 61+3
## 4
## 5 61+3
## 6 73+3
nombre zona edad
1 Ruben sur 51
2 Paty Norte 45
3 Lucy Centro 34
4 Carlos Centro 19
5 Lalo Sur 21
6 Diana Sur 22
7 Alejandro Norte 23
8 Christian Centro 20
9 Regina Sur 34
Con la función tail(poblacion, 9) indicándole 9 se presentan los últimos 9 registros
Con la función str() se identifica el tipo de datos, la cantidad de registros y columnas que tienen la población.
Ahora la población tiene le mismo número de registros pero con 5 variables de estudio en lugar de las 50 iniciales.
str(poblacion)
## 'data.frame': 18278 obs. of 104 variables:
## $ nombre: int 158023 20801 190871 200389 183277 192985 192448 203376 177003 209331 ...
## $ edad : Factor w/ 18278 levels "https://sofifa.com/player/101317/michael-ratajczak/20/159586",..: 397 5124 2497 3676 1537 2765 2674 4267 1088 5356 ...
## $ zona : Factor w/ 17354 levels "A. Abdallah",..: 9768 3205 12703 7899 4500 8740 11808 16595 9778 11643 ...
## $ NA : Factor w/ 18218 levels "A. Benjamin Chiamuloira Paes",..: 9904 3292 12557 7423 4443 9252 10715 16632 10336 12149 ...
## $ NA : int 32 34 27 26 28 28 27 27 33 27 ...
## $ NA : Factor w/ 6142 levels "01/01/1983","01/01/1984",..: 4738 833 840 1230 1228 5551 5888 1539 1779 2945 ...
## $ NA : int 170 187 175 188 175 181 187 193 172 175 ...
## $ NA : int 72 83 68 87 74 70 85 92 66 71 ...
## $ NA : Factor w/ 162 levels "Afghanistan",..: 6 122 19 135 13 13 58 109 35 44 ...
## $ NA : Factor w/ 698 levels " SSV Jahn Regensburg",..: 228 353 463 64 507 401 228 389 507 389 ...
## $ NA : int 94 93 92 91 91 91 90 90 90 90 ...
## $ NA : int 94 93 92 93 91 91 93 91 90 90 ...
## $ NA : int 95500000 58500000 105500000 77500000 90000000 90000000 67500000 78000000 45000000 80500000 ...
## $ NA : int 565000 405000 290000 125000 470000 370000 250000 200000 340000 240000 ...
## $ NA : Factor w/ 643 levels "CAM","CAM, CDM",..: 545 621 345 227 351 12 227 56 156 575 ...
## $ NA : Factor w/ 2 levels "Left","Right": 1 2 2 2 2 2 2 2 2 1 ...
## $ NA : int 5 5 5 3 4 4 3 3 4 3 ...
## $ NA : int 4 4 5 3 4 5 4 3 4 3 ...
## $ NA : int 4 5 5 1 4 4 1 2 4 4 ...
## $ NA : Factor w/ 9 levels "High/High","High/Low",..: 8 2 3 9 3 1 9 9 1 3 ...
## $ NA : Factor w/ 10 levels "Akinfenwa","C. Ronaldo",..: 5 2 6 7 7 7 7 7 4 8 ...
## $ NA : Factor w/ 2 levels "No","Yes": 2 2 2 2 2 2 2 2 2 2 ...
## $ NA : int 195800000 96500000 195200000 164700000 184500000 166500000 143400000 150200000 92300000 148900000 ...
## $ NA : Factor w/ 84 levels "","#Acrobat",..: 27 74 75 1 72 38 1 83 35 73 ...
## $ NA : Factor w/ 30 levels "","CAM","CB",..: 27 16 2 7 16 21 7 10 21 27 ...
## $ NA : int 10 7 10 13 7 17 1 4 10 11 ...
## $ NA : Factor w/ 317 levels "","1. FC Heidenheim 1846",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ NA : Factor w/ 1761 levels "","01/01/1998",..: 73 639 245 969 88 1705 83 19 97 86 ...
## $ NA : int 2021 2022 2022 2023 2024 2023 2022 2023 2020 2023 ...
## $ NA : Factor w/ 27 levels "","CAM","CB",..: 1 14 15 7 12 19 27 9 1 24 ...
## $ NA : int NA 7 10 1 10 7 22 4 NA 10 ...
## $ NA : int 87 90 91 NA 91 76 NA 77 74 93 ...
## $ NA : int 92 93 85 NA 83 86 NA 60 76 86 ...
## $ NA : int 92 82 87 NA 86 92 NA 70 89 81 ...
## $ NA : int 96 89 95 NA 94 86 NA 71 89 89 ...
## $ NA : int 39 35 32 NA 35 61 NA 90 72 45 ...
## $ NA : int 66 78 58 NA 66 78 NA 86 66 74 ...
## $ NA : int NA NA NA 87 NA NA 88 NA NA NA ...
## $ NA : int NA NA NA 92 NA NA 85 NA NA NA ...
## $ NA : int NA NA NA 78 NA NA 88 NA NA NA ...
## $ NA : int NA NA NA 89 NA NA 90 NA NA NA ...
## $ NA : int NA NA NA 52 NA NA 45 NA NA NA ...
## $ NA : int NA NA NA 90 NA NA 88 NA NA NA ...
## $ NA : Factor w/ 922 levels "","Acrobatic Clearance",..: 112 687 787 334 165 718 920 203 19 113 ...
## $ NA : int 88 84 87 13 81 93 18 53 86 79 ...
## $ NA : int 95 94 87 11 84 82 14 52 72 90 ...
## $ NA : int 70 89 62 15 61 55 11 86 55 59 ...
## $ NA : int 92 83 87 43 89 92 61 78 92 84 ...
## $ NA : int 88 87 87 13 83 82 14 45 76 79 ...
## $ NA : int 97 89 96 12 95 86 21 70 87 89 ...
## $ NA : int 93 81 88 13 83 85 18 60 85 83 ...
## $ NA : int 94 76 87 14 79 83 12 70 78 69 ...
## $ NA : int 92 77 81 40 83 91 63 81 88 75 ...
## $ NA : int 96 92 95 30 94 91 30 76 92 89 ...
## $ NA : int 91 89 94 43 94 77 38 74 77 94 ...
## $ NA : int 84 91 89 60 88 76 50 79 71 92 ...
## $ NA : int 93 87 96 67 95 78 37 61 92 91 ...
## $ NA : int 95 96 92 88 90 91 86 88 89 92 ...
## $ NA : int 95 71 84 49 94 76 43 53 93 88 ...
## $ NA : int 86 95 80 59 82 91 66 81 79 80 ...
## $ NA : int 68 95 61 78 56 63 79 90 68 69 ...
## $ NA : int 75 85 81 41 84 89 35 75 85 85 ...
## $ NA : int 68 78 49 78 63 74 78 92 58 73 ...
## $ NA : int 94 93 84 12 80 90 10 64 82 84 ...
## $ NA : int 48 63 51 34 54 76 43 82 62 63 ...
## $ NA : int 40 29 36 19 41 61 22 89 82 55 ...
## $ NA : int 94 95 87 11 87 88 11 47 79 92 ...
## $ NA : int 94 82 90 65 89 94 70 65 91 84 ...
## $ NA : int 75 85 90 11 88 79 25 62 82 77 ...
## $ NA : int 96 95 94 68 91 91 70 89 92 91 ...
## $ NA : int 33 28 27 27 34 68 25 91 68 38 ...
## $ NA : int 37 32 26 12 27 58 13 92 76 43 ...
## $ NA : int 26 24 29 18 22 51 10 85 71 41 ...
## $ NA : int 6 7 9 87 11 15 88 13 13 14 ...
## $ NA : int 11 11 9 92 12 13 85 10 9 14 ...
## $ NA : int 15 15 15 78 6 5 88 13 7 9 ...
## $ NA : int 14 14 15 90 8 10 88 11 14 11 ...
## $ NA : int 8 11 11 89 8 13 90 11 9 14 ...
## $ NA : Factor w/ 95 levels "","30+2","31+2",..: 94 95 89 1 88 86 1 60 76 89 ...
## $ NA : Factor w/ 95 levels "","30+2","31+2",..: 94 95 89 1 88 86 1 60 76 89 ...
## $ NA : Factor w/ 95 levels "","30+2","31+2",..: 94 95 89 1 88 86 1 60 76 89 ...
## $ NA : Factor w/ 108 levels "","25+2","27+2",..: 108 106 107 1 106 104 1 64 100 105 ...
## $ NA : Factor w/ 104 levels "","26+2","27+2",..: 104 103 102 1 101 100 1 65 94 101 ...
## $ NA : Factor w/ 104 levels "","26+2","27+2",..: 104 103 102 1 101 100 1 65 94 101 ...
## $ NA : Factor w/ 104 levels "","26+2","27+2",..: 104 103 102 1 101 100 1 65 94 101 ...
## $ NA : Factor w/ 108 levels "","25+2","27+2",..: 108 106 107 1 106 104 1 64 100 105 ...
## $ NA : Factor w/ 104 levels "","27+2","28+2",..: 104 101 103 1 102 101 1 64 99 100 ...
## $ NA : Factor w/ 104 levels "","27+2","28+2",..: 104 101 103 1 102 101 1 64 99 100 ...
## $ NA : Factor w/ 104 levels "","27+2","28+2",..: 104 101 103 1 102 101 1 64 99 100 ...
## $ NA : Factor w/ 101 levels "","27+2","30+2",..: 101 99 100 1 100 99 1 62 95 98 ...
## $ NA : Factor w/ 89 levels "","31+2","32+2",..: 88 80 82 1 84 89 1 64 89 80 ...
## $ NA : Factor w/ 89 levels "","31+2","32+2",..: 88 80 82 1 84 89 1 64 89 80 ...
## $ NA : Factor w/ 89 levels "","31+2","32+2",..: 88 80 82 1 84 89 1 64 89 80 ...
## $ NA : Factor w/ 101 levels "","27+2","30+2",..: 101 99 100 1 100 99 1 62 95 98 ...
## $ NA : Factor w/ 99 levels "","30+2","31+2",..: 65 59 61 1 61 84 1 88 92 70 ...
## $ NA : Factor w/ 99 levels "","28+2","29+2",..: 60 51 51 1 55 84 1 95 92 63 ...
## $ NA : Factor w/ 99 levels "","28+2","29+2",..: 60 51 51 1 55 84 1 95 92 63 ...
## $ NA : Factor w/ 99 levels "","28+2","29+2",..: 60 51 51 1 55 84 1 95 92 63 ...
## $ NA : Factor w/ 99 levels "","30+2","31+2",..: 65 59 61 1 61 84 1 88 92 70 ...
## [list output truncated]
'data.frame': 18278 obs. of 5 variables:
$ nombre : Factor w/ 17354 levels "<U+FFFD>. Blanaru","<U+FFFD>. Fara",..: 9773 3210 12708 7904 4505 8745 11813 16600 9783 11649 ...
$ nacion : Factor w/ 162 levels "Afghanistan",..: 6 122 19 135 13 13 58 109 35 44 ...
$ edad : int 32 34 27 26 28 28 27 27 33 27 ...
$ estatura: int 170 187 175 188 175 181 187 193 172 175 ...
$ peso : int 72 83 68 87 74 70 85 92 66 71 ...
Con la función summary() se encuentran los parámetros de la población.
Las medidas que genera summary() para datos numéricos o cuantitativos son la media, mediana, valores máximos y mínimos, cuartiles al 25%, 50% y 75% que serán medidas que se estudiarán por separado en siguientes casos.
Con datos cualitativos categóricos o denotados como factores en R, se identifican la cantidad de ocasiones que hay de cada uno, es decir la frecuencia. De igual forma la función identifica si existen datos como NA que se interpreta como datos vacíos.