Crear tablas de contingencia y determinar medidas de dispersión de datos como edades, sueldos y calificaciones.
Identificar media de los datos
Identificar medidas de dispersión, varianza y desviación estándard.
Generar tablas de contingencia
Visualizar dispersión de los datos.
Identificar coeficiente de variación y comparar con similares conjuntos de datos.
Instalar librerías anticipadamente con install.packages(“fdth”)
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
Se establece valor de semilla.
set.seed(2021)
Se generan 200 edades en dos conjuntos de datos diferentes.
edades1<-sample(x=18:60,size=200,replace=TRUE)
edades2<-sample(x=18:60,size=200,replace=TRUE)
Se identifican los datos ordenados con la función order().
sort(edades1)
## [1] 18 18 18 18 18 18 18 19 19 20 20 20 20 20 21 21 21 21 22 22 22 22 22 23 23
## [26] 23 23 23 23 24 24 24 24 24 25 25 25 25 25 26 26 26 26 26 26 26 27 27 27 28
## [51] 28 28 28 28 28 29 29 29 30 30 30 30 30 30 30 31 32 32 32 32 32 33 33 33 33
## [76] 34 34 35 35 35 35 36 36 36 36 36 36 36 36 36 36 36 37 37 37 37 38 38 38 38
## [101] 39 39 39 39 39 39 39 39 39 39 39 40 40 40 40 40 40 41 41 41 41 41 41 42 43
## [126] 43 44 44 44 45 45 46 46 46 46 46 46 46 46 47 47 47 47 48 48 48 48 48 48 49
## [151] 49 50 51 51 51 51 52 52 53 53 53 53 54 54 54 54 54 54 54 54 55 55 55 55 55
## [176] 55 55 55 55 56 56 56 56 56 57 57 57 58 58 58 58 59 60 60 60 60 60 60 60 60
sort(edades2)
## [1] 18 18 18 18 18 19 20 20 20 20 21 21 21 21 21 21 22 22 22 22 23 23 23 23 23
## [26] 23 23 23 23 24 24 24 24 24 25 25 25 25 25 26 26 26 26 26 26 26 26 27 27 27
## [51] 27 28 28 28 29 29 30 30 30 30 30 31 31 31 32 32 32 33 33 33 33 33 34 34 34
## [76] 34 34 34 34 35 35 35 36 36 36 37 37 37 37 37 37 37 37 37 38 38 39 39 39 39
## [101] 40 40 40 40 40 40 41 41 41 41 42 42 42 42 42 42 42 42 43 43 43 43 43 43 43
## [126] 43 43 44 44 44 44 44 45 45 45 45 46 46 46 47 47 47 47 47 47 48 48 48 48 49
## [151] 49 50 50 50 50 51 51 51 51 51 52 52 52 52 53 53 53 54 54 54 54 55 55 55 55
## [176] 56 57 57 57 57 57 57 58 58 58 58 58 59 59 59 59 59 59 59 60 60 60 60 60 60
Se muestran las tablas de frecuencias del conjunto de datos edades1 y edades2.
En las tablas de frecuencias se determina matemáticamente el número de clases, La opción matemáticamente más consistente es la conocida como regla de Sturges.
La solución de esta ecuación proporciona una regla práctica para obtener el número de clases.
k=1+3.322∗log10(N)k=1+3.322∗log10(N)
Siendo k el número de clases
log es la función logarítmica de base 10, log10()
y N el total de la muestra
El rango de clase de acuerdo a Sturges está dada por
h=max(datos)−min(datos)kh=max(datos)−min(datos)k
Siendo h el rango de cada clase y max(datos) - min(datos) el rango del total de los datos, es decir la diferencia entre límite superior menos límite inferior.
Existen otras formas de determinar el número de clases a utilizar, algunas más complejas, otras más simples.
Independientemente de la forma de cálculo seleccionada ya se Sturges, Scott o Freedman-Diaconis (FD), lo realmente importante es que la información mostrada en la tabla de frecuencia sea fácil de revisar, que no contenga un número excesivo de clases y que la información que en ella se refleja permita comprender cómo se presentan los datos en la población o de una muestra.
tabla.edades1<-fdt(x=edades1,breaks="Sturges")
tabla.edades1
## Class limits f rf rf(%) cf cf(%)
## [17.82,22.57) 23 0.12 11.5 23 11.5
## [22.57,27.33) 26 0.13 13.0 49 24.5
## [27.33,32.08) 22 0.11 11.0 71 35.5
## [32.08,36.83) 21 0.10 10.5 92 46.0
## [36.83,41.59) 31 0.16 15.5 123 61.5
## [41.59,46.34) 16 0.08 8.0 139 69.5
## [46.34,51.09) 17 0.09 8.5 156 78.0
## [51.09,55.85) 23 0.12 11.5 179 89.5
## [55.85,60.6) 21 0.10 10.5 200 100.0
Class limits significa el rango de cada clase
f significa la frecuencia, la suma de f debe ser el total de elementos.
rf significa frecuencia relativa la suma de todas las rf debe ser el 1
rf% significa el valor relativo pero en porcentaje, la suma de rf% debe ser el 100%
cf significa frecuencia acumulada
cf% significa frecuencia porcentual acumulada.
hist(edades1,breaks="Sturges")
plot(edades1)
tabla.edades2<-fdt(x=edades2,breaks="Sturges")
tabla.edades2
## Class limits f rf rf(%) cf cf(%)
## [17.82,22.57) 20 0.10 10.0 20 10.0
## [22.57,27.33) 31 0.16 15.5 51 25.5
## [27.33,32.08) 16 0.08 8.0 67 33.5
## [32.08,36.83) 18 0.09 9.0 85 42.5
## [36.83,41.59) 25 0.12 12.5 110 55.0
## [41.59,46.34) 29 0.14 14.5 139 69.5
## [46.34,51.09) 21 0.10 10.5 160 80.0
## [51.09,55.85) 15 0.07 7.5 175 87.5
## [55.85,60.6) 25 0.12 12.5 200 100.0
hist(edades2, breaks="Sturges")
plot(edades2)
Las medidas de dispersión varianza y desviación estándar miden el valor de dispersión de un conjunto de datos numéricos.
La dispersión significa que tanto los datos están alejados de la media, el valor de la desviación se compara con la media y se interpreta que tanto los valores distan del valor de la media.
Con las funciones de var() y sd() se determinan la varianza y a desviación respectivamente y con mean() la media de la muestra.
media_edades1<-mean(edades1)
media_edades2<-mean(edades2)
varianza_edades1<-var(edades1)
varianza_edades2<-var(edades2)
desv.std_edades1<-sd(edades1)
desv.std_edades2<-sd(edades2)
Se muestran los valores generados, el punto y coma en R significa en una misma linea se ejecutan dos instrucciones o dos comandos, en este caso solo mostrar los valores.
media_edades1;media_edades2
## [1] 38.61
## [1] 38.945
varianza_edades1;varianza_edades2
## [1] 156.7919
## [1] 154.2633
desv.std_edades1;desv.std_edades2
## [1] 12.52166
## [1] 12.42028
El coeficiente de variación (CV) es un estadístico que permite comparar entre dos o mas conjuntos de datos cuál es estos tiene una dispersión mayor o menor.
Al identificar el CV de un conjunto de datos y compararlo con otro CV de otro conjunto de datos similares, se puede determinar cual de los datos tiene mayor o menor dispersión y se puede concluir en cual es estos está mas dispersos sus datos, es decir cuál de ellos se aleja mas o menos de la media, según sea el caso.
Para determinar el coeficiente de variación se establece la división de la desviación estándar entre la media del conjunto de datos.
CV=σx¯
CV_edades1<-desv.std_edades1/media_edades1
CV_edades1
## [1] 0.3243112
CV_edades2<-desv.std_edades2/media_edades2
CV_edades2
## [1] 0.3189184
Se generan 200 sueldos en dos conjuntos de datos diferentes.
sueldos1<-sample(x=1000:1200,size=200, replace=TRUE)
sueldos2<-sample(x=1000:1200,size=200, replace=TRUE)
Se identifican los datos ordenados con la función order().
sort(sueldos1)
## [1] 1000 1000 1000 1000 1000 1001 1002 1003 1004 1004 1007 1007 1009 1009 1009
## [16] 1010 1010 1011 1011 1013 1014 1015 1015 1015 1015 1016 1016 1016 1018 1018
## [31] 1019 1021 1021 1022 1022 1023 1023 1026 1027 1028 1028 1030 1030 1032 1033
## [46] 1033 1034 1037 1037 1040 1040 1040 1043 1045 1045 1045 1046 1046 1048 1050
## [61] 1050 1053 1054 1054 1055 1056 1058 1058 1059 1060 1062 1063 1064 1065 1066
## [76] 1067 1067 1068 1068 1069 1071 1071 1071 1076 1076 1076 1076 1077 1078 1079
## [91] 1082 1086 1086 1086 1087 1087 1087 1088 1089 1092 1093 1093 1094 1098 1099
## [106] 1099 1100 1103 1105 1105 1105 1105 1106 1107 1108 1109 1110 1111 1112 1112
## [121] 1113 1113 1116 1116 1117 1117 1118 1118 1118 1119 1121 1122 1122 1128 1131
## [136] 1133 1133 1135 1136 1137 1138 1138 1138 1139 1140 1141 1143 1143 1143 1144
## [151] 1145 1147 1147 1148 1149 1150 1151 1151 1151 1151 1154 1156 1157 1159 1159
## [166] 1160 1164 1165 1165 1166 1167 1172 1172 1173 1174 1175 1176 1176 1179 1180
## [181] 1181 1183 1184 1186 1186 1186 1188 1190 1192 1192 1193 1194 1194 1194 1196
## [196] 1197 1197 1197 1198 1198
sort(sueldos2)
## [1] 1001 1002 1002 1003 1003 1006 1007 1011 1012 1013 1015 1015 1015 1015 1016
## [16] 1016 1017 1022 1022 1022 1023 1023 1027 1027 1028 1029 1033 1035 1036 1040
## [31] 1042 1042 1042 1044 1045 1045 1045 1046 1046 1047 1048 1048 1048 1049 1049
## [46] 1051 1051 1051 1052 1052 1052 1052 1053 1053 1054 1054 1055 1057 1057 1059
## [61] 1059 1060 1060 1061 1062 1066 1067 1068 1068 1068 1069 1069 1072 1072 1072
## [76] 1072 1073 1079 1080 1080 1083 1083 1083 1083 1083 1086 1086 1086 1088 1090
## [91] 1090 1091 1092 1094 1096 1097 1099 1100 1100 1102 1103 1104 1104 1105 1106
## [106] 1106 1106 1106 1108 1111 1111 1112 1114 1114 1115 1117 1119 1120 1121 1122
## [121] 1122 1126 1127 1127 1128 1128 1128 1129 1130 1131 1134 1134 1134 1136 1138
## [136] 1139 1142 1143 1144 1145 1145 1146 1146 1148 1151 1151 1152 1154 1155 1155
## [151] 1155 1157 1157 1158 1158 1158 1159 1160 1161 1164 1166 1167 1167 1169 1169
## [166] 1169 1170 1170 1172 1173 1173 1174 1174 1175 1176 1177 1178 1181 1182 1183
## [181] 1184 1185 1185 1187 1187 1187 1188 1189 1191 1192 1192 1193 1193 1194 1194
## [196] 1195 1196 1197 1198 1200
Se muestran las tablas de frecuencias del conjunto de datos sueldos1 y sueldos2.
tabla.sueldos1 <- fdt(x = sueldos1, breaks = "Sturges")
tabla.sueldos1
## Class limits f rf rf(%) cf cf(%)
## [990,1014.442) 21 0.10 10.5 21 10.5
## [1014.442,1038.884) 28 0.14 14.0 49 24.5
## [1038.884,1063.327) 23 0.12 11.5 72 36.0
## [1063.327,1087.769) 25 0.12 12.5 97 48.5
## [1087.769,1112.211) 23 0.12 11.5 120 60.0
## [1112.211,1136.653) 19 0.10 9.5 139 69.5
## [1136.653,1161.096) 27 0.14 13.5 166 83.0
## [1161.096,1185.538) 17 0.09 8.5 183 91.5
## [1185.538,1209.98) 17 0.09 8.5 200 100.0
hist(sueldos1, breaks = "Sturges")
plot(sueldos1)
tabla.sueldos2 <- fdt(x = sueldos2, breaks = "Sturges")
tabla.sueldos2
## Class limits f rf rf(%) cf cf(%)
## [991,1016) 14 0.07 7.0 14 7.0
## [1016,1040) 16 0.08 8.0 30 15.0
## [1040,1065) 35 0.17 17.5 65 32.5
## [1065,1089) 24 0.12 12.0 89 44.5
## [1089,1114) 23 0.12 11.5 112 56.0
## [1114,1138) 23 0.12 11.5 135 67.5
## [1138,1163) 24 0.12 12.0 159 79.5
## [1163,1187) 27 0.14 13.5 186 93.0
## [1187,1212) 14 0.07 7.0 200 100.0
hist(sueldos2, breaks = "Sturges")
plot(sueldos2)
media_sueldos1 <- mean(sueldos1)
media_sueldos2 <- mean(sueldos2)
varianza_sueldos1 <- var(sueldos1)
varianza_sueldos2 <- var(sueldos2)
desv.std_sueldos1 <- sd(sueldos1)
desv.std_sueldos2 <- sd(sueldos2)
Se muestran los valores generados.
media_sueldos1; media_sueldos2
## [1] 1093.64
## [1] 1102.425
varianza_sueldos1; varianza_sueldos2
## [1] 3660.774
## [1] 3344.055
desv.std_sueldos1; desv.std_sueldos2
## [1] 60.50433
## [1] 57.8278
CV_sueldos1 <- desv.std_sueldos1 / media_sueldos1
CV_sueldos1
## [1] 0.05532381
CV_sueldos2 <- desv.std_sueldos2 / media_sueldos2
CV_sueldos2
## [1] 0.05245509
Se generan 500 calificaciones en dos conjuntos de datos diferentes.
calif1 <- sample(x = 70:100,size = 500,replace = TRUE )
calif2 <- sample(x = 70:100,size = 500,replace = TRUE )
Se identifican los datos ordenados con la función order().
sort(calif1)
## [1] 70 70 70 70 70 70 70 70 70 70 70 70 71 71 71 71 71 71
## [19] 71 71 71 71 72 72 72 72 72 72 72 72 72 72 72 72 72 72
## [37] 72 72 72 73 73 73 73 73 73 73 73 73 73 73 73 73 73 73
## [55] 73 73 73 73 74 74 74 74 74 74 74 74 74 74 74 74 74 74
## [73] 74 74 74 74 74 75 75 75 75 75 75 75 75 75 75 75 75 75
## [91] 76 76 76 76 76 76 76 76 76 76 76 76 76 77 77 77 77 77
## [109] 77 77 77 77 77 77 77 78 78 78 78 78 78 78 78 78 78 78
## [127] 78 78 78 78 78 78 78 78 78 78 78 78 78 78 78 78 79 79
## [145] 79 79 79 79 79 79 79 79 79 79 80 80 80 80 80 80 80 80
## [163] 80 80 80 80 80 80 80 80 80 80 80 80 80 80 80 80 80 81
## [181] 81 81 81 81 81 81 81 81 81 81 81 81 81 81 82 82 82 82
## [199] 82 82 82 82 82 82 82 82 82 83 83 83 83 83 83 83 83 83
## [217] 83 83 83 83 83 84 84 84 84 84 84 84 84 84 84 84 84 84
## [235] 84 84 84 84 84 85 85 85 85 85 85 85 85 85 85 85 85 85
## [253] 85 85 85 85 85 85 85 86 86 86 86 86 86 86 86 86 86 86
## [271] 86 86 86 86 86 86 86 87 87 87 87 87 87 87 87 87 87 87
## [289] 87 87 87 87 87 87 88 88 88 88 88 88 88 88 88 88 88 88
## [307] 88 88 88 88 89 89 89 89 89 89 89 89 89 89 89 89 89 89
## [325] 89 89 89 89 89 90 90 90 90 90 90 90 90 90 91 91 91 91
## [343] 91 91 91 91 91 91 91 91 91 91 92 92 92 92 92 92 92 92
## [361] 92 92 92 92 92 92 92 92 92 92 92 92 93 93 93 93 93 93
## [379] 93 93 93 93 93 93 93 93 93 93 93 94 94 94 94 94 94 94
## [397] 94 94 94 94 94 94 94 94 94 95 95 95 95 95 95 95 95 95
## [415] 95 95 95 95 95 95 95 95 95 96 96 96 96 96 96 96 96 96
## [433] 96 97 97 97 97 97 97 97 97 97 97 97 97 97 97 97 97 97
## [451] 97 97 97 97 97 97 97 97 98 98 98 98 98 98 98 98 98 98
## [469] 98 98 98 98 98 99 99 99 99 99 99 99 99 99 99 99 99 99
## [487] 99 100 100 100 100 100 100 100 100 100 100 100 100 100
sort(calif2)
## [1] 70 70 70 70 70 70 70 70 70 70 70 70 70 70 71 71 71 71
## [19] 71 71 71 71 71 71 71 71 71 71 71 71 71 71 71 71 71 71
## [37] 72 72 72 72 72 72 72 72 72 72 72 72 72 72 72 72 72 72
## [55] 72 73 73 73 73 73 73 73 73 73 73 73 73 73 73 73 73 73
## [73] 73 73 74 74 74 74 74 74 74 74 74 75 75 75 75 75 75 75
## [91] 75 75 75 75 75 75 75 75 75 75 75 75 76 76 76 76 76 76
## [109] 76 76 76 76 76 76 76 76 76 77 77 77 77 77 77 77 77 77
## [127] 77 77 77 77 77 77 77 77 77 77 77 78 78 78 78 78 78 78
## [145] 78 78 78 78 78 78 78 78 78 78 78 79 79 79 79 79 79 79
## [163] 79 79 79 80 80 80 80 80 80 80 80 80 80 80 80 80 80 80
## [181] 80 80 81 81 81 81 81 81 81 81 81 81 81 81 81 81 81 81
## [199] 81 81 81 81 81 81 82 82 82 82 82 82 82 82 82 82 82 82
## [217] 82 82 82 83 83 83 83 83 83 83 83 83 83 83 83 83 83 83
## [235] 84 84 84 84 84 84 84 84 84 84 84 84 84 84 85 85 85 85
## [253] 85 85 85 85 85 85 85 85 85 85 86 86 86 86 86 86 86 86
## [271] 86 86 86 86 87 87 87 87 87 87 87 87 87 87 87 87 87 87
## [289] 87 87 88 88 88 88 88 88 88 88 88 88 88 88 88 89 89 89
## [307] 89 89 89 89 89 89 89 89 89 89 89 89 90 90 90 90 90 90
## [325] 90 90 90 90 90 90 90 90 91 91 91 91 91 91 91 91 91 91
## [343] 91 91 91 91 91 91 92 92 92 92 92 92 92 92 92 92 92 92
## [361] 93 93 93 93 93 93 93 93 93 93 93 93 93 93 94 94 94 94
## [379] 94 94 94 94 94 94 94 94 94 94 94 94 94 94 94 94 94 94
## [397] 94 95 95 95 95 95 95 95 95 95 95 95 95 95 95 95 95 95
## [415] 96 96 96 96 96 96 96 96 96 96 96 96 96 96 96 96 96 96
## [433] 97 97 97 97 97 97 97 97 97 97 97 97 97 97 98 98 98 98
## [451] 98 98 98 98 98 98 98 98 98 98 98 98 99 99 99 99 99 99
## [469] 99 99 99 99 99 99 99 99 100 100 100 100 100 100 100 100 100 100
## [487] 100 100 100 100 100 100 100 100 100 100 100 100 100 100
Se muestran las tablas de frecuencias del conjunto de datos calif1 y calif2.
tabla.calif1 <- fdt(x = calif1, breaks = "Sturges")
tabla.calif1
## Class limits f rf rf(%) cf cf(%)
## [69.3,72.5) 39 0.08 7.8 39 7.8
## [72.5,75.6) 51 0.10 10.2 90 18.0
## [75.6,78.8) 52 0.10 10.4 142 28.4
## [78.8,82) 52 0.10 10.4 194 38.8
## [82,85.2) 65 0.13 13.0 259 51.8
## [85.2,88.3) 51 0.10 10.2 310 62.0
## [88.3,91.5) 42 0.08 8.4 352 70.4
## [91.5,94.7) 53 0.11 10.6 405 81.0
## [94.7,97.8) 53 0.11 10.6 458 91.6
## [97.8,101) 42 0.08 8.4 500 100.0
hist(calif1, breaks = "Sturges")
plot(calif1)
tabla.calif2 <- fdt(x = calif2, breaks = "Sturges")
tabla.calif2
## Class limits f rf rf(%) cf cf(%)
## [69.3,72.5) 55 0.11 11.0 55 11.0
## [72.5,75.6) 47 0.09 9.4 102 20.4
## [75.6,78.8) 53 0.11 10.6 155 31.0
## [78.8,82) 49 0.10 9.8 204 40.8
## [82,85.2) 58 0.12 11.6 262 52.4
## [85.2,88.3) 41 0.08 8.2 303 60.6
## [88.3,91.5) 45 0.09 9.0 348 69.6
## [91.5,94.7) 49 0.10 9.8 397 79.4
## [94.7,97.8) 49 0.10 9.8 446 89.2
## [97.8,101) 54 0.11 10.8 500 100.0
hist(calif2, breaks = "Sturges")
plot(calif2)
media_calif1 <- mean(calif1)
media_calif2 <- mean(calif2)
varianza_calif1 <- var(calif1)
varianza_calif2 <- var(calif2)
desv.std_calif1 <- sd(calif1)
desv.std_calif2 <- sd(calif2)
media_calif1; media_calif2
## [1] 85.098
## [1] 84.974
varianza_calif1; varianza_calif2
## [1] 76.02444
## [1] 85.30794
desv.std_calif1; desv.std_calif2
## [1] 8.7192
## [1] 9.23623
CV_calif1 <- desv.std_calif1 / media_calif1
CV_calif1
## [1] 0.1024607
CV_calif2 <- desv.std_calif2 / media_calif2
CV_calif2
## [1] 0.1086948
Las tablas de contingencia representan las clases y la frecuencias de casos de cada una de las clases, permiten observar los valores relativos y porcentuales de las frecuencias.
Con respecto a edades1 existe un 15.5% de valores que están en un rango o intervalo entre 36.83 y 41.59.
En relación a edades2 existe una cantidad de valores entre 36.83 y 46.34 que representan el 14.5%.
Con respecto a los valores estadísticos del conjunto de datos edades1, el valor la media es de: 38.61, la desviación es de: 12.5216556.
Con respecto a los valores estadísticos del conjunto de datos edades2, el valor la media es de: 38.945, la desviación es de: 12.4202774.
El coeficiente de variación de edades1 es de: 0.3243112y el CV de edades2 es de: 0.3189184
Existe mayor dispersión en los valores del conjunto de datos edades1 con respecto a edades2 por tener ligeramente mayor valor en su coeficiente de variación.
Con respecto a sueldos1 existe un 11.5% de valores que están en un rango o intervalo entre 1087.769 y 1112.2.
En relación a sueldos2 existe una cantidad de valores entre 1089 y 1114 que representan el 11.5%.
Con respecto a los valores estadísticos del conjunto de datos sueldos1, el valor la media es de: 1093.64, la desviación es de: 60.50433.
Con respecto a los valores estadísticos del conjunto de datos sueldos2, el valor la media es de: 1102.425, la desviación es de: 57.8278 .
El coeficiente de variación de sueldos1 es de: 0.05532381 y el CV de sueldos2 es de: 0.05245509.
Existe mayor dispersión en los valores del conjunto de datos sueldos1 con respecto a sueldos2 por tener ligeramente mayor valor en su coeficiente de variación.
Con respecto a calificaciones1 existe un 13.0% de valores que están en un rango o intervalo entre 82 y 85.2.
En relación a calificaciones2 existe una cantidad de valores entre 82 y 85.2 que representan el 11.6%.
Con respecto a los valores estadísticos del conjunto de datos calificaciones1 , el valor la media es de: 85.098, la desviación es de: 8.7192.
Con respecto a los valores estadísticos del conjunto de datos sucalificaciones2, el valor la media es de: 84.974, la desviación es de: 9.23623.
El coeficiente de variación de calificaciones1 es de: 0.1024607 y el CV de calificaciones2 es de: 0.1086948
Existe mayor dispersión en los valores del conjunto de datos calificaciones2 con respecto a calificaciones1 por tener ligeramente mayor valor en su coeficiente de variación.