——–
19041231 Osiris Ochoa Solis
19041239 Elias Jr. Ramos Lopez
19041216 Frida Krystel Herrera Hernández
19041198 Marco Daniel De La Torre Mendia
19041206 Irving alonso Galvan carabez
——–
Objetivo : Realizar una practica acerca de las medidas centrales y la dispersion.
Contenidos:
Media Moda Mediana de cada distribución
Histograma para cada distribución
Cuartiles de cada distribución
El rango de cada conjunto de datos
Determinar el Rango Intercuartílico de cada conjunto de datos
Varianza y Desviación estándar de cada distribución
Determina el coeficiente de variación para cada distribución y mencione ¿CUÁL? distribución tiene mayor variabilidad y¿PORQUÉ?
Presente el diagrama de dispersión para dist1 con puntos de color ROJO,
Presente el diagrama de dispersión para dist2 con puntos de color AZUL,
Presente el diagrama de dispersión para dist2 con puntos de color VERDE
Verifique de manera visual el grado de hetereogeneidad u homogeneidad, ES DECIR LA VARIABILIDAD
——–
Paso 1: Aqui se realizaron los 3 conjuntos de datos de manera aleatoria con un total de 100 elementos por conjunto.
library(modeest)
#### Los datos
set.seed(1000)
dist1 <- sample(70:100, size = 100, replace=TRUE)
dist2 <- sample(70:100, size = 100, replace=TRUE)
dist3 <- sample(70:100, size = 100, replace=TRUE)
dist1
## [1] 85 73 80 91 88 93 98 72 98 87 91 75 82 75 70 78 98 95
## [19] 95 97 92 87 74 99 88 85 95 98 79 78 95 76 93 81 86 91
## [37] 93 97 96 77 88 72 96 75 76 82 91 75 76 85 97 77 72 90
## [55] 87 82 99 87 85 86 86 72 82 83 77 100 77 80 93 96 81 81
## [73] 95 79 80 93 95 85 84 81 75 78 91 90 80 90 100 80 79 79
## [91] 70 96 94 78 76 83 100 94 86 71
dist2
## [1] 76 76 86 72 94 83 71 70 88 90 75 77 89 100 73 78 91 92
## [19] 83 94 85 97 74 88 94 95 100 88 100 100 98 90 72 86 93 78
## [37] 91 97 78 99 74 85 73 78 75 97 81 94 80 88 79 77 100 84
## [55] 79 93 88 98 88 87 77 86 100 85 72 82 72 94 75 99 74 92
## [73] 72 96 84 84 94 75 78 71 89 87 98 77 98 70 80 93 86 74
## [91] 74 97 99 85 100 84 99 78 89 93
dist3
## [1] 92 84 92 95 96 92 92 71 85 87 87 89 74 70 92 85 75 94
## [19] 97 86 93 77 93 88 93 100 76 91 96 77 100 89 94 98 82 93
## [37] 72 73 76 89 92 88 87 88 87 97 86 74 75 76 90 75 97 89
## [55] 78 89 73 89 72 79 74 80 72 92 70 82 70 82 91 97 74 90
## [73] 78 89 71 77 100 70 70 71 70 70 85 72 90 76 81 95 84 93
## [91] 78 77 95 88 76 71 95 88 96 84
frecuenciadist1 <- table(dist1)
n <- length(dist1) # tama;o de la muestra
frecuenciadist1
## dist1
## 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 90
## 2 1 4 1 1 5 4 4 4 4 5 4 4 2 1 5 4 4 3 3
## 91 92 93 94 95 96 97 98 99 100
## 5 1 5 2 6 4 3 4 2 3
frecuenciadist2 <- table(dist2)
n <- length(dist2) # tama;o de la muestra
frecuenciadist2
## dist2
## 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89
## 2 2 5 2 5 4 2 4 6 2 2 1 1 2 4 4 4 2 6 3
## 90 91 92 93 94 95 96 97 98 99 100
## 2 2 2 4 6 1 1 4 4 4 7
frecuenciadist3 <- table(dist3)
n <- length(dist3) # tama;o de la muestra
frecuenciadist3
## dist3
## 70 71 72 73 74 75 76 77 78 79 80 81 82 84 85 86 87 88 89 90
## 7 4 4 2 4 3 5 4 3 1 1 1 3 3 3 2 4 5 7 3
## 91 92 93 94 95 96 97 98 100
## 2 7 5 2 4 3 4 1 3
Paso : Aqui sacamos la moda
moda1 <- names(frecuenciadist1[frecuenciadist1 == max(frecuenciadist1)])
moda1
## [1] "95"
moda2 <- names(frecuenciadist2[frecuenciadist2 == max(frecuenciadist2)])
moda2
## [1] "100"
moda3 <- names(frecuenciadist3[frecuenciadist3 == max(frecuenciadist3)])
moda3
## [1] "70" "89" "92"
Paso : Histogramas
hist(dist1)

hist(dist2)

hist(dist3)

Generar cuartiles de cada distribución
quantile (dist1, prob = c(0.25, 0.50, 0.75))
## 25% 50% 75%
## 78 85 93
quantile (dist2, prob = c(0.25, 0.50, 0.75))
## 25% 50% 75%
## 77 86 94
quantile (dist3, prob = c(0.25, 0.50, 0.75))
## 25% 50% 75%
## 76.0 86.5 92.0
Sacamos El rango de cada uno de los datos
rango <- range(dist1)
rango <- max(dist1)-min(dist1)
rango
## [1] 30
rango <- range(dist2)
rango <- max(dist2)-min(dist2)
rango
## [1] 30
rango <- range(dist3)
rango <- max(dist3)-min(dist3)
rango
## [1] 30
Sacamos El rango intercuartilico de cada conjunto de datos.
qua1<-quantile (dist1, prob = c(0.25, 0.50))
qua1 <- max(qua1)-min(qua1)
qua1
## [1] 7
qua2<-quantile (dist2, prob = c(0.25, 0.50))
qua2 <- max(qua2)-min(qua2)
qua2
## [1] 9
qua3<-quantile (dist3, prob = c(0.25, 0.50))
qua3 <- max(qua3)-min(qua3)
qua3
## [1] 10.5
Varianza y desviacion estandar de cada conjunto de datos.
varianza1 <- var(dist1)
desvstd1 <- sd(dist1)
desvstd1
## [1] 8.592333
varianza1
## [1] 73.82818
varianza2 <- var(dist2)
desvstd2 <- sd(dist2)
desvstd2
## [1] 9.378995
varianza2
## [1] 87.96556
varianza3 <- var(dist3)
desvstd3 <- sd(dist3)
desvstd3
## [1] 9.157985
varianza3
## [1] 83.86869
Determina el coeficiente de variación para cada distribución y mencione ¿CUÁL? distribución tiene mayor variabilidad y¿PORQUÉ?
coefvar1 <- desvstd1 / mean(dist1) * 100
coefvar1
## [1] 10.05069
coefvar2 <- desvstd2 / mean(dist2) * 100
coefvar2
## [1] 10.94271
coefvar3 <- desvstd3 / mean(dist3) * 100
coefvar3
## [1] 10.86356
A continuacion se presentan los diagramas de dispercion de todos los conjuntos
plot(dist1, col = "red")

plot(dist2, col = "blue")

plot(dist3, col = "green")

Verifique de manera visual el grado de hetereogeneidad u homogeneidad, ES DECIR LA VARIABILIDAD
boxplot(dist1, dist2, dist3)

——–
INTERPRETACION DE LOS DATOS
Como los datos no tienen ninguna intepretacion por si solos ya que simplemente generamos un conjunto de datos aleatorios sin un contexto o una finalidad, como tal no tienen una utilidad, sin embargo el ejemplo de este caso nos srive perfectamente para darnos cuenta de un caso.
Los datos que tenemos actualmente tienen cierto grado de homogeneidad como podemos observar en la grafica final, esto quiere decir que los conjuntos de los datos no estan separados los unos de los otros tanto, pero al analizarlos indivudalmente con la grafica de frecuencias (histogramas) o la grafica de dispersion, nos damos cuenta que los datos tienen bastante separiacion entre si aumentando las probibilidades de un error estadistico al tener un margen tan amplio, por lo que los datos de un conjunto como tal que presenten una variacion tan enorme todos entre si, se podrian considerar como datos erroneos por la dispersion que hay entre ellos, por lo que los valores centrales pierden credibilidad, teniendo que hacer una nueva recoleccion de datos para disminuir ese margen de dispersion.
——–
——–
——–
——–