En el presente trabajo se realizaran distintos ejercicios de estadística básicos con la finalidad de que se llegue a famililiarizar con estos conceptos nuevos y con el programa. El propósito de utilizar este nueva plataforma es para que cualquier persona pueda replicar los mismos ejercicios del documento.
La organización de la información implica estructurar y ordenar datos para facilitar su análisis e interpretación. En el caso de las variables cualitativas, que describen cualidades o características como colores o estados civiles, se utilizan herramientas como tablas de frecuencias para mostrar cómo se distribuyen los datos. Estas tablas incluyen categorías, frecuencias absolutas y relativas para dar una visión clara de cuántas veces aparece cada valor en un conjunto de datos.
Los diagramas circulares y de barras son representaciones gráficas comunes para variables cualitativas. Los diagramas circulares dividen un círculo en porciones proporcionales a la frecuencia de cada categoría, siendo más efectivos con pocas categorías. Los diagramas de barras utilizan barras rectangulares para representar las frecuencias de las categorías, permitiendo una comparación visual directa y clara entre ellas.
Suponga que en cierta escuela las calificaciones de sus estudiantes se clasifican en Insuficiente, Bajo, Regular, Medio y Alto. Cada una de ellas es representada por sus iniciales, as´ı: Insuficiente: “I” Bueno: “B” Regular: “R” Medio: “M” Alto: “A” En cierto curso de noveno los resultados de la prueba de matem´aticas fueron los siguientes: (A,A, B, B, B, B, B,I,I,I,R,I,I,I,R,R, R,R,R,R,R,R,R,R,R,M, M, M, M, M, M, M, M, M, M, M, M, M,A,A)
Lo primero que tenemos que hacer es colocar los datos en el programa R.
Resultados <- c("A","A","B","B","B","B","B","I","I","I","R","I","I","I","R","R","R","R","R","R","R","R","R","R","R","M","M","M","M","M","M","M","M","M","M","M","M","M","A","A")
Ahora haremos una tabla de frecuencias absolutas.
## Resultados
## A B I M R
## 4 5 6 13 12
Para poder hacer la tabla de freccuencias relativas hacemos:
Luego de ello hacemos la siguiente operación: X / 40
## Resultados
## A B I M R
## 0.100 0.125 0.150 0.325 0.300
Ahora construiremos un diagrama circular:
slices <- c(4,5,13,12,6)
lbls = c("Alto", "Bueno","Medio","Regular", "Insuficiente")
pie(slices, labels = lbls, main="Diagrama Circular Calificaciones")
Ahora crearemos un gráfico de barras.
x=c(4,5,13,12,6)
y=c("Alto", "Bueno","Medio","Regular","Insuf")
barplot(x,names.arg=y,main="Diagrama de Barras Calificaciones")
Las medidas de tendencia central y de dispersión son herramientas fundamentales en el análisis estadístico, utilizadas para resumir y describir conjuntos de datos de manera clara y comprensible. Estas medidas permiten identificar patrones, evaluar la variabilidad de los datos y obtener una comprensión más profunda de su distribución. Entre las medidas de tendencia central más comunes se encuentran la media y la mediana, mientras que para la dispersión de los datos se utilizan medidas como el máximo, mínimo y la desviación estándar.
La media es el promedio aritmético de un conjunto de valores, que se calcula sumando todos los datos y dividiendo el resultado entre el número total de observaciones. Es una medida útil para entender el valor central de los datos, aunque puede ser influenciada por valores extremos. La mediana, por otro lado, es el valor que se encuentra en el centro de un conjunto de datos ordenado; es resistente a valores atípicos y proporciona una visión más robusta del centro de los datos en distribuciones asimétricas.
Las medidas de dispersión como el máximo y el mínimo nos indican los valores extremos del conjunto de datos, ayudándonos a comprender el rango en el que varían las observaciones. Finalmente, la desviación estándar mide la cantidad de variación o dispersión de los datos respecto a la media, proporcionando una idea clara de cuán dispersos están los valores en torno al promedio. En conjunto, estas medidas de tendencia central y dispersión son esenciales para analizar y comparar datos, permitiendo una evaluación más completa y precisa de la información.
Un estudio realizado por la Federación Colombiana de Gestión Humana en el año 2016, muestra que los salarios mínimos para algunos países de latinoamerica en dólares son los siguientes:
Argentina: 432,21 Bolivia: 239,48 Brasil:249,94 Chile:373,22 Colombia:233,86 Ecuador:366 Paraguay:331,11 Perú: 258,86 Uruguay: 349,20 Venezuela: 31,60
En primer lugar introduciremos los datos.
Ahora sacaremos la media aritmética:
## [1] 286.548
Después de ello podemos sacar la mediana también:
## [1] 294.985
Podemos ver cual es el dato máximo:
## [1] 432.21
Podemos ver el dato mínimo:
## [1] 31.6
Ahora ya para ver algo impotante también podemos ver la desviación estándar.
## [1] 112.0763
Los percentiles son medidas estadísticas que dividen un conjunto de datos ordenado en 100 partes iguales, cada una representando un porcentaje del total. Indican la posición relativa de un valor dentro de una distribución, ayudando a comprender cómo se comparan los datos individuales con el resto del conjunto. Por ejemplo, si un valor se encuentra en el percentil 70, esto significa que el 70% de los datos son iguales o menores que ese valor, y el 30% son mayores. Los percentiles son ampliamente utilizados en diversas áreas, como la evaluación de resultados académicos, estudios médicos y análisis de rendimiento, ya que permiten interpretar la posición de un dato en relación con el grupo al que pertenece.
Considera la edad de estos 42 estudiante:
20,17,18,25,23,15,18,22,21,22,23,23,19,20,30,25,24,25,21,24,24,21,23,22, 26,24,23,21,21,18,21,23,24,16,17,19,26,23,24,18,21,33
Ahora introduciremos los datos al programa:
Edades <- c(20,17,18,25,23,15,18,22,21,22,23,23,19,20,30,25,24,25,21,24,24,21,23,22,
26,24,23,21,21,18,21,23,24,16,17,19,26,23,24,18,21,33)
Ahora para una mejor comprensión ordenaremos las edades :
## [1] 15 16 17 17 18 18 18 18 19 19 20 20 21 21 21 21 21 21 21 22 22 22 23 23 23
## [26] 23 23 23 23 24 24 24 24 24 24 25 25 25 26 26 30 33
Ahora ya podremos desarrollar el tema:
## 0% 25% 50% 75% 100%
## 15 20 22 24 33
Suponga que los pesos de 12 estudiantes en kilogramos son: 67, 68, 70, 72, 65, 66, 67, 71, 72, 70, 71, 100. Realizar dos diagramas de cajas y bigotes donde en una de ellas se tengan en cuenta todos los datos y en la otra no se tenga en cuenta el dato mayor. Realizar los gráficos en una misma ventana.
Un diagrama de caja (también conocido como box plot o box-and-whisker plot) es una representación gráfica que muestra la distribución de un conjunto de datos a través de sus cuartiles. Es una herramienta útil para visualizar la variabilidad, la dispersión, y detectar posibles valores atípicos en un conjunto de datos.
Para ello elaboraremos dos diagramas uno excluyendo el dato mayor y el otro sin excluirlo.
x=c(67,68,70,72,65,66,67,71,72,70,71,100)
y=c(67,68,70,72,65,66,67,71,72,70,71)
par(mfrow=c(1,2))
boxplot(x)
boxplot(y)