función que permite crear un marco de datos # = matriz de datos personas <- data.frame(nombres, edades, zonas) persona de un conjunto de datos usando funciones de R.
El proceso de este caso permite identificar las medidas de localización Nombres, Edades y Zonas.
Primero se presenta como determinar los estadísticos manualmente por medio de programación y luego se identifica como determinar estos mismos valores estadísticos de manera más sencilla por medio de funciones que existen en los paquete base de R para nombres, Edades y Zonas.
En el proceso, los datos se visualizan por medio de la librería ggplot previamente instalada, el gráfico que se muestra es el histograma con lineas verticales que representan Nombres, Edades y Zonas.
Finalmente se hace una interpretación del caso identificando la simetría o asimetría del mismo.
El software estadístico moderno como el lenguaje de programación R, permite el cálculo de Nombres , Edaes, y Zonas.
Se construyen los valores de la muestra a partir de un vector llamado datos.
El contexto de los datos puede ser, edades, nombres y zonas.
nombres <- c("Rubén", "Paty", "Lucy",
"Carlos", "Lalo", "Diana",
"Alejandro", "Cristian", "Regina", "Omar")
edades <- c(51, 45, 34,
19, 21, 22,
23, 20, 34, 19)
zonas <- c("SUR", "NORTE", "CENTRO", "CENTRO", "SUR",
"SUR", "NORTE", "CENTRO", "SUR", "NORTE")
[1]51, 45, 34
[26] 19,21,22
[51] 23,20,34,19
El símbolo de ‘;’ en R en una misma linea significa que se peden tomar como diferentes instrucciones para ahorrar lineas o renglones en el bloque de código.
Se determina el valor de n o la cantidad de elementos en los datos con la función length().
La función paste() vista en otros casos, simplemente imprime en pantalla valores, posiblemente concatenados separados con la coma ‘,’.
El paquete ggplot2 permite crear gráficas y visualizar datos de una manera más elegante y amigable, es uno de los paquete más utilizados en R para representar y visualizar datos.
Las siguiente instrucciones utilizan el paquete ggplot() previamente instalado con install.packages(“ggplot2”) es una librería.
Algunos tutoriales sobre ggplot se encuentran en los siguientes enlaces:
https://rpubs.com/anlope10/562981
http://r-statistics.co/Complete-Ggplot2-Tutorial-Part1-With-R-Code.html
https://www.datanalytics.com/libro_r/introduccion-a-ggplot2.html
https://rstudio.com/wp-content/uploads/2015/04/ggplot2-spanish.pdf
library(ggplot2)
Las siguiente lineas permiten crear un conjunto de datos data.frame a partir del vector de datos. Esto transformación de datos tiene la finalidad de tratar con data.frame en lugar de vector y es más práctico para efecto de visualización de datos con ggplot().
{r} df.datos <- data.frame(datos) df.datos
datos
1 51
2 45
3 34
4 19
5 21
6 22
7 23
8 20
9 34
10 19
{r}ggplot(data = df.datos, mapping = aes(x = datos)) + geom_histogram(bins = 30) + ggtitle('Histograma de datos') + xlab('nombres') + ylab('zonas') + zlab('edades')
Interpretación: De acuerdo y conforme a la gráfica la distribución es asimétrica con sesgo positivo dado que la media es mayor que la mediana.
Los valores máximos y mínimos de un conjunto de dato son los valores de la lista de valores más pequeños y mas grande en la lista de los datos. Se puede observar los valores máximos y mínimos con los datos ordenados y verificar el primer y último elemento de la lista. Se utiliza el vector de datos ordenados.
[1] 22 24 34 34 35 40 40 43 43 43 45 45 45 45 45 45 45 45 45 45 46 46 46 47 47
[26] 50 50 50 50 50 50 50 50 50 54 54 54 54 55 55 55 56 56 60 60 60 65 65 65 68
[51] 68 70 70 70 70 75 76 80 90 95
Se puede determinar con las funciones max() y min() para encontrar los valores máximos y mínimos respectivamente.