Representación de datos

En R, se incluyen por defecto paquetes que cuentan con una serie de conjunto s de datos o datasets con vectores de ejemplo. El vector precip incluye datos sobre la lluvia media en 70 ciudades norteamericanas. Para ver la información de este vector ejecuta las siguientes ordenes:

?precip
## starting httpd help server ... done
precip
##              Mobile              Juneau             Phoenix         Little Rock 
##                67.0                54.7                 7.0                48.5 
##         Los Angeles          Sacramento       San Francisco              Denver 
##                14.0                17.2                20.7                13.0 
##            Hartford          Wilmington          Washington        Jacksonville 
##                43.4                40.2                38.9                54.5 
##               Miami             Atlanta            Honolulu               Boise 
##                59.8                48.3                22.9                11.5 
##             Chicago              Peoria        Indianapolis          Des Moines 
##                34.4                35.1                38.7                30.8 
##             Wichita          Louisville         New Orleans            Portland 
##                30.6                43.1                56.8                40.8 
##           Baltimore              Boston             Detroit    Sault Ste. Marie 
##                41.8                42.5                31.0                31.7 
##              Duluth Minneapolis/St Paul             Jackson         Kansas City 
##                30.2                25.9                49.2                37.0 
##            St Louis         Great Falls               Omaha                Reno 
##                35.9                15.0                30.2                 7.2 
##             Concord       Atlantic City         Albuquerque              Albany 
##                36.2                45.5                 7.8                33.4 
##             Buffalo            New York           Charlotte             Raleigh 
##                36.1                40.2                42.7                42.5 
##             Bismark          Cincinnati           Cleveland            Columbus 
##                16.2                39.0                35.0                37.0 
##       Oklahoma City            Portland        Philadelphia           Pittsburg 
##                31.4                37.6                39.9                36.2 
##          Providence            Columbia         Sioux Falls             Memphis 
##                42.8                46.4                24.7                49.1 
##           Nashville              Dallas             El Paso             Houston 
##                46.0                35.9                 7.8                48.2 
##      Salt Lake City          Burlington             Norfolk            Richmond 
##                15.2                32.5                44.7                42.6 
##      Seattle Tacoma             Spokane          Charleston           Milwaukee 
##                38.8                17.4                40.8                29.1 
##            Cheyenne            San Juan 
##                14.6                59.2

Histograma

Para crear un histograma

hist(precip)

Para crear un histograma con frecuencias relativas

hist(precip, freq=FALSE)

Los histogramas muestran distribuciones en sucesos cuantitativos discretos o continuos, e implícitamente realizan la ordenación y agrupación de los valores del vector por rangos. Para indicar el número de grupos se usa el parámetro breaks.

hist(precip, breaks=20)

#Diagramas de barras y de tarta Los diagramas de barras muestran ocurrencias en sucesos agrupados en un vector etiquetado. Por ejemplo

ventas <- c(345.3, 452.1, 395.6)
names(ventas) <- c("Pedro", "Juan", "Maria")
barplot(ventas, main="Ventas España", ylab="Miles de euros")

Una forma alternativa de representar estos datos cualitativos es el de tarta.

pie(ventas, main="Ventas España", ylab="Miles de euros")

#Gráfico de dispersión

dotchart(ventas, main="Ventas España", ylab="Miles de euros")

##Ejemplo de selectores

Tomando como fuente de datos el vector state que contiene las abreviaturas y áreas de los 50 estados norteamericanos se puede ejecutar

state.abb
##  [1] "AL" "AK" "AZ" "AR" "CA" "CO" "CT" "DE" "FL" "GA" "HI" "ID" "IL" "IN" "IA"
## [16] "KS" "KY" "LA" "ME" "MD" "MA" "MI" "MN" "MS" "MO" "MT" "NE" "NV" "NH" "NJ"
## [31] "NM" "NY" "NC" "ND" "OH" "OK" "OR" "PA" "RI" "SC" "SD" "TN" "TX" "UT" "VT"
## [46] "VA" "WA" "WV" "WI" "WY"
state.area
##  [1]  51609 589757 113909  53104 158693 104247   5009   2057  58560  58876
## [11]   6450  83557  56400  36291  56290  82264  40395  48523  33215  10577
## [21]   8257  58216  84068  47716  69686 147138  77227 110540   9304   7836
## [31] 121666  49576  52586  70665  41222  69919  96981  45333   1214  31055
## [41]  77047  42244 267339  84916   9609  40815  68192  24181  56154  97914

Las ordenes necesarias para para crear un diagrama de barras donde el eje horizontal tenga los estados con más de 100.000 millas cuadradas, y el vertical sus áreas, son las siguientes y el resultado se muestra a continuación:

superficie<-state.area[state.area>100000]
superficie
## [1] 589757 113909 158693 104247 147138 110540 121666 267339
names(superficie)<- c(state.abb[state.area>100000])
names(superficie)
## [1] "AK" "AZ" "CA" "CO" "MT" "NV" "NM" "TX"
barplot(superficie,main="Estados Grandes",ylab="Superficie (mi2)" )

#Otros tipos de dataset

Dado el dataset precip, de la media de las precipitaciones anuales en 70 ciudades de Estados Unidos, en este caso, los valores están asociados a los nombres, luego no es necesario hacer combinaciones como en el caso de state.

precip
##              Mobile              Juneau             Phoenix         Little Rock 
##                67.0                54.7                 7.0                48.5 
##         Los Angeles          Sacramento       San Francisco              Denver 
##                14.0                17.2                20.7                13.0 
##            Hartford          Wilmington          Washington        Jacksonville 
##                43.4                40.2                38.9                54.5 
##               Miami             Atlanta            Honolulu               Boise 
##                59.8                48.3                22.9                11.5 
##             Chicago              Peoria        Indianapolis          Des Moines 
##                34.4                35.1                38.7                30.8 
##             Wichita          Louisville         New Orleans            Portland 
##                30.6                43.1                56.8                40.8 
##           Baltimore              Boston             Detroit    Sault Ste. Marie 
##                41.8                42.5                31.0                31.7 
##              Duluth Minneapolis/St Paul             Jackson         Kansas City 
##                30.2                25.9                49.2                37.0 
##            St Louis         Great Falls               Omaha                Reno 
##                35.9                15.0                30.2                 7.2 
##             Concord       Atlantic City         Albuquerque              Albany 
##                36.2                45.5                 7.8                33.4 
##             Buffalo            New York           Charlotte             Raleigh 
##                36.1                40.2                42.7                42.5 
##             Bismark          Cincinnati           Cleveland            Columbus 
##                16.2                39.0                35.0                37.0 
##       Oklahoma City            Portland        Philadelphia           Pittsburg 
##                31.4                37.6                39.9                36.2 
##          Providence            Columbia         Sioux Falls             Memphis 
##                42.8                46.4                24.7                49.1 
##           Nashville              Dallas             El Paso             Houston 
##                46.0                35.9                 7.8                48.2 
##      Salt Lake City          Burlington             Norfolk            Richmond 
##                15.2                32.5                44.7                42.6 
##      Seattle Tacoma             Spokane          Charleston           Milwaukee 
##                38.8                17.4                40.8                29.1 
##            Cheyenne            San Juan 
##                14.6                59.2

Crear un diagrama de barras donde el eje horizontal tenga las ciudades con precipitaciones de más de 30 pulgadas pero menor de 60 y en el vertical las precipitaciones.

precipitaciones<-precip[precip>30 & precip<60]
barplot(precipitaciones,main="Estados con precipitaciones entre 30 y 60",ylab="precipitaciones en pulgadas", xlab ="Ciudades", ylim=c(0,60))

barplot(precipitaciones,main="Estados con precipitaciones entre 30 y 60",ylab="precipitaciones en pulgadas", xlab ="Ciudades", ylim=c(0,60), las=2)

En este caso se ven mejor los nombres de las ciudades, pero no se ve la etiqueta del eje, es algo que no resuelve bien R. Esto se ha conseguido poniendo el parámetro las=2

##Frecuencias forma de obtener las frecuencias absolutas de variables cuantitativas en un vector es con la función table().

numhijos<-c(2,1,3,2,3,6,4,2,2,1)
fabs<-table(numhijos)
barplot(fabs,ylab="Frecuencias absolutas",main="Diagrama de barras de Número de hijos")

plot(fabs,type="l", main=c("Poligono de frecuencias absolutas de Número de hijos"),ylab="Frecuencias absolutas")

El paquete datasets incluye el vector discoveries con el número de descubrimientos importantes entre 1860 y 1959. A continuación, se muestra la forma de obtener las frecuencias y sus representaciones:

fabs<-table(discoveries)
barplot(fabs,ylab="Frecuencias absolutas ",xlab="número de descubrimientos",  main="Frecuencias absolutas Descubrimientos  entre los años 1860 y 1959")