En R, se incluyen por defecto paquetes que cuentan con una serie de conjunto s de datos o datasets con vectores de ejemplo. El vector precip incluye datos sobre la lluvia media en 70 ciudades norteamericanas. Para ver la información de este vector ejecuta las siguientes ordenes:
?precip
## starting httpd help server ... done
precip
## Mobile Juneau Phoenix Little Rock
## 67.0 54.7 7.0 48.5
## Los Angeles Sacramento San Francisco Denver
## 14.0 17.2 20.7 13.0
## Hartford Wilmington Washington Jacksonville
## 43.4 40.2 38.9 54.5
## Miami Atlanta Honolulu Boise
## 59.8 48.3 22.9 11.5
## Chicago Peoria Indianapolis Des Moines
## 34.4 35.1 38.7 30.8
## Wichita Louisville New Orleans Portland
## 30.6 43.1 56.8 40.8
## Baltimore Boston Detroit Sault Ste. Marie
## 41.8 42.5 31.0 31.7
## Duluth Minneapolis/St Paul Jackson Kansas City
## 30.2 25.9 49.2 37.0
## St Louis Great Falls Omaha Reno
## 35.9 15.0 30.2 7.2
## Concord Atlantic City Albuquerque Albany
## 36.2 45.5 7.8 33.4
## Buffalo New York Charlotte Raleigh
## 36.1 40.2 42.7 42.5
## Bismark Cincinnati Cleveland Columbus
## 16.2 39.0 35.0 37.0
## Oklahoma City Portland Philadelphia Pittsburg
## 31.4 37.6 39.9 36.2
## Providence Columbia Sioux Falls Memphis
## 42.8 46.4 24.7 49.1
## Nashville Dallas El Paso Houston
## 46.0 35.9 7.8 48.2
## Salt Lake City Burlington Norfolk Richmond
## 15.2 32.5 44.7 42.6
## Seattle Tacoma Spokane Charleston Milwaukee
## 38.8 17.4 40.8 29.1
## Cheyenne San Juan
## 14.6 59.2
Para crear un histograma
hist(precip)
Para crear un histograma con frecuencias relativas
hist(precip, freq=FALSE)
Los histogramas muestran distribuciones en sucesos cuantitativos discretos o continuos, e implícitamente realizan la ordenación y agrupación de los valores del vector por rangos. Para indicar el número de grupos se usa el parámetro breaks.
hist(precip, breaks=20)
#Diagramas de barras y de tarta Los diagramas de barras muestran ocurrencias en sucesos agrupados en un vector etiquetado. Por ejemplo
ventas <- c(345.3, 452.1, 395.6)
names(ventas) <- c("Pedro", "Juan", "Maria")
barplot(ventas, main="Ventas España", ylab="Miles de euros")
Una forma alternativa de representar estos datos cualitativos es el de tarta.
pie(ventas, main="Ventas España", ylab="Miles de euros")
#Gráfico de dispersión
dotchart(ventas, main="Ventas España", ylab="Miles de euros")
##Ejemplo de selectores
Tomando como fuente de datos el vector state que contiene las abreviaturas y áreas de los 50 estados norteamericanos se puede ejecutar
state.abb
## [1] "AL" "AK" "AZ" "AR" "CA" "CO" "CT" "DE" "FL" "GA" "HI" "ID" "IL" "IN" "IA"
## [16] "KS" "KY" "LA" "ME" "MD" "MA" "MI" "MN" "MS" "MO" "MT" "NE" "NV" "NH" "NJ"
## [31] "NM" "NY" "NC" "ND" "OH" "OK" "OR" "PA" "RI" "SC" "SD" "TN" "TX" "UT" "VT"
## [46] "VA" "WA" "WV" "WI" "WY"
state.area
## [1] 51609 589757 113909 53104 158693 104247 5009 2057 58560 58876
## [11] 6450 83557 56400 36291 56290 82264 40395 48523 33215 10577
## [21] 8257 58216 84068 47716 69686 147138 77227 110540 9304 7836
## [31] 121666 49576 52586 70665 41222 69919 96981 45333 1214 31055
## [41] 77047 42244 267339 84916 9609 40815 68192 24181 56154 97914
Las ordenes necesarias para para crear un diagrama de barras donde el eje horizontal tenga los estados con más de 100.000 millas cuadradas, y el vertical sus áreas, son las siguientes y el resultado se muestra a continuación:
superficie<-state.area[state.area>100000]
superficie
## [1] 589757 113909 158693 104247 147138 110540 121666 267339
names(superficie)<- c(state.abb[state.area>100000])
names(superficie)
## [1] "AK" "AZ" "CA" "CO" "MT" "NV" "NM" "TX"
barplot(superficie,main="Estados Grandes",ylab="Superficie (mi2)" )
#Otros tipos de dataset
Dado el dataset precip, de la media de las precipitaciones anuales en 70 ciudades de Estados Unidos, en este caso, los valores están asociados a los nombres, luego no es necesario hacer combinaciones como en el caso de state.
precip
## Mobile Juneau Phoenix Little Rock
## 67.0 54.7 7.0 48.5
## Los Angeles Sacramento San Francisco Denver
## 14.0 17.2 20.7 13.0
## Hartford Wilmington Washington Jacksonville
## 43.4 40.2 38.9 54.5
## Miami Atlanta Honolulu Boise
## 59.8 48.3 22.9 11.5
## Chicago Peoria Indianapolis Des Moines
## 34.4 35.1 38.7 30.8
## Wichita Louisville New Orleans Portland
## 30.6 43.1 56.8 40.8
## Baltimore Boston Detroit Sault Ste. Marie
## 41.8 42.5 31.0 31.7
## Duluth Minneapolis/St Paul Jackson Kansas City
## 30.2 25.9 49.2 37.0
## St Louis Great Falls Omaha Reno
## 35.9 15.0 30.2 7.2
## Concord Atlantic City Albuquerque Albany
## 36.2 45.5 7.8 33.4
## Buffalo New York Charlotte Raleigh
## 36.1 40.2 42.7 42.5
## Bismark Cincinnati Cleveland Columbus
## 16.2 39.0 35.0 37.0
## Oklahoma City Portland Philadelphia Pittsburg
## 31.4 37.6 39.9 36.2
## Providence Columbia Sioux Falls Memphis
## 42.8 46.4 24.7 49.1
## Nashville Dallas El Paso Houston
## 46.0 35.9 7.8 48.2
## Salt Lake City Burlington Norfolk Richmond
## 15.2 32.5 44.7 42.6
## Seattle Tacoma Spokane Charleston Milwaukee
## 38.8 17.4 40.8 29.1
## Cheyenne San Juan
## 14.6 59.2
Crear un diagrama de barras donde el eje horizontal tenga las ciudades con precipitaciones de más de 30 pulgadas pero menor de 60 y en el vertical las precipitaciones.
precipitaciones<-precip[precip>30 & precip<60]
barplot(precipitaciones,main="Estados con precipitaciones entre 30 y 60",ylab="precipitaciones en pulgadas", xlab ="Ciudades", ylim=c(0,60))
barplot(precipitaciones,main="Estados con precipitaciones entre 30 y 60",ylab="precipitaciones en pulgadas", xlab ="Ciudades", ylim=c(0,60), las=2)
En este caso se ven mejor los nombres de las ciudades, pero no se ve la etiqueta del eje, es algo que no resuelve bien R. Esto se ha conseguido poniendo el parámetro las=2
##Frecuencias forma de obtener las frecuencias absolutas de variables cuantitativas en un vector es con la función table().
numhijos<-c(2,1,3,2,3,6,4,2,2,1)
fabs<-table(numhijos)
barplot(fabs,ylab="Frecuencias absolutas",main="Diagrama de barras de Número de hijos")
plot(fabs,type="l", main=c("Poligono de frecuencias absolutas de Número de hijos"),ylab="Frecuencias absolutas")
El paquete datasets incluye el vector discoveries con el número de descubrimientos importantes entre 1860 y 1959. A continuación, se muestra la forma de obtener las frecuencias y sus representaciones:
fabs<-table(discoveries)
barplot(fabs,ylab="Frecuencias absolutas ",xlab="número de descubrimientos", main="Frecuencias absolutas Descubrimientos entre los años 1860 y 1959")