Objetivo
Queremos realizar diferentes gráficos en R para comprender como son nuestros datos. Dependiendo de la naturaleza de nuestras variables debemos optar por uno u otro. Se trata de poder hacer un primer análisis visual de nuestros datos, y a partir de ellos empezar a sacar las primeras conclusiones preliminares.
Nota: Algunos graficos no poseen la mejor asimetria y/o apariencia, esto es debido a las bases de datos utilizados en algunos de ellos, el objetivo del documento es ver como es la sintaxis para realizar los graficos.
1. importacion de los datos
library(readr)
library(dplyr)
package <U+393C><U+3E31>dplyr<U+393C><U+3E32> was built under R version 3.5.3
Attaching package: <U+393C><U+3E31>dplyr<U+393C><U+3E32>
The following objects are masked from <U+393C><U+3E31>package:stats<U+393C><U+3E32>:
filter, lag
The following objects are masked from <U+393C><U+3E31>package:base<U+393C><U+3E32>:
intersect, setdiff, setequal, union
datos <-read_csv("C:/Users/74/Desktop/practica R/graficos.csv")
Parsed with column specification:
cols(
Y = [32mcol_double()[39m,
X1 = [32mcol_double()[39m,
X2 = [32mcol_double()[39m
)
head(datos,n=6)
2. BARRAS
Gráfico de barras. Es adecuado para variables dependientes agrupadas por tratamientos (por ejemplo la altura media de los ciudadanos de tres ciudades). No se puede hacer directamente, se requiere el cálculo de la media y la desviación de nuestras variables dependientes en función del tratamiento.
Primero hay que calcular la media y la desviación de nuestros datos en función del tratamiento y para cada variable:
mediasvar1<-aggregate(datos$X1~datos$Y, FUN=mean)
sdvar1<-aggregate(datos$X1~datos$Y, FUN=sd)
mediasvar1
library(plyr)
medvar1<-ddply(datos,.(Y), summarize, mean=mean(X1))
sdvar1<-ddply(datos,.(Y), summarize, sd=sd(X1))
str(medvar1)
'data.frame': 5 obs. of 2 variables:
$ Y : num 1 2 3 4 5
$ mean: num 3.45 3.2 6.62 9.75 32.54
Ahora representamos esas medias en función de cada tratamiento:
BARRAS<-barplot(medvar1$mean, axes=FALSE,axisname=FALSE, ylim=c(0,100),
col=c('green', 'gray','blue','dimgray','yellow'),main="Titulo",
xlab="Y", ylab="X1")
axis(1,labels=c("control", "T1","T2","T3","T4"), at=BARRAS)
axis(2,at=seq(0,100,by=10))

Barras de error
Las barras de error son representaciones gráficas de la variabilidad de los datos, y se usan en gráficos para indicar el error o la incertidumbre en una determinada medida. Dan una idea general de lo precisa que es una medición o, a la inversa, a qué distancia del valor indicado puede estar el valor verdadero (sin errores) del elemento medido. Las barras de error a menudo representan una incertidumbre utilizando una desviación típica, un error estándar o un intervalo de confianza particular (por ejemplo, un intervalo del 95%). Estas cantidades no expresan necesariamente valores coincidentes, por lo que debe indicarse explícitamente en el gráfico o en el texto de apoyo cuál es el indicador del error utilizado.
Se pueden usar para comparar visualmente dos cantidades, e implicitamente, si se cumplen determinadas condiciones, permiten determinar a simple vista si las diferencias son de significación estadística. Las barras de error también pueden sugerir la bondad de ajuste de una función dada, es decir, la exactitud con la que la función describe los datos.
BARRAS<-barplot(medvar1$mean, axes=FALSE,axisname=FALSE, ylim=c(0,100),
col=c('blue', 'red','yellow','dimgray','green'),main="Título",
xlab="Y", ylab="X1")
axis(1,labels=c("control", "T1","T2","T3","T4"), at=BARRAS)
axis(2,at=seq(0,100,by=10))
segments(BARRAS-0.1,medvar1$mean-sdvar1$sd,BARRAS+0.1,medvar1$mean-sdvar1$sd,lwd=2)
segments(BARRAS-0.1,medvar1$mean+sdvar1$sd,BARRAS+0.1,medvar1$mean+sdvar1$sd,lwd=2)
segments(BARRAS,medvar1$mean-sdvar1$sd,BARRAS,medvar1$mean+sdvar1$sd,lwd=2)

3. BOXPLOT
También conocido como diagrama de caja y bigote, box plot, box-plot o boxplot. Es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, el diagrama de caja muestra a simple vista la mediana y los cuartiles de los datos, pudiendo también representar los valores atípicos de estos.
boxplot(X1 ~ Y, data=datos, col="green", cex.axis=0.7,las = 2, ylab="X1", xlab="Y", cex.lab=0.75)

boxplot(X2 ~ Y, data=datos, col="red", cex.axis=0.7,las = 2, ylab="X2", xlab="y", cex.lab=0.75)

Estos gráficos se interpretan de la siguiente manera: LA LÍNEA que separa el rectángulo en dos es la MEDIANA (varible en posición central de un conjunto de datos). LOS EXTREMOS DEL RECTÁNGULO son los cuartiles extremos, es decir en el recuadro están el 75% de nuestros datos.
4. BAGPLOT
Un diagrama de bolsas, o diagrama de explosión estelar, es un método en estadísticas robustas para visualizar datos estadísticos bidimensionales o tridimensionales, análogos al diagrama de caja unidimensional.
library(aplpack)
package <U+393C><U+3E31>aplpack<U+393C><U+3E32> was built under R version 3.5.3
bagplot(datos$X1,datos$X2,xlab="X1", ylab="X2", main="Bagplot Example")

La zona sombreada recoge el 50% de los datos, los puntos con líneas son outlayers.
4. DISPERSIÓN
El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos asociados de datos que aparecen en pares (por ejemplo, (x,y), uno de cada conjunto). El diagrama muestra estos pares como una nube de puntos.
Las relaciones entre los conjuntos asociados de datos se infieren a partir de la forma de las nubes.
Una relación positiva entre x y y significa que los valores crecientes de x están asociados con los valores crecientes de y.
Una relación negativa significa que los valores crecientes de x están asociados con los valores decrecientes de y.
with(datos, plot(X1, X2, col=Y))
abline(h = 12, lwd = 2, lty = 2)

Un gráfico de dispersión de X1 frente a X2 para cada uno de los tratamientos.
par(mfrow = c(1, 2), mar = c(5, 4, 2, 1))
with(subset(datos, Y == "1"), plot(X1, X2, main = "Tratamiento 1"))
with(subset(datos, Y == "2"), plot(X1, X2, main = "Tratamiento 2"))

with(subset(datos, Y == "3"), plot(X1, X2, main = "Tratamiento 3"))

with(subset(datos, Y == "4"), plot(X1, X2, main = "Tratamiento 4"))

with(subset(datos, Y == "5"), plot(X1, X2, main = "Tratamiento 5"))

5. HISTOGRAMA
En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una “primera vista” general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua (como la longitud o el peso). De esta manera ofrece una visión de grupo permitiendo observar una preferencia, o tendencia, por parte de la muestra o población por ubicarse hacia una determinada región de valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la característica. Así pues, podemos evidenciar comportamientos, observar el grado de homogeneidad, acuerdo o concisión entre los valores de todas las partes que componen la población o la muestra, o, en contraposición, poder observar el grado de variabilidad, y por ende, la dispersión de todos los valores que toman las partes, también es posible no evidenciar ninguna tendencia y obtener que cada miembro de la población toma por su lado y adquiere un valor de la característica aleatoriamente sin mostrar ninguna preferencia o tendencia, entre otras cosas.
hist(datos$X1, col = "green")

hist(datos$X2, col = "yellow")

Podemos romper en más columnas el histograma
hist(datos$X1, col = "green", breaks = 100)

hist(datos$X2, col = "YELLOW", breaks = 100)

6. HISTOGRAMA SIMULTÁNEO
par(mfrow = c(2, 1), mar = c(4, 4, 2, 1))
hist(datos$X1, col = "green")
hist(datos$X2, col = "red")

7. KERNEL DENSITY PLOTS
En estadística , la estimación de densidad de kernel ( KDE ) es una forma no paramétrica de estimar la función de densidad de probabilidad de una variable aleatoria . La estimación de la densidad del núcleo es un problema fundamental de suavización de datos en el que se hacen inferencias sobre la población , basadas en una muestra de datos finitos. En algunos campos, como el procesamiento de señales y la econometría , también se denomina método de ventana Parzen-Rosenblatt , después de Emanuel Parzen y Murray Rosenblatt , a quienes generalmente se les atribuye la creación independiente en su forma actual.
density1 <- density(datos$X1)
plot(density1)
polygon(density1, col="green", border="black")

density2 <- density(datos$X2)
plot(density2)
polygon(density2, col="red", border="black")

library(readr)
library(dplyr)
datos55 <-read_csv("C:/Users/74/Desktop/practica R/Ventas.csv")
Parsed with column specification:
cols(
ventas = [32mcol_double()[39m,
publicidad = [32mcol_double()[39m,
vendedores = [32mcol_double()[39m
)
head(datos55,n=6)
Representacion “grafico de dispersion”
plot(ventas~publicidad,data=datos55,pch=16)
abline(lm(ventas~publicidad,data=datos55),col="red")

Parametros
model_ventas<-lm(ventas~publicidad+vendedores,data=datos55)
summary(model_ventas)
Call:
lm(formula = ventas ~ publicidad + vendedores, data = datos55)
Residuals:
Min 1Q Median 3Q Max
-597.59 -84.32 67.11 138.80 295.37
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -441.66 322.16 -1.371 0.2076
publicidad -38.60 35.33 -1.093 0.3063
vendedores 259.59 88.49 2.934 0.0189 *
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 287.3 on 8 degrees of freedom
Multiple R-squared: 0.8285, Adjusted R-squared: 0.7856
F-statistic: 19.32 on 2 and 8 DF, p-value: 0.0008653
Usando ggplot2
library(ggplot2)
package <U+393C><U+3E31>ggplot2<U+393C><U+3E32> was built under R version 3.5.3
qplot(datos55$publicidad,datos55$ventas)

qplot(datos55$vendedores,datos55$ventas)

NA
Uniendo los puntos
qplot(publicidad,ventas,data=datos55,geom=c("point", "line"))

qplot(vendedores,ventas,data=datos55,geom=c("point", "line"))

Ahora representamos un modelo sobre la nube de puntos
qplot(publicidad,ventas,data=datos55,geom = c("point", "smooth"))

qplot(vendedores,ventas,data=datos55,geom = c("point", "smooth"))

8. REPRESENTACION POR CATEGORIAS
Representamos los vendedores en nuestra figura:
qplot(publicidad,ventas,data=datos55, color=factor(vendedores), geom=c("point"))

Ahora incluimos modelo para cada vendedor
qplot(publicidad,ventas,data=datos55, color=factor(vendedores), geom=c("point","smooth"))

HISTOGRAMAS “VIOLIN”
Podemos representar como un violín (nos informa de lo dispersos o agrupados que se encuentran los datos)
qplot(publicidad, ventas, data = datos55,
geom=c("violin"), trim = FALSE)

qplot(vendedores,publicidad, data = datos55,
geom=c("violin"), trim = FALSE)

9. OTROS GRAFICOS IMPORTANTES
Facetas
par(mfrow=c(1,2))
with(subset(airquality, Month <= 6),
plot(Wind, Ozone, col = "red", pch=16, main="Semestre 1"))
model1 <- lm(Ozone ~ Wind, subset(airquality, Month <= 6))
abline(model1, lwd = 1, col= "green")
with(subset(airquality, Month > 6),
plot(Wind, Ozone, col = "blue", pch=16, main="Semestre 2"))
model2 <- lm(Ozone ~ Wind, subset(airquality, Month > 6))
abline(model2, lwd = 1, col= "green")

Sistema gráfico Lattice
Se basa en la utilización de los paquetes:
Lattice. Funciones gráficas xyplot() bwplot(), etc. Grid. Para gráficos condicionados (Facetas). Características:
No es muy intuitivo Llamado de una sola función. Layouts (margenes,espacios,etc) se fijan automáticamente
library(lattice)
airquality <- transform(airquality, Month = as.factor (Month))
graf <- xyplot(Ozone~Wind | Month, data = airquality, layout=c(5,1), panel= function(x, y){
panel.xyplot(x, y, pch=16)
panel.lmline(x, y, col = "green")})
print(graf)

Sistema gráfico ggplot2
Ggplot2 es el sistema de gràficos resultante de la combinaciòn de las carateristicas de los sistemas base y lattice. Fue desarrollado por Hardley Wickham como una implementación de la gramàtica de gràficos (Grammar of Graphics) propuesta por Leland Wilkinson.
Base + Lattice = ggplot2
ggplot2 se encuentra disponible en el repositorio CRAN, se puede instalar y cargar en el àrea de trabajo directamente ejecutando las lineas de còdigo siguientes:
library(ggplot2)
g <- ggplot(mpg, aes(x=displ, y=hwy, color=drv))
g + geom_point() + geom_smooth(method="lm")

Histogramas
library(ggplot2)
g <- ggplot(mpg, aes(x=displ, fill=drv))
g + geom_histogram(binwidth=0.5, alpha = 0.8, colour="gray60")

Diagrama de Barras
library(ggplot2)
g <- ggplot(mpg, aes(x=fl, fill=drv))
g + geom_bar()

Diagrama de pie
library(ggplot2)
g <- ggplot(mpg, aes(x=TRUE, fill=fl)) + geom_bar(width=1)
g + coord_polar(theta = "y")

Gráficos múltiples de distribución
Los paquetes se instalan una sola vez y deben ser cargados en cada inicio de sesión
library(ggplot2)
g <- ggplot(mpg, aes(x=drv, y=hwy, fill=drv))
g + geom_boxplot(width=0.4, colour="green", outlier.colour = "yellow")

Grafico de linea
mes <- 1:300; ruido <- rnorm(300,0,1)
d <- data.frame(mes,ruido)
g <- ggplot(d, aes(x=mes, y=ruido))
g + geom_line(colour="cadetblue", size=0.3)

Gráfico de lineas múltiples
library(ggplot2)
mes <- 1:300; ruido <- rnorm(300,0,1); grupo <- factor(rep(1:3,100))
d <- data.frame(mes,ruido,grupo)
g <- ggplot(d, aes(x=mes, y=ruido, colour=grupo))
g + geom_line(size=0.3)

