Cuando queda en blanco es como escribir en word. Los dos numerales es para colocar el título.
A continuación vamos a realizar un ejemplo de exploración descriptiva de datos en R y visualización con la librería ggplot2. Para esto usaremos datos de prueba que se encuentran en R en la liberia data.sets, particularmente la base de datos iris.
Algunos indicadores que se usarán son la varianza: \(\sigma^2\)
\[\sigma^2 =\frac{\sum_{i=1}^{n} (x_i -\mu )^2}{n-1}\] Un chunck en R Markdown es un código en R
data(iris)
iris
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1 5.1 3.5 1.4 0.2 setosa
## 2 4.9 3.0 1.4 0.2 setosa
## 3 4.7 3.2 1.3 0.2 setosa
## 4 4.6 3.1 1.5 0.2 setosa
## 5 5.0 3.6 1.4 0.2 setosa
## 6 5.4 3.9 1.7 0.4 setosa
## 7 4.6 3.4 1.4 0.3 setosa
## 8 5.0 3.4 1.5 0.2 setosa
## 9 4.4 2.9 1.4 0.2 setosa
## 10 4.9 3.1 1.5 0.1 setosa
## 11 5.4 3.7 1.5 0.2 setosa
## 12 4.8 3.4 1.6 0.2 setosa
## 13 4.8 3.0 1.4 0.1 setosa
## 14 4.3 3.0 1.1 0.1 setosa
## 15 5.8 4.0 1.2 0.2 setosa
## 16 5.7 4.4 1.5 0.4 setosa
## 17 5.4 3.9 1.3 0.4 setosa
## 18 5.1 3.5 1.4 0.3 setosa
## 19 5.7 3.8 1.7 0.3 setosa
## 20 5.1 3.8 1.5 0.3 setosa
## 21 5.4 3.4 1.7 0.2 setosa
## 22 5.1 3.7 1.5 0.4 setosa
## 23 4.6 3.6 1.0 0.2 setosa
## 24 5.1 3.3 1.7 0.5 setosa
## 25 4.8 3.4 1.9 0.2 setosa
## 26 5.0 3.0 1.6 0.2 setosa
## 27 5.0 3.4 1.6 0.4 setosa
## 28 5.2 3.5 1.5 0.2 setosa
## 29 5.2 3.4 1.4 0.2 setosa
## 30 4.7 3.2 1.6 0.2 setosa
## 31 4.8 3.1 1.6 0.2 setosa
## 32 5.4 3.4 1.5 0.4 setosa
## 33 5.2 4.1 1.5 0.1 setosa
## 34 5.5 4.2 1.4 0.2 setosa
## 35 4.9 3.1 1.5 0.2 setosa
## 36 5.0 3.2 1.2 0.2 setosa
## 37 5.5 3.5 1.3 0.2 setosa
## 38 4.9 3.6 1.4 0.1 setosa
## 39 4.4 3.0 1.3 0.2 setosa
## 40 5.1 3.4 1.5 0.2 setosa
## 41 5.0 3.5 1.3 0.3 setosa
## 42 4.5 2.3 1.3 0.3 setosa
## 43 4.4 3.2 1.3 0.2 setosa
## 44 5.0 3.5 1.6 0.6 setosa
## 45 5.1 3.8 1.9 0.4 setosa
## 46 4.8 3.0 1.4 0.3 setosa
## 47 5.1 3.8 1.6 0.2 setosa
## 48 4.6 3.2 1.4 0.2 setosa
## 49 5.3 3.7 1.5 0.2 setosa
## 50 5.0 3.3 1.4 0.2 setosa
## 51 7.0 3.2 4.7 1.4 versicolor
## 52 6.4 3.2 4.5 1.5 versicolor
## 53 6.9 3.1 4.9 1.5 versicolor
## 54 5.5 2.3 4.0 1.3 versicolor
## 55 6.5 2.8 4.6 1.5 versicolor
## 56 5.7 2.8 4.5 1.3 versicolor
## 57 6.3 3.3 4.7 1.6 versicolor
## 58 4.9 2.4 3.3 1.0 versicolor
## 59 6.6 2.9 4.6 1.3 versicolor
## 60 5.2 2.7 3.9 1.4 versicolor
## 61 5.0 2.0 3.5 1.0 versicolor
## 62 5.9 3.0 4.2 1.5 versicolor
## 63 6.0 2.2 4.0 1.0 versicolor
## 64 6.1 2.9 4.7 1.4 versicolor
## 65 5.6 2.9 3.6 1.3 versicolor
## 66 6.7 3.1 4.4 1.4 versicolor
## 67 5.6 3.0 4.5 1.5 versicolor
## 68 5.8 2.7 4.1 1.0 versicolor
## 69 6.2 2.2 4.5 1.5 versicolor
## 70 5.6 2.5 3.9 1.1 versicolor
## 71 5.9 3.2 4.8 1.8 versicolor
## 72 6.1 2.8 4.0 1.3 versicolor
## 73 6.3 2.5 4.9 1.5 versicolor
## 74 6.1 2.8 4.7 1.2 versicolor
## 75 6.4 2.9 4.3 1.3 versicolor
## 76 6.6 3.0 4.4 1.4 versicolor
## 77 6.8 2.8 4.8 1.4 versicolor
## 78 6.7 3.0 5.0 1.7 versicolor
## 79 6.0 2.9 4.5 1.5 versicolor
## 80 5.7 2.6 3.5 1.0 versicolor
## 81 5.5 2.4 3.8 1.1 versicolor
## 82 5.5 2.4 3.7 1.0 versicolor
## 83 5.8 2.7 3.9 1.2 versicolor
## 84 6.0 2.7 5.1 1.6 versicolor
## 85 5.4 3.0 4.5 1.5 versicolor
## 86 6.0 3.4 4.5 1.6 versicolor
## 87 6.7 3.1 4.7 1.5 versicolor
## 88 6.3 2.3 4.4 1.3 versicolor
## 89 5.6 3.0 4.1 1.3 versicolor
## 90 5.5 2.5 4.0 1.3 versicolor
## 91 5.5 2.6 4.4 1.2 versicolor
## 92 6.1 3.0 4.6 1.4 versicolor
## 93 5.8 2.6 4.0 1.2 versicolor
## 94 5.0 2.3 3.3 1.0 versicolor
## 95 5.6 2.7 4.2 1.3 versicolor
## 96 5.7 3.0 4.2 1.2 versicolor
## 97 5.7 2.9 4.2 1.3 versicolor
## 98 6.2 2.9 4.3 1.3 versicolor
## 99 5.1 2.5 3.0 1.1 versicolor
## 100 5.7 2.8 4.1 1.3 versicolor
## 101 6.3 3.3 6.0 2.5 virginica
## 102 5.8 2.7 5.1 1.9 virginica
## 103 7.1 3.0 5.9 2.1 virginica
## 104 6.3 2.9 5.6 1.8 virginica
## 105 6.5 3.0 5.8 2.2 virginica
## 106 7.6 3.0 6.6 2.1 virginica
## 107 4.9 2.5 4.5 1.7 virginica
## 108 7.3 2.9 6.3 1.8 virginica
## 109 6.7 2.5 5.8 1.8 virginica
## 110 7.2 3.6 6.1 2.5 virginica
## 111 6.5 3.2 5.1 2.0 virginica
## 112 6.4 2.7 5.3 1.9 virginica
## 113 6.8 3.0 5.5 2.1 virginica
## 114 5.7 2.5 5.0 2.0 virginica
## 115 5.8 2.8 5.1 2.4 virginica
## 116 6.4 3.2 5.3 2.3 virginica
## 117 6.5 3.0 5.5 1.8 virginica
## 118 7.7 3.8 6.7 2.2 virginica
## 119 7.7 2.6 6.9 2.3 virginica
## 120 6.0 2.2 5.0 1.5 virginica
## 121 6.9 3.2 5.7 2.3 virginica
## 122 5.6 2.8 4.9 2.0 virginica
## 123 7.7 2.8 6.7 2.0 virginica
## 124 6.3 2.7 4.9 1.8 virginica
## 125 6.7 3.3 5.7 2.1 virginica
## 126 7.2 3.2 6.0 1.8 virginica
## 127 6.2 2.8 4.8 1.8 virginica
## 128 6.1 3.0 4.9 1.8 virginica
## 129 6.4 2.8 5.6 2.1 virginica
## 130 7.2 3.0 5.8 1.6 virginica
## 131 7.4 2.8 6.1 1.9 virginica
## 132 7.9 3.8 6.4 2.0 virginica
## 133 6.4 2.8 5.6 2.2 virginica
## 134 6.3 2.8 5.1 1.5 virginica
## 135 6.1 2.6 5.6 1.4 virginica
## 136 7.7 3.0 6.1 2.3 virginica
## 137 6.3 3.4 5.6 2.4 virginica
## 138 6.4 3.1 5.5 1.8 virginica
## 139 6.0 3.0 4.8 1.8 virginica
## 140 6.9 3.1 5.4 2.1 virginica
## 141 6.7 3.1 5.6 2.4 virginica
## 142 6.9 3.1 5.1 2.3 virginica
## 143 5.8 2.7 5.1 1.9 virginica
## 144 6.8 3.2 5.9 2.3 virginica
## 145 6.7 3.3 5.7 2.5 virginica
## 146 6.7 3.0 5.2 2.3 virginica
## 147 6.3 2.5 5.0 1.9 virginica
## 148 6.5 3.0 5.2 2.0 virginica
## 149 6.2 3.4 5.4 2.3 virginica
## 150 5.9 3.0 5.1 1.8 virginica
#para que sólo me muestre 5 registros, por ejemlo, será asi:
head(iris,5)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1 5.1 3.5 1.4 0.2 setosa
## 2 4.9 3.0 1.4 0.2 setosa
## 3 4.7 3.2 1.3 0.2 setosa
## 4 4.6 3.1 1.5 0.2 setosa
## 5 5.0 3.6 1.4 0.2 setosa
Como se puede observar, en la tabla base de datos contiene un total de 150 registros y 5 variables como la longitud y ancho del pétalo o la especie de la flor.
#Análisis Exploratorio Variable Cuantitativa
#Mediciones de Tendencia Central
mean(iris$Petal.Length) #Promedio
## [1] 3.758
median(iris$Petal.Length) #Mediana
## [1] 4.35
sd(iris$Petal.Length) #Desviación Estandar
## [1] 1.765298
#Otras mediciones
max(iris$Petal.Length) #Máximo
## [1] 6.9
min(iris$Petal.Length) #Mínimo
## [1] 1
length(iris$Petal.Length) #Para saber cuántos registros hay
## [1] 150
summary(iris$Petal.Length) #Resumen
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.600 4.350 3.758 5.100 6.900
library(ggplot2)
require(ggplot2)
require(plotly)
## Loading required package: plotly
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
ggplot(data=iris, mapping=aes(x=Petal.Length))+geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
ggplot(data=iris, mapping=aes(y=Petal.Length))+geom_boxplot()
ggplot(data=iris, mapping=aes(x=Petal.Width,y=Petal.Length))+geom_point()+theme_classic()+xlab("Longitud de Pétalo")+ylab("Total")+ggtitle("Histograma de Longitud del Pétalo")
ggplot(data=iris, mapping=aes(x=Petal.Length,fill=Species))+geom_histogram()+theme_classic()+xlab("Longitud de Pétalo")+ylab("Total")+ggtitle("Histograma de Longitud del Pétalo") #El fill acomoda el relleno de acuerdo a las especies.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
ggplot(data=iris, mapping=aes(x=Petal.Length,colour=Species))+geom_histogram()+theme_classic()+xlab("Longitud de Pétalo")+ylab("Total")+ggtitle("Histograma de Longitud del Pétalo") #El colour hace de colores los bordes de las barras.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
#Nota: Si se coloca fill dentro de geom_histogram asi: geom_histogram(fill="blue"), las barras cambian al color que se instruya.
ggplot(data=iris, mapping=aes(y=Petal.Length,fill=Species))+geom_boxplot()+theme_classic()+xlab("Species")+ylab("Longitud de Pétalo")+ggtitle("Diagrama de Cajas de Longitud del Pétalo")
#Para el diagrama de puntos, y poner color en los puntos, no se usa fill sino colour.
ggplot(data=iris, mapping=aes(x=Petal.Width,y=Petal.Length,colour=Species))+geom_point()+theme_classic()+xlab("Longitud de Pétalo")+ylab("Total")+ggtitle("Diagrama de Puntos de Longitud del Pétalo")
ggplot(data=iris, mapping=aes(x=Petal.Width,y=Petal.Length))+geom_point()+geom_smooth()+theme_classic()+xlab("Longitud de Pétalo")+ylab("Total")+ggtitle("Diagrama de Puntos de Longitud del Pétalo") # El geom_smooth es una línea de tendencia o suavizado
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
ggplot(data=iris, mapping=aes(x=Petal.Width,y=Petal.Length))+geom_point()+geom_smooth(method = "lm")+theme_classic()+xlab("Longitud de Pétalo")+ylab("Total")+ggtitle("Diagrama de Puntos de Longitud del Pétalo")# Para que la línea de tendencia sea más recta se coloca dentro de geom_smoth (method = "lm").
## `geom_smooth()` using formula 'y ~ x'
ggplot(data=iris, mapping=aes(x=Petal.Width,y=Petal.Length,colour=Species))+geom_point()+geom_smooth(method = "lm")+theme_classic()+xlab("Longitud de Pétalo")+ylab("Total")+ggtitle("Diagrama de Puntos de Longitud del Pétalo")
## `geom_smooth()` using formula 'y ~ x'
# Para hacer un panel para cada grupo de species sería así: +facet_grid(~Species)
ggplot(data=iris, mapping=aes(x=Petal.Width,y=Petal.Length,colour=Species))+geom_point()+facet_grid(~Species)+theme_classic()+xlab("Longitud de Pétalo")+ylab("Total")+ggtitle("Diagrama de Puntos de Longitud del Pétalo")
## Gráficos dinámicos
g1=ggplot(data=iris, mapping=aes(y=Petal.Length,fill=Species))+geom_boxplot()+theme_classic()+xlab("Species")+ylab("Longitud de Pétalo")+ggtitle("Diagrama de Cajas de Longitud del Pétalo")
ggplotly(g1)