La exploración de datos de una muestra recolectada para realizar cualquier tipo de estudio es importante ya que ayudan a organizar la información que estos proporcionan y para detectar algún patrón de comportamiento así como también apartamientos importantes al modelo subyacente (datos atipicos) de tal modo que sobresalga de su estructura.
Explorar los datos, debe ser la primera etapa de todo análisis de datos, estudios de investigación, trabajos de grado, informes de empresa o proyecto.
Acontinuación se realizó una BASE DE DATOS con las respuestas recolectadas del formulario en clase pasada, la cual se llama BaseGrupo y esta será utilizada para un análisis exploratorio del grupo; con dicha base de datos se procede a realizar el análisis mediante el lenguaje de programación llamado Rstudio cloud, el siguiente link https://rstudio.cloud/ les permite acceder o crear una cuenta online del programa; para dicho análisis recurrirán las siguiente medidas de estadística descriptiva trabajadas en el curso, las cuales son:
Las variables continuas se pueden resumir con un úmero que represente la “mitad” del conjunto de números conocidos como estadístico de tendencia central.
Es la suma de los valores dividido por el número de observaciones. La función de “R” para la media aritmética es mean(variable).
Edadesgrupo<-c(31,34,37,38,48,32,22,28,21,29,22,39,31)
mean(Edadesgrupo)
## [1] 31.69231
Es el valor de la variable que deja el mismo número de datos antes y después de él, una vez ordenados estos, cuando las observaciones se ordenan. La función de “R” para la mediana es median(“variable”)
median(Edadesgrupo)
## [1] 31
Es el valor con una mayor frecuencia en una distribución de datos. Para calcular la moda en “R” utilizamos la función table(variable) que nos dice cuántas veces aparece cada número dentro de un vector, por lo que la moda será el número que más veces se repita
table(Edadesgrupo)
## Edadesgrupo
## 21 22 28 29 31 32 34 37 38 39 48
## 1 2 1 1 2 1 1 1 1 1 1
Son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. La función de “R” para los cuartiles son quantile(variable)
quantile(Edadesgrupo)
## 0% 25% 50% 75% 100%
## 21 28 31 37 48
summary(Edadesgrupo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 21.00 28.00 31.00 31.69 37.00 48.00
fivenum(Edadesgrupo)
## [1] 21 28 31 37 48
Son los 99 valores que dividen la serie de datos en 100 partes iguales.
quantile(Edadesgrupo,0.80)
## 80%
## 37.6
quantile(Edadesgrupo,0.35)
## 35%
## 29.4
quantile(Edadesgrupo, 0.28)
## 28%
## 28.36
quantile(Edadesgrupo, 0.40)#corresponde al decil 4
## 40%
## 30.6
Es la esperanza del cuadrado de la desviación típica de dicha variable respecto a su media. La función de “R” para la varianza es var(variable)
var(Edadesgrupo)
## [1] 59.73077
Es la raíz cuadrada de la varianza (cuasivarianza muestral). La función de “R” para la desviación estándar es sd(variable)
sd(Edadesgrupo)
## [1] 7.728568
Es útil para comparar dispersiones a escalas distintas pues es una medida invariante ante cambios de escala. Su fórmula expresa la desviación estándar como porcentaje de la media aritmética. En “R” se calcula manualmente a través de esta fórmula: CV= desviación estándar x 100 / media
100*sd(Edadesgrupo)/mean(Edadesgrupo)
## [1] 24.38626
CV<-function(x){sd(x)*100/mean(x)}
CV(Edadesgrupo)
## [1] 24.38626
Teniendo en cuenta el ejemplo anterior de edades del grupo en general y con la base de datos que se organizo de la caracterización del grupo. usted debe realizar esta misma actividad pero con dos vectores, uno con las edades de mujeres llamado (EdadesM) y otro con las edades de los hombres llamado (EdadesH), realizar el respectivo análisis con cada uno de los resultados de las medidas halladas; por otro lado interprete los dos graficos siguientes como parte inicial de la exploración.
slices <- c(8,5)
lbls <- c("Hombres", "Mujeres")
pct <- round((slices/sum(slices)*100),2)
lbls <- paste(lbls, pct)
lbls <- paste(lbls,"%",sep="")
pie(slices,labels = lbls, col=rainbow(length(lbls)),
main=" Grafico: 1 Proporción de Hombres y Mujeres en Análisis de Datos I")
library(readxl)
BaseGrupo <- read_excel("BaseGrupo.xlsx")
Se codifica la variable Sexo para mayor tratamieno de la base
BaseGrupo$Sexo <- factor(BaseGrupo$Sexo,labels = c("Mujeres","Hombres"))
Se cargan las librerias o paquetes para poder relizar el grafico
library(ggplot2)
Se procede al código para dicho grafico.
bp6 <- ggplot(BaseGrupo, aes(x = factor(Sexo), y = Edad, fill = Sexo))
bp6 + geom_boxplot(show.legend = F) + scale_fill_brewer(palette = "Blues")+
xlab(NULL)+
ylab("Edad")+
ggtitle("Gráfico 2: Caja y bigotes para la edad, de acuerdo al sexo")
Por último debe crear una cuenta en https://rpubs.com y publicar el archivo y proporcionar a la profesora el link para su respectiva revisión.
El dia sabado 31 de octubre (última sesión en R) estaré indicandoles de manera remota los pasos para realizar y culminar con exito dicha actividad y temática de EXPLORACIÓN DE DATOS.
Saludos a todos!