Lectura y Análisis de Datos en Dataframe

El Dataframe es la estructura fundamental para manipular conjuntos de datos en R y se utiliza para guardar tablas de datos. Se puede considerar una lista de vectores de igual longitud que no tiene por qué ser del mismo tipo.

Los marcos de datos son el objeto más habitual para almacenar datos en R. En este tipo de objetos, cada individuo o fecha corresponde a una fila y cada columna corresponde a una variable. Dentro de este tipo de estructura puedes almacenar diferentes tipos de datos.

library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.6     v dplyr   1.0.7
## v tidyr   1.1.4     v stringr 1.4.0
## v readr   2.1.0     v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
df<-read.csv("https://raw.githubusercontent.com/mcfrank/tidyverse-tutorial/master/data/ws.csv")
head(df)
##   data_id age comprehension production language form birth_order ethnicity
## 1   51699  27           497        497  English   WS      Fourth  Hispanic
## 2   51700  21           369        369  English   WS      Second     White
## 3   51701  26           190        190  English   WS      Fourth     White
## 4   51702  27           264        264  English   WS      Second     White
## 5   51703  19           159        159  English   WS      Second     Other
## 6   51704  30           513        513  English   WS      Second     Other
##      sex zygosity norming longitudinal source_name         mom_ed
## 1 Female       NA    TRUE        FALSE    Marchman Some Secondary
## 2 Female       NA    TRUE        FALSE    Marchman      Secondary
## 3 Female       NA    TRUE        FALSE    Marchman        College
## 4   Male       NA    TRUE        FALSE    Marchman      Secondary
## 5 Female       NA    TRUE        FALSE    Marchman      Secondary
## 6 Female       NA    TRUE        FALSE    Marchman      Secondary

Promedio del Puntaje de Compresión para las Etnias

Se da a conocer que el promedio es un solo número tomado como representante de una lista de números. Usualmente se relaciona con el concepto de media aritmética. Lo anterior quiere decir que normalmente el promedio es el resultado de sumar un grupo de número y dividirlo entre el número de sumandos.

df %>% group_by(ethnicity) %>% summarise(promedio=mean(comprehension))
## # A tibble: 6 x 2
##   ethnicity promedio
##   <chr>        <dbl>
## 1 Asian         273.
## 2 Black         289.
## 3 Hispanic      221.
## 4 Other         223.
## 5 White         281.
## 6 <NA>          256.

Promedio de Producción para Cada Sexo

df%>%group_by(sex)%>%summarise(promedio=mean(production))
## # A tibble: 3 x 2
##   sex    promedio
##   <chr>     <dbl>
## 1 Female     297.
## 2 Male       260.
## 3 <NA>       233.

Histograma, Distribución de las Edades.

El histograma conocido también como diagrama de disribución de frecuencia es un gráfico de barras verticales que representa la distribución de un conjunto de datos (variables); en donde cada barra refleja un intervalo o clase. Toma datos de mediciones, por ejemplo, temperatura, o en nuestro casos las edades mediantes su distribución en las etnias. Esto es crítico puesto que sabemos que todos los eventos repetidos producirán resultados que varían con el tiempo. Un histograma revela la cantidad de variación propia de un proceso.

hist(df$age,col="Salmon", main="Histograma, Distribución de las Edades", xlab="Edad",ylab="Distribución",freq = FALSE,col.main="aquamarine4",col.lab="cyan4",col.axis="blue4")
legend(27,0.20,legend = c("Edad","Distribución"),cex=0.8)

Discusión

El histograma es especialmente útil cuando se tiene un amplio número de datos que es preciso organizar, para analizar más detalladamente o tomar decisiones en base a ellos. Es un medio eficaz para transmitir a otras personas información sobre un proceso de forma precisa e inteligible.

Permite la comparación de los resultados de un proceso con las especifícaciones previamente establecidas para el mismo. En este caso, mediante el histograma puede determinarse en qué grado el proceso está produciendo buenos resultados y hasta qué punto existen desviaciones respecto a los límites fijados en las específicaciones.