Lectura y Análisis de Datos en Dataframe

R es un lenguaje de programación estadístico y para hacer estadística necesitamos trabajar con conjuntos de datos (datasets). Estos conjuntos de datos se componen normalmente de

  1. Observaciones (o instancias)
  2. Variables (asociadas a dicha observaciones)

El dataframe es la estructura fundamental para manipular conjuntos de datos en R.

El dataframe se utiliza para guardar tablas de datos. Se puede considerar una lista de vectores de igual longitud que no tienen por qué ser del mismo tipo.

Los marcos de datos son el objeto más habitual para almacenar datos en R. En este tipo de objetos, cada individuo o fecha corresponde a una fila y cada columna corresponde a una variable. Dentro de este tipo de estructura puedes almacenar diferentes tipos de datos.

library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.6     v dplyr   1.0.7
## v tidyr   1.1.4     v stringr 1.4.0
## v readr   2.1.1     v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --

## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.6     v dplyr   1.0.7
## v tidyr   1.1.4     v stringr 1.4.0
## v readr   2.1.0     v forcats 0.5.1

## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
df<-read.csv("https://raw.githubusercontent.com/mcfrank/tidyverse-tutorial/master/data/ws.csv")
head(df)
##   data_id age comprehension production language form birth_order ethnicity
## 1   51699  27           497        497  English   WS      Fourth  Hispanic
## 2   51700  21           369        369  English   WS      Second     White
## 3   51701  26           190        190  English   WS      Fourth     White
## 4   51702  27           264        264  English   WS      Second     White
## 5   51703  19           159        159  English   WS      Second     Other
## 6   51704  30           513        513  English   WS      Second     Other
##      sex zygosity norming longitudinal source_name         mom_ed
## 1 Female       NA    TRUE        FALSE    Marchman Some Secondary
## 2 Female       NA    TRUE        FALSE    Marchman      Secondary
## 3 Female       NA    TRUE        FALSE    Marchman        College
## 4   Male       NA    TRUE        FALSE    Marchman      Secondary
## 5 Female       NA    TRUE        FALSE    Marchman      Secondary
## 6 Female       NA    TRUE        FALSE    Marchman      Secondary

Promedio del Puntaje de Compresión para las Etnias

Se da a conocer que el promedio es un solo número tomado como representante de una lista de números. Usualmente se relaciona con el concepto de media aritmética. Lo anterior quiere decir que normalmente el promedio es el resultado de sumar un grupo de número y dividirlo entre el número de sumandos.

df %>% group_by(ethnicity) %>% summarise(promedio=mean(comprehension))
## # A tibble: 6 x 2
##   ethnicity promedio
##   <chr>        <dbl>
## 1 Asian         273.
## 2 Black         289.
## 3 Hispanic      221.
## 4 Other         223.
## 5 White         281.
## 6 <NA>          256.

Promedio de Producción para Cada Sexo

df%>%group_by(sex)%>%summarise(promedio=mean(production))
## # A tibble: 3 x 2
##   sex    promedio
##   <chr>     <dbl>
## 1 Female     297.
## 2 Male       260.
## 3 <NA>       233.

Histograma, Distribución de las Edades.

El histograma conocido también como diagrama de disribución de frecuencia es un gráfico de barras verticales que representa la distribución de un conjunto de datos (variables); en donde cada barra refleja un intervalo o clase. Toma datos de mediciones, por ejemplo, temperatura, o en nuestro casos las edades mediantes su distribución en las etnias. Esto es crítico puesto que sabemos que todos los eventos repetidos producirán resultados que varían con el tiempo. Un histograma revela la cantidad de variación propia de un proceso.

hist(df$age,col="green", main="Histograma, Distribución de las Edades", xlab="Edad",ylab="Distribución",freq = FALSE,col.main="aquamarine4",col.lab="cyan4",col.axis="blue4")
legend(27,0.20,legend = c("Edad","Distribución"),cex=0.8)

## Discusión

Un Histograma es una gráfica de la distribución de un conjunto de datos. Es un tipo especial de gráfica de barras, en la cual una barra va pegada a la otra, es decir no hay espacio entre las barras. Cada barra representa un subconjunto de los datos.

Un histograma muestra la acumulación ó tendencia, la variabilidad o dispersión y la forma de la distribución.

Un histograma es una gráfica adecuada para representar variables continuas, aunque también se puede usar para variables discretas. Es decir, mediante un histograma se puede mostrar gráficamente la distribución de una variable cuantitativa o numérica.

Los datos se deben agrupar en intervalos de igual tamaño, llamados clases.