El Dataframe es la estructura fundamental para manipular conjuntos de datos en R y se utiliza para guardar tablas de datos. Se puede considerar una lista de vectores de igual longitud que no tiene por qué ser del mismo tipo.
Los marcos de datos son el objeto más habitual para almacenar datos en R. En este tipo de objetos, cada individuo o fecha corresponde a una fila y cada columna corresponde a una variable. Dentro de este tipo de estructura puedes almacenar diferentes tipos de datos.
library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5 v purrr 0.3.4
## v tibble 3.1.6 v dplyr 1.0.7
## v tidyr 1.1.4 v stringr 1.4.0
## v readr 2.1.0 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
df<-read.csv("https://raw.githubusercontent.com/mcfrank/tidyverse-tutorial/master/data/ws.csv")
head(df)
## data_id age comprehension production language form birth_order ethnicity
## 1 51699 27 497 497 English WS Fourth Hispanic
## 2 51700 21 369 369 English WS Second White
## 3 51701 26 190 190 English WS Fourth White
## 4 51702 27 264 264 English WS Second White
## 5 51703 19 159 159 English WS Second Other
## 6 51704 30 513 513 English WS Second Other
## sex zygosity norming longitudinal source_name mom_ed
## 1 Female NA TRUE FALSE Marchman Some Secondary
## 2 Female NA TRUE FALSE Marchman Secondary
## 3 Female NA TRUE FALSE Marchman College
## 4 Male NA TRUE FALSE Marchman Secondary
## 5 Female NA TRUE FALSE Marchman Secondary
## 6 Female NA TRUE FALSE Marchman Secondary
Se da a conocer que el promedio es un solo número tomado como representante de una lista de números. Usualmente se relaciona con el concepto de media aritmética. Lo anterior quiere decir que normalmente el promedio es el resultado de sumar un grupo de número y dividirlo entre el número de sumandos.
df %>% group_by(ethnicity) %>% summarise(promedio=mean(comprehension))
## # A tibble: 6 x 2
## ethnicity promedio
## <chr> <dbl>
## 1 Asian 273.
## 2 Black 289.
## 3 Hispanic 221.
## 4 Other 223.
## 5 White 281.
## 6 <NA> 256.
df%>%group_by(sex)%>%summarise(promedio=mean(production))
## # A tibble: 3 x 2
## sex promedio
## <chr> <dbl>
## 1 Female 297.
## 2 Male 260.
## 3 <NA> 233.
El histograma conocido también como diagrama de disribución de frecuencia es un gráfico de barras verticales que representa la distribución de un conjunto de datos (variables); en donde cada barra refleja un intervalo o clase. Toma datos de mediciones, por ejemplo, temperatura, o en nuestro casos las edades mediantes su distribución en las etnias. Esto es crítico puesto que sabemos que todos los eventos repetidos producirán resultados que varían con el tiempo. Un histograma revela la cantidad de variación propia de un proceso.
hist(df$age,col="Salmon", main="Histograma, Distribución de las Edades", xlab="Edad",ylab="Distribución",freq = FALSE,col.main="aquamarine4",col.lab="cyan4",col.axis="blue4")
legend(27,0.20,legend = c("Edad","Distribución"),cex=0.8)
El histograma es especialmente útil cuando se tiene un amplio número de datos que es preciso organizar, para analizar más detalladamente o tomar decisiones en base a ellos. Es un medio eficaz para transmitir a otras personas información sobre un proceso de forma precisa e inteligible.
Permite la comparación de los resultados de un proceso con las especifícaciones previamente establecidas para el mismo. En este caso, mediante el histograma puede determinarse en qué grado el proceso está produciendo buenos resultados y hasta qué punto existen desviaciones respecto a los límites fijados en las específicaciones.