R es un lenguaje de programación estadístico y para hacer estadística necesitamos trabajar con conjuntos de datos (datasets). Estos conjuntos de datos se componen normalmente de
El dataframe es la estructura fundamental para manipular conjuntos de datos en R.
El dataframe se utiliza para guardar tablas de datos. Se puede considerar una lista de vectores de igual longitud que no tienen por qué ser del mismo tipo.
Los marcos de datos son el objeto más habitual para almacenar datos en R. En este tipo de objetos, cada individuo o fecha corresponde a una fila y cada columna corresponde a una variable. Dentro de este tipo de estructura puedes almacenar diferentes tipos de datos.
library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5 v purrr 0.3.4
## v tibble 3.1.6 v dplyr 1.0.7
## v tidyr 1.1.4 v stringr 1.4.0
## v readr 2.1.1 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5 v purrr 0.3.4
## v tibble 3.1.6 v dplyr 1.0.7
## v tidyr 1.1.4 v stringr 1.4.0
## v readr 2.1.0 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
df<-read.csv("https://raw.githubusercontent.com/mcfrank/tidyverse-tutorial/master/data/ws.csv")
head(df)
## data_id age comprehension production language form birth_order ethnicity
## 1 51699 27 497 497 English WS Fourth Hispanic
## 2 51700 21 369 369 English WS Second White
## 3 51701 26 190 190 English WS Fourth White
## 4 51702 27 264 264 English WS Second White
## 5 51703 19 159 159 English WS Second Other
## 6 51704 30 513 513 English WS Second Other
## sex zygosity norming longitudinal source_name mom_ed
## 1 Female NA TRUE FALSE Marchman Some Secondary
## 2 Female NA TRUE FALSE Marchman Secondary
## 3 Female NA TRUE FALSE Marchman College
## 4 Male NA TRUE FALSE Marchman Secondary
## 5 Female NA TRUE FALSE Marchman Secondary
## 6 Female NA TRUE FALSE Marchman Secondary
Se da a conocer que el promedio es un solo número tomado como representante de una lista de números. Usualmente se relaciona con el concepto de media aritmética. Lo anterior quiere decir que normalmente el promedio es el resultado de sumar un grupo de número y dividirlo entre el número de sumandos.
df %>% group_by(ethnicity) %>% summarise(promedio=mean(comprehension))
## # A tibble: 6 x 2
## ethnicity promedio
## <chr> <dbl>
## 1 Asian 273.
## 2 Black 289.
## 3 Hispanic 221.
## 4 Other 223.
## 5 White 281.
## 6 <NA> 256.
df%>%group_by(sex)%>%summarise(promedio=mean(production))
## # A tibble: 3 x 2
## sex promedio
## <chr> <dbl>
## 1 Female 297.
## 2 Male 260.
## 3 <NA> 233.
El histograma conocido también como diagrama de disribución de frecuencia es un gráfico de barras verticales que representa la distribución de un conjunto de datos (variables); en donde cada barra refleja un intervalo o clase. Toma datos de mediciones, por ejemplo, temperatura, o en nuestro casos las edades mediantes su distribución en las etnias. Esto es crítico puesto que sabemos que todos los eventos repetidos producirán resultados que varían con el tiempo. Un histograma revela la cantidad de variación propia de un proceso.
hist(df$age,col="green", main="Histograma, Distribución de las Edades", xlab="Edad",ylab="Distribución",freq = FALSE,col.main="aquamarine4",col.lab="cyan4",col.axis="blue4")
legend(27,0.20,legend = c("Edad","Distribución"),cex=0.8)
## Discusión
Un Histograma es una gráfica de la distribución de un conjunto de datos. Es un tipo especial de gráfica de barras, en la cual una barra va pegada a la otra, es decir no hay espacio entre las barras. Cada barra representa un subconjunto de los datos.
Un histograma muestra la acumulación ó tendencia, la variabilidad o dispersión y la forma de la distribución.
Un histograma es una gráfica adecuada para representar variables continuas, aunque también se puede usar para variables discretas. Es decir, mediante un histograma se puede mostrar gráficamente la distribución de una variable cuantitativa o numérica.
Los datos se deben agrupar en intervalos de igual tamaño, llamados clases.