hllinas

1 Librerías

Primero, debemos instalar y descargar las librerías que vamos a utilizar.

library(dplyr)
library(openxlsx)   #Para exportar tablas de R a Excel
library(agricolae)  #Para crear tablas de frecuencias agrupadas

2 Data frame

Recuerde que el data frame (básicamente una tabla) es en realidad solo un tipo específico de otra estructura de datos (la lista). Actualmente, es el formato de entrada de nuestros datos más frecuente para los análisis estadísticos (dentro de R, pero también para otros programas estadísticos y, por supuesto, para softwares de hojas de cálculo). Por esta razón, primero, es importante importar/cargar los datos antes de iniciar nuestro análisis. Esto ya se explicó en el documento Rpubs :: Importar datasets.

En los documentos Rpubs :: Examinar data frames y Rpubs :: Examinar data frames explicamos algunas funciones de R que nos permiten revisar propiedades de los data frames de las variables que contenidads en él. En Rpubs :: Recodificar variables describimos como recodificar las variables. Para más detalles relacionados con los data frames, se puede consultar el documento Rpubs :: data frames (generalidades).

3 Nuestro data frame

Vamos a utilizar un conjunto de datos, que fueron recogidos aplicando una encuesta a una muestra de estudiantes universitarios. Es un data frame con 400 observaciones y 46 variables, las cuales se describen en este enlace (click aquí). En este documento, se importará la base de datos desde una dirección web (dos opciones):

Opción A (web, desde github): Para esta opción, se necesita cargar la librería “repmis”:

library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?raw=false")
datosCompleto <- Estudiantes

Opción B (web, desde Google Drive):

url.dat<- "http://bit.ly/Database-Estudiantes"
datosCompleto <- read.delim(url.dat)

Recuérdense las otras opciones, si tienen las bases de datos descargadas en su sesión de trabajo (ya sea en extensiones en Rdata, en excel o en otros formatos). Para más detalles, véase el documento RPubs :: Importar datasets básico. A manera de ejemplo:

Opción C (local, con archivo en Rdata):

load(file="Estudiantes.Rdata")
datosCompleto <- Estudiantes

Opción D (local, con archivo en excel):

datosCompleto <- read.delim('clipboard')

4 Tablas de frecuencias agrupadas

En esta sección se construye una tabla de frecuencias agrupadas para una variable continua. Para ello, se utilizará la función table.freq de la librería agricolae. Esta función encuentra las frecuencias absolutas, relativas y acumuladas con los intervalos de clase definidos a partir de un histograma previamente calculado por la función hist de R. La línea de comando base es:

"Nombre_Lista" <- hist("variable", plot=FALSE)
table.freq("Nombre_Lista")
  1. El objeto hist(…" entrega una lista con los siguientes componentes: Lower (límite de clase inferior); Upper (límite de clase superior); Main (marca de clase o punto medio del intervalo); Frequency (frecuencia de clase); Percentage (porcentaje); CF (Frecuencia acumulada); CPF (porcentaje acumulado).

  2. El objeto table.freq(hist(…)) estrega la tabla con los valores de estos componentes. Con la opcion plot=TRUE se imprime también el histograma correspondiente.

Ejemplo 1

Supongamos que se quiere construir una tabla de frecuencias agrupadas para la variable Edad. R la define como character. Por eso, se escribe as.numeric:

variable <- as.numeric(datosCompleto$Edad)    #A) La variable

Al aplicar las funciones hist y table.freq de la librería agricolae, obtenemos la tabla deseada. Primero, la lista:

Lista <- hist(variable,plot=FALSE); Lista    #B) La lista
## $breaks
##  [1] 12 14 16 18 20 22 24 26 28 30
## 
## $counts
## [1]   1   1 145 135 114   0   1   1   2
## 
## $density
## [1] 0.00125 0.00125 0.18125 0.16875 0.14250 0.00000 0.00125 0.00125 0.00250
## 
## $mids
## [1] 13 15 17 19 21 23 25 27 29
## 
## $xname
## [1] "variable"
## 
## $equidist
## [1] TRUE
## 
## attr(,"class")
## [1] "histogram"

Y, ahora, la tabla:

Tabla1 <- table.freq(Lista); Tabla1     #C) La tabla agrupada
##   Lower Upper Main Frequency Percentage  CF   CPF
## 1    12    14   13         1        0.2   1   0.2
## 2    14    16   15         1        0.2   2   0.5
## 3    16    18   17       145       36.2 147  36.8
## 4    18    20   19       135       33.8 282  70.5
## 5    20    22   21       114       28.5 396  99.0
## 6    22    24   23         0        0.0 396  99.0
## 7    24    26   25         1        0.2 397  99.2
## 8    26    28   27         1        0.2 398  99.5
## 9    28    30   29         2        0.5 400 100.0

Ejemplo 2

Supongamos que se quiere construir una tabla de frecuencias agrupadas para la variable Puntaje. La tabla de frecuencias agrupadas es:

variable <- datosCompleto$Puntaje      #D) La variable
Lista <- hist(variable,plot=FALSE)     #E) La lista
Tabla1 <- table.freq(Lista); Tabla1    #F) La tabla agrupada
##   Lower Upper Main Frequency Percentage  CF   CPF
## 1     0    10    5        29        7.2  29   7.2
## 2    10    20   15        86       21.5 115  28.8
## 3    20    30   25       143       35.8 258  64.5
## 4    30    40   35        59       14.8 317  79.2
## 5    40    50   45        11        2.8 328  82.0
## 6    50    60   55        21        5.2 349  87.2
## 7    60    70   65        26        6.5 375  93.8
## 8    70    80   75        20        5.0 395  98.8
## 9    80    90   85         5        1.2 400 100.0

5 Ejercicios

Crear un nuevo documento R Markdown, realizando las actividades que se indican abajo. En todos los casos, escribir las interpretaciones correspondientes. Además, exportar las tablas a excel (de manera individual y conjunta).

  1. Construir tablas de frecuencias agrupadas.

Bibliografía

  1. LLinás, H., Rojas, C. (2005); Estadística descriptiva y distribuciones de probabilidad. Barranquilla: Editorial Universidad del Norte.

  2. Consultar el documento RPubs :: Enlace y materiales de ayuda.

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.