VARIABLES Y DISTRIBUCCIONES DE FRECUENCIAS - EJEMPLO

Estadistica I

Autor/a
Afiliación

Ronal Stiven Gaviria Solarte

Fecha de publicación

10 de octubre de 2023

1 Paquetes a instalar1

install.packages(“tidyverse”)

install.packages(“kableExtra”)

install.packages(“agricolae”)

install.packages(“RColorBrewer”)

2 Activar paquetes

Ver código
library(tidyverse)
library(kableExtra)
library(agricolae)
library(RColorBrewer)

(Wickham et al. 2019; Zhu 2021; Mendiburu 2023; Neuwirth 2022)

3 Concepto de Variable

Una variable enestadística es una característica que puede fluctuar y cuya variación es susceptible de adoptar diferentes valores, los cuales pueden medirse u observarse. Las variables adquieren valor cuando se relacionan con otras variables, es decir, si forman parte de una hipótesis o de una teoría. Es decir, son características o cualidades de una persona, animal u objeto, las cuales puedes medir. Por ejemplo: la edad, la estatura, el peso o la altura de un edificio.

https://www.mineduc.gob.gt/DIGECADE/documents/Telesecundaria/Recursos%20Digitales/3o%20Recursos%20Digitales%20TS%20BY-SA%203.0/MATEMATICA/U12%20pp%20278%20variable%20estad%C3%ADstica.pdf.

4 Tipos de variables

Hay dos tipos de variables que se utilizan en el análisis e interpretación de datos:

4.1 Según su Naturaleza

1. Variables Cualitativas

Son el tipo de variables que como su nombre lo indica expresan distintas cualidades, características o modalidades. Cada modalidad que se presenta se denomina atributo o categoría, y la medición consiste en una clasificación de dichos atributos.Es decir, son características de un individuo u objeto, que se pueden expresar con palabras. Algunos ejemplos son: el color de ojos, el color del cabello, el género, el estado civil o la marca de un producto.

Las variables cualitativas pueden ser:

Dicotómicas : cuando sólo pueden tomar dos valores posibles, como por ejemplo sí y no, hombre y mujer o ser

Politómicas : cuando pueden adquirir tres o más valores como por ejemplo:la posición de ganadores en una competencia Oro, plata, bronce.

2. Variables Cuantitativas

Son aquellas características de un objeto o individuo que se pueden escribir en números. Por ejemplo: edad, ingresos, peso, altura, presión, humedad o cantidad de hermanos.

Las variables cuantitativas pueden ser:

Discretas : Son aquellas que no aceptan un valor entre dos números consecutivos. Si tienes los datos 1, 2, 3, 10, 11 y 15, entre el 1 y 2 no puede aparecer el 1.48, porque del 1 salta directamente al 2. Generalmente, las variables discretas son resultado de un conteo y no permiten los números decimales. Por ejemplo: número de pacientes, número de alumnos, número de motos por modelo.

Continuas : Son aquellas que pueden tomar cualquier valor entre dos intervalos o números. Por ejemplo, si necesitas escribir la estatura de un grupo de basquetbolistas, seguramente, no podrás utilizar los números 1 y 2, pero si las variables 1.78, 1.65, 1.45, porque la altura suele expresarse de esa manera.

https://edu.gcfglobal.org/es/estadistica-basica/que-es-una-tabla-de-frecuencias/1/.

https://www.mineduc.gob.gt/DIGECADE/documents/Telesecundaria/Recursos%20Digitales/3o%20Recursos%20Digitales%20TS%20BY-SA%203.0/MATEMATICA/U12%20pp%20278%20variable%20estad%C3%ADstica.pdf.

Video

4.2 Según su Nivel de Medición

Variable Cualitativa Nominal

En esta variable los valores no pueden ser sometidos a un criterio de orden,como por ejemplo los colores o el lugar de registro

Veamos otros ejemplos

Sexo: masculino, femenino ó femenino, masculino; Fumar: No, Sí ó Sí, No Estado civil: Casado, Soltero, Viudo, Divorciado

Variable Cualitativa Ordinal o Variable Cuasicuantitativa

La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo: leve, moderado, fuerte.

Veamos otros ejemplos:

Clase social: 1 baja, 2 media, 3 alta Grados de reflujo vesicoureteral: Grados 1, 2, 3, 4 Conformidad con una afirmación: 0 completo desacuerdo, 1 acuerdo parcial, 2 acuerdo total

Para tener en cuenta : Existen variables que serán mezcla de nominal y ordinal, porque solo algunas categorías estén ordenadas por rango; esto ocurre en las escalas en las que un valor representa a una categoría inclasificable (ejemplo: no sabe no contesta o resultado indeterminado).

Variable Cuanitativa de Intervalos

Los intervalos poseen la cualidad adicional de que los intervalos entre sus clases son iguales. Diferencias iguales entre cualquier par de números de la escala indican diferencias también iguales en el atributo sometido a medición. Veamos un ejemplo: la diferencia de temperatura entre una habitación a 22 grados centígrados y otra a 26 es la misma que la existente entre dos a 33 y 37 grados centígrados, respectivamente.

Sin embargo, la razón entre los números de la escala no es necesariamente la misma que la existente entre las cantidades del atributo. Ejemplo: una habitación a 20 grados no está el doble caliente que otra a 10. Ello se debe a que el cero de la escala no expresa el valor nulo o ausencia de atributo.

Variable Cuantitativa de Razones

Su cualidad adicional es que el cero sí indica ausencia de atributo. En consecuencia, la razón entre dos números de la escala es igual a la existente entre las cantidades del atributo medido. Ejemplos:

Peso: medido en kilogramos. Concentración de glucosa en una muestra: medida en mg/dl. Tasa de mortalidad: muertes por 1000 personas en riesgo. Ingresos: medidos en euros.

Para tener en cuenta : Las escalas de intervalos y razones se llaman también métricas o dimensionales. Las variables continuas van a medirse con escalas de razones o intervalos, por lo que es habitual que nos refiramos a ellas englobándolas como escalas continuas, ya que comparten estrategias de análisis, como la elección del test estadístico. Algunos paquetes estadísticos, como SPSS, las denominan simplemente “escalas”.

https://evidenciasenpediatria.es/articulo/7307/estadistica-tipos-de-variables-escalas-de-medida.

Video

4.3 Según su función o Relación

Variables independientes

Es aquella cuyo valor no depende de otra variable. Es aquella característica o propiedad que se supone es la causa del fenómeno estudiado. En investigación experimental se llama así a la variable que el investigador manipula.

Las variables independientes son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de control, que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo.

La variable independiente se suele representar en el eje de abscisas. La variable independiente es la que se le asignan valores arbitrarios

Variables dependientes

Es aquella cuyos valores dependen de los que tomen otra variable. La variable dependiente es una función que se suele representar por la y. La variable dependiente se representa en el eje ordenadas. Son las variables de respuesta que se observan en el estudio, y que podrían estar influidas por los valores de las variables independientes.

Hayman (1974 : 69) la define como propiedad o característica que se trata de cambiar mediante la manipulación de la variable independiente.

La variable dependiente es el factor que es observado y medido para determinar el efecto de la variable independiente

Variables intervinientes

Son aquellas características o propiedades que, de una manera u otra, afectan el resultado que se espera y están vinculadas con las variables independients y dependientes. Y es muy similar a la variable moderadora aunque no son iguales solo son muy similares a la forma de relacionarlas.

https://www.mineduc.gob.gt/DIGECADE/documents/Telesecundaria/Recursos%20Digitales/3o%20Recursos%20Digitales%20TS%20BY-SA%203.0/MATEMATICA/U12%20pp%20278%20variable%20estad%C3%ADstica.pdf.

Video

5 Concepto de Distribucción de Frecuencia

6 Introducción

Las distribuciones de frecuencias2 son tablas en que se dispone las modalidades de la variable por filas. En las columnas se coloca el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de la información que contienen los datos.

La distribución de frecuencias, en otras palabras, es la manera en la que se ordena una serie de observaciones en diferentes grupos, y normalmente en modo ascendente o descendente.

6.1 Tipos de distribuciones de frecuencia

Frecuencia absoluta(ni): Es la cantidad de observaciones que pertenecen a cada grupo. También, se interpreta como la cantidad de veces que se repite un suceso. Por ejemplo, continuando con el caso anterior, puede ser que de un grupo de 100 personas, 20 de ellos tengan entre 26 y 40 años.

Frecuencia relativa(hi): Se calcula dividiendo la frecuencia absoluta entre el número de datos, por ejemplo, volviendo a la situación planteada líneas arriba, 20/100 es igual a 0,2 o 20%.

Frecuencia absoluta acumulada(Fi): Resulta de sumar las frecuencias absolutas de una clase o grupo de la muestra (o población) con la anterior o las anteriores. Por ejemplo, para calcular la frecuencia absoluta acumulada del tercer grupo se suman las frecuencias absolutas del primer, segundo y tercer grupo.

Frecuencia relativa acumulada(Hi): Es el resultado de sumar las frecuencias relativas, tal y como explicamos para la frecuencia absoluta acumulada. Por ejemplo, para calcular la frecuencia relativa acumulada del cuarto grupo, se suman las frecuencias relativas del primer, segundo, tercer y cuarto grupo.

7 Leer la base de datos

Ver código
BASE <-  read.table("Base2.csv", sep = ",", header = TRUE)

7.1 Mostrar las primeras filas

Ver código
head(BASE)
  Estrato Sexo Hijos Edad
1       5    2     1   29
2       1    1     0   20
3       4    2     0   20
4       1    1     2   21
5       3    2     2   36
6       5    1     4   38

Asignar las categorías a las variables cualitativas

Ver código
BASE <- transform(BASE, Estrato=factor(Estrato, labels = c("Muy pobre", "Pobre", "Medio", "Rico", "Muy rico")))

BASE <- transform(BASE, Sexo=factor(Sexo, labels = c("Masculino", "Femenino")))

7.2 Mostrar las primeras filas con transformaciones

Ver código
head(BASE)
    Estrato      Sexo Hijos Edad
1  Muy rico  Femenino     1   29
2 Muy pobre Masculino     0   20
3      Rico  Femenino     0   20
4 Muy pobre Masculino     2   21
5     Medio  Femenino     2   36
6  Muy rico Masculino     4   38

7.3 Tabla de frecuencia de la variable sexo

Ver código
FrecAbs1 <- table(BASE$Sexo) 
FrecAbs1

Masculino  Femenino 
       13        17 
Ver código
FrecRel1 <- round(prop.table(FrecAbs1), 4)
FrecRel1

Masculino  Femenino 
   0.4333    0.5667 
Ver código
FrecRelP1 <- FrecRel1*100
FrecRelP1

Masculino  Femenino 
    43.33     56.67 

7.3.1 Concatenar las frecuencias

Ver código
tabla_Sexo <- cbind(FrecAbs1, FrecRel1, FrecRelP1)
tabla_Sexo
          FrecAbs1 FrecRel1 FrecRelP1
Masculino       13   0.4333     43.33
Femenino        17   0.5667     56.67

7.3.2 Cambiar nombre de columnas de la tabla

Ver código
colnames(tabla_Sexo) <- c("ni", "hi", "hi%")
tabla_Sexo
          ni     hi   hi%
Masculino 13 0.4333 43.33
Femenino  17 0.5667 56.67

7.3.3 Presentar tabla con formato

Ver código
kable(tabla_Sexo, format = "markdown", digits = 1)
ni hi hi%
Masculino 13 0.4 43.3
Femenino 17 0.6 56.7

7.4 Tabla de frecuencia de la variable estrato

Ver código
FrecAbs2 = table(BASE$Estrato)
FrecAbsA2 = cumsum(FrecAbs2)
FrecRel2 = round(prop.table(FrecAbs2), 3)
FrecReP2 = FrecRel2*100
FrecRelAP2 = cumsum(FrecReP2)
Tabla_Estrato = cbind(FrecAbs2,FrecAbsA2,FrecRel2,FrecReP2,FrecRelAP2)
colnames(Tabla_Estrato) = c("ni","Ni","hi","hi%","Hi%")
Form.Basic <- c("striped", "bordered", "hover", "condensed", "responsive")
cbind.data.frame(Tabla_Estrato) %>%
  kable(align = "c") %>% 
  kable_styling(bootstrap_options = Form.Basic)
ni Ni hi hi% Hi%
Muy pobre 5 5 0.167 16.7 16.7
Pobre 3 8 0.100 10.0 26.7
Medio 5 13 0.167 16.7 43.4
Rico 6 19 0.200 20.0 63.4
Muy rico 11 30 0.367 36.7 100.1

7.5 Tabla de frecuencia para la variable hijos

Ver código
FrecAbs3 = table(BASE$Hijos)
FrecAbsA3 = cumsum(FrecAbs3)
FrecRel3 = round(prop.table(FrecAbs3), 3)
FrecReP3 = FrecRel3*100
FrecRelAP3 = cumsum(FrecReP3)
Tabla_Hijos = cbind(FrecAbs3,FrecAbsA3,FrecRel3,FrecReP3,FrecRelAP3)
colnames(Tabla_Hijos) = c("ni","Ni","hi","hi%","Hi%")
Form.Basic <- c("striped", "bordered", "hover", "condensed", "responsive")
cbind.data.frame(Tabla_Hijos) %>%
  kable(align = "c") %>% 
  kable_styling(bootstrap_options = Form.Basic)
ni Ni hi hi% Hi%
0 5 5 0.167 16.7 16.7
1 7 12 0.233 23.3 40.0
2 7 19 0.233 23.3 63.3
3 2 21 0.067 6.7 70.0
4 6 27 0.200 20.0 90.0
5 3 30 0.100 10.0 100.0

7.6 Tabla de frecuencia completa variable Edad

Ver código
Lista <- hist(BASE$Edad, plot = FALSE)
Ver código
Tabla1 <- table.freq(Lista)
colnames(Tabla1) = c("Li","Ls","Yi","ni","hi%","Ni","Hi%")
Form.Basic <- c("striped", "bordered", "hover", "condensed", "responsive")
cbind.data.frame(Tabla1) %>%
  kable(align = "c") %>% 
  kable_styling(bootstrap_options = Form.Basic)
Li Ls Yi ni hi% Ni Hi%
20 25 22.5 11 36.7 11 36.7
25 30 27.5 4 13.3 15 50.0
30 35 32.5 6 20.0 21 70.0
35 40 37.5 6 20.0 27 90.0
40 45 42.5 3 10.0 30 100.0

7.7 Cruce de variables cualitativas

Ver código
Tabla_cruz <- table(BASE$Estrato,BASE$Sexo)
tabla <- round(prop.table(Tabla_cruz), 4)
Tabla_cruz %>%
  kable(align = "c") %>% 
  kable_styling(bootstrap_options = Form.Basic)
Masculino Femenino
Muy pobre 2 3
Pobre 1 2
Medio 2 3
Rico 2 4
Muy rico 6 5
Ver código
tabla %>%
  kable(align = "c") %>% 
  kable_styling(bootstrap_options = Form.Basic)
Masculino Femenino
Muy pobre 0.0667 0.1000
Pobre 0.0333 0.0667
Medio 0.0667 0.1000
Rico 0.0667 0.1333
Muy rico 0.2000 0.1667

8 Gráficas

8.1 Diagrama de barras simple variable Estrato frecuencia absoluta

Ver código
Tablaestr <- table(BASE$Estrato)
barp1 <- barplot(Tablaestr, main = "Diagrama de barras Estrato frecuencia absoluta", xlab = "Estrato",ylab = "Frecuencia", ylim = c(0,15),
        col = c("brown", "blue", "green", "red", "orange"))
        text(barp1, Tablaestr + 0.5, labels = Tablaestr)

8.2 Diagrama de barras simple variable Estrato frecuencia relativa

Ver código
barp2 <- barplot(FrecReP2, main = "Diagrama de barras Estrato frecuencia relativa(%)", xlab = "Estrato", ylab = "Porcentaje", ylim = c(0,40), col = rainbow(5))
text(barp2, FrecReP2 + 1.2, labels = FrecReP2)

8.3 Diagramas de barras en una sola fila

Ver código
par(mfrow = c(1, 2))

Tablaestr <- table(BASE$Estrato)
barp1 <- barplot(Tablaestr, xlab = "Estrato",ylab = "Frecuencia", ylim = c(0,15), col = c("brown", "blue", "green", "red", "orange"))
text(barp1, Tablaestr + 0.5, labels = Tablaestr)

barp2 <- barplot(FrecReP2, xlab = "Estrato", ylab = "Porcentaje", ylim = c(0,40), col = rainbow(5))
text(barp2, FrecReP2 + 1.2, labels = FrecReP2)

8.4 Diagrama de barras compuesta, variables Estrato vs Sexo

Ver código
barp3 <- barplot(Tabla_cruz, main = "Diagrama de barras Compuesta", xlab = "Estrato", ylab = "Frecuencia", ylim = c(0,10), legend = rownames(Tabla_cruz), col = c("brown", "blue", "green", "red", "orange"), beside = TRUE)

8.5 Diagrama de barras apiladas, variables Estrato vs Sexo

Ver código
barp4 <- barplot(Tabla_cruz, main = "Diagrama de barras Apilado", xlab = "Estrato", ylab = "Frecuencia", ylim = c(0,20), legend.text = rownames(Tabla_cruz), args.legend = list(x = "topleft"), col = c("brown", "blue", "green", "red", "orange"), beside = FALSE)

8.6 Diagrama de barras simple horizontal variable Estrato

Ver código
barp5 <- barplot(FrecAbs2, main = "Diagrama de barras horizontal Estrato ", xlab = "Frecuencia", ylab = "Estrato", horiz = TRUE,
col = c("brown", "blue", "green", "red", "orange"))

8.7 Diagrama de sectores frecuencias absolutas

Ver código
color <- brewer.pal(length(BASE$Estrato), "Set2") 
pie1 <- pie(FrecAbs2, labels = FrecAbs2, col = color)

8.8 Diagrama de sectores frecuencias relativas

Ver código
etiquetas <- paste0(FrecRel2*100, "%")
pie2 <- pie(FrecRel2, labels = etiquetas)

8.9 Diagrama de bastones variable Hijos

Ver código
j <- c(0, 1, 2, 3, 4, 5)
k <- c(5, 7, 7, 2, 6, 3)
plot(x = j, y = k, xlab = "Hijos", ylab = "Frecuencia", pch = 15, col = "blue")
segments(x0 = j, y0 = 0, x1 = j, y1 = k, lwd = 2, col = "blue")

8.10 Diagrama escalonado acumulado variable Hijos

Ver código
x <- 0:5
fx <- c(5, 7, 7, 2, 6, 3)/30
Fx <- cumsum(fx)
plot(x = c(0, x), y = c(0, Fx), type = "s", xlab = "x", ylab = "Porcentaje acumulado", col = "blue", lwd = 2)
points(x, Fx, col = "blue", pch = 15)

8.11 Histogramas, poligonos y ojivas variable Edad

Ver código
par(mfrow=c(2,2))
h1 <- graph.freq(BASE$Edad, col="yellow", frequency =1, main="frecuencia
absoluta\nh1")
h2 <- graph.freq(BASE$Edad, col="green", frequency =2 , main="poligono de
frecuencia\nh2")
polygon.freq(h2, col="blue", lwd=2, frequency =2)
h3 <- graph.freq(BASE$Edad, col="brown", frequency =3 ,
main="densidad\nh3")
h4 <- graph.freq(BASE$Edad, col="blue", frequency =3 , main="densidad
normal\nh4", density=4)
normal.freq(h4, col="red", lty=4,lwd=2, frequency=3)

8.12 Ojiva de freceuncias variable Edad

Ver código
h9 <- ogive.freq(h1,axes=FALSE,type="b", main="ojiva de frecuencias",
col="red")
axis(2,round(h9[,2],1),las=2)
axis(1,round(h9[,1],1),las=2)

El tipo de clase de la función hist() es “histogram” y de grah.freq() es “graph.freq”, sin embargo es posible establecer compatibilidad entre ambas funciones.

Ver código
hh <- hist(BASE$Edad,nclass=6, plot=FALSE)

h11<-graph.freq(hh, frequency=2, col=colors()[367]
,main="Histograma de frecuencias relativas" ,axes=F)
axis(1,h11$breaks,las=2)
axis(2,round(h11$relative,2),las=2)

8.13 Histograma a partir de datos agrupados

Si se tiene datos agrupados, con la función graph.freq() se puede graficar y obtener los resumenes del histograma; asi por ejemplo en la siguiente tabla:

Intervalos
0 - 10 10 - 20 20 - 30 30 - 40 40 - 50
3 8 15 18 6

```{r} clases <- c(0, 10, 20, 30, 40, 50) frec <- c(3, 8, 15, 18, 6) h12 <- graph.freq(clases,counts=frec,xlab=“Clases”, main=“Histograma de frecuencias”)

Referencias

Mendiburu, Felipe de. 2023. «agricolae: Statistical Procedures for Agricultural Research». https://CRAN.R-project.org/package=agricolae.
Neuwirth, Erich. 2022. «RColorBrewer: ColorBrewer Palettes». https://CRAN.R-project.org/package=RColorBrewer.
Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, et al. 2019. «Welcome to the tidyverse» 4: 1686. https://doi.org/10.21105/joss.01686.
Zhu, Hao. 2021. «kableExtra: Construct Complex Table with ’kable’ and Pipe Syntax». https://CRAN.R-project.org/package=kableExtra.

Notas

  1. Número de veces que aparece, sucede o se realiza una cosa durante un período o un espacio determinados.↩︎

  2. Número de veces que aparece, sucede o se realiza una cosa durante un período o un espacio determinados.↩︎