VARIABLES Y DISTRIBUCCIONES DE FRECUENCIAS

Estadistica I

Autor/a
Afiliación

Ronal Stiven Gaviria Solarte

Fecha de publicación

9 de octubre de 2023

1 Paquetes a instalar1

install.packages(“datos”)

install.packages(“tidyverse”)

install.packages(“kableExtra”)

install.packages(“agricolae”)

install.packages(“RColorBrewer”)

2 Activar paquetes

Ver código
library(datos)
library(tidyverse)
library(kableExtra)
library(agricolae)
library(RColorBrewer)

(Quiroga et al. 2023; Wickham et al. 2019; Zhu 2021; Mendiburu 2023; Neuwirth 2022)

3 Concepto de Variable

Una variable enestadística es una característica que puede fluctuar y cuya variación es susceptible de adoptar diferentes valores, los cuales pueden medirse u observarse. Las variables adquieren valor cuando se relacionan con otras variables, es decir, si forman parte de una hipótesis o de una teoría. Es decir, son características o cualidades de una persona, animal u objeto, las cuales puedes medir. Por ejemplo: la edad, la estatura, el peso o la altura de un edificio.

https://www.mineduc.gob.gt/DIGECADE/documents/Telesecundaria/Recursos%20Digitales/3o%20Recursos%20Digitales%20TS%20BY-SA%203.0/MATEMATICA/U12%20pp%20278%20variable%20estad%C3%ADstica.pdf.

4 Tipos de variables

Hay dos tipos de variables que se utilizan en el análisis e interpretación de datos:

4.1 Según su Naturaleza

1. Variables Cualitativas

Son el tipo de variables que como su nombre lo indica expresan distintas cualidades, características o modalidades. Cada modalidad que se presenta se denomina atributo o categoría, y la medición consiste en una clasificación de dichos atributos.Es decir, son características de un individuo u objeto, que se pueden expresar con palabras. Algunos ejemplos son: el color de ojos, el color del cabello, el género, el estado civil o la marca de un producto.

Las variables cualitativas pueden ser:

Dicotómicas : cuando sólo pueden tomar dos valores posibles, como por ejemplo sí y no, hombre y mujer o ser

Politómicas : cuando pueden adquirir tres o más valores como por ejemplo:la posición de ganadores en una competencia Oro, plata, bronce.

2. Variables Cuantitativas

Son aquellas características de un objeto o individuo que se pueden escribir en números. Por ejemplo: edad, ingresos, peso, altura, presión, humedad o cantidad de hermanos.

Las variables cuantitativas pueden ser:

Discretas : Son aquellas que no aceptan un valor entre dos números consecutivos. Si tienes los datos 1, 2, 3, 10, 11 y 15, entre el 1 y 2 no puede aparecer el 1.48, porque del 1 salta directamente al 2. Generalmente, las variables discretas son resultado de un conteo y no permiten los números decimales. Por ejemplo: número de pacientes, número de alumnos, número de motos por modelo.

Continuas : Son aquellas que pueden tomar cualquier valor entre dos intervalos o números. Por ejemplo, si necesitas escribir la estatura de un grupo de basquetbolistas, seguramente, no podrás utilizar los números 1 y 2, pero si las variables 1.78, 1.65, 1.45, porque la altura suele expresarse de esa manera.

https://edu.gcfglobal.org/es/estadistica-basica/que-es-una-tabla-de-frecuencias/1/.

https://www.mineduc.gob.gt/DIGECADE/documents/Telesecundaria/Recursos%20Digitales/3o%20Recursos%20Digitales%20TS%20BY-SA%203.0/MATEMATICA/U12%20pp%20278%20variable%20estad%C3%ADstica.pdf.

Video

4.2 Según su Nivel de Medición

Variable Cualitativa Nominal

En esta variable los valores no pueden ser sometidos a un criterio de orden,como por ejemplo los colores o el lugar de registro

Veamos otros ejemplos

Sexo: masculino, femenino ó femenino, masculino; Fumar: No, Sí ó Sí, No Estado civil: Casado, Soltero, Viudo, Divorciado

Variable Cualitativa Ordinal o Variable Cuasicuantitativa

La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo: leve, moderado, fuerte.

Veamos otros ejemplos:

Clase social: 1 baja, 2 media, 3 alta Grados de reflujo vesicoureteral: Grados 1, 2, 3, 4 Conformidad con una afirmación: 0 completo desacuerdo, 1 acuerdo parcial, 2 acuerdo total

Para tener en cuenta : Existen variables que serán mezcla de nominal y ordinal, porque solo algunas categorías estén ordenadas por rango; esto ocurre en las escalas en las que un valor representa a una categoría inclasificable (ejemplo: no sabe no contesta o resultado indeterminado).

Variable Cuanitativa de Intervalos

Los intervalos poseen la cualidad adicional de que los intervalos entre sus clases son iguales. Diferencias iguales entre cualquier par de números de la escala indican diferencias también iguales en el atributo sometido a medición. Veamos un ejemplo: la diferencia de temperatura entre una habitación a 22 grados centígrados y otra a 26 es la misma que la existente entre dos a 33 y 37 grados centígrados, respectivamente.

Sin embargo, la razón entre los números de la escala no es necesariamente la misma que la existente entre las cantidades del atributo. Ejemplo: una habitación a 20 grados no está el doble caliente que otra a 10. Ello se debe a que el cero de la escala no expresa el valor nulo o ausencia de atributo.

Variable Cuantitativa de Razones

Su cualidad adicional es que el cero sí indica ausencia de atributo. En consecuencia, la razón entre dos números de la escala es igual a la existente entre las cantidades del atributo medido. Ejemplos:

Peso: medido en kilogramos. Concentración de glucosa en una muestra: medida en mg/dl. Tasa de mortalidad: muertes por 1000 personas en riesgo. Ingresos: medidos en euros.

Para tener en cuenta : Las escalas de intervalos y razones se llaman también métricas o dimensionales. Las variables continuas van a medirse con escalas de razones o intervalos, por lo que es habitual que nos refiramos a ellas englobándolas como escalas continuas, ya que comparten estrategias de análisis, como la elección del test estadístico. Algunos paquetes estadísticos, como SPSS, las denominan simplemente “escalas”.

https://evidenciasenpediatria.es/articulo/7307/estadistica-tipos-de-variables-escalas-de-medida.

Video

4.3 Según su función o Relación

Variables independientes

Es aquella cuyo valor no depende de otra variable. Es aquella característica o propiedad que se supone es la causa del fenómeno estudiado. En investigación experimental se llama así a la variable que el investigador manipula.

Las variables independientes son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de control, que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo.

La variable independiente se suele representar en el eje de abscisas. La variable independiente es la que se le asignan valores arbitrarios

Variables dependientes

Es aquella cuyos valores dependen de los que tomen otra variable. La variable dependiente es una función que se suele representar por la y. La variable dependiente se representa en el eje ordenadas. Son las variables de respuesta que se observan en el estudio, y que podrían estar influidas por los valores de las variables independientes.

Hayman (1974 : 69) la define como propiedad o característica que se trata de cambiar mediante la manipulación de la variable independiente.

La variable dependiente es el factor que es observado y medido para determinar el efecto de la variable independiente

Variables intervinientes

Son aquellas características o propiedades que, de una manera u otra, afectan el resultado que se espera y están vinculadas con las variables independients y dependientes. Y es muy similar a la variable moderadora aunque no son iguales solo son muy similares a la forma de relacionarlas.

https://www.mineduc.gob.gt/DIGECADE/documents/Telesecundaria/Recursos%20Digitales/3o%20Recursos%20Digitales%20TS%20BY-SA%203.0/MATEMATICA/U12%20pp%20278%20variable%20estad%C3%ADstica.pdf.

Video

5 Concepto de Distribucción de Frecuencia

6 Introducción

Las distribuciones de frecuencias2 son tablas en que se dispone las modalidades de la variable por filas. En las columnas se coloca el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de la información que contienen los datos.

La distribución de frecuencias, en otras palabras, es la manera en la que se ordena una serie de observaciones en diferentes grupos, y normalmente en modo ascendente o descendente.

6.1 Tipos de distribuciones de frecuencia

Frecuencia absoluta(ni): Es la cantidad de observaciones que pertenecen a cada grupo. También, se interpreta como la cantidad de veces que se repite un suceso. Por ejemplo, continuando con el caso anterior, puede ser que de un grupo de 100 personas, 20 de ellos tengan entre 26 y 40 años.

Frecuencia relativa(hi): Se calcula dividiendo la frecuencia absoluta entre el número de datos, por ejemplo, volviendo a la situación planteada líneas arriba, 20/100 es igual a 0,2 o 20%.

Frecuencia absoluta acumulada(Fi): Resulta de sumar las frecuencias absolutas de una clase o grupo de la muestra (o población) con la anterior o las anteriores. Por ejemplo, para calcular la frecuencia absoluta acumulada del tercer grupo se suman las frecuencias absolutas del primer, segundo y tercer grupo.

Frecuencia relativa acumulada(Hi): Es el resultado de sumar las frecuencias relativas, tal y como explicamos para la frecuencia absoluta acumulada. Por ejemplo, para calcular la frecuencia relativa acumulada del cuarto grupo, se suman las frecuencias relativas del primer, segundo, tercer y cuarto grupo.

7 Base de datos

Datos sobre la flor Iris de Edgar Anderson

El conjunto de datos sobre la flor Iris entrega las medidas en centímetros del largo y ancho de los sépalos y los pétalos de 50 flores de 3 especies de Iris (setosa, versicolor y virginica).

7.1 Llamar la base de datos

Ver código
Flores <- datos::flores

7.2 Exportar base de datos

Ver código
write.csv(x = flores, file = "iris.csv", row.names = FALSE) 

Mostrar las primeras filas

Ver código
head(flores)
  Largo.Sepalo Ancho.Sepalo Largo.Petalo Ancho.Petalo Especie
1          5.1          3.5          1.4          0.2  setosa
2          4.9          3.0          1.4          0.2  setosa
3          4.7          3.2          1.3          0.2  setosa
4          4.6          3.1          1.5          0.2  setosa
5          5.0          3.6          1.4          0.2  setosa
6          5.4          3.9          1.7          0.4  setosa

7.3 Tabla de frecuencia y graficas de la variable especie

Ver código
Fa = table(flores$Especie)
Fr = round(prop.table(Fa), 4)
FrP = Fr*100
Tabla_Especie = cbind(Fa,Fr,FrP)
colnames(Tabla_Especie) = c("ni","hi","hi%")
Form.Basic <- c("striped", "bordered", "hover", "condensed", "responsive")
cbind.data.frame(Tabla_Especie) %>%
  kable(align = "c") %>% 
  kable_styling(bootstrap_options = Form.Basic)
ni hi hi%
setosa 50 0.3333 33.33
versicolor 50 0.3333 33.33
virginica 50 0.3333 33.33
Ver código
ggplot(data = flores, aes(x = Especie, y = ..count..)) +
  geom_bar(stat = "count", fill = "steelblue") +
  geom_text(aes(label = ..count..), stat = "count", vjust = 2, colour = "white") +
  labs(title = "Conteo de Especies en el Conjunto de Datos Iris",
       x = "Especie",
       y = "Conteo")

Ver código
ggplot(flores, aes(x = "", y = ..prop.., fill = Especie)) +
  geom_bar(width = 1, stat = "count") +
  geom_text(aes(label = scales::percent(..prop..)), stat = "count", position = position_stack(vjust = 0.5)) +
  coord_polar(theta = "y") +
  theme_void() +
  scale_fill_brewer(palette = "Set3") +
  labs(title = "Diagrama Circular con Porcentajes para la Variable 'Especie'",
       fill = "Especie",
       x = NULL,
       y = NULL)

7.4 Tabla de frecuencias para la variable longitud del sepalo

Ver código
Lista <- hist(flores$Largo.Sepalo, plot = FALSE)
Tabla1 <- table.freq(Lista)
colnames(Tabla1) = c("Li","Ls","Yi","ni","hi%","Ni","Hi%")
Form.Basic <- c("striped", "bordered", "hover", "condensed", "responsive")
cbind.data.frame(Tabla1) %>%
  kable(align = "c") %>% 
  kable_styling(bootstrap_options = Form.Basic)
Li Ls Yi ni hi% Ni Hi%
4.0 4.5 4.25 5 3.3 5 3.3
4.5 5.0 4.75 27 18.0 32 21.3
5.0 5.5 5.25 27 18.0 59 39.3
5.5 6.0 5.75 30 20.0 89 59.3
6.0 6.5 6.25 31 20.7 120 80.0
6.5 7.0 6.75 18 12.0 138 92.0
7.0 7.5 7.25 6 4.0 144 96.0
7.5 8.0 7.75 6 4.0 150 100.0
Ver código
hh <- hist(flores$Largo.Sepalo,nclass=8, plot=FALSE)

h11<-graph.freq(hh, frequency=2, col=colors()[367]
,main="Histograma de frecuencias relativas" ,axes=F)
axis(1,h11$breaks,las=2)
axis(2,round(h11$relative,2),las=2)

Ver código
ggplot(flores, aes(x = Largo.Sepalo, fill = Largo.Sepalo)) +
  geom_density() + 
  guides(fill = guide_legend(title = "Título")) 

Referencias

Mendiburu, Felipe de. 2023. «agricolae: Statistical Procedures for Agricultural Research». https://CRAN.R-project.org/package=agricolae.
Neuwirth, Erich. 2022. «RColorBrewer: ColorBrewer Palettes». https://CRAN.R-project.org/package=RColorBrewer.
Quiroga, Riva, Edgar Ruiz, Mauricio Vargas, y Mauro Lepore. 2023. «datos: Traduce al Español Varios Conjuntos de Datos de Práctica». https://CRAN.R-project.org/package=datos.
Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, et al. 2019. «Welcome to the tidyverse» 4: 1686. https://doi.org/10.21105/joss.01686.
Zhu, Hao. 2021. «kableExtra: Construct Complex Table with ’kable’ and Pipe Syntax». https://CRAN.R-project.org/package=kableExtra.

Notas

  1. Número de veces que aparece, sucede o se realiza una cosa durante un período o un espacio determinados.↩︎

  2. Número de veces que aparece, sucede o se realiza una cosa durante un período o un espacio determinados.↩︎