Ver código
library(datos)
library(tidyverse)
library(kableExtra)
library(agricolae)
library(RColorBrewer)install.packages(“datos”)
install.packages(“tidyverse”)
install.packages(“kableExtra”)
install.packages(“agricolae”)
install.packages(“RColorBrewer”)
library(datos)
library(tidyverse)
library(kableExtra)
library(agricolae)
library(RColorBrewer)(Quiroga et al. 2023; Wickham et al. 2019; Zhu 2021; Mendiburu 2023; Neuwirth 2022)
Una variable enestadística es una característica que puede fluctuar y cuya variación es susceptible de adoptar diferentes valores, los cuales pueden medirse u observarse. Las variables adquieren valor cuando se relacionan con otras variables, es decir, si forman parte de una hipótesis o de una teoría. Es decir, son características o cualidades de una persona, animal u objeto, las cuales puedes medir. Por ejemplo: la edad, la estatura, el peso o la altura de un edificio.
Hay dos tipos de variables que se utilizan en el análisis e interpretación de datos:
1. Variables Cualitativas
Son el tipo de variables que como su nombre lo indica expresan distintas cualidades, características o modalidades. Cada modalidad que se presenta se denomina atributo o categoría, y la medición consiste en una clasificación de dichos atributos.Es decir, son características de un individuo u objeto, que se pueden expresar con palabras. Algunos ejemplos son: el color de ojos, el color del cabello, el género, el estado civil o la marca de un producto.
Las variables cualitativas pueden ser:
Dicotómicas : cuando sólo pueden tomar dos valores posibles, como por ejemplo sí y no, hombre y mujer o ser
Politómicas : cuando pueden adquirir tres o más valores como por ejemplo:la posición de ganadores en una competencia Oro, plata, bronce.
2. Variables Cuantitativas
Son aquellas características de un objeto o individuo que se pueden escribir en números. Por ejemplo: edad, ingresos, peso, altura, presión, humedad o cantidad de hermanos.
Las variables cuantitativas pueden ser:
Discretas : Son aquellas que no aceptan un valor entre dos números consecutivos. Si tienes los datos 1, 2, 3, 10, 11 y 15, entre el 1 y 2 no puede aparecer el 1.48, porque del 1 salta directamente al 2. Generalmente, las variables discretas son resultado de un conteo y no permiten los números decimales. Por ejemplo: número de pacientes, número de alumnos, número de motos por modelo.
Continuas : Son aquellas que pueden tomar cualquier valor entre dos intervalos o números. Por ejemplo, si necesitas escribir la estatura de un grupo de basquetbolistas, seguramente, no podrás utilizar los números 1 y 2, pero si las variables 1.78, 1.65, 1.45, porque la altura suele expresarse de esa manera.
https://edu.gcfglobal.org/es/estadistica-basica/que-es-una-tabla-de-frecuencias/1/.
Video
Variable Cualitativa Nominal
En esta variable los valores no pueden ser sometidos a un criterio de orden,como por ejemplo los colores o el lugar de registro
Veamos otros ejemplos
Sexo: masculino, femenino ó femenino, masculino; Fumar: No, Sí ó Sí, No Estado civil: Casado, Soltero, Viudo, Divorciado
Variable Cualitativa Ordinal o Variable Cuasicuantitativa
La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo: leve, moderado, fuerte.
Veamos otros ejemplos:
Clase social: 1 baja, 2 media, 3 alta Grados de reflujo vesicoureteral: Grados 1, 2, 3, 4 Conformidad con una afirmación: 0 completo desacuerdo, 1 acuerdo parcial, 2 acuerdo total
Para tener en cuenta : Existen variables que serán mezcla de nominal y ordinal, porque solo algunas categorías estén ordenadas por rango; esto ocurre en las escalas en las que un valor representa a una categoría inclasificable (ejemplo: no sabe no contesta o resultado indeterminado).
Variable Cuanitativa de Intervalos
Los intervalos poseen la cualidad adicional de que los intervalos entre sus clases son iguales. Diferencias iguales entre cualquier par de números de la escala indican diferencias también iguales en el atributo sometido a medición. Veamos un ejemplo: la diferencia de temperatura entre una habitación a 22 grados centígrados y otra a 26 es la misma que la existente entre dos a 33 y 37 grados centígrados, respectivamente.
Sin embargo, la razón entre los números de la escala no es necesariamente la misma que la existente entre las cantidades del atributo. Ejemplo: una habitación a 20 grados no está el doble caliente que otra a 10. Ello se debe a que el cero de la escala no expresa el valor nulo o ausencia de atributo.
Variable Cuantitativa de Razones
Su cualidad adicional es que el cero sí indica ausencia de atributo. En consecuencia, la razón entre dos números de la escala es igual a la existente entre las cantidades del atributo medido. Ejemplos:
Peso: medido en kilogramos. Concentración de glucosa en una muestra: medida en mg/dl. Tasa de mortalidad: muertes por 1000 personas en riesgo. Ingresos: medidos en euros.
Para tener en cuenta : Las escalas de intervalos y razones se llaman también métricas o dimensionales. Las variables continuas van a medirse con escalas de razones o intervalos, por lo que es habitual que nos refiramos a ellas englobándolas como escalas continuas, ya que comparten estrategias de análisis, como la elección del test estadístico. Algunos paquetes estadísticos, como SPSS, las denominan simplemente “escalas”.
https://evidenciasenpediatria.es/articulo/7307/estadistica-tipos-de-variables-escalas-de-medida.
Video
Variables independientes
Es aquella cuyo valor no depende de otra variable. Es aquella característica o propiedad que se supone es la causa del fenómeno estudiado. En investigación experimental se llama así a la variable que el investigador manipula.
Las variables independientes son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de control, que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo.
La variable independiente se suele representar en el eje de abscisas. La variable independiente es la que se le asignan valores arbitrarios
Variables dependientes
Es aquella cuyos valores dependen de los que tomen otra variable. La variable dependiente es una función que se suele representar por la y. La variable dependiente se representa en el eje ordenadas. Son las variables de respuesta que se observan en el estudio, y que podrían estar influidas por los valores de las variables independientes.
Hayman (1974 : 69) la define como propiedad o característica que se trata de cambiar mediante la manipulación de la variable independiente.
La variable dependiente es el factor que es observado y medido para determinar el efecto de la variable independiente
Variables intervinientes
Son aquellas características o propiedades que, de una manera u otra, afectan el resultado que se espera y están vinculadas con las variables independients y dependientes. Y es muy similar a la variable moderadora aunque no son iguales solo son muy similares a la forma de relacionarlas.
Video
Las distribuciones de frecuencias2 son tablas en que se dispone las modalidades de la variable por filas. En las columnas se coloca el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de la información que contienen los datos.
La distribución de frecuencias, en otras palabras, es la manera en la que se ordena una serie de observaciones en diferentes grupos, y normalmente en modo ascendente o descendente.
Frecuencia absoluta(ni): Es la cantidad de observaciones que pertenecen a cada grupo. También, se interpreta como la cantidad de veces que se repite un suceso. Por ejemplo, continuando con el caso anterior, puede ser que de un grupo de 100 personas, 20 de ellos tengan entre 26 y 40 años.
Frecuencia relativa(hi): Se calcula dividiendo la frecuencia absoluta entre el número de datos, por ejemplo, volviendo a la situación planteada líneas arriba, 20/100 es igual a 0,2 o 20%.
Frecuencia absoluta acumulada(Fi): Resulta de sumar las frecuencias absolutas de una clase o grupo de la muestra (o población) con la anterior o las anteriores. Por ejemplo, para calcular la frecuencia absoluta acumulada del tercer grupo se suman las frecuencias absolutas del primer, segundo y tercer grupo.
Frecuencia relativa acumulada(Hi): Es el resultado de sumar las frecuencias relativas, tal y como explicamos para la frecuencia absoluta acumulada. Por ejemplo, para calcular la frecuencia relativa acumulada del cuarto grupo, se suman las frecuencias relativas del primer, segundo, tercer y cuarto grupo.
Datos sobre la flor Iris de Edgar Anderson
El conjunto de datos sobre la flor Iris entrega las medidas en centímetros del largo y ancho de los sépalos y los pétalos de 50 flores de 3 especies de Iris (setosa, versicolor y virginica).
Flores <- datos::floreswrite.csv(x = flores, file = "iris.csv", row.names = FALSE) Mostrar las primeras filas
head(flores) Largo.Sepalo Ancho.Sepalo Largo.Petalo Ancho.Petalo Especie
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
Fa = table(flores$Especie)
Fr = round(prop.table(Fa), 4)
FrP = Fr*100
Tabla_Especie = cbind(Fa,Fr,FrP)
colnames(Tabla_Especie) = c("ni","hi","hi%")
Form.Basic <- c("striped", "bordered", "hover", "condensed", "responsive")
cbind.data.frame(Tabla_Especie) %>%
kable(align = "c") %>%
kable_styling(bootstrap_options = Form.Basic)| ni | hi | hi% | |
|---|---|---|---|
| setosa | 50 | 0.3333 | 33.33 |
| versicolor | 50 | 0.3333 | 33.33 |
| virginica | 50 | 0.3333 | 33.33 |
ggplot(data = flores, aes(x = Especie, y = ..count..)) +
geom_bar(stat = "count", fill = "steelblue") +
geom_text(aes(label = ..count..), stat = "count", vjust = 2, colour = "white") +
labs(title = "Conteo de Especies en el Conjunto de Datos Iris",
x = "Especie",
y = "Conteo")ggplot(flores, aes(x = "", y = ..prop.., fill = Especie)) +
geom_bar(width = 1, stat = "count") +
geom_text(aes(label = scales::percent(..prop..)), stat = "count", position = position_stack(vjust = 0.5)) +
coord_polar(theta = "y") +
theme_void() +
scale_fill_brewer(palette = "Set3") +
labs(title = "Diagrama Circular con Porcentajes para la Variable 'Especie'",
fill = "Especie",
x = NULL,
y = NULL)Lista <- hist(flores$Largo.Sepalo, plot = FALSE)
Tabla1 <- table.freq(Lista)
colnames(Tabla1) = c("Li","Ls","Yi","ni","hi%","Ni","Hi%")
Form.Basic <- c("striped", "bordered", "hover", "condensed", "responsive")
cbind.data.frame(Tabla1) %>%
kable(align = "c") %>%
kable_styling(bootstrap_options = Form.Basic)| Li | Ls | Yi | ni | hi% | Ni | Hi% |
|---|---|---|---|---|---|---|
| 4.0 | 4.5 | 4.25 | 5 | 3.3 | 5 | 3.3 |
| 4.5 | 5.0 | 4.75 | 27 | 18.0 | 32 | 21.3 |
| 5.0 | 5.5 | 5.25 | 27 | 18.0 | 59 | 39.3 |
| 5.5 | 6.0 | 5.75 | 30 | 20.0 | 89 | 59.3 |
| 6.0 | 6.5 | 6.25 | 31 | 20.7 | 120 | 80.0 |
| 6.5 | 7.0 | 6.75 | 18 | 12.0 | 138 | 92.0 |
| 7.0 | 7.5 | 7.25 | 6 | 4.0 | 144 | 96.0 |
| 7.5 | 8.0 | 7.75 | 6 | 4.0 | 150 | 100.0 |
hh <- hist(flores$Largo.Sepalo,nclass=8, plot=FALSE)
h11<-graph.freq(hh, frequency=2, col=colors()[367]
,main="Histograma de frecuencias relativas" ,axes=F)
axis(1,h11$breaks,las=2)
axis(2,round(h11$relative,2),las=2)ggplot(flores, aes(x = Largo.Sepalo, fill = Largo.Sepalo)) +
geom_density() +
guides(fill = guide_legend(title = "Título"))