ESTADISTICA DESCRIPTIVA UNIVARIADA Y MULTIVARIADA

INTRODUCCIÓN

Este informe presenta un análisis de estadística univariada y multivariada sobre un conjunto de datos que incluye variables relacionadas con la salud de individuos, estas puedes ser categoricas como el estrato (ES) y el género (GEN) o númericas como la edad (EDAD), colesterol (COL), índice de masa corporal (IMC) y tensión arterial diastólica (TAD).

library(readxl)
ADD <- read_excel("C:/Users/ALLS/Downloads/ADD.xlsx")
View(ADD)

VARIABLES CATEGORICAS

Para analizar las variable categoricas de manera univariada se pueden emplear el gráfico de barras con la función barplot o el gráfico de sectores con la función pie

#Grafico Estrato
tablaEst=table(ADD$ES)
barplot(tablaEst,
        main = "DIAGRAMA DE ESTRATO",
        ylab = "Frecuencia",
        xlab = "Estrato",
        col = c("lightsalmon"))

#Grafico Genero
tablaGe=table(ADD$GEN)
prop=tablaGe/sum(tablaGe)*100
prop2cifras=round(prop,2)
etiquetas=paste0(prop2cifras, "%")
pie(tablaGe,
    labels = etiquetas, 
    col = c("lightgreen","pink"),
    main = "Genero")
legend("topleft", legend = c("Femenino", "Masculino"),
        fill = c("lightgreen","pink"))

VARIABLES CUANTITATIVAS

A continuación, se presentan las medidas de tendencia central y variabilidad para cada una de las variables cuantitativas, haciendo uso de la funcion summary condicionada con dichas variables, al igual que la funcion stat.desc proveniente del paquete pastecs. Adicional a esto se presenta el diagrama de caja que permite visualizar los datos atipicos de cada una de estas variables atraves de la funci`on boxplot Si se quiere analizar una sola variable es necesario utilizar el signo $

summary(ADD[1:4])

##       EDAD            COL             IMC             TAD        
##  Min.   :42.00   Min.   :175.0   Min.   :19.10   Min.   : 65.00  
##  1st Qu.:49.00   1st Qu.:214.2   1st Qu.:22.50   1st Qu.: 71.25  
##  Median :56.00   Median :230.0   Median :25.52   Median : 80.00  
##  Mean   :55.24   Mean   :236.8   Mean   :25.70   Mean   : 81.37  
##  3rd Qu.:60.00   3rd Qu.:254.0   3rd Qu.:27.91   3rd Qu.: 90.00  
##  Max.   :68.00   Max.   :315.0   Max.   :34.44   Max.   :105.00

# Cargar la librería pastecs
library(pastecs)
stat.desc (ADD[1:4])

##                      EDAD          COL          IMC          TAD
## nbr.val        70.0000000 7.000000e+01   70.0000000   70.0000000
## nbr.null        0.0000000 0.000000e+00    0.0000000    0.0000000
## nbr.na          0.0000000 0.000000e+00    0.0000000    0.0000000
## min            42.0000000 1.750000e+02   19.1000000   65.0000000
## max            68.0000000 3.150000e+02   34.4400000  105.0000000
## range          26.0000000 1.400000e+02   15.3400000   40.0000000
## sum          3867.0000000 1.657400e+04 1799.0500000 5696.0000000
## median         56.0000000 2.300000e+02   25.5150000   80.0000000
## mean           55.2428571 2.367714e+02   25.7007143   81.3714286
## SE.mean         0.8477069 4.136049e+00    0.4862697    1.3635557
## CI.mean.0.95    1.6911289 8.251192e+00    0.9700815    2.7202193
## var            50.3024845 1.197483e+03   16.5520763  130.1498965
## std.dev         7.0924244 3.460467e+01    4.0684243   11.4083258
## coef.var        0.1283863 1.461522e-01    0.1583000    0.1402006

#Datos atipicos 

#Edad
boxplot(ADD$EDAD, 
        main = "Boxplot de Edad", 
        col = "lightblue")

#Colesterol
boxplot(ADD$COL, 
       main = "Boxplot de Colesterol", 
      col = "lightpink")

#Indice de Masa Corporal
boxplot(ADD$IMC, 
        main = "Boxplot de Indice de Masa Corporal", 
        col = "lightgreen")

#Tension Arterial Diastolica
boxplot(ADD$TAD, 
        main = "Boxplot de Tension Arterial Diastolica", 
        col = "chocolate")

Basandonos en los diagramas de cajas y bigotes de las variable se puede observar que la mayoria de variables tienen comportamientos diferenciados en cuanto a su variabilidad.La Edad presenta poca dispersión, lo que indica que los individuos son similares en cuanto a este aspecto. Sin embargo, en las variables Colesterol y TAD, se observa mayor dispersión, especialmente en Colesterol, debido a que cuenta con valores atípicos. Por otro lado, el IMC presenta una variabilidad moderada, lo que implica que sus valores son más homogéneos.

Al observar el Coeficiente de Variación de las variables, se evidencia que, en general, sus valores son relativamente bajos, lo que sugiere una baja dispersión en la mayoría de las variables. Esto permite plantear que no todos los datos provienen de una distribución normal. Para comprobar esta hipótesis, se analiza la distribución de frecuencias de una de las variables, complementada con su respectivo histograma, como se muestra a continuación:

Tabla de Frecuencia TAD

#Digite sus datos
datos<- ADD$"TAD"
#SELECCIONE EL METODO en que:
#1 Usa la raiz de n
#2 Usa la regla de Sturges
#3 El usuario define el n´umero de invervalos
#4 Sin usar intervalos (datos categ´oricos)
metodo<-2
intervalos<-5# Solo para el m´etodo 3
i<-switch(metodo,
ceiling(sqrt(length(datos))),
ceiling(nclass.Sturges(datos)),
intervalos,
NULL)
factorx<-factor(cut(datos, breaks=i, include.lowest = T))
if(is.null(i)) xout <- table(datos) else xout <- table(factorx)
tablefreq<- transform(xout,
f_r = 100*prop.table(Freq), F_i = cumsum(Freq),
F_r=100*cumsum(prop.table(Freq)))
names(tablefreq)[names(tablefreq) == "Freq"] <- "f_i"
names(tablefreq)[names(tablefreq) == "factorx"] <- "clases"
print(tablefreq)

##      clases f_i       f_r F_i       F_r
## 1   [65,70]  18 25.714286  18  25.71429
## 2   (70,75]  14 20.000000  32  45.71429
## 3   (75,80]  10 14.285714  42  60.00000
## 4   (80,85]   5  7.142857  47  67.14286
## 5   (85,90]   7 10.000000  54  77.14286
## 6   (90,95]   8 11.428571  62  88.57143
## 7  (95,100]   6  8.571429  68  97.14286
## 8 (100,105]   2  2.857143  70 100.00000

Teniendo en cuenta la tabla de frecuencia y haciendo uso de la regla de Sturges, se puede realizar el histograma para la variable elegida (TAD):

Histograma TAD

hist(ADD$TAD,
     main = "Histograma de Tension Arterial Diastolica",
     breaks = c(65,70,75,80,85,90,95,100,105),
     ylab = "Frecuencia",
     xlab = "Clases",
     col = "lightblue")

Para simular la distribución normal, se emplea la media y desviación estándar de la variable (TAD), lo que permite realizar el histograma con rangos de 3, 2, 1 desviaciones estándar de la media, tanto a derecha como izquierda, ya que este modelo es simétrico con respecto a la media:

#Histograma TAD comparado con la Distribución Normal
stat.desc(ADD$TAD)

##      nbr.val     nbr.null       nbr.na          min          max        range 
##   70.0000000    0.0000000    0.0000000   65.0000000  105.0000000   40.0000000 
##          sum       median         mean      SE.mean CI.mean.0.95          var 
## 5696.0000000   80.0000000   81.3714286    1.3635557    2.7202193  130.1498965 
##      std.dev     coef.var 
##   11.4083258    0.1402006

#81.37+-(n*11.40), donde n=(3,2,1,0)
clasesN <- c(47.17, 58.57, 69.97, 81.37, 92.77, 104.17,115.57)
hist(ADD$TAD,
main = "Histograma Tension Arterial Diastolica",
freq = F,
breaks = clasesN,
xlim = c(47,116),
ylab = "Frecuencia Relativa",
xlab = "Tension Arterial Diastolica")

Con base en este histograma se puede decir que los datos no siguen completamente una distribución normal, para saber que tan asimetricos son los datos y que tan aplanada o alargada es la distribucion con respecto a la media, se emplean las funciones skewness proveniente del paquete moments y kurtosis proveniente del paquete e1071.

#Cargar libreria
library(moments)
library(e1071)

## 
## Adjuntando el paquete: 'e1071'

## The following objects are masked from 'package:moments':
## 
##     kurtosis, moment, skewness

skewness(ADD$TAD)

## [1] 0.368938

kurtosis(ADD$TAD)

## [1] -1.075949

Para confirmar si verdaderamente la variable (TAD) y las demas siguen una distribución normal, se hace uso del paquete nortest y su función lillie.test, que permite evaluar la veracidad de la hipotesis nula o la hipotesis alternativa, este estudio se realzará a un nivel de significancia del 5% (Nivel de confianza 95%); las hipotesis son las sguientes:

Ho: La variable sigue una distribución normal
Ha: La variable no sigue una distribución normal

library(nortest)

lillie.test(ADD$TAD)

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  ADD$TAD
## D = 0.16889, p-value = 3.634e-05

Teniendo en cuenta los resultados anteriores se puede decir que a un 95% de confianza la variable (TAD) rechaza la hipotesis nula, dado que p-value = 3.634e-05 < 0.05.

ANALISIS BIVARIADOS

VARIABLES CATEGORICAS

Para analizar las variables de género y estrato se pueden utilizar las tablas cruzadas, las cuales permiten ver la distribución entre estas

# Tabla cruzada entre Género y Estrato
table(ADD$GEN, ADD$ES)

##    
##      1  2  3  4  5  6
##   f  1  5  4 12  9  2
##   m  0  3 10  8 10  6

Para tener una mejor comprensión de esta tabla se emplea un grafico de barras con la función barplot como se muestra a continuación:

TABLAESVSGE=table(ADD$GEN, ADD$ES)
barplot(TABLAESVSGE,
        main = "GENERO VS ESTRATO",
        ylab = "Frecuencia",
        xlab = "ESTRATO",
        col = c("lightblue", "lightsalmon"))
legend(x = "topleft",
       cex=1,
       legend = c("Femenino", "Masculino"),
       fill= c("lightblue", "lightsalmon"))

En este gráfico se puede apreciar las dos variables categóricas según su frecuencia relativa, lo que permite hacer una comparación pertinente.

VARIABLES CUANTITATIVAS

Para analizar la relacion que existe entre las variables de manera general, se puede hacer uso de la funcion plot, al igual que el coeficiente de correlacion que permite analizar cuantitativamente la dispersion entre las variables, implementando la funcion cor. Si se quiere analizar dos variables se hace uso la función ggplot proveniente del paquete ggplot2

#CORRELACION GRAFICA GENERAL
plot(ADD[1:4])

cor(ADD[1:4])

##           EDAD       COL       IMC       TAD
## EDAD 1.0000000 0.3314421 0.2430232 0.3816398
## COL  0.3314421 1.0000000 0.5917648 0.6931719
## IMC  0.2430232 0.5917648 1.0000000 0.5709031
## TAD  0.3816398 0.6931719 0.5709031 1.0000000

#CORRELACION NUMERICA y SU GRAFICO DE DISPERSION 

#Llamar paquete
library(ggplot2)

#COR TAD Y EDAD 
cor(ADD$TAD,ADD$EDAD)

## [1] 0.3816398

#Gráfico de Dispersión (TAD VS Edad) 
ggplot(data = ADD, 
       mapping = aes(y = `TAD`, x = `EDAD`)) +
  geom_point() +
  geom_smooth(method = "lm") +
  labs(title='Gráfico de Dispersión TAD VS la Edad',
       y='TAD',
       x='Edad')

## `geom_smooth()` using formula = 'y ~ x'

#COR TAD Y COL 
cor(ADD$TAD,ADD$COL)

## [1] 0.6931719

#Gráfico de Dispersión (TAD VS COL) 
ggplot(data = ADD, 
       mapping = aes(y = `TAD`, x = `COL`)) +
  geom_point() +
  geom_smooth(method = "lm") +
  labs(title='Gráfico de Dispersión TAD VS Colesterol',
       y='TAD',
       x='Colesterol')

## `geom_smooth()` using formula = 'y ~ x'

#COR TAD Y IMC 
cor(ADD$TAD,ADD$IMC)

## [1] 0.5709031

#Gráfico de Dispersión (TAD VS IMC) 
ggplot(data = ADD, 
       mapping = aes(y = `TAD`, x = `IMC`)) +
  geom_point() +
  geom_smooth(method = "lm") +
  labs(title='Gráfico de Dispersión TAD VS IMC',
       y='TAD',
       x='IMC')

## `geom_smooth()` using formula = 'y ~ x'

En los gráficos de dispersión se puede apreciar de manera mas detallada la relación que existe entre las variables, ademas de tener en cuenta la línea de tendencia y los valores de correlación. Con esta información se puede evidenciar que las variables mejor asociadas son (TAD) Vs (COL).

MUESTRA ALEATORIA SIMPLE

En este estudio se tomará una muestra aleatoria de 30 individuos

muestra_ADD <- ADD[sample(nrow(ADD), 30), ]
muestra_ADD

## # A tibble: 30 × 6
##     EDAD   COL   IMC   TAD GEN      ES
##    <dbl> <dbl> <dbl> <dbl> <chr> <dbl>
##  1    58   220  25.6    70 m         5
##  2    62   287  32.3    95 m         6
##  3    47   200  25.6    80 f         4
##  4    59   218  25.0    85 m         3
##  5    49   218  25.7    85 f         5
##  6    58   248  21.6    75 m         5
##  7    48   215  23.2    67 m         5
##  8    47   231  26.2    75 f         5
##  9    60   202  19.1    65 f         3
## 10    43   218  19.8    75 m         6
## # ℹ 20 more rows

Una vez obtenida la muestra se realiza el análisis descriptivo como el que se hizo previamente para los datos en general; posteriormente se compararán los resultados obtenidos que determinarán si la muestra elegida representa un segmento relevante de la población.

VARIABLES CATEGORICAS DE LA MUESTRA

#Grafico Estrato de la muestra
tablaMuEst=table(muestra_ADD$ES)
barplot(tablaMuEst,
        main = "DIAGRAMA DE ESTRATO",
        ylab = "Frecuencia",
        xlab = "Estrato",
        col = c("darkseagreen"))

#Grafico Genero de la muestra
tablaMuGe=table(muestra_ADD$GEN)
prop=tablaMuGe/sum(tablaMuGe)*100
prop2cifras=round(prop,2)
etiquetas=paste0(prop2cifras, "%")
pie(tablaGe,
    labels = etiquetas, 
    col = c("cadetblue","plum"),
    main = "Genero")
legend("topleft", legend = c("Femenino", "Masculino"),
        fill = c("cadetblue","plum"))

VARIABLES CUANTITATIVAS DE LA MUESTRA

summary(ADD[1:4])

##       EDAD            COL             IMC             TAD        
##  Min.   :42.00   Min.   :175.0   Min.   :19.10   Min.   : 65.00  
##  1st Qu.:49.00   1st Qu.:214.2   1st Qu.:22.50   1st Qu.: 71.25  
##  Median :56.00   Median :230.0   Median :25.52   Median : 80.00  
##  Mean   :55.24   Mean   :236.8   Mean   :25.70   Mean   : 81.37  
##  3rd Qu.:60.00   3rd Qu.:254.0   3rd Qu.:27.91   3rd Qu.: 90.00  
##  Max.   :68.00   Max.   :315.0   Max.   :34.44   Max.   :105.00

# Cargar la librería pastecs

library(pastecs)
stat.desc (ADD[1:4])

##                      EDAD          COL          IMC          TAD
## nbr.val        70.0000000 7.000000e+01   70.0000000   70.0000000
## nbr.null        0.0000000 0.000000e+00    0.0000000    0.0000000
## nbr.na          0.0000000 0.000000e+00    0.0000000    0.0000000
## min            42.0000000 1.750000e+02   19.1000000   65.0000000
## max            68.0000000 3.150000e+02   34.4400000  105.0000000
## range          26.0000000 1.400000e+02   15.3400000   40.0000000
## sum          3867.0000000 1.657400e+04 1799.0500000 5696.0000000
## median         56.0000000 2.300000e+02   25.5150000   80.0000000
## mean           55.2428571 2.367714e+02   25.7007143   81.3714286
## SE.mean         0.8477069 4.136049e+00    0.4862697    1.3635557
## CI.mean.0.95    1.6911289 8.251192e+00    0.9700815    2.7202193
## var            50.3024845 1.197483e+03   16.5520763  130.1498965
## std.dev         7.0924244 3.460467e+01    4.0684243   11.4083258
## coef.var        0.1283863 1.461522e-01    0.1583000    0.1402006

#Datos atipicos 

#Edad muestra
boxplot(muestra_ADD$EDAD, 
        main = "Boxplot de Edad", 
        col = "burlywood")

#Colesterol muestra
boxplot(muestra_ADD$COL, 
       main = "Boxplot de Colesterol", 
       col = "firebrick1")

#Indice de Masa Corporal muestra
boxplot(muestra_ADD$IMC, 
        main = "Boxplot de Indice de Masa Corporal", 
        col = "darkorange")

#Tension Arterial Diastolica muestra
boxplot(muestra_ADD$TAD, 
        main = "Boxplot de Tension Arterial Diastolica", 
        col = "gold")

#Tabla de Frecuencia TAD muestra

#Digite sus datos
datos<- muestra_ADD$TAD
#SELECCIONE EL METODO en que:
#1 Usa la raiz de n
#2 Usa la regla de Sturges
#3 El usuario define el n´umero de invervalos
#4 Sin usar intervalos (datos categ´oricos)
metodo<-2
intervalos<-5# Solo para el m´etodo 3
i<-switch(metodo,
ceiling(sqrt(length(datos))),
ceiling(nclass.Sturges(datos)),
intervalos,
NULL)
factorx<-factor(cut(datos, breaks=i, include.lowest = T))
if(is.null(i)) xout <- table(datos) else xout <- table(factorx)
tablefreq<- transform(xout,
f_r = 100*prop.table(Freq), F_i = cumsum(Freq),
F_r=100*cumsum(prop.table(Freq)))
names(tablefreq)[names(tablefreq) == "Freq"] <- "f_i"
names(tablefreq)[names(tablefreq) == "factorx"] <- "clases"
print(tablefreq)

##        clases f_i       f_r F_i       F_r
## 1   [65,70.8]  12 40.000000  12  40.00000
## 2 (70.8,76.7]   3 10.000000  15  50.00000
## 3 (76.7,82.5]   3 10.000000  18  60.00000
## 4 (82.5,88.3]   2  6.666667  20  66.66667
## 5 (88.3,94.2]   3 10.000000  23  76.66667
## 6  (94.2,100]   7 23.333333  30 100.00000

#Histograma TAD Muestra

hist(muestra_ADD$TAD,
     main = "Histograma de Tension Arterial Diastolica",
     breaks = c(65,70.8,76.7,82.5,88.3,94.2,100),
     ylab = "Frecuencia",
     xlab = "Clases",
     col = "olivedrab1")

#Coeficiente de Asimetría y Curtosis TAD muestra

#Cargar libreria
library(moments)
library(e1071)

skewness(muestra_ADD$TAD)

## [1] 0.2947072

kurtosis(muestra_ADD$TAD)

## [1] -1.472772

ANALISIS BIVARIADOS MUESTRA

VARIABLES CATEGORICAS DE LA MUESTRA

# Tabla cruzada entre Género y Estrato Muestra
table(muestra_ADD$GEN, muestra_ADD$ES)

##    
##     2 3 4 5 6
##   f 2 1 6 4 0
##   m 1 6 4 4 2

#Grafico de barras muestra
TABLAMUESVSGE=table(muestra_ADD$GEN, muestra_ADD$ES)
barplot(TABLAMUESVSGE,
        main = "GENERO VS ESTRATO",
        ylab = "Frecuencia",
        xlab = "ESTRATO",
        col = c("navajowhite", "paleturquoise"))
legend(x = "topleft",
       cex=1,
       legend = c("Femenino", "Masculino"),
       fill= c("navajowhite", "paleturquoise"))

VARIABLES CUANTITATIVAS DE LA MUESTRA

#CORRELACION GRAFICA GENERAL
plot(muestra_ADD[1:4])

#CORRELACION NUMERICA y SU GRAFICO DE DISPERSION DE LA MUESTRA 

#Llamar paquete
library(ggplot2)

#COR TAD Y EDAD Muestra
cor(muestra_ADD$TAD,muestra_ADD$EDAD)

## [1] 0.4524728

#Gráfico de Dispersión (TAD VS Edad) Muestra
ggplot(data = muestra_ADD, 
       mapping = aes(y = `TAD`, x = `EDAD`)) +
  geom_point() +
  geom_smooth(method = "lm") +
  labs(title='Gráfico de Dispersión TAD VS la Edad',
       y='TAD',
       x='Edad')

## `geom_smooth()` using formula = 'y ~ x'

#COR TAD Y COL Muestra
cor(muestra_ADD$TAD,muestra_ADD$COL)

## [1] 0.7939021

#Gráfico de Dispersión (TAD VS COL) Muestra
ggplot(data = muestra_ADD, 
       mapping = aes(y = `TAD`, x = `COL`)) +
  geom_point() +
  geom_smooth(method = "lm") +
  labs(title='Gráfico de Dispersión TAD VS Colesterol',
       y='TAD',
       x='Colesterol')

## `geom_smooth()` using formula = 'y ~ x'

#COR TAD Y IMC Muestra
cor(muestra_ADD$TAD,muestra_ADD$IMC)

## [1] 0.7578314

#Gráfico de Dispersión (TAD VS IMC) Muestra
ggplot(data = muestra_ADD, 
       mapping = aes(y = `TAD`, x = `IMC`)) +
  geom_point() +
  geom_smooth(method = "lm") +
  labs(title='Gráfico de Dispersión TAD VS IMC',
       y='TAD',
       x='IMC')

## `geom_smooth()` using formula = 'y ~ x'

Con base a los resultados obtenidos, la muestra aleatoria es representativa dentro de la población, ya que tiene en cuenta la variabilidad y las caracteristicas de la misma. Gracias a esto se puede decir que es posible realizar un análisis estadístico descriptivo a partir de la muestra y que esto sera válido y aplicable a la población general.

MEDIA POR INTERVALOS

Para determinar la media por intervalos se pueden emplear las funciones z.test y t.test, nativas de R; o emplear zsum.test y tsum.test provenientes del paquete BSDA.

Media por Intervalos Edad: (53.55173, 56.93399).
Media por Intervalos Colesterol: (228.5202, 245.0226).
Media por Intervalos Índice de Masa Corporal: (24.73063, 26.67080).
Media por Intervalos Tensión Arterial Diastólica: (78.65121, 84.09165).

Los intervalos anteriores cuentan con un 95% de confianza, para todas las variables

#Media por Intervalos Edad
t.test(x=ADD$EDAD, conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  ADD$EDAD
## t = 65.167, df = 69, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  53.55173 56.93399
## sample estimates:
## mean of x 
##  55.24286

#Media por Intervalos Colesterol
t.test(x=ADD$COL, conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  ADD$COL
## t = 57.246, df = 69, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  228.5202 245.0226
## sample estimates:
## mean of x 
##  236.7714

#Media por Intervalos Índice de Masa Corporal
t.test(x=ADD$IMC, conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  ADD$IMC
## t = 52.853, df = 69, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  24.73063 26.67080
## sample estimates:
## mean of x 
##  25.70071

#Media por Intervalos Tensión Arterial Diastólica
t.test(x=ADD$TAD, conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  ADD$TAD
## t = 59.676, df = 69, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  78.65121 84.09165
## sample estimates:
## mean of x 
##  81.37143

DIFERENCIA DE MEDIAS

La diferencia de medias es un parámetro que permite comparar dos conjuntos de manera puntual o por medio de intervalos. Para determinar esta variable se hace uso de la función t.test. Dependiendo del resultado obtenido se tienen en cuenta los siguientes 3 casos que permiten tomar decisiones informadas sobre la diferencia entre los grupos:

Media A > Media B: Media A - Media B > 0
Media A < Media B: Media A - Media B < 0
Media A = Media B: Media A - Media B = 0

Para hacer uso de esta función se tomará como ejemplo la diferencia de medias entre la variable (EDAD) y (COL), que se trabaja a un 95% de confianza:

t.test(x=ADD$EDAD, y=ADD$COL, conf.level = 0.95)

## 
##  Welch Two Sample t-test
## 
## data:  ADD$EDAD and ADD$COL
## t = -42.996, df = 74.787, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -189.9397 -173.1175
## sample estimates:
## mean of x mean of y 
##  55.24286 236.77143

Ya que el intervalo dado no incluye el 0 y está en valores negativos, se puede afirmar a un 95% de cofianza que la Media (EDAD) < Media (COL).

PRUEBA DE HIPOTESIS RESPECTO A LA MEDIA

A partir de los temas relacionados con la media, se puede plantear una prueba de hipótesis para la variable (TAD), estimando su desviación estándar y media a un intervalo de confianza del 95%:

Ho: La media de TAD es igual a 80.
Ha: La media de TAD es diferente a 80.

t.test(ADD$TAD, mu = 80, conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  ADD$TAD
## t = 1.0058, df = 69, p-value = 0.318
## alternative hypothesis: true mean is not equal to 80
## 95 percent confidence interval:
##  78.65121 84.09165
## sample estimates:
## mean of x 
##  81.37143

Dado el p-value = 0.318, podemos decir que se acepta la Ho, debido a que p (0.318) > alfa (0.05) es decir, la media de TAD es cercana a 80, adicional a esto la función entrega un intervalo con un 95% de confianza que combrueba que la media si se encuentra del rango establecido (78.65121 84.09165)

ESTADISTICA DESCRIPTIVA UNIVARIADA Y MULTIVARIADA

Adriana Lucia Lizarazo Suarez - Laura Valentina Ortiz Canaria

2024-09-25