INTRODUCCIÓN
Este informe presenta un análisis de estadística univariada y multivariada sobre un conjunto de datos que incluye variables relacionadas con la salud de individuos, estas puedes ser categoricas como el estrato (ES) y el género (GEN) o númericas como la edad (EDAD), colesterol (COL), índice de masa corporal (IMC) y tensión arterial diastólica (TAD).
library(readxl)
ADD <- read_excel("C:/Users/ALLS/Downloads/ADD.xlsx")
View(ADD)
VARIABLES CATEGORICAS
Para analizar las variable categoricas de manera univariada se pueden emplear el gráfico de barras con la función barplot o el gráfico de sectores con la función pie
#Grafico Estrato
tablaEst=table(ADD$ES)
barplot(tablaEst,
main = "DIAGRAMA DE ESTRATO",
ylab = "Frecuencia",
xlab = "Estrato",
col = c("lightsalmon"))
#Grafico Genero
tablaGe=table(ADD$GEN)
prop=tablaGe/sum(tablaGe)*100
prop2cifras=round(prop,2)
etiquetas=paste0(prop2cifras, "%")
pie(tablaGe,
labels = etiquetas,
col = c("lightgreen","pink"),
main = "Genero")
legend("topleft", legend = c("Femenino", "Masculino"),
fill = c("lightgreen","pink"))
VARIABLES CUANTITATIVAS
A continuación, se presentan las medidas de tendencia central y variabilidad para cada una de las variables cuantitativas, haciendo uso de la funcion summary condicionada con dichas variables, al igual que la funcion stat.desc proveniente del paquete pastecs. Adicional a esto se presenta el diagrama de caja que permite visualizar los datos atipicos de cada una de estas variables atraves de la funci`on boxplot Si se quiere analizar una sola variable es necesario utilizar el signo $
summary(ADD[1:4])
## EDAD COL IMC TAD
## Min. :42.00 Min. :175.0 Min. :19.10 Min. : 65.00
## 1st Qu.:49.00 1st Qu.:214.2 1st Qu.:22.50 1st Qu.: 71.25
## Median :56.00 Median :230.0 Median :25.52 Median : 80.00
## Mean :55.24 Mean :236.8 Mean :25.70 Mean : 81.37
## 3rd Qu.:60.00 3rd Qu.:254.0 3rd Qu.:27.91 3rd Qu.: 90.00
## Max. :68.00 Max. :315.0 Max. :34.44 Max. :105.00
# Cargar la librería pastecs
library(pastecs)
stat.desc (ADD[1:4])
## EDAD COL IMC TAD
## nbr.val 70.0000000 7.000000e+01 70.0000000 70.0000000
## nbr.null 0.0000000 0.000000e+00 0.0000000 0.0000000
## nbr.na 0.0000000 0.000000e+00 0.0000000 0.0000000
## min 42.0000000 1.750000e+02 19.1000000 65.0000000
## max 68.0000000 3.150000e+02 34.4400000 105.0000000
## range 26.0000000 1.400000e+02 15.3400000 40.0000000
## sum 3867.0000000 1.657400e+04 1799.0500000 5696.0000000
## median 56.0000000 2.300000e+02 25.5150000 80.0000000
## mean 55.2428571 2.367714e+02 25.7007143 81.3714286
## SE.mean 0.8477069 4.136049e+00 0.4862697 1.3635557
## CI.mean.0.95 1.6911289 8.251192e+00 0.9700815 2.7202193
## var 50.3024845 1.197483e+03 16.5520763 130.1498965
## std.dev 7.0924244 3.460467e+01 4.0684243 11.4083258
## coef.var 0.1283863 1.461522e-01 0.1583000 0.1402006
#Datos atipicos
#Edad
boxplot(ADD$EDAD,
main = "Boxplot de Edad",
col = "lightblue")
#Colesterol
boxplot(ADD$COL,
main = "Boxplot de Colesterol",
col = "lightpink")
#Indice de Masa Corporal
boxplot(ADD$IMC,
main = "Boxplot de Indice de Masa Corporal",
col = "lightgreen")
#Tension Arterial Diastolica
boxplot(ADD$TAD,
main = "Boxplot de Tension Arterial Diastolica",
col = "chocolate")
Basandonos en los diagramas de cajas y bigotes de las variable se puede observar que la mayoria de variables tienen comportamientos diferenciados en cuanto a su variabilidad.La Edad presenta poca dispersión, lo que indica que los individuos son similares en cuanto a este aspecto. Sin embargo, en las variables Colesterol y TAD, se observa mayor dispersión, especialmente en Colesterol, debido a que cuenta con valores atípicos. Por otro lado, el IMC presenta una variabilidad moderada, lo que implica que sus valores son más homogéneos.
Al observar el Coeficiente de Variación de las variables, se evidencia que, en general, sus valores son relativamente bajos, lo que sugiere una baja dispersión en la mayoría de las variables. Esto permite plantear que no todos los datos provienen de una distribución normal. Para comprobar esta hipótesis, se analiza la distribución de frecuencias de una de las variables, complementada con su respectivo histograma, como se muestra a continuación:
Tabla de Frecuencia TAD
#Digite sus datos
datos<- ADD$"TAD"
#SELECCIONE EL METODO en que:
#1 Usa la raiz de n
#2 Usa la regla de Sturges
#3 El usuario define el n´umero de invervalos
#4 Sin usar intervalos (datos categ´oricos)
metodo<-2
intervalos<-5# Solo para el m´etodo 3
i<-switch(metodo,
ceiling(sqrt(length(datos))),
ceiling(nclass.Sturges(datos)),
intervalos,
NULL)
factorx<-factor(cut(datos, breaks=i, include.lowest = T))
if(is.null(i)) xout <- table(datos) else xout <- table(factorx)
tablefreq<- transform(xout,
f_r = 100*prop.table(Freq), F_i = cumsum(Freq),
F_r=100*cumsum(prop.table(Freq)))
names(tablefreq)[names(tablefreq) == "Freq"] <- "f_i"
names(tablefreq)[names(tablefreq) == "factorx"] <- "clases"
print(tablefreq)
## clases f_i f_r F_i F_r
## 1 [65,70] 18 25.714286 18 25.71429
## 2 (70,75] 14 20.000000 32 45.71429
## 3 (75,80] 10 14.285714 42 60.00000
## 4 (80,85] 5 7.142857 47 67.14286
## 5 (85,90] 7 10.000000 54 77.14286
## 6 (90,95] 8 11.428571 62 88.57143
## 7 (95,100] 6 8.571429 68 97.14286
## 8 (100,105] 2 2.857143 70 100.00000
Teniendo en cuenta la tabla de frecuencia y haciendo uso de la regla de Sturges, se puede realizar el histograma para la variable elegida (TAD):
Histograma TAD
hist(ADD$TAD,
main = "Histograma de Tension Arterial Diastolica",
breaks = c(65,70,75,80,85,90,95,100,105),
ylab = "Frecuencia",
xlab = "Clases",
col = "lightblue")
Para simular la distribución normal, se emplea la media y desviación estándar de la variable (TAD), lo que permite realizar el histograma con rangos de 3, 2, 1 desviaciones estándar de la media, tanto a derecha como izquierda, ya que este modelo es simétrico con respecto a la media:
#Histograma TAD comparado con la Distribución Normal
stat.desc(ADD$TAD)
## nbr.val nbr.null nbr.na min max range
## 70.0000000 0.0000000 0.0000000 65.0000000 105.0000000 40.0000000
## sum median mean SE.mean CI.mean.0.95 var
## 5696.0000000 80.0000000 81.3714286 1.3635557 2.7202193 130.1498965
## std.dev coef.var
## 11.4083258 0.1402006
#81.37+-(n*11.40), donde n=(3,2,1,0)
clasesN <- c(47.17, 58.57, 69.97, 81.37, 92.77, 104.17,115.57)
hist(ADD$TAD,
main = "Histograma Tension Arterial Diastolica",
freq = F,
breaks = clasesN,
xlim = c(47,116),
ylab = "Frecuencia Relativa",
xlab = "Tension Arterial Diastolica")
Con base en este histograma se puede decir que los datos no siguen completamente una distribución normal, para saber que tan asimetricos son los datos y que tan aplanada o alargada es la distribucion con respecto a la media, se emplean las funciones skewness proveniente del paquete moments y kurtosis proveniente del paquete e1071.
#Cargar libreria
library(moments)
library(e1071)
##
## Adjuntando el paquete: 'e1071'
## The following objects are masked from 'package:moments':
##
## kurtosis, moment, skewness
skewness(ADD$TAD)
## [1] 0.368938
kurtosis(ADD$TAD)
## [1] -1.075949
Para confirmar si verdaderamente la variable (TAD) y las demas siguen una distribución normal, se hace uso del paquete nortest y su función lillie.test, que permite evaluar la veracidad de la hipotesis nula o la hipotesis alternativa, este estudio se realzará a un nivel de significancia del 5% (Nivel de confianza 95%); las hipotesis son las sguientes:
library(nortest)
lillie.test(ADD$TAD)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: ADD$TAD
## D = 0.16889, p-value = 3.634e-05
Teniendo en cuenta los resultados anteriores se puede decir que a un 95% de confianza la variable (TAD) rechaza la hipotesis nula, dado que p-value = 3.634e-05 < 0.05.
ANALISIS BIVARIADOS
VARIABLES CATEGORICAS
Para analizar las variables de género y estrato se pueden utilizar las tablas cruzadas, las cuales permiten ver la distribución entre estas
# Tabla cruzada entre Género y Estrato
table(ADD$GEN, ADD$ES)
##
## 1 2 3 4 5 6
## f 1 5 4 12 9 2
## m 0 3 10 8 10 6
Para tener una mejor comprensión de esta tabla se emplea un grafico de barras con la función barplot como se muestra a continuación:
TABLAESVSGE=table(ADD$GEN, ADD$ES)
barplot(TABLAESVSGE,
main = "GENERO VS ESTRATO",
ylab = "Frecuencia",
xlab = "ESTRATO",
col = c("lightblue", "lightsalmon"))
legend(x = "topleft",
cex=1,
legend = c("Femenino", "Masculino"),
fill= c("lightblue", "lightsalmon"))
En este gráfico se puede apreciar las dos variables categóricas según su frecuencia relativa, lo que permite hacer una comparación pertinente.
VARIABLES CUANTITATIVAS
Para analizar la relacion que existe entre las variables de manera general, se puede hacer uso de la funcion plot, al igual que el coeficiente de correlacion que permite analizar cuantitativamente la dispersion entre las variables, implementando la funcion cor. Si se quiere analizar dos variables se hace uso la función ggplot proveniente del paquete ggplot2
#CORRELACION GRAFICA GENERAL
plot(ADD[1:4])
cor(ADD[1:4])
## EDAD COL IMC TAD
## EDAD 1.0000000 0.3314421 0.2430232 0.3816398
## COL 0.3314421 1.0000000 0.5917648 0.6931719
## IMC 0.2430232 0.5917648 1.0000000 0.5709031
## TAD 0.3816398 0.6931719 0.5709031 1.0000000
#CORRELACION NUMERICA y SU GRAFICO DE DISPERSION
#Llamar paquete
library(ggplot2)
#COR TAD Y EDAD
cor(ADD$TAD,ADD$EDAD)
## [1] 0.3816398
#Gráfico de Dispersión (TAD VS Edad)
ggplot(data = ADD,
mapping = aes(y = `TAD`, x = `EDAD`)) +
geom_point() +
geom_smooth(method = "lm") +
labs(title='Gráfico de Dispersión TAD VS la Edad',
y='TAD',
x='Edad')
## `geom_smooth()` using formula = 'y ~ x'
#COR TAD Y COL
cor(ADD$TAD,ADD$COL)
## [1] 0.6931719
#Gráfico de Dispersión (TAD VS COL)
ggplot(data = ADD,
mapping = aes(y = `TAD`, x = `COL`)) +
geom_point() +
geom_smooth(method = "lm") +
labs(title='Gráfico de Dispersión TAD VS Colesterol',
y='TAD',
x='Colesterol')
## `geom_smooth()` using formula = 'y ~ x'
#COR TAD Y IMC
cor(ADD$TAD,ADD$IMC)
## [1] 0.5709031
#Gráfico de Dispersión (TAD VS IMC)
ggplot(data = ADD,
mapping = aes(y = `TAD`, x = `IMC`)) +
geom_point() +
geom_smooth(method = "lm") +
labs(title='Gráfico de Dispersión TAD VS IMC',
y='TAD',
x='IMC')
## `geom_smooth()` using formula = 'y ~ x'
En los gráficos de dispersión se puede apreciar de manera mas detallada la relación que existe entre las variables, ademas de tener en cuenta la línea de tendencia y los valores de correlación. Con esta información se puede evidenciar que las variables mejor asociadas son (TAD) Vs (COL).
MUESTRA ALEATORIA SIMPLE
En este estudio se tomará una muestra aleatoria de 30 individuos
muestra_ADD <- ADD[sample(nrow(ADD), 30), ]
muestra_ADD
## # A tibble: 30 × 6
## EDAD COL IMC TAD GEN ES
## <dbl> <dbl> <dbl> <dbl> <chr> <dbl>
## 1 58 220 25.6 70 m 5
## 2 62 287 32.3 95 m 6
## 3 47 200 25.6 80 f 4
## 4 59 218 25.0 85 m 3
## 5 49 218 25.7 85 f 5
## 6 58 248 21.6 75 m 5
## 7 48 215 23.2 67 m 5
## 8 47 231 26.2 75 f 5
## 9 60 202 19.1 65 f 3
## 10 43 218 19.8 75 m 6
## # ℹ 20 more rows
Una vez obtenida la muestra se realiza el análisis descriptivo como el que se hizo previamente para los datos en general; posteriormente se compararán los resultados obtenidos que determinarán si la muestra elegida representa un segmento relevante de la población.
VARIABLES CATEGORICAS DE LA MUESTRA
#Grafico Estrato de la muestra
tablaMuEst=table(muestra_ADD$ES)
barplot(tablaMuEst,
main = "DIAGRAMA DE ESTRATO",
ylab = "Frecuencia",
xlab = "Estrato",
col = c("darkseagreen"))
#Grafico Genero de la muestra
tablaMuGe=table(muestra_ADD$GEN)
prop=tablaMuGe/sum(tablaMuGe)*100
prop2cifras=round(prop,2)
etiquetas=paste0(prop2cifras, "%")
pie(tablaGe,
labels = etiquetas,
col = c("cadetblue","plum"),
main = "Genero")
legend("topleft", legend = c("Femenino", "Masculino"),
fill = c("cadetblue","plum"))
VARIABLES CUANTITATIVAS DE LA MUESTRA
summary(ADD[1:4])
## EDAD COL IMC TAD
## Min. :42.00 Min. :175.0 Min. :19.10 Min. : 65.00
## 1st Qu.:49.00 1st Qu.:214.2 1st Qu.:22.50 1st Qu.: 71.25
## Median :56.00 Median :230.0 Median :25.52 Median : 80.00
## Mean :55.24 Mean :236.8 Mean :25.70 Mean : 81.37
## 3rd Qu.:60.00 3rd Qu.:254.0 3rd Qu.:27.91 3rd Qu.: 90.00
## Max. :68.00 Max. :315.0 Max. :34.44 Max. :105.00
# Cargar la librería pastecs
library(pastecs)
stat.desc (ADD[1:4])
## EDAD COL IMC TAD
## nbr.val 70.0000000 7.000000e+01 70.0000000 70.0000000
## nbr.null 0.0000000 0.000000e+00 0.0000000 0.0000000
## nbr.na 0.0000000 0.000000e+00 0.0000000 0.0000000
## min 42.0000000 1.750000e+02 19.1000000 65.0000000
## max 68.0000000 3.150000e+02 34.4400000 105.0000000
## range 26.0000000 1.400000e+02 15.3400000 40.0000000
## sum 3867.0000000 1.657400e+04 1799.0500000 5696.0000000
## median 56.0000000 2.300000e+02 25.5150000 80.0000000
## mean 55.2428571 2.367714e+02 25.7007143 81.3714286
## SE.mean 0.8477069 4.136049e+00 0.4862697 1.3635557
## CI.mean.0.95 1.6911289 8.251192e+00 0.9700815 2.7202193
## var 50.3024845 1.197483e+03 16.5520763 130.1498965
## std.dev 7.0924244 3.460467e+01 4.0684243 11.4083258
## coef.var 0.1283863 1.461522e-01 0.1583000 0.1402006
#Datos atipicos
#Edad muestra
boxplot(muestra_ADD$EDAD,
main = "Boxplot de Edad",
col = "burlywood")
#Colesterol muestra
boxplot(muestra_ADD$COL,
main = "Boxplot de Colesterol",
col = "firebrick1")
#Indice de Masa Corporal muestra
boxplot(muestra_ADD$IMC,
main = "Boxplot de Indice de Masa Corporal",
col = "darkorange")
#Tension Arterial Diastolica muestra
boxplot(muestra_ADD$TAD,
main = "Boxplot de Tension Arterial Diastolica",
col = "gold")
#Tabla de Frecuencia TAD muestra
#Digite sus datos
datos<- muestra_ADD$TAD
#SELECCIONE EL METODO en que:
#1 Usa la raiz de n
#2 Usa la regla de Sturges
#3 El usuario define el n´umero de invervalos
#4 Sin usar intervalos (datos categ´oricos)
metodo<-2
intervalos<-5# Solo para el m´etodo 3
i<-switch(metodo,
ceiling(sqrt(length(datos))),
ceiling(nclass.Sturges(datos)),
intervalos,
NULL)
factorx<-factor(cut(datos, breaks=i, include.lowest = T))
if(is.null(i)) xout <- table(datos) else xout <- table(factorx)
tablefreq<- transform(xout,
f_r = 100*prop.table(Freq), F_i = cumsum(Freq),
F_r=100*cumsum(prop.table(Freq)))
names(tablefreq)[names(tablefreq) == "Freq"] <- "f_i"
names(tablefreq)[names(tablefreq) == "factorx"] <- "clases"
print(tablefreq)
## clases f_i f_r F_i F_r
## 1 [65,70.8] 12 40.000000 12 40.00000
## 2 (70.8,76.7] 3 10.000000 15 50.00000
## 3 (76.7,82.5] 3 10.000000 18 60.00000
## 4 (82.5,88.3] 2 6.666667 20 66.66667
## 5 (88.3,94.2] 3 10.000000 23 76.66667
## 6 (94.2,100] 7 23.333333 30 100.00000
#Histograma TAD Muestra
hist(muestra_ADD$TAD,
main = "Histograma de Tension Arterial Diastolica",
breaks = c(65,70.8,76.7,82.5,88.3,94.2,100),
ylab = "Frecuencia",
xlab = "Clases",
col = "olivedrab1")
#Coeficiente de Asimetría y Curtosis TAD muestra
#Cargar libreria
library(moments)
library(e1071)
skewness(muestra_ADD$TAD)
## [1] 0.2947072
kurtosis(muestra_ADD$TAD)
## [1] -1.472772
ANALISIS BIVARIADOS MUESTRA
VARIABLES CATEGORICAS DE LA MUESTRA
# Tabla cruzada entre Género y Estrato Muestra
table(muestra_ADD$GEN, muestra_ADD$ES)
##
## 2 3 4 5 6
## f 2 1 6 4 0
## m 1 6 4 4 2
#Grafico de barras muestra
TABLAMUESVSGE=table(muestra_ADD$GEN, muestra_ADD$ES)
barplot(TABLAMUESVSGE,
main = "GENERO VS ESTRATO",
ylab = "Frecuencia",
xlab = "ESTRATO",
col = c("navajowhite", "paleturquoise"))
legend(x = "topleft",
cex=1,
legend = c("Femenino", "Masculino"),
fill= c("navajowhite", "paleturquoise"))
VARIABLES CUANTITATIVAS DE LA MUESTRA
#CORRELACION GRAFICA GENERAL
plot(muestra_ADD[1:4])
#CORRELACION NUMERICA y SU GRAFICO DE DISPERSION DE LA MUESTRA
#Llamar paquete
library(ggplot2)
#COR TAD Y EDAD Muestra
cor(muestra_ADD$TAD,muestra_ADD$EDAD)
## [1] 0.4524728
#Gráfico de Dispersión (TAD VS Edad) Muestra
ggplot(data = muestra_ADD,
mapping = aes(y = `TAD`, x = `EDAD`)) +
geom_point() +
geom_smooth(method = "lm") +
labs(title='Gráfico de Dispersión TAD VS la Edad',
y='TAD',
x='Edad')
## `geom_smooth()` using formula = 'y ~ x'
#COR TAD Y COL Muestra
cor(muestra_ADD$TAD,muestra_ADD$COL)
## [1] 0.7939021
#Gráfico de Dispersión (TAD VS COL) Muestra
ggplot(data = muestra_ADD,
mapping = aes(y = `TAD`, x = `COL`)) +
geom_point() +
geom_smooth(method = "lm") +
labs(title='Gráfico de Dispersión TAD VS Colesterol',
y='TAD',
x='Colesterol')
## `geom_smooth()` using formula = 'y ~ x'
#COR TAD Y IMC Muestra
cor(muestra_ADD$TAD,muestra_ADD$IMC)
## [1] 0.7578314
#Gráfico de Dispersión (TAD VS IMC) Muestra
ggplot(data = muestra_ADD,
mapping = aes(y = `TAD`, x = `IMC`)) +
geom_point() +
geom_smooth(method = "lm") +
labs(title='Gráfico de Dispersión TAD VS IMC',
y='TAD',
x='IMC')
## `geom_smooth()` using formula = 'y ~ x'
Con base a los resultados obtenidos, la muestra aleatoria es representativa dentro de la población, ya que tiene en cuenta la variabilidad y las caracteristicas de la misma. Gracias a esto se puede decir que es posible realizar un análisis estadístico descriptivo a partir de la muestra y que esto sera válido y aplicable a la población general.
MEDIA POR INTERVALOS
Para determinar la media por intervalos se pueden emplear las funciones z.test y t.test, nativas de R; o emplear zsum.test y tsum.test provenientes del paquete BSDA.
Media por Intervalos Edad: (53.55173, 56.93399).
Media por Intervalos Colesterol: (228.5202, 245.0226).
Media por Intervalos Índice de Masa Corporal: (24.73063, 26.67080).
Media por Intervalos Tensión Arterial Diastólica: (78.65121, 84.09165).
Los intervalos anteriores cuentan con un 95% de confianza, para todas las variables
#Media por Intervalos Edad
t.test(x=ADD$EDAD, conf.level = 0.95)
##
## One Sample t-test
##
## data: ADD$EDAD
## t = 65.167, df = 69, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 53.55173 56.93399
## sample estimates:
## mean of x
## 55.24286
#Media por Intervalos Colesterol
t.test(x=ADD$COL, conf.level = 0.95)
##
## One Sample t-test
##
## data: ADD$COL
## t = 57.246, df = 69, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 228.5202 245.0226
## sample estimates:
## mean of x
## 236.7714
#Media por Intervalos Índice de Masa Corporal
t.test(x=ADD$IMC, conf.level = 0.95)
##
## One Sample t-test
##
## data: ADD$IMC
## t = 52.853, df = 69, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 24.73063 26.67080
## sample estimates:
## mean of x
## 25.70071
#Media por Intervalos Tensión Arterial Diastólica
t.test(x=ADD$TAD, conf.level = 0.95)
##
## One Sample t-test
##
## data: ADD$TAD
## t = 59.676, df = 69, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 78.65121 84.09165
## sample estimates:
## mean of x
## 81.37143
DIFERENCIA DE MEDIAS
La diferencia de medias es un parámetro que permite comparar dos conjuntos de manera puntual o por medio de intervalos. Para determinar esta variable se hace uso de la función t.test. Dependiendo del resultado obtenido se tienen en cuenta los siguientes 3 casos que permiten tomar decisiones informadas sobre la diferencia entre los grupos:
Para hacer uso de esta función se tomará como ejemplo la diferencia de medias entre la variable (EDAD) y (COL), que se trabaja a un 95% de confianza:
t.test(x=ADD$EDAD, y=ADD$COL, conf.level = 0.95)
##
## Welch Two Sample t-test
##
## data: ADD$EDAD and ADD$COL
## t = -42.996, df = 74.787, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -189.9397 -173.1175
## sample estimates:
## mean of x mean of y
## 55.24286 236.77143
Ya que el intervalo dado no incluye el 0 y está en valores negativos, se puede afirmar a un 95% de cofianza que la Media (EDAD) < Media (COL).
PRUEBA DE HIPOTESIS RESPECTO A LA MEDIA
A partir de los temas relacionados con la media, se puede plantear una prueba de hipótesis para la variable (TAD), estimando su desviación estándar y media a un intervalo de confianza del 95%:
t.test(ADD$TAD, mu = 80, conf.level = 0.95)
##
## One Sample t-test
##
## data: ADD$TAD
## t = 1.0058, df = 69, p-value = 0.318
## alternative hypothesis: true mean is not equal to 80
## 95 percent confidence interval:
## 78.65121 84.09165
## sample estimates:
## mean of x
## 81.37143
Dado el p-value = 0.318, podemos decir que se acepta la Ho, debido a que p (0.318) > alfa (0.05) es decir, la media de TAD es cercana a 80, adicional a esto la función entrega un intervalo con un 95% de confianza que combrueba que la media si se encuentra del rango establecido (78.65121 84.09165)