R Markdown

Importa uno de los conjuntos de datos usados en las actividades previas (Iris, Auto o Heart Disease UCI).

Se trabajará nuevamente con los datos de iris.

x<-"C:/Users/aacad/OneDrive/Documents/ADRIANA/FCPYS/R COMO INSTRUMENTO DE INVESTIGACION/a4_iris.csv"
y<-read.csv(x,as.is = TRUE)
str(y)
## 'data.frame':    150 obs. of  5 variables:
##  $ sepal.length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ sepal.width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ petal.length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ petal.width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ variety     : chr  "Setosa" "Setosa" "Setosa" "Setosa" ...
summary(y)
##   sepal.length    sepal.width     petal.length    petal.width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##    variety         
##  Length:150        
##  Class :character  
##  Mode  :character  
##                    
##                    
## 

#La inspección gráfica muestra diferencias entre las variedades, en cuanto a largo y ancho del pétalo, la variedad setosa registra los valores más bajos, mientras que virginica los altos.

library(ggplot2)


y<-data.frame(y)

graph3<-ggplot(y,aes(x=petal.length,fill=variety))+
  geom_histogram(position = "identity", alpha = 0.6, bins = 20)+
  labs(title = "Histogramas de la longitud del pétalo",
       x = "Longitud",
       y = "Casos")

graph4<-ggplot(y,aes(x=petal.width,fill=variety))+
  geom_histogram(position = "identity", alpha = 0.6, bins = 20)+
  labs(title = "Histogramas del ancho del pétalo",
       x = "ancho",
       y = "Casos")



print(graph3)

print(graph4)

#Formula una pregunta inferencial derivada de algún patrón detectado en tu EDA.

No hay diferencia importante en la longitud del pétalo de las especies Versicolor y Virginica.

#Define: #La hipótesis nula (H₀)

Ho: Media de longitud del pétalo de versicolor = Media de longitud del pétalo de virginica

#La hipótesis alternativa (Hₐ)

Ho: Media de longitud del pétalo de versicolor es Diferente a la Media de longitud del pétalo de virginica

#El nivel de significancia (α)

#Se empleará 0.05 por no ser de suma relevancia el resultado.

#El tipo de contraste (unilateral o bilateral)

#Será un contraste bilateral.

#El estadístico de prueba esperado.

vc<-qnorm(0.975) #Valor crítico
versicolor<-subset(y,variety=="Versicolor")[,3] #Longitud de pétalo de versicolor
virginica<-subset(y,variety=="Virginica")[,3] #Longitud de pétalo de virginica
prom1<-mean(versicolor) #Media de longitudes de versicolor
prom2<-mean(virginica) #Media de longitudes de virginica
v1<-var(versicolor) #Varianza de longitudes de versicolor
v2<-var(virginica) #Varianza de longitudes de virginica
n<-length(versicolor) #Tamaño de muestra
ep <- (prom1-prom2)/ sqrt(v1/n+v2/n) #Estadístico de prueba

 ## Decisión
 if (abs(ep) > vc) {
 decision <- "Rechazamos H0"
 } else {
 decision <- "No rechazamos H0"
 }
ep #Valor del estadístico de prueba
## [1] -12.60378
vc #Valor crítico
## [1] 1.959964
decision
## [1] "Rechazamos H0"

#Interpreta: #El estadístico de prueba. Cae en zona de rechazo.

#El p-valor. No se utilizó

#El intervalo de confianza (si aplica). No aplica, porque no fue necesario emplearlo.

#La decisión respecto a H₀. No hay evidencia para afirmar que la longitud de los pétalos de las especies Versicolor y Virginica son semejantes.

#La implicación práctica y analítica del hallazgo. La longitud del pétalo es un criterio para determinar la especie.