Taller 2 ejercicio clase- M- Arrieta

#Ejercio 2 #En un experimento se consideran 3 especies de plantas y 2 tipos de reactivos para activar el ciclo de florescencia de las plantas. Se mide en cada planta la supervivencia de la flor es decir, el tiempo en dias en que aparece la flor hasta cuando presenta signos de marchitamiento. los resultados se indican en la siguiente tabla:

library(readxl)

## Warning: package 'readxl' was built under R version 4.2.3

datos <- read_excel("D:/Informacion Usuario/Downloads/ejercicio1clasetaller2.xlsx")
datos # para visualizar los datos

## # A tibble: 18 × 3
##    Reactivo Tiempo Especie
##    <chr>     <dbl> <chr>  
##  1 A            12 SpA    
##  2 A            13 SpA    
##  3 A            15 SpA    
##  4 A            13 SpB    
##  5 A            15 SpB    
##  6 A            15 SpB    
##  7 A            16 SpC    
##  8 A            18 SpC    
##  9 A            20 SpC    
## 10 B             9 SpA    
## 11 B             8 SpA    
## 12 B             9 SpA    
## 13 B            10 SpB    
## 14 B             8 SpB    
## 15 B             9 SpB    
## 16 B            12 SpC    
## 17 B            10 SpC    
## 18 B            13 SpC

require(faraway)

## Loading required package: faraway

## Warning: package 'faraway' was built under R version 4.2.3

data("datos")

## Warning in data("datos"): data set 'datos' not found

datos

## # A tibble: 18 × 3
##    Reactivo Tiempo Especie
##    <chr>     <dbl> <chr>  
##  1 A            12 SpA    
##  2 A            13 SpA    
##  3 A            15 SpA    
##  4 A            13 SpB    
##  5 A            15 SpB    
##  6 A            15 SpB    
##  7 A            16 SpC    
##  8 A            18 SpC    
##  9 A            20 SpC    
## 10 B             9 SpA    
## 11 B             8 SpA    
## 12 B             9 SpA    
## 13 B            10 SpB    
## 14 B             8 SpB    
## 15 B             9 SpB    
## 16 B            12 SpC    
## 17 B            10 SpC    
## 18 B            13 SpC

library(summarytools)

## Warning: package 'summarytools' was built under R version 4.2.3

summarytools::descr(datos[,2])

## Descriptive Statistics  
## datos$Tiempo  
## N: 18  
## 
##                     Tiempo
## ----------------- --------
##              Mean    12.50
##           Std.Dev     3.50
##               Min     8.00
##                Q1     9.00
##            Median    12.50
##                Q3    15.00
##               Max    20.00
##               MAD     3.71
##               IQR     5.75
##                CV     0.28
##          Skewness     0.43
##       SE.Skewness     0.54
##          Kurtosis    -0.90
##           N.Valid    18.00
##         Pct.Valid   100.00

#De acuerdo a los datos observados, se puede concluir que la media del tiempo del ciclo de florescencia es de 12.50 donde el 50% de los datos se ubica entre 8.00 y 12.50

resultados_descriptivos <- aggregate(Reactivo ~ Tiempo, data = datos, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos)

##   Tiempo Reactivo.Length Reactivo.Class Reactivo.Mode
## 1      8               2      character     character
## 2      9               3      character     character
## 3     10               2      character     character
## 4     12               2      character     character
## 5     13               3      character     character
## 6     15               3      character     character
## 7     16               1      character     character
## 8     18               1      character     character
## 9     20               1      character     character

#Ho: M1= M2= M3=M4 #Analisis descriptivo

#Ho= no hay diferencias en el tiempo de activacicon de la florescencia de la flor

#Ha= hay diferencias en en el tiempo de activacicon de la florescencia de la flor

modelo_anova <- aov(Tiempo ~ Reactivo, data = datos)
resumen_anova <- summary(modelo_anova)

# Imprimir el resumen del ANOVA
print(resumen_anova)

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Reactivo     1 133.39  133.39   28.41 6.76e-05 ***
## Residuals   16  75.11    4.69                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#ANOVA

#H0: Los reactivos no tienen un efecto significativo sobre el tiempo del ciclo de florescencia.

#H1: Los reactivos tienen un efecto significativo sobre el tiempo del ciclo de florescencia. #Segun los datos arrojados por el ANOVA, obtenemos un p valor de 6.76e-05, asi que se concluye que hay evidencia estadística suficiente para rechazar H0.

require(table1)

## Loading required package: table1

## 
## Attaching package: 'table1'

## The following objects are masked from 'package:summarytools':
## 
##     label, label<-

## The following objects are masked from 'package:base':
## 
##     units, units<-

mod1=lm(Tiempo ~ Reactivo,data=datos)
summary(mod1)

## 
## Call:
## lm(formula = Tiempo ~ Reactivo, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.2222 -1.5278 -0.2222  0.6389  4.7778 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  15.2222     0.7222   21.08 4.26e-13 ***
## ReactivoB    -5.4444     1.0214   -5.33 6.76e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.167 on 16 degrees of freedom
## Multiple R-squared:  0.6398, Adjusted R-squared:  0.6172 
## F-statistic: 28.41 on 1 and 16 DF,  p-value: 6.763e-05

anova(mod1)

## Analysis of Variance Table
## 
## Response: Tiempo
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## Reactivo   1 133.389 133.389  28.414 6.763e-05 ***
## Residuals 16  75.111   4.694                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#posanova
require(agricolae)

## Loading required package: agricolae

## Warning: package 'agricolae' was built under R version 4.2.3

compara1=LSD.test(mod1,"treat")
compara1

## NULL

boxplot(datos$Tiempo~datos$Reactivo,data = datos,col= c("red","blue","green","orange"),ylab="tiempo", xlab="reactivo")

#diferencias en el tiempo de duracion de los ciclos de florescencia
#Ha= hay diferencias en el tiempo de duracion de los ciclos de florescencia

#La media tiempo de duracion de los ciclos de florescencia es de 12.50 donde el valor central se ubica en 15 (mediana). por otro lado el valor minimo correspondio a 10 y el valor maximo correspode a 16.

#A partir de la informacion que arroja el ANOVA, con un p valor de 6.76e-05, se concluye que hay evidencia estadística suficiente para rechazar la hipotesis nula.

#Segun el diagrama de cajas y bigotes, se observa que los datos bajo los diferentes tratamientos se ubican de manera diferente, de esta manera se confirma que no hay igualdad en el tiempo de florescencia.

#validar los supuestos

#P1 - normalidad
plot(mod1)

shapiro.test(mod1$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  mod1$residuals
## W = 0.9399, p-value = 0.2887

#en la prueba de shapiro la hipotesis es normalidad
#si el valor p es mayor al 5% (0.05) no rechazo la normalidad

#P2 - homogeneidad de varianza
plot(mod1)

#Los resultados evidenciados en las gráficas permiten corroborar que en efecto si se cumplen los supuestos de normalidad, homogeneidad e independencia en analisis de varianzas.

##Experimento - reactivos

data(datos)

## Warning in data(datos): data set 'datos' not found

datos

## # A tibble: 18 × 3
##    Reactivo Tiempo Especie
##    <chr>     <dbl> <chr>  
##  1 A            12 SpA    
##  2 A            13 SpA    
##  3 A            15 SpA    
##  4 A            13 SpB    
##  5 A            15 SpB    
##  6 A            15 SpB    
##  7 A            16 SpC    
##  8 A            18 SpC    
##  9 A            20 SpC    
## 10 B             9 SpA    
## 11 B             8 SpA    
## 12 B             9 SpA    
## 13 B            10 SpB    
## 14 B             8 SpB    
## 15 B             9 SpB    
## 16 B            12 SpC    
## 17 B            10 SpC    
## 18 B            13 SpC

# tipos de variables
str(datos)

## tibble [18 × 3] (S3: tbl_df/tbl/data.frame)
##  $ Reactivo: chr [1:18] "A" "A" "A" "A" ...
##  $ Tiempo  : num [1:18] 12 13 15 13 15 15 16 18 20 9 ...
##  $ Especie : chr [1:18] "SpA" "SpA" "SpA" "SpB" ...

#Generar tablas con los descriptivos
table1(~Tiempo|Especie,data=datos)

	SpA (N=6)	SpB (N=6)	SpC (N=6)	Overall (N=18)
Tiempo
Mean (SD)	11.0 (2.76)	11.7 (3.08)	14.8 (3.82)	12.5 (3.50)
Median [Min, Max]	10.5 [8.00, 15.0]	11.5 [8.00, 15.0]	14.5 [10.0, 20.0]	12.5 [8.00, 20.0]

table1(~Tiempo|Reactivo,data=datos)

	A (N=9)	B (N=9)	Overall (N=18)
Tiempo
Mean (SD)	15.2 (2.54)	9.78 (1.72)	12.5 (3.50)
Median [Min, Max]	15.0 [12.0, 20.0]	9.00 [8.00, 13.0]	12.5 [8.00, 20.0]

require(ggplot2)

## Loading required package: ggplot2

## Warning: package 'ggplot2' was built under R version 4.2.3

ggplot(datos,aes(x=Reactivo,y=Tiempo))+geom_point()+
  geom_smooth()+theme_classic()

## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

datos$Tiempo_factor=as.factor(datos$Tiempo)
datos$Tiempo_factor

##  [1] 12 13 15 13 15 15 16 18 20 9  8  9  10 8  9  12 10 13
## Levels: 8 9 10 12 13 15 16 18 20

datos$Reactivo_factor=as.factor(datos$Reactivo)
datos$Reactivo_factor

##  [1] A A A A A A A A A B B B B B B B B B
## Levels: A B

datos$Especie_factor=as.factor(datos$Especie)
datos$Especie_factor

##  [1] SpA SpA SpA SpB SpB SpB SpC SpC SpC SpA SpA SpA SpB SpB SpB SpC SpC SpC
## Levels: SpA SpB SpC

#modelo de diseño
mod2=lm(Tiempo~Reactivo_factor+Especie_factor,data=datos)
anova(mod2)

## Analysis of Variance Table
## 
## Response: Tiempo
##                 Df  Sum Sq Mean Sq F value    Pr(>F)    
## Reactivo_factor  1 133.389 133.389  75.368 5.222e-07 ***
## Especie_factor   2  50.333  25.167  14.220 0.0004251 ***
## Residuals       14  24.778   1.770                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##efecto tipo interación

require(ggplot2)
ggplot(datos,aes(x=Reactivo_factor,y=Tiempo_factor))+geom_point()+
  geom_smooth()+theme_classic()

## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

#modelo de diseño
mod3=lm(Tiempo~Reactivo_factor+Especie_factor,data=datos)
anova(mod3)

## Analysis of Variance Table
## 
## Response: Tiempo
##                 Df  Sum Sq Mean Sq F value    Pr(>F)    
## Reactivo_factor  1 133.389 133.389  75.368 5.222e-07 ***
## Especie_factor   2  50.333  25.167  14.220 0.0004251 ***
## Residuals       14  24.778   1.770                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#Ejercicio 1 #en unos laboratorios se estan estudiando los factores que influyen en la resistencia de un tipo de particulas de fibra. Si se eligen al azar 4 maquinas y 3 operarios y se realiza un experimento factorial. Los resultados oobtenidos se muestran en la siguiente tabla, analizar los resultados y obtene las conclusiones apropiadas.

library(readxl)
datos1 <- read_excel("D:/Informacion Usuario/Downloads/Ejercicio 1 anova 2 factores.xlsx")
datos1

## # A tibble: 24 × 3
##    Operario Tiempo Maquina
##       <dbl>  <dbl> <chr>  
##  1        1    109 A      
##  2        1    110 B      
##  3        1    108 C      
##  4        1    110 D      
##  5        1    110 A      
##  6        1    115 B      
##  7        1    109 C      
##  8        1    108 D      
##  9        2    110 A      
## 10        2    110 B      
## # ℹ 14 more rows

require(faraway)
data("datos1")

## Warning in data("datos1"): data set 'datos1' not found

datos1

## # A tibble: 24 × 3
##    Operario Tiempo Maquina
##       <dbl>  <dbl> <chr>  
##  1        1    109 A      
##  2        1    110 B      
##  3        1    108 C      
##  4        1    110 D      
##  5        1    110 A      
##  6        1    115 B      
##  7        1    109 C      
##  8        1    108 D      
##  9        2    110 A      
## 10        2    110 B      
## # ℹ 14 more rows

library(summarytools)
summarytools::descr(datos1[,2])

## Descriptive Statistics  
## datos1$Tiempo  
## N: 24  
## 
##                     Tiempo
## ----------------- --------
##              Mean   112.29
##           Std.Dev     3.38
##               Min   108.00
##                Q1   110.00
##            Median   111.50
##                Q3   114.50
##               Max   120.00
##               MAD     3.71
##               IQR     4.25
##                CV     0.03
##          Skewness     0.69
##       SE.Skewness     0.47
##          Kurtosis    -0.60
##           N.Valid    24.00
##         Pct.Valid   100.00

##De acuerdo a los datos observados, se puede concluir que la media de la resistencia de las fibras es de 111.50 donde el 50% de los datos se ubica entre 112.29 y 120.00

resultados_descriptivos <- aggregate(Maquina ~ Tiempo, data = datos1, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos)

##    Tiempo Maquina.Length Maquina.Class Maquina.Mode
## 1     108              2     character    character
## 2     109              3     character    character
## 3     110              5     character    character
## 4     111              2     character    character
## 5     112              3     character    character
## 6     114              3     character    character
## 7     115              2     character    character
## 8     116              1     character    character
## 9     117              1     character    character
## 10    119              1     character    character
## 11    120              1     character    character

#Ho: M1= M2= M3=M4 #Analisis descriptivo

#Ho= no hay diferencias entre la resistencia de las fibras

#Ha= hay diferencias entre la resistencia de las fibras

modelo_anova1 <- aov(Tiempo ~ Maquina, data = datos1)
resumen_anova1 <- summary(modelo_anova1)

# Imprimir el resumen del ANOVA
print(resumen_anova1)

##             Df Sum Sq Mean Sq F value Pr(>F)
## Maquina      3  12.46   4.153   0.332  0.803
## Residuals   20 250.50  12.525

require(table1)
mod2=lm(Tiempo ~ Maquina,data=datos1)
summary(mod2)

## 
## Call:
## lm(formula = Tiempo ~ Maquina, data = datos1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.5000 -2.2917 -0.9167  2.4583  7.3333 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 111.8333     1.4448  77.403   <2e-16 ***
## MaquinaB      0.3333     2.0433   0.163    0.872    
## MaquinaC     -0.1667     2.0433  -0.082    0.936    
## MaquinaD      1.6667     2.0433   0.816    0.424    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.539 on 20 degrees of freedom
## Multiple R-squared:  0.04738,    Adjusted R-squared:  -0.09552 
## F-statistic: 0.3316 on 3 and 20 DF,  p-value: 0.8026

anova(mod2)

## Analysis of Variance Table
## 
## Response: Tiempo
##           Df  Sum Sq Mean Sq F value Pr(>F)
## Maquina    3  12.458  4.1528  0.3316 0.8026
## Residuals 20 250.500 12.5250

##ANOVA

#H0: La resistencia de las fibras no se ve influenciada por el operario que maneja la maquina.

#H1: La resistencia de las fibras si se ve influenciada por el operario que maneja la maquina. #Segun los datos arrojados por el ANOVA, obtenemos un p valor de 0.8026, asi que se concluye que hay evidencia estadística suficiente para aceptar H0.

boxplot(datos1$Tiempo~datos1$Maquina,data = datos1,col= c("red","blue","green","orange"),ylab="Tiempo", xlab="Maquina")

#validar los supuestos

#P1 - normalidad
plot(mod2)

shapiro.test(mod2$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  mod2$residuals
## W = 0.94539, p-value = 0.2149

#en la prueba de shapiro la hipotesis es normalidad
#si el valor p es mayor al 5% (0.05) no rechazo la normalidad

#P2 - homogeneidad de varianza
plot(mod2)

# #Los resultados evidenciados en las gráficas permiten corroborar que en efecto si se cumplen los supuestos de normalidad, homogeneidad e independencia en analisis de varianzas

require(faraway)
data("datos1")

## Warning in data("datos1"): data set 'datos1' not found

datos1

## # A tibble: 24 × 3
##    Operario Tiempo Maquina
##       <dbl>  <dbl> <chr>  
##  1        1    109 A      
##  2        1    110 B      
##  3        1    108 C      
##  4        1    110 D      
##  5        1    110 A      
##  6        1    115 B      
##  7        1    109 C      
##  8        1    108 D      
##  9        2    110 A      
## 10        2    110 B      
## # ℹ 14 more rows

# tipos de variables
str(datos1)

## tibble [24 × 3] (S3: tbl_df/tbl/data.frame)
##  $ Operario: num [1:24] 1 1 1 1 1 1 1 1 2 2 ...
##  $ Tiempo  : num [1:24] 109 110 108 110 110 115 109 108 110 110 ...
##  $ Maquina : chr [1:24] "A" "B" "C" "D" ...

#Generar tablas con los descriptivos
table1(~Tiempo|Maquina,data=datos1)

	A (N=6)	B (N=6)	C (N=6)	D (N=6)	Overall (N=24)
Tiempo
Mean (SD)	112 (2.71)	112 (2.32)	112 (4.18)	114 (4.46)	112 (3.38)
Median [Min, Max]	111 [109, 116]	112 [110, 115]	110 [108, 119]	113 [108, 120]	112 [108, 120]

table1(~Tiempo|Operario,data=datos1)

## Warning in table1.formula(~Tiempo | Operario, data = datos1): Terms to the
## right of '|' in formula 'x' define table columns and are expected to be factors
## with meaningful labels.

	1 (N=8)	2 (N=8)	3 (N=8)	Overall (N=24)
Tiempo
Mean (SD)	110 (2.23)	111 (1.55)	116 (2.70)	112 (3.38)
Median [Min, Max]	110 [108, 115]	111 [109, 114]	116 [112, 120]	112 [108, 120]

require(ggplot2)
ggplot(datos1,aes(x=Maquina,y=Tiempo))+geom_point()+
  geom_smooth()+theme_classic()

## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

datos1$Tiempo_factor=as.factor(datos1$Tiempo)
datos1$Tiempo_factor

##  [1] 109 110 108 110 110 115 109 108 110 110 111 114 112 111 109 112 116 112 114
## [20] 120 114 115 119 117
## Levels: 108 109 110 111 112 114 115 116 117 119 120

datos1$Maquina_factor=as.factor(datos1$Maquina)
datos1$Maquina_factor

##  [1] A B C D A B C D A B C D A B C D A B C D A B C D
## Levels: A B C D

datos1$Operario_factor=as.factor(datos1$Operario)
datos1$Operario_factor

##  [1] 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3
## Levels: 1 2 3

#modelo de diseño
mod3=lm(Tiempo~Maquina_factor+Operario_factor,data=datos1)
anova(mod3)

## Analysis of Variance Table
## 
## Response: Tiempo
##                 Df  Sum Sq Mean Sq F value    Pr(>F)    
## Maquina_factor   3  12.458   4.153   0.829 0.4950978    
## Operario_factor  2 160.333  80.167  16.004 0.0001014 ***
## Residuals       18  90.167   5.009                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#Ejercicio 3 #Se realizo un experimento para determinar si el uso de los zapatos favoritos de los jugadores de baloncesto influía en el numero de cestas que lograban anotar

library(readxl)
datos3 <- read_excel("D:/Informacion Usuario/Downloads/basketball shots.xlsx")
datos3 # para visualizar los datos

## # A tibble: 16 × 3
##      Day Shoes Shots.made
##    <dbl> <chr>      <dbl>
##  1     1 O             25
##  2     2 O             26
##  3     5 F             32
##  4     6 F             22
##  5     9 O             35
##  6    10 O             34
##  7    13 F             33
##  8    14 F             37
##  9     3 O             27
## 10     4 O             27
## 11     7 F             30
## 12     8 F             34
## 13    11 O             33
## 14    12 O             30
## 15    15 F             36
## 16    16 F             38

require(faraway)
data("datos3")

## Warning in data("datos3"): data set 'datos3' not found

datos3

## # A tibble: 16 × 3
##      Day Shoes Shots.made
##    <dbl> <chr>      <dbl>
##  1     1 O             25
##  2     2 O             26
##  3     5 F             32
##  4     6 F             22
##  5     9 O             35
##  6    10 O             34
##  7    13 F             33
##  8    14 F             37
##  9     3 O             27
## 10     4 O             27
## 11     7 F             30
## 12     8 F             34
## 13    11 O             33
## 14    12 O             30
## 15    15 F             36
## 16    16 F             38

library(summarytools)
summarytools::descr(datos3[,1])

## Descriptive Statistics  
## datos3$Day  
## N: 16  
## 
##                        Day
## ----------------- --------
##              Mean     8.50
##           Std.Dev     4.76
##               Min     1.00
##                Q1     4.50
##            Median     8.50
##                Q3    12.50
##               Max    16.00
##               MAD     5.93
##               IQR     7.50
##                CV     0.56
##          Skewness     0.00
##       SE.Skewness     0.56
##          Kurtosis    -1.43
##           N.Valid    16.00
##         Pct.Valid   100.00

#De acuerdo a los datos observados, se puede concluir que la media de cestas anotadas es de 8.50 donde el 50% de los datos se ubica entre 8.50 y 16.50

resultados_descriptivos2 <- aggregate(Shots.made ~ Shoes, data = datos3, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos2)

##   Shoes Shots.made.Min. Shots.made.1st Qu. Shots.made.Median Shots.made.Mean
## 1     F          22.000             31.500            33.500          32.750
## 2     O          25.000             26.750            28.500          29.625
##   Shots.made.3rd Qu. Shots.made.Max.
## 1             36.250          38.000
## 2             33.250          35.000

##Ho: M1= M2= M3=M4 #Analisis descriptivo

#Ho= El uso de los zapatos favoritos de los jugadores de baloncesto NO influye en el numero de cestas que lograban anotar

#Ha= El uso de los zapatos favoritos de los jugadores de baloncesto influye en el numero de cestas que lograban anotar

# Ajustar el modelo ANOVA
modelo_anova3 <- aov(Day ~ Shots.made, data = datos3)

# Obtener el resumen del ANOVA
resumen_anova3 <- summary(modelo_anova3)

# Imprimir el resumen del ANOVA
print(resumen_anova3)

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Shots.made   1  224.4  224.43   27.19 0.000131 ***
## Residuals   14  115.6    8.25                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##ANOVA

#H0: #Ho= El uso de los zapatos favoritos de los jugadores de baloncesto NO influye en el numero de cestas que lograban anotar

#Ha= El uso de los zapatos favoritos de los jugadores de baloncesto influye en el numero de cestas que lograban anotar,segun los datos arrojados por el ANOVA, obtenemos un p valor de 0,000131, asi que se concluye que hay evidencia estadística suficiente para aceptar H0.

require(table1)
mod3=lm(Day ~ Shots.made,data=datos3)
summary(mod3)

## 
## Call:
## lm(formula = Day ~ Shots.made, data = datos3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.1716 -2.2551 -0.6716  2.0318  5.0948 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -17.2809     4.9962  -3.459 0.003837 ** 
## Shots.made    0.8266     0.1585   5.214 0.000131 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.873 on 14 degrees of freedom
## Multiple R-squared:  0.6601, Adjusted R-squared:  0.6358 
## F-statistic: 27.19 on 1 and 14 DF,  p-value: 0.0001311

anova(mod3)

## Analysis of Variance Table
## 
## Response: Day
##            Df Sum Sq Mean Sq F value    Pr(>F)    
## Shots.made  1 224.43 224.433  27.188 0.0001311 ***
## Residuals  14 115.57   8.255                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

boxplot(datos3$Shots.made~datos3$Shoes,data = datos3,col= c("red","blue","green","orange"),ylab="Dias", xlab="Cestas")

#La media de cestas anotadas por los jugadores es de 8.50 donde el valor central para zapatos favoritos es de 34 cestas (mediana). por otro lado el valor minimo correspondio a 30 y el valor maximo correspode a 36

#A partir de la informacion que arroja el ANOVA, con un p valor de 0,000313, se concluye que hay evidencia estadística suficiente para rechazar la hipotesis nula.

#validar los supuestos

#P1 - normalidad
plot(mod3)

shapiro.test(mod3$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  mod3$residuals
## W = 0.94874, p-value = 0.47

#en la prueba de shapiro la hipotesis es normalidad
#si el valor p es mayor al 5% (0.05) no rechazo la normalidad

#P2 - homogeneidad de varianza
plot(mod3)

##Los resultados evidenciados en las gráficas permiten corroborar que en efecto si se cumplen los supuestos de normalidad, homogeneidad e independencia en analisis de varianzas

require(faraway)
data("datos3")

## Warning in data("datos3"): data set 'datos3' not found

datos3

## # A tibble: 16 × 3
##      Day Shoes Shots.made
##    <dbl> <chr>      <dbl>
##  1     1 O             25
##  2     2 O             26
##  3     5 F             32
##  4     6 F             22
##  5     9 O             35
##  6    10 O             34
##  7    13 F             33
##  8    14 F             37
##  9     3 O             27
## 10     4 O             27
## 11     7 F             30
## 12     8 F             34
## 13    11 O             33
## 14    12 O             30
## 15    15 F             36
## 16    16 F             38

#Generar tablas con los descriptivos
table1(~Day|Shoes,data=datos3)

	F (N=8)	O (N=8)	Overall (N=16)
Day
Mean (SD)	10.5 (4.44)	6.50 (4.44)	8.50 (4.76)
Median [Min, Max]	10.5 [5.00, 16.0]	6.50 [1.00, 12.0]	8.50 [1.00, 16.0]

table1(~Day|Shots.made,data=datos3)

## Warning in table1.formula(~Day | Shots.made, data = datos3): Terms to the right
## of '|' in formula 'x' define table columns and are expected to be factors with
## meaningful labels.

## Warning in .table1.internal(x = x, labels = labels, groupspan = groupspan, :
## Table has 13 columns. Are you sure this is what you want?

	22 (N=1)	25 (N=1)	26 (N=1)	27 (N=2)	30 (N=2)	32 (N=1)	33 (N=2)	34 (N=2)	35 (N=1)	36 (N=1)	37 (N=1)	38 (N=1)	Overall (N=16)
Day
Mean (SD)	6.00 (NA)	1.00 (NA)	2.00 (NA)	3.50 (0.707)	9.50 (3.54)	5.00 (NA)	12.0 (1.41)	9.00 (1.41)	9.00 (NA)	15.0 (NA)	14.0 (NA)	16.0 (NA)	8.50 (4.76)
Median [Min, Max]	6.00 [6.00, 6.00]	1.00 [1.00, 1.00]	2.00 [2.00, 2.00]	3.50 [3.00, 4.00]	9.50 [7.00, 12.0]	5.00 [5.00, 5.00]	12.0 [11.0, 13.0]	9.00 [8.00, 10.0]	9.00 [9.00, 9.00]	15.0 [15.0, 15.0]	14.0 [14.0, 14.0]	16.0 [16.0, 16.0]	8.50 [1.00, 16.0]

require(ggplot2)
ggplot(datos3,aes(x=Shots.made,y=Day))+geom_point()+
  geom_smooth()+theme_classic()

## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

datos3$Day_factor=as.factor(datos3$Day)
datos3$Day_factor

##  [1] 1  2  5  6  9  10 13 14 3  4  7  8  11 12 15 16
## Levels: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

datos3$Shoes_factor=as.factor(datos3$Shoes)
datos3$Shoes_factor

##  [1] O O F F O O F F O O F F O O F F
## Levels: F O

datos3$Shots.made_factor=as.factor(datos3$Shots.made)
datos3$Shots.made_factor

##  [1] 25 26 32 22 35 34 33 37 27 27 30 34 33 30 36 38
## Levels: 22 25 26 27 30 32 33 34 35 36 37 38

Taller 2 ejercicio clase- M- Arrieta

saray

2023-10-31