url <- 'https://tinyurl.com/ya9fvteb'
dt <- read.table(url, header=TRUE, sep='\t')
Realizar:
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
glimpse(dt)
## Rows: 1,236
## Columns: 7
## $ bwt <int> 120, 113, 128, 123, 108, 136, 138, 132, 120, 143, 140, 144, …
## $ gestation <int> 284, 282, 279, NA, 282, 286, 244, 245, 289, 299, 351, 282, 2…
## $ parity <chr> "First born", "First born", "First born", "First born", "Fir…
## $ age <int> 27, 33, 28, 36, 23, 25, 33, 23, 25, 30, 27, 32, 23, 36, 30, …
## $ height <int> 62, 64, 64, 69, 67, 62, 62, 65, 62, 66, 68, 64, 63, 61, 63, …
## $ weight <int> 100, 135, 115, 190, 125, 93, 178, 140, 125, 136, 120, 124, 1…
## $ smoke <chr> "Not", "Not", "Yes", "Not", "Yes", "Not", "Not", "Not", "Not…
Hipotesis Nula (H_o): La duración del embarazo no tiene un efecto significativo en el peso del bebe al nacer-
Hipotesis alterna(H_a): La duración del embarazo tiene un efecto significativo en el peso del bebe al nacer
se va estudiar las variables bwt y gestatión para ver si las variables tienen un comportamiento de distribución normal primero se observara por medio de un grafico de disperción y luego por medio de una ecuacion
library(ggplot2)
ggplot(dt,aes(x=gestation,y=bwt))+
geom_point(color='blue')+
ggtitle("Comportamiento de distribución") +
ylab("Peso del bebe") +
xlab("Duración del embarazo")
## Warning: Removed 13 rows containing missing values or values outside the scale range
## (`geom_point()`).
Para evitar tener valores valores perdidos a la hora de hacer los
calculos estadisticos vamos a eliminar los valores perdidos denominados
como (NA)
dt$bwt[is.na(dt$bwt)] <- mean(dt$bwt, na.rm = TRUE)
dt$gestation[is.na(dt$gestation)] <- mean(dt$gestation, na.rm = TRUE)
de esta forma ya no vamos a tener valores perdidos por lo que la grafica anterior ya no aparecera con errores de aviso
library(ggplot2)
ggplot(dt,aes(x=gestation,y=bwt))+
geom_point(color='blue')+
ggtitle("Comportamiento de distribución") +
ylab("Peso del bebe") +
xlab("Duración del embarazo")
H_0: los datos presentan una distribución normal. H_a: Los datos no presentan una distribución normal.
Db<-shapiro.test(dt$bwt)
Dg<-shapiro.test(dt$gestation)
print(Db)
##
## Shapiro-Wilk normality test
##
## data: dt$bwt
## W = 0.99559, p-value = 0.001192
print(Dg)
##
## Shapiro-Wilk normality test
##
## data: dt$gestation
## W = 0.92964, p-value < 2.2e-16
Por lo anterior se observa que los datos no tienen una distribución normal y en ambos casos el valor de p-valor es < a 0,05 esto quiere decir que, se rechaza la hipotesis nula y se acepta la hipotesis alterna.
Dado que los datos son no parametricos y contamos con una muestra significativa se aplicara una correlación de spearman.
Hipótesis nula (H_o): si rho = 0 (no hay correlación)
Hipótesis alternativa (H_a ):si rho ≠ 0 (hay correlación)
Debemos tener en cuenta que - si rho es cercano a 1 se tiene una correlación positiva - si rho es cercano a -1 se tiene una correlación negativa - si rho es cercano a 0 se tiene una correlación debil
SPEARMAN<- cor.test(dt$bwt,dt$gestation, method = "spearman",exact = FALSE)
print(SPEARMAN)
##
## Spearman's rank correlation rho
##
## data: dt$bwt and dt$gestation
## S = 187823700, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.4031757
dado que rho = 0.4032 lo cual indica que existe una correlacion moderada, entre el peso del bebe y la duración del embarazo, es decir que a mayor tiempo de gestación mayor puede ser el peso del bebe. Luego tenemos un p-valor de 2.2e-16 esto es menor que 0.05 esto significa que se rechaza la hipotesis nula y se acepta la alterna ya que existe una relación significativa entre el peso del bebe y el tiempo de gestación.
#Aplicar prueba estadística que corresponda según las variables
#prueba de regresion no lineal
modelo_nl <- nls(bwt ~ a * gestation^b, data = dt, start = list(a = 1, b = 1))
summary(modelo_nl)
##
## Formula: bwt ~ a * gestation^b
##
## Parameters:
## Estimate Std. Error t value Pr(>|t|)
## a 0.27239 0.11012 2.474 0.0135 *
## b 1.08024 0.07171 15.065 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16.67 on 1234 degrees of freedom
##
## Number of iterations to convergence: 5
## Achieved convergence tolerance: 2.687e-07
Existe una relación positiva y significativa entre la duración del embarazo (gestation) y el peso del bebé al nacer (bwt).
por lo cual se rechaza la la hipotesis nula y se acepta la hipotesis alterna, es decir, que si se existe un efecto significativo en el peso del bebe al nacer y el tiempo de gestación. puesto que el valor de p < 0.05.