url <- 'https://tinyurl.com/ya9fvteb'
dt <- read.table(url, header=TRUE, sep='\t')

Realizar:

Descripción de la data

library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
glimpse(dt)
## Rows: 1,236
## Columns: 7
## $ bwt       <int> 120, 113, 128, 123, 108, 136, 138, 132, 120, 143, 140, 144, …
## $ gestation <int> 284, 282, 279, NA, 282, 286, 244, 245, 289, 299, 351, 282, 2…
## $ parity    <chr> "First born", "First born", "First born", "First born", "Fir…
## $ age       <int> 27, 33, 28, 36, 23, 25, 33, 23, 25, 30, 27, 32, 23, 36, 30, …
## $ height    <int> 62, 64, 64, 69, 67, 62, 62, 65, 62, 66, 68, 64, 63, 61, 63, …
## $ weight    <int> 100, 135, 115, 190, 125, 93, 178, 140, 125, 136, 120, 124, 1…
## $ smoke     <chr> "Not", "Not", "Yes", "Not", "Yes", "Not", "Not", "Not", "Not…

Plantear hipótesis

Validar normalidad de las variables (según la hipótesis)

se va estudiar las variables bwt y gestatión para ver si las variables tienen un comportamiento de distribución normal primero se observara por medio de un grafico de disperción y luego por medio de una ecuacion

library(ggplot2)
ggplot(dt,aes(x=gestation,y=bwt))+
  geom_point(color='blue')+
         ggtitle("Comportamiento de distribución") + 
       ylab("Peso del bebe") + 
         xlab("Duración del embarazo")
## Warning: Removed 13 rows containing missing values or values outside the scale range
## (`geom_point()`).

Para evitar tener valores valores perdidos a la hora de hacer los calculos estadisticos vamos a eliminar los valores perdidos denominados como (NA)

dt$bwt[is.na(dt$bwt)] <- mean(dt$bwt, na.rm = TRUE)

dt$gestation[is.na(dt$gestation)] <- mean(dt$gestation, na.rm = TRUE)

de esta forma ya no vamos a tener valores perdidos por lo que la grafica anterior ya no aparecera con errores de aviso

library(ggplot2)
ggplot(dt,aes(x=gestation,y=bwt))+
  geom_point(color='blue')+
         ggtitle("Comportamiento de distribución") + 
         ylab("Peso del bebe") + 
         xlab("Duración del embarazo")

Hipotesis prueba de normalidad

H_0: los datos presentan una distribución normal. H_a: Los datos no presentan una distribución normal.

Db<-shapiro.test(dt$bwt)
Dg<-shapiro.test(dt$gestation)
print(Db)
## 
##  Shapiro-Wilk normality test
## 
## data:  dt$bwt
## W = 0.99559, p-value = 0.001192
print(Dg)
## 
##  Shapiro-Wilk normality test
## 
## data:  dt$gestation
## W = 0.92964, p-value < 2.2e-16

Por lo anterior se observa que los datos no tienen una distribución normal y en ambos casos el valor de p-valor es < a 0,05 esto quiere decir que, se rechaza la hipotesis nula y se acepta la hipotesis alterna.

Realizar correlación

Dado que los datos son no parametricos y contamos con una muestra significativa se aplicara una correlación de spearman.

Hipótesis nula (H_o): si rho = 0 (no hay correlación)

Hipótesis alternativa (H_a ):si rho ≠ 0 (hay correlación)

Debemos tener en cuenta que - si rho es cercano a 1 se tiene una correlación positiva - si rho es cercano a -1 se tiene una correlación negativa - si rho es cercano a 0 se tiene una correlación debil

SPEARMAN<- cor.test(dt$bwt,dt$gestation, method = "spearman",exact = FALSE)
print(SPEARMAN)
## 
##  Spearman's rank correlation rho
## 
## data:  dt$bwt and dt$gestation
## S = 187823700, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.4031757

dado que rho = 0.4032 lo cual indica que existe una correlacion moderada, entre el peso del bebe y la duración del embarazo, es decir que a mayor tiempo de gestación mayor puede ser el peso del bebe. Luego tenemos un p-valor de 2.2e-16 esto es menor que 0.05 esto significa que se rechaza la hipotesis nula y se acepta la alterna ya que existe una relación significativa entre el peso del bebe y el tiempo de gestación.

#Aplicar prueba estadística que corresponda según las variables

#prueba de regresion no lineal

modelo_nl <- nls(bwt ~ a * gestation^b, data = dt, start = list(a = 1, b = 1))
summary(modelo_nl)
## 
## Formula: bwt ~ a * gestation^b
## 
## Parameters:
##   Estimate Std. Error t value Pr(>|t|)    
## a  0.27239    0.11012   2.474   0.0135 *  
## b  1.08024    0.07171  15.065   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16.67 on 1234 degrees of freedom
## 
## Number of iterations to convergence: 5 
## Achieved convergence tolerance: 2.687e-07

Existe una relación positiva y significativa entre la duración del embarazo (gestation) y el peso del bebé al nacer (bwt).

por lo cual se rechaza la la hipotesis nula y se acepta la hipotesis alterna, es decir, que si se existe un efecto significativo en el peso del bebe al nacer y el tiempo de gestación. puesto que el valor de p < 0.05.