library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun","prettydoc", "readr", "knitr", "DT", "dplyr",  "ggplot2")

IMPORTAR DATOS

setwd("~/PROBABILIDAD Y ESTADISTICA (R Studio)")
library(readxl)
PH <- read_excel("pozos.xlsx")
PH

DESCRIPCION DE DATOS

Se tienen datos de 293 Medidas de Ph y la Temperatura dada en la alcalinidad

datatable(PH)

CORRELACION CON MATRIZ DE DIAGRAMA DE DISPERSION

pairs(PH)

CUANTIFICAR EL GRADO DE RELACION LINEAL (COEF. DE CORRELACION)

cor(PH)
##               PH        TEMP
## PH    1.00000000 -0.02029087
## TEMP -0.02029087  1.00000000

ESTIMACION Y REPRESENTACION DE LA RECTA DE MINIMOS DE CUADRADOS

regresion <- lm(PH ~   TEMP, data=PH )
summary(regresion)
## 
## Call:
## lm(formula = PH ~ TEMP, data = PH)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.78955 -0.09220  0.01089  0.11089  0.59587 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.017231   0.366448  19.149   <2e-16 ***
## TEMP        -0.004418   0.012761  -0.346    0.729    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared:  0.0004117,  Adjusted R-squared:  -0.003023 
## F-statistic: 0.1199 on 1 and 291 DF,  p-value: 0.7294

Una recta que mejor se ajusta es una línea recta que es la mejor aproximación del conjunto de datos dado.

Es usada para estudiar la naturaleza de la relación entre dos variables.

Una recta que mejor se ajusta puede ser determinada aproximadamente usando el método visual al dibujar una línea recta en una gráfica de dispersión para que tanto el número de puntos arriba de la recta y debajo de la recta sean casi iguales (y la línea pasa a tráves de tantos puntos como sea posible).

Una forma más precisa de encontrar la recta que mejor se ajusta es el método de mínimos cuadrados .

Use los pasos siguientes para encontrar la ecuación de la recta que mejor se ajusta para un conjunto de parejas ordenadas .

Paso 1: Calcule la media de los valores de x y la media de los valores de y .

Paso 2: Realice la suma de los cuadrados de los valores de x .

Paso 3: Realice la suma de cada valor de x multiplicado por su valor correspondiente y .

Paso 4: Calcule la pendiente de la recta usando la fórmula:

FORMULA

donde n es el número total de puntos de los datos.

Paso 5: Calcule la intercepción en y de la recta usando la fórmula:

FORMULA 2

donde FORMULA 3 son las medias de las coordenadas de x y y de los puntos de datos respectivamente.

Paso 6: Use la pendiente y la intercepción en y para formar la ecuación de la recta.

\(y = 7.017231 -0.004418 x\)

Los siguientes comandos representan la nube de puntos (comando plot) y añaden la representación gráfica de la recta de mínimos cuadrados (comando abline aplicado al objeto generado por lm):

plot(PH$TEMP, PH$PH, xlab="TEMP", ylab="PH" )
abline(regresion)

CALCULO DE PREDICCIONES

nuevas.TEMP <- data.frame(TEMP= seq(5,10))
predict(regresion,nuevas.TEMP)
##        1        2        3        4        5        6 
## 6.995141 6.990723 6.986305 6.981887 6.977469 6.973051
xfun::embed_file("U4A1.rmd")
Download U4A1.rmd