CTIC - UNIVERSIDAD NACIONAL DE INGENIERIA

Programación en R para DataScience

Perfil Linkelind

Google Drive

Presentación del Codigo - Pregunta 1
> #Creando Cabeceras
> nombres <-c("Numero de la Observacion","Boiling Point(F)","Pressure(in Hg)","Log(Pressure)","100log(Pressure)")

> #Importando
> bdForbes <- read.table(file="Actividad4Caso1.txt",header=FALSE, sep=" ",col.names=nombres)
  Numero.de.la.Observacion Boiling.Point.F. Pressure.in.Hg. Log.Pressure. X100log.Pressure.
1                        1            194.5           20.79        1.3179            131.79
2                        2            194.3           20.79        1.3179            131.79
3                        3            197.9           22.40        1.3502            135.02
4                        4            198.4           22.67        1.3555            135.55
5                        5            199.4           23.15        1.3646            136.46
6                        6            199.9           23.35        1.3683            136.83

> #Convirtiendo a DataFrame
> df_forbes<-as.data.frame(bdForbes)
> head(df_forbes)
  Numero.de.la.Observacion Boiling.Point.F. Pressure.in.Hg. Log.Pressure. X100log.Pressure.
1                        1            194.5           20.79        1.3179            131.79
2                        2            194.3           20.79        1.3179            131.79
3                        3            197.9           22.40        1.3502            135.02
4                        4            198.4           22.67        1.3555            135.55
5                        5            199.4           23.15        1.3646            136.46
6                        6            199.9           23.35        1.3683            136.83

> #Diagrama de Puntos Pressure versus Boiling point
> plot(x=df_forbes$Pressure.in.Hg.,y=df_forbes$Boiling.Point.F., main = "Diagrama de Puntos de Pressure vs. Boiling Point", xlab = "Boiling Point", ylab = "Pressure")

Pregunta: ¿Hay una tendencia lineal?
Se Observa una clara correlación lineal



Presentación del Codigo - Pregunta 2
> #Diagrama de Puntos 100*log(Pressure) versus Boiling point
> plot(x=df_forbes$X100log.Pressure.,y=df_forbes$Boiling.Point.F., main = "Diagrama de Puntos de 100*log(Pressure) vs. Boiling Point", xlab = "Boiling Point", ylab = "Pressure")

Pregunta: ¿Se observa mejor la tendencia lineal que en la pregunta1?
Una respuesta dificil, pareciera que si, pero la certesa no la daria el coeficiciente de Correlación R



Presentación del Codigo - Pregunta 3
> #Ajutar la linea de regresión de 100*log(Pressure) versus Boiling point. Trazar la línea sobre el plot hallado en la pregunta 2

> #Aplicamos la Regresión Lineal y Guardamos su valor en una variable
> reg_lienal<-lm(df_forbes$X100log.Pressure.~df_forbes$Boiling.Point.F.)

> #Graficamos
> plot(df_forbes$X100log.Pressure.~df_forbes$Boiling.Point.F.,xlab="Boiling.Point.F.", ylab="100*log(Pressure)")
> lines(reg_lienal$fitted.values~df_forbes$Boiling.Point.F.)
> title("Regresión Lineal Y Grafica de Puntos")


Presentación del Codigo - Pregunta 3 - Continuación
> #Interpretar los “p-values” de la prueba t y el de la prueba F
> summary(reg_lienal)

Call:
lm(formula = df_forbes$X100log.Pressure. ~ df_forbes$Boiling.Point.F.)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.32220 -0.14473 -0.06664  0.02184  1.35978 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)
(Intercept)                -42.13778    3.34020  -12.62 2.18e-09
df_forbes$Boiling.Point.F.   0.89549    0.01645   54.43  < 2e-16
                              
(Intercept)                ***
df_forbes$Boiling.Point.F. ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.379 on 15 degrees of freedom
Multiple R-squared:  0.995, Adjusted R-squared:  0.9946 
F-statistic:  2963 on 1 and 15 DF,  p-value: < 2.2e-16

Interpretar los “t-values” de la prueba t y el de la prueba

P-Values: Nos indican el grado de ajuste que tienen los coeficientes al modelo lineal, en este caso al ser ambos muy pequeños, consideramos que tanto el coeficiente y la variable son nesesarias para el modelo de regresion lineal

F-statistic: Nos indican si el modelo es valido o no, Partiendo de la hipótesis Ho: Que los datos no se ajsutan a una regresión lineal, como p<0.05, rechazamos la Ho y concluimos que los datos si se ajustan a una regresión lineal, por lo tanto el modelo es valido



Presentación del Codigo - Pregunta 4
> #Interpretar el Coeficiente de Determinación R
> reg_cuadrado<-lsfit(df_forbes$Boiling.Point.F.,df_forbes$X100log.Pressure.)
> ls.print(reg_cuadrado)
Residual Standard Error=0.379
R-Square=0.995
F-statistic (df=1, 15)=2962.785
p-value=0

          Estimate Std.Err  t-value Pr(>|t|)
Intercept -42.1378  3.3402 -12.6154        0
X           0.8955  0.0165  54.4315        0

> #Obtener un intervalo de confianza del 99% para 𝛽. Interpretar su resultado.
> beta<-summary(reg_lienal)$coef[2,1]
> eebeta<-summary(reg_lienal)$coef[2,2]
> dim(df_forbes)
[1] 17  5
> bint<-c(beta-qt(.995,15)*eebeta,beta+qt(.995,15)*eebeta)
> bint
[1] 0.8470150 0.9439723

> #Obtener un intervalo de confianza del 99% para el valor predicho y un intervalo de confianza para el valor medio de 100*log(Pressure) cuando el Boiling Point es de 195 °F.

> #Intervalo de Confiansa al 99% para el valor predicho
> limit99<-predict(reg_lienal,se.fit = T,interval = c("confidence"),level = .99)
> limit99
$fit
        fit      lwr      upr
1  132.0357 131.5445 132.5270
2  131.8566 131.3573 132.3560
3  135.0804 134.7152 135.4456
4  135.5282 135.1787 135.8776
5  136.4237 136.1027 136.7447
6  136.8714 136.5627 137.1801
7  137.7669 137.4783 138.0555
8  137.9460 137.6606 138.2314
9  138.2146 137.9335 138.4958
10 138.1251 137.8426 138.4076
11 140.1847 139.9120 140.4574
12 141.0802 140.7978 141.3626
13 145.4681 145.0509 145.8854
14 144.6622 144.2771 145.0473
15 146.5427 146.0797 147.0058
16 147.6173 147.1059 148.1287
17 147.8860 147.3622 148.4097

$se.fit
 [1] 0.16670329 0.16945786 0.12394054 0.11858031 0.10893736 0.10475387 0.09793575
 [8] 0.09685029 0.09541188 0.09586552 0.09254197 0.09583811 0.14160608 0.13069760
[15] 0.15714613 0.17354259 0.17774802

$df
[1] 15

$residual.scale
[1] 0.3790275

> #Graficando
> plot(df_forbes$X100log.Pressure.~df_forbes$Boiling.Point.F.)
> lines(reg_lienal$fitted.values~df_forbes$Boiling.Point.F.)
> title("Banda de Confiansa al 99% y Regresión Lineal")

> #intervalo de confianza para el valor medio de 100*log(Pressure) cuando el Boiling Point es de 195 °F.

> #Calculando el Coeficiente y el Termino Independiente(Intercepto) 
> intercept<-summary(reg_lienal)$coef[1,1]
> coeficiente<-summary(reg_lienal)$coef[2,1]
> Y<-intercept+coeficiente*195

> #Valor Predecido de Y (100*log(Pressure))
> Y
[1] 132.4835

> #Rango de Valores
desvt<-summary(reg_lienal)$coef[2,2]
> bint<-c(Y-qt(.995,15)*desvt,Y+qt(.995,15)*desvt)
> bint
[1] 132.435 132.532
---
title: "R para DataScience, Tarea N°4"
author: "Calvo Quispe, Luis Antonio"
date: "2022/05/29"
output:
  html_document:
    code_download: TRUE
---

<!-- Bienvenidos al Proyecto de Luis Antonio Calvo Quispe -->

<center>
### CTIC - UNIVERSIDAD NACIONAL DE INGENIERIA
![](Logo.png){width=500px}

</center>

<center>
#### Programación en R para DataScience
[Perfil Linkelind](https://www.linkedin.com/in/luis-antonio-calvo-quispe-57a33b229/ "Ingresar al Perfil del Compañero"){target="_blank"}


[Google Drive](https://drive.google.com/drive/folders/1NWcyd-qZ87oDeYUuVrszBqLPeM4etPw3?usp=sharing "Ingresar a la Carpeta Compartida"){target="_blank"}
</center>
<br>
<center>
**Presentación del Codigo - Pregunta 1**
</center>
```R
> #Creando Cabeceras
> nombres <-c("Numero de la Observacion","Boiling Point(F)","Pressure(in Hg)","Log(Pressure)","100log(Pressure)")

> #Importando
> bdForbes <- read.table(file="Actividad4Caso1.txt",header=FALSE, sep=" ",col.names=nombres)
  Numero.de.la.Observacion Boiling.Point.F. Pressure.in.Hg. Log.Pressure. X100log.Pressure.
1                        1            194.5           20.79        1.3179            131.79
2                        2            194.3           20.79        1.3179            131.79
3                        3            197.9           22.40        1.3502            135.02
4                        4            198.4           22.67        1.3555            135.55
5                        5            199.4           23.15        1.3646            136.46
6                        6            199.9           23.35        1.3683            136.83

> #Convirtiendo a DataFrame
> df_forbes<-as.data.frame(bdForbes)
> head(df_forbes)
  Numero.de.la.Observacion Boiling.Point.F. Pressure.in.Hg. Log.Pressure. X100log.Pressure.
1                        1            194.5           20.79        1.3179            131.79
2                        2            194.3           20.79        1.3179            131.79
3                        3            197.9           22.40        1.3502            135.02
4                        4            198.4           22.67        1.3555            135.55
5                        5            199.4           23.15        1.3646            136.46
6                        6            199.9           23.35        1.3683            136.83

> #Diagrama de Puntos Pressure versus Boiling point
> plot(x=df_forbes$Pressure.in.Hg.,y=df_forbes$Boiling.Point.F., main = "Diagrama de Puntos de Pressure vs. Boiling Point", xlab = "Boiling Point", ylab = "Pressure")
```

<center>
![](RplotDP.png){width=500px}
<br>
**Pregunta: ¿Hay una tendencia lineal?**
<br>
**Se Observa una clara correlación lineal**
</center>
<br>
<br>

<center>
**Presentación del Codigo - Pregunta 2**
</center>

```R
> #Diagrama de Puntos 100*log(Pressure) versus Boiling point
> plot(x=df_forbes$X100log.Pressure.,y=df_forbes$Boiling.Point.F., main = "Diagrama de Puntos de 100*log(Pressure) vs. Boiling Point", xlab = "Boiling Point", ylab = "Pressure")
```

<center>
![](RplotDP2.png){width=500px}
<br>
**Pregunta: ¿Se observa mejor la tendencia lineal que en la pregunta1?**
<br>
**Una respuesta dificil, pareciera que si, pero la certesa no la daria el coeficiciente de Correlación R**
</center>
<br>
<br>

<center>
**Presentación del Codigo - Pregunta 3**
</center>
```R
> #Ajutar la linea de regresión de 100*log(Pressure) versus Boiling point. Trazar la línea sobre el plot hallado en la pregunta 2

> #Aplicamos la Regresión Lineal y Guardamos su valor en una variable
> reg_lienal<-lm(df_forbes$X100log.Pressure.~df_forbes$Boiling.Point.F.)

> #Graficamos
> plot(df_forbes$X100log.Pressure.~df_forbes$Boiling.Point.F.,xlab="Boiling.Point.F.", ylab="100*log(Pressure)")
> lines(reg_lienal$fitted.values~df_forbes$Boiling.Point.F.)
> title("Regresión Lineal Y Grafica de Puntos")

```

<center>
![](RplotR1.png){width=500px}
</center>
<br>

<center>
**Presentación del Codigo - Pregunta 3 - Continuación**
</center>


```R
> #Interpretar los “p-values” de la prueba t y el de la prueba F
> summary(reg_lienal)

Call:
lm(formula = df_forbes$X100log.Pressure. ~ df_forbes$Boiling.Point.F.)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.32220 -0.14473 -0.06664  0.02184  1.35978 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)
(Intercept)                -42.13778    3.34020  -12.62 2.18e-09
df_forbes$Boiling.Point.F.   0.89549    0.01645   54.43  < 2e-16
                              
(Intercept)                ***
df_forbes$Boiling.Point.F. ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.379 on 15 degrees of freedom
Multiple R-squared:  0.995,	Adjusted R-squared:  0.9946 
F-statistic:  2963 on 1 and 15 DF,  p-value: < 2.2e-16
```


<center>
<br>
**Interpretar los “t-values” de la prueba t y el de la prueba **
<br>
<br>
**P-Values: Nos indican el grado de ajuste que tienen los coeficientes al modelo lineal, en este caso al ser ambos muy pequeños, consideramos que tanto el coeficiente y la variable son nesesarias para el modelo de regresion lineal**
<br>
<br>
**F-statistic: Nos indican si el modelo es valido o no, Partiendo de la hipótesis Ho: Que los datos no se ajsutan a una regresión lineal, como p<0.05, rechazamos la Ho y concluimos que los datos si se ajustan a una regresión lineal, por lo tanto el modelo es valido**
</center>
<br>
<br>

<center>
**Presentación del Codigo - Pregunta 4**
</center>


```R
> #Interpretar el Coeficiente de Determinación R
> reg_cuadrado<-lsfit(df_forbes$Boiling.Point.F.,df_forbes$X100log.Pressure.)
> ls.print(reg_cuadrado)
Residual Standard Error=0.379
R-Square=0.995
F-statistic (df=1, 15)=2962.785
p-value=0

          Estimate Std.Err  t-value Pr(>|t|)
Intercept -42.1378  3.3402 -12.6154        0
X           0.8955  0.0165  54.4315        0

> #Obtener un intervalo de confianza del 99% para 𝛽. Interpretar su resultado.
> beta<-summary(reg_lienal)$coef[2,1]
> eebeta<-summary(reg_lienal)$coef[2,2]
> dim(df_forbes)
[1] 17  5
> bint<-c(beta-qt(.995,15)*eebeta,beta+qt(.995,15)*eebeta)
> bint
[1] 0.8470150 0.9439723

> #Obtener un intervalo de confianza del 99% para el valor predicho y un intervalo de confianza para el valor medio de 100*log(Pressure) cuando el Boiling Point es de 195 °F.

> #Intervalo de Confiansa al 99% para el valor predicho
> limit99<-predict(reg_lienal,se.fit = T,interval = c("confidence"),level = .99)
> limit99
$fit
        fit      lwr      upr
1  132.0357 131.5445 132.5270
2  131.8566 131.3573 132.3560
3  135.0804 134.7152 135.4456
4  135.5282 135.1787 135.8776
5  136.4237 136.1027 136.7447
6  136.8714 136.5627 137.1801
7  137.7669 137.4783 138.0555
8  137.9460 137.6606 138.2314
9  138.2146 137.9335 138.4958
10 138.1251 137.8426 138.4076
11 140.1847 139.9120 140.4574
12 141.0802 140.7978 141.3626
13 145.4681 145.0509 145.8854
14 144.6622 144.2771 145.0473
15 146.5427 146.0797 147.0058
16 147.6173 147.1059 148.1287
17 147.8860 147.3622 148.4097

$se.fit
 [1] 0.16670329 0.16945786 0.12394054 0.11858031 0.10893736 0.10475387 0.09793575
 [8] 0.09685029 0.09541188 0.09586552 0.09254197 0.09583811 0.14160608 0.13069760
[15] 0.15714613 0.17354259 0.17774802

$df
[1] 15

$residual.scale
[1] 0.3790275

> #Graficando
> plot(df_forbes$X100log.Pressure.~df_forbes$Boiling.Point.F.)
> lines(reg_lienal$fitted.values~df_forbes$Boiling.Point.F.)
> title("Banda de Confiansa al 99% y Regresión Lineal")

> #intervalo de confianza para el valor medio de 100*log(Pressure) cuando el Boiling Point es de 195 °F.

> #Calculando el Coeficiente y el Termino Independiente(Intercepto) 
> intercept<-summary(reg_lienal)$coef[1,1]
> coeficiente<-summary(reg_lienal)$coef[2,1]
> Y<-intercept+coeficiente*195

> #Valor Predecido de Y (100*log(Pressure))
> Y
[1] 132.4835

> #Rango de Valores
desvt<-summary(reg_lienal)$coef[2,2]
> bint<-c(Y-qt(.995,15)*desvt,Y+qt(.995,15)*desvt)
> bint
[1] 132.435 132.532

```
