E1U1

ismael

23/10/2020

PREGUNTAS

##1.-¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

La considero una ciencia de datos la cual esta enfocada en obtener, ordenar y analizar, todo esto con el objetivo de crear un razonamiento logico-matematico para algun fenomeno que este sucediendo o poder decir que sucedera en un futuro en algo especifico con una cierta base de datos, todo ello llevado a cabo mediante procedimientos, metodos y formulas matematicas, por lo cual la estadistica se apoya de la matematica mas sin embargo estaria mal decir que forma parte de la matematica ya que solo tiene apoyo en ella.

en ingenieria quimica tiene un sin fin de aplicaciones, uno de los ejemplos que les comparto es en el laboratorio de metodos instrumentales donde se hace utilizacion de una curva de calibrado para lo cual utilizamos un metodo de regresion lineal, donde se enfoca en medir la concentracion de alguna determinada sustancia contra la absorbancia medida, donde se aplica un modelo de regresion lineal para observar que tanta similitud tiene en su relacion de datos todo ello para evaluar la confiabilidad de el proceso que se esta llevando a cabo.

##2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

-Varible cuantitativas: Son los datos númericos que se pueden medir y estos pueden ser edades, número de casas.

-Varible cualitativas: Son datos que no se pueden medir y que tienen caracteristicas que los distinguen entre mas datos como el sexo de las personas, salud de las mismas.

-Variable dependiente: Esta variable esta a condicion de otra. Ejemplo: el aumento de presion de un gas depende del aumento de temperatura.

-Variable independiente:Esta variable no tiene relacion alguna con otra. Ejemplo: el tiempo no depende de la velocidad.

  • distribucion de frecuencia: se define como la union de datos, teniendo una organizacion que depende de las observaciones que se tengan, sin se tuvieran muy pocas distintas dentro de un elevado numero de observaciones, es cuando0 se hace utilizacion de una tabla de frecuencia.

  • es la distribucion en forma de campana que relaciona la desviacion estandar y la media con un valor de referencia, todo esto con el objetivo de dar un aproximado de algun porcentaje de algun dato en especifico.

setwd("~/1 EA1011")
library(pacman)
p_load("modeest","DT","prettydoc","readr","tidyverse", "pacman", "fdth")
pozos3 <- read_csv("pozos (3).csv")
## Parsed with column specification:
## cols(
##   TEMP = col_double(),
##   PHB = col_double(),
##   PH = col_double()
## )
datatable(pozos3)

#A

Ordene los datos de menor a mayor

# para PH 
sort(pozos3$PH)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
# para TEMP 
sort(pozos3$TEMP)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

##indique el valor máximo / mínimo

# maximo y minimo para PH
max(pozos3$PH)
## [1] 7.5
min(pozos3$PH)
## [1] 6.1
# maximo y minimo para TEMP
max(pozos3$TEMP)
## [1] 32.1
min(pozos3$TEMP)
## [1] 25.6

##el rango total de datos.

# rango para PH

rangePH <- max(pozos3$PH)-min(pozos3$PH)
  
rangePH
## [1] 1.4
# rango para TEMP

rangeTEMP <- max(pozos3$TEMP)-min(pozos3$TEMP)
  
rangeTEMP
## [1] 6.5

##B)

##Obtenga (el número de) los intervalos (o clases) usando la fórmula según Surges

# Numero intervalos HP

PH = nclass.Sturges(pozos3$PH)

PH
## [1] 10
# Numero intervalos TEMP
TEMP = nclass.Sturges(pozos3$TEMP)

TEMP
## [1] 10

##ancho de clase.

# para PH
round(rangePH/PH,2)
## [1] 0.14
# para TEMP
round(rangeTEMP/TEMP,2)
## [1] 0.65

#C)

##Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

# para PH
tfPH <- pozos3$PH
distribución <- fdt(tfPH, breaks="Sturges")
distribución
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00
# para TEMP
tfTEMP <- pozos3$TEMP
distribución1 <- fdt(tfTEMP, breaks="Sturges")
distribución1
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Es una herramientas estadisticas para vizualizar el comportamiento que tiene los valores recogidos y frecuencia en este caso se manejo PH y TEMP, es de suma ayuda para identificar la diferencia que van teniendo estos valores respecto al paso de los cambios.

#D)

##Elabore un histograma

## para PH

#1 Histograma(PH)
hist(tfPH,col="yellow", main ="Histograma PH" )

par(mfrow=c(3,1))

# Histograma de frecuencias absolutas
plot(distribución, type="fh", col='blue', main="Histograma de frecuencias absolutas PH")

# Histograma de frecuencias relativas
plot(distribución, type="rfh", col='pink', main="Histograma de frecuencias relativas PH" )

# Histograma de frecuencias acumuladas
plot(distribución, type="cfh", col='black', main="Histograma de frecuencias acumuladas PH")

## para TEMP

#1 Histograma(TEMP)
hist(tfTEMP,col="black", main ="Histograma TEMP" )

par(mfrow=c(3,1))

# Histograma de frecuencias absolutas
plot(distribución1, type="fh", col='purple', main="Histograma de frecuencias absolutas TEMP")

# Histograma de frecuencias relativas
plot(distribución1, type="rfh", col='green', main="Histograma de frecuencias relativas TEMP" )

# Histograma de frecuencias acumuladas
plot(distribución1, type="cfh", col='brown', main="Histograma de frecuencias acumuladas TEMP")

##polígono de frecuencias

## para PH
par(mfrow=c(3,1))

# Poligono de frecuencias absolutas
plot(distribución, type="fp", col='blue', main="poligono de frecuencia absoluta PH")

# Poligono de frecuencias relativas
plot(distribución, type="rfp", col='pink', main="poligono de frecuencia relativa PH")

# Poligono de frecuencias acumuladas
plot(distribución, type="cfp", col='black', main="poligono de frecuencia acumulada PH")

## para TEMP
par(mfrow=c(3,1))

# Poligono de frecuencias absolutas
plot(distribución1, type="fp", col='blue', main="poligono de frecuencia absoluta TEMP")

# Poligono de frecuencias relativas
plot(distribución1, type="rfp", col='pink', main="poligono de frecuencia relativa TEMP")

# Poligono de frecuencias acumuladas
plot(distribución1, type="cfp", col='black', main="poligono de frecuencia acumulada TEMP")

#E) Obtenga:

##la media PH

mean(pozos3$PH)
## [1] 6.890444

##mediana PH

median(pozos3$PH)
## [1] 6.9

##moda PH

mfv(pozos3$PH)
## [1] 7

##la media TEMP

mean(pozos3$TEMP)
## [1] 28.69795

##mediana TEMP

median(pozos3$TEMP)
## [1] 28.7

##moda TEMP

mfv(pozos3$TEMP)
## [1] 28.6

###interprete los resultados.

Mediante el apoyo de los datos estadisticos se puede vizualizar la gran similitud que se tiene en los valores de media, mediana y moda tantopara PH como para TEMP, esto es debido a la naturaleza de los rangos que tienen los valores ya que se tiene una baja variabilidad entre ellos, osea muy similares.

#F) Obtenga:

##la varianza PH

var(pozos3$PH)
## [1] 0.04908645

##la desviación estándar PH

sd(pozos3$PH)
## [1] 0.2215546

##la varianza TEMP

var(pozos3$TEMP)
## [1] 1.035407

##la desviación estándar TEMP

sd(pozos3$TEMP)
## [1] 1.017549

###interprete los resultados. ¿Pueden estas medidas ser negativas?

NO, Nunca puede ser negativa la varianza ya que su numerador incluye diferencias al cuadrado, por el lado de la desviacion estandar tampoco ya que esta relacionada con la raiz y matematicamente hablando se sabe que no seras un valor real, por lo que debe ser positivo ambos casos.

#G)

##Elabore gráfico de caja y bigote PH

boxplot(pozos3$PH, col='orange', main="Caja y Bigote PH" )

##Elabore gráfico de caja y bigote TEMP

boxplot(pozos3$TEMP, col='gray', main="Caja y Bigote TEMP" )

#H)

##Elabora una gráfica de dispersión de pH versus temperatura.

library(ggplot2)
ggplot(data = pozos3) +
  geom_point(mapping = aes(x=TEMP, y=PH), col="orange", lwd=2, main="Temperatura vs pH" )
## Warning: Ignoring unknown parameters: main

#I) Metodos de correlacion de las variables

Modelo Regresion lineal

matriz de coeficiente de correlacion lineal

cor(pozos3)
##             TEMP         PHB          PH
## TEMP  1.00000000 -0.03662794 -0.02029087
## PHB  -0.03662794  1.00000000  0.76464940
## PH   -0.02029087  0.76464940  1.00000000

Matriz de correlacion

pairs(pozos3)

recta de minimos cuadrados

modelo <- lm(pozos3$PH ~ pozos3$TEMP)
summary(modelo)
## 
## Call:
## lm(formula = pozos3$PH ~ pozos3$TEMP)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.78955 -0.09220  0.01089  0.11089  0.59587 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.017231   0.366448  19.149   <2e-16 ***
## pozos3$TEMP -0.004418   0.012761  -0.346    0.729    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared:  0.0004117,  Adjusted R-squared:  -0.003023 
## F-statistic: 0.1199 on 1 and 291 DF,  p-value: 0.7294
plot(pozos3$TEMP,pozos3$PH, xlab = "temperatura", ylab = "potencial de hidrogeno", col="red", lwd=3)

abline(modelo)

ecuacion de la recta

\[ Y=7.017231-0.004418x \]

intervalos de confianza

confint(modelo)
##                   2.5 %     97.5 %
## (Intercept)  6.29600715 7.73845554
## pozos3$TEMP -0.02953383 0.02069782

Shapiro wilk

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.96474, p-value = 1.44e-06

Modelo Regresion logistica

conteo de 0(alcalino) y 1(acido) para PHB

table(pozos3$PHB)
## 
##   0   1 
## 160 133

Representacion del comportamiento si es ACIDO O BASE en funcion de temperatura

colores <- NULL
colores[pozos3$PHB==0] <- "yellow"
colores[pozos3$PHB==1] <- "red"
plot(pozos3$TEMP, pozos3$PHB, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad de ser acido o alcalino', main="Grafico representativo de acido o base en funcion de temperatura")
legend('bottomleft', c('ACIDO', 'ALCALINO'), pch = 21, col = c('yellow', 'red'))

regresion logistica de los datos

regl <- glm(PHB ~ TEMP, data=pozos3, )
summary(regl)
## 
## Call:
## glm(formula = PHB ~ TEMP, data = pozos3)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -0.5060  -0.4539  -0.4288   0.5443   0.6071  
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept)  0.96912    0.82450   1.175    0.241
## TEMP        -0.01795    0.02871  -0.625    0.532
## 
## (Dispersion parameter for gaussian family taken to be 0.2492459)
## 
##     Null deviance: 72.628  on 292  degrees of freedom
## Residual deviance: 72.531  on 291  degrees of freedom
## AIC: 428.42
## 
## Number of Fisher Scoring iterations: 2

curva de regresion logistica

datoso <- data.frame(TEMP= seq(1,293,1))
probabilidades <- predict(regl, datoso, type = "response")

#gráfica

plot(pozos3$TEMP, pozos3$PHB, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad de ser acido o alcalino', main="Grafico regresion logistica")
legend('bottomleft', c('ACIDO', 'ALCALINO'), pch = 21, col = c('yellow', 'red'))

lines(datoso$TEMP, probabilidades, col="black", lwd=3)

###¿Considera que estas 2 variables están relacionadas?

Apoyandonos en el presenbte grafico logistico se observa que la agua de pozo no tiene una estrecha relacion entre el cambio de temperatura y la acidez, por lo que aparente mente en base a los datos otorgados para ejecutar nuestro analisis no se tiene una relacion del agua de pozo y pH, mas sin embargo teoricamente se sabe que al crear un aumento en la temperatura se provoca una disminucion en pH osea que se vuelve mas acida el agua, el motivo del cual no sigue de la mano esta razon teorica puede ser debido a las sales y minerales que se encuentran disueltas dentro del agua de pozo provocando un aumento en su alcalinidad e impidiendo que esta se torne acida o mas bien que sea notable su cambio.