PREGUNTAS
##1.-¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?
La considero una ciencia de datos la cual esta enfocada en obtener, ordenar y analizar, todo esto con el objetivo de crear un razonamiento logico-matematico para algun fenomeno que este sucediendo o poder decir que sucedera en un futuro en algo especifico con una cierta base de datos, todo ello llevado a cabo mediante procedimientos, metodos y formulas matematicas, por lo cual la estadistica se apoya de la matematica mas sin embargo estaria mal decir que forma parte de la matematica ya que solo tiene apoyo en ella.
en ingenieria quimica tiene un sin fin de aplicaciones, uno de los ejemplos que les comparto es en el laboratorio de metodos instrumentales donde se hace utilizacion de una curva de calibrado para lo cual utilizamos un metodo de regresion lineal, donde se enfoca en medir la concentracion de alguna determinada sustancia contra la absorbancia medida, donde se aplica un modelo de regresion lineal para observar que tanta similitud tiene en su relacion de datos todo ello para evaluar la confiabilidad de el proceso que se esta llevando a cabo.
##2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.
-Varible cuantitativas: Son los datos númericos que se pueden medir y estos pueden ser edades, número de casas.
-Varible cualitativas: Son datos que no se pueden medir y que tienen caracteristicas que los distinguen entre mas datos como el sexo de las personas, salud de las mismas.
-Variable dependiente: Esta variable esta a condicion de otra. Ejemplo: el aumento de presion de un gas depende del aumento de temperatura.
-Variable independiente:Esta variable no tiene relacion alguna con otra. Ejemplo: el tiempo no depende de la velocidad.
distribucion de frecuencia: se define como la union de datos, teniendo una organizacion que depende de las observaciones que se tengan, sin se tuvieran muy pocas distintas dentro de un elevado numero de observaciones, es cuando0 se hace utilizacion de una tabla de frecuencia.
es la distribucion en forma de campana que relaciona la desviacion estandar y la media con un valor de referencia, todo esto con el objetivo de dar un aproximado de algun porcentaje de algun dato en especifico.
setwd("~/1 EA1011")
library(pacman)
p_load("modeest","DT","prettydoc","readr","tidyverse", "pacman", "fdth")
pozos3 <- read_csv("pozos (3).csv")## Parsed with column specification:
## cols(
## TEMP = col_double(),
## PHB = col_double(),
## PH = col_double()
## )
#A
Ordene los datos de menor a mayor
## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
##indique el valor máximo / mínimo
## [1] 7.5
## [1] 6.1
## [1] 32.1
## [1] 25.6
##el rango total de datos.
## [1] 1.4
## [1] 6.5
##B)
##Obtenga (el número de) los intervalos (o clases) usando la fórmula según Surges
## [1] 10
## [1] 10
##ancho de clase.
## [1] 0.14
## [1] 0.65
#C)
##Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
Es una herramientas estadisticas para vizualizar el comportamiento que tiene los valores recogidos y frecuencia en este caso se manejo PH y TEMP, es de suma ayuda para identificar la diferencia que van teniendo estos valores respecto al paso de los cambios.
#D)
##Elabore un histograma
par(mfrow=c(3,1))
# Histograma de frecuencias absolutas
plot(distribución, type="fh", col='blue', main="Histograma de frecuencias absolutas PH")
# Histograma de frecuencias relativas
plot(distribución, type="rfh", col='pink', main="Histograma de frecuencias relativas PH" )
# Histograma de frecuencias acumuladas
plot(distribución, type="cfh", col='black', main="Histograma de frecuencias acumuladas PH")par(mfrow=c(3,1))
# Histograma de frecuencias absolutas
plot(distribución1, type="fh", col='purple', main="Histograma de frecuencias absolutas TEMP")
# Histograma de frecuencias relativas
plot(distribución1, type="rfh", col='green', main="Histograma de frecuencias relativas TEMP" )
# Histograma de frecuencias acumuladas
plot(distribución1, type="cfh", col='brown', main="Histograma de frecuencias acumuladas TEMP")##polígono de frecuencias
## para PH
par(mfrow=c(3,1))
# Poligono de frecuencias absolutas
plot(distribución, type="fp", col='blue', main="poligono de frecuencia absoluta PH")
# Poligono de frecuencias relativas
plot(distribución, type="rfp", col='pink', main="poligono de frecuencia relativa PH")
# Poligono de frecuencias acumuladas
plot(distribución, type="cfp", col='black', main="poligono de frecuencia acumulada PH")## para TEMP
par(mfrow=c(3,1))
# Poligono de frecuencias absolutas
plot(distribución1, type="fp", col='blue', main="poligono de frecuencia absoluta TEMP")
# Poligono de frecuencias relativas
plot(distribución1, type="rfp", col='pink', main="poligono de frecuencia relativa TEMP")
# Poligono de frecuencias acumuladas
plot(distribución1, type="cfp", col='black', main="poligono de frecuencia acumulada TEMP")#E) Obtenga:
##la media PH
## [1] 6.890444
##mediana PH
## [1] 6.9
##moda PH
## [1] 7
##la media TEMP
## [1] 28.69795
##mediana TEMP
## [1] 28.7
##moda TEMP
## [1] 28.6
###interprete los resultados.
Mediante el apoyo de los datos estadisticos se puede vizualizar la gran similitud que se tiene en los valores de media, mediana y moda tantopara PH como para TEMP, esto es debido a la naturaleza de los rangos que tienen los valores ya que se tiene una baja variabilidad entre ellos, osea muy similares.
#F) Obtenga:
##la varianza PH
## [1] 0.04908645
##la desviación estándar PH
## [1] 0.2215546
##la varianza TEMP
## [1] 1.035407
##la desviación estándar TEMP
## [1] 1.017549
###interprete los resultados. ¿Pueden estas medidas ser negativas?
NO, Nunca puede ser negativa la varianza ya que su numerador incluye diferencias al cuadrado, por el lado de la desviacion estandar tampoco ya que esta relacionada con la raiz y matematicamente hablando se sabe que no seras un valor real, por lo que debe ser positivo ambos casos.
#G)
##Elabore gráfico de caja y bigote PH
##Elabore gráfico de caja y bigote TEMP
#H)
##Elabora una gráfica de dispersión de pH versus temperatura.
library(ggplot2)
ggplot(data = pozos3) +
geom_point(mapping = aes(x=TEMP, y=PH), col="orange", lwd=2, main="Temperatura vs pH" )## Warning: Ignoring unknown parameters: main
#I) Metodos de correlacion de las variables
Modelo Regresion lineal
matriz de coeficiente de correlacion lineal
## TEMP PHB PH
## TEMP 1.00000000 -0.03662794 -0.02029087
## PHB -0.03662794 1.00000000 0.76464940
## PH -0.02029087 0.76464940 1.00000000
recta de minimos cuadrados
##
## Call:
## lm(formula = pozos3$PH ~ pozos3$TEMP)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.78955 -0.09220 0.01089 0.11089 0.59587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.017231 0.366448 19.149 <2e-16 ***
## pozos3$TEMP -0.004418 0.012761 -0.346 0.729
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared: 0.0004117, Adjusted R-squared: -0.003023
## F-statistic: 0.1199 on 1 and 291 DF, p-value: 0.7294
plot(pozos3$TEMP,pozos3$PH, xlab = "temperatura", ylab = "potencial de hidrogeno", col="red", lwd=3)
abline(modelo)ecuacion de la recta
\[ Y=7.017231-0.004418x \]
intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) 6.29600715 7.73845554
## pozos3$TEMP -0.02953383 0.02069782
Modelo Regresion logistica
Representacion del comportamiento si es ACIDO O BASE en funcion de temperatura
colores <- NULL
colores[pozos3$PHB==0] <- "yellow"
colores[pozos3$PHB==1] <- "red"
plot(pozos3$TEMP, pozos3$PHB, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad de ser acido o alcalino', main="Grafico representativo de acido o base en funcion de temperatura")
legend('bottomleft', c('ACIDO', 'ALCALINO'), pch = 21, col = c('yellow', 'red'))regresion logistica de los datos
##
## Call:
## glm(formula = PHB ~ TEMP, data = pozos3)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.5060 -0.4539 -0.4288 0.5443 0.6071
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.96912 0.82450 1.175 0.241
## TEMP -0.01795 0.02871 -0.625 0.532
##
## (Dispersion parameter for gaussian family taken to be 0.2492459)
##
## Null deviance: 72.628 on 292 degrees of freedom
## Residual deviance: 72.531 on 291 degrees of freedom
## AIC: 428.42
##
## Number of Fisher Scoring iterations: 2
curva de regresion logistica
datoso <- data.frame(TEMP= seq(1,293,1))
probabilidades <- predict(regl, datoso, type = "response")
#gráfica
plot(pozos3$TEMP, pozos3$PHB, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad de ser acido o alcalino', main="Grafico regresion logistica")
legend('bottomleft', c('ACIDO', 'ALCALINO'), pch = 21, col = c('yellow', 'red'))
lines(datoso$TEMP, probabilidades, col="black", lwd=3)###¿Considera que estas 2 variables están relacionadas?
Apoyandonos en el presenbte grafico logistico se observa que la agua de pozo no tiene una estrecha relacion entre el cambio de temperatura y la acidez, por lo que aparente mente en base a los datos otorgados para ejecutar nuestro analisis no se tiene una relacion del agua de pozo y pH, mas sin embargo teoricamente se sabe que al crear un aumento en la temperatura se provoca una disminucion en pH osea que se vuelve mas acida el agua, el motivo del cual no sigue de la mano esta razon teorica puede ser debido a las sales y minerales que se encuentran disueltas dentro del agua de pozo provocando un aumento en su alcalinidad e impidiendo que esta se torne acida o mas bien que sea notable su cambio.