Examen de la primera unidad de competencia de estadística aplicada

Nombre: Daniel Ángel Valenzuela Guzmán

Matrícula: 182418

Fecha: 23/10/2020

Respuestas amplias y muy bien argumentadas / elaboradas / específicas:

Pregunta 1

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

R= La estadística la podemos considerar como una ciencia que nos sirve de herramienta a la hora de hacer uso de los datos, ya que a través de ella nosotros podemos llevar una organización , procesamiento , un análisis de ellos, y partir de esto poder llevar a cabo nuestras propias inferencias o conclusiones acerca de dichos información , lo cual permitirá de alguna forma poder tomar decisiones mucho más acertadas en cuanto al entorno real de la situación analizada.

La estadística en el caso de la ingeniería que estudio actualmente (Ingeniería Química) tiene multiples aplicaciones de gran relevancia, poniendo un ejemplo muy importante en el que se aplica el uso de estadistica , es en la determinación de metales pesados en muestras de aguas , ya que que para poder llevar a cabo esta determinación , primeramente hay que realizar una curva de calibración , la cual nos muestra la relación entre la absorbancia y la concentración de estas especies, una vez que se tienen los datos, hay que hacer el uso de la regresión líneal para poder construir un modelo que nos muestre la relación directa entre estas dos variables , y así haciendo uso de ella podemos determinar la concentración de la especie química dentro de una muestra problema. Tambien tienen aplicación en el área de calidad , cuando queremos determinar si uncierto producto cumple con los estandares requeridos para poder ser vendidos de manera adecuada, según las especificaciones del cliente.

Pregunta 2

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

Tipos de variables estadisiticas

1.- Cuantitativas: Son aquellas que si se pueden expresar mediante una cantidad númerica alguna caracterisitca de un objeto. Ejemplos: Peso y estatura.

2.- Cualitativas: Son aquellas que no son expresadas númericamente , si no con palabras en las cuales se expresan sus caracterísitcas que permiten identificarlas dentro de un conjunto. Ejemplos : Días de la semana y Colores.

Definición de distribución de frecuencia:

Es una represnetacion gráfica mediante el uso de una tabla en donde se puede visualizar de manera más sencilla, la forma en la que se encuentran distribuidos un determinado conjunto de datos, en ella podemos ver tanto las frecuencias absolutas, relativas y acumuladas para ciertos valores que se estan presentando en dicho conjunto de datos.

Explicación, ¿De qué es la distribución normal?

Es un tipo de distribucion en forma de campana en la que podemos de alguna forma adpatar algún tipo de variable aleatoria para que depende de la media y de su desviación estandar. Es usada para formular hipotesis y poder llevar a cabo su comprobación.Tiene mucha importancia ya que muchos modelos sociales y de la naturaleza pueden ser modelados con ella.

setwd("~/estadisticaap")
library(pacman)
p_load("DT","prettydoc","modeest","tidyverse","readr","fdth","ggplot2" )

*Leer archivo .csv y presentar tabla

pozos3 <- read.csv("pozos3.csv")

datatable(pozos3)

Inciso A

Orden de datos de menor a mayor

# Para PH
sort(pozos3$PH)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
# Para temperatura
sort(pozos3$TEMP)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

Valor máximo

# Para PH
max(pozos3$PH)
## [1] 7.5
# Para Temperatura
max(pozos3$TEMP)
## [1] 32.1

Valor mínimo

# Para PH
min(pozos3$PH)
## [1] 6.1
# Para temperatura
min(pozos3$TEMP)
## [1] 25.6

Rango total de datos

# Para PH
range(pozos3$PH)
## [1] 6.1 7.5
rangoPH <- max(pozos3$PH)-min(pozos3$PH)
rangoPH
## [1] 1.4
# Para temperatura
range(pozos3$TEMP)
## [1] 25.6 32.1
rangot <- max(pozos3$TEMP)-min(pozos3$TEMP)
rangot
## [1] 6.5

Inciso B

Número de clases

# Para PH
ncPH <- nclass.Sturges(pozos3$PH)
ncPH
## [1] 10
# Para Temperatura
ncTEMP <- nclass.Sturges(pozos3$TEMP)
ncTEMP
## [1] 10

Ancho de la clase

# Para PH

amplitudPH <- rangoPH/ncPH
amplitudPH
## [1] 0.14
# Para temperatura

amplitudTEMP <- rangot/ncTEMP
amplitudTEMP
## [1] 0.65

Inciso C

Tabla de frecuencias

Tabla de frecuencias para PH

tfPH <- pozos3$PH
distribucionPH <- fdt(tfPH, breaks="Sturges")
distribucionPH
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

Tabla de frecuencias para temperatura

# Para Temperatura

tfTEMP <- pozos3$TEMP
distribucionTEMP <-  fdt(tfTEMP, breaks="Sturges")
distribucionTEMP
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Explicación de tablas de frecuencias

Nos indica , alrededor de que determinados valores tanto para los casos de temperatura y PH, se encuentran más concentrados los datos obtenidos en cada caso. En el caso de temperatura muchos de los datos se encuentran entre 28.883 y 29.56 °c , mientras que en PH se encuentran entre 6.961 y 7.114, en cuanto a las frecuencias absolutas , mientras que la acumulada nos va diciendo hasta que ciertos valores toamando en cuenta los anteriores, se van presentando estos datos.

Inciso D

Histogramas para PH

Hist PH

# 1er histograma

hist(tfPH,breaks="sturges",col='blue', main="histograma PH")

Histograma de frecuencias absolutas

# Histograma de frecuencias absolutas
plot(distribucionPH, type="fh", col='red', main="Histograma de frecuencias absolutas",ylab='frecuencia absoluta',xlab='Límites de clase de PH')

Histograma de frecuencias relativas

# Histograma de frecuencias relativas
plot(distribucionPH, type="rfh", col='pink',main="Histograma de frecuencias relativas",ylab='frecuencia relativa',xlab='Límites de clase de PH' )

Histograma de frecuencias acumuladas

# Histograma de frecuencias acumuladas
plot(distribucionPH, type="cfh", col='yellow',main="Histograma de frecuencias acumuladas", ylab='frecuencia acumulada',xlab='Límites de clase de PH')

Histogramas para temperatura

Hist TEMP

# 1er histograma

hist(tfTEMP,breaks="sturges",col='green',main="histograma temperatura")

Histograma de frecuencias absolutas

# Histograma de frecuencias absolutas
plot(distribucionTEMP, type="fh", col='red', main="Histograma de frecuencias absolutas",ylab='frecuencia absoluta',xlab='Límites de clase de temperatura')

Histograma de frecuencias relativas

# Histograma de frecuencias relativas
plot(distribucionTEMP, type="rfh", col='pink',main="Histograma de frecuencias relativas",ylab='frecuencia relativa',xlab='Límites de clase de temperatura' )

Histograma de frecuencias acumuladas

# Histograma de frecuencias acumuladas
plot(distribucionTEMP, type="cfh", col='yellow',main="Histograma de frecuencias acumuladas", ylab='frecuencia acumulada',xlab='Límites de clase de temperatura')

Poligonos de frecuencia para PH

Polígono de frecuencias absolutas

# Polígono de frecuencias absolutas
plot(distribucionPH, type="fp", col='red', main="Polígono de frecuencias absolutas")

Polígono de frecuencias relativas

# polígono de frecuencias relativas
plot(distribucionPH, type="rfp", col='brown',main="Polígono de frecuencias relativas" )

Polígono de frecuencias acumuladas

# polígono de frecuencias acumuladas
plot(distribucionPH, type="cfp", col='yellow',main="Polígono de frecuencias acumuladas")

Polígonos de frecuencia para temperatura

Polígono de frecuencias absolutas

# polígono de frecuencias absolutas
plot(distribucionTEMP, type="fp", col='red', main="Polígono de frecuencias absolutas")

Polígono de frecuencias relativas

# polígono de frecuencias relativas
plot(distribucionTEMP, type="rfp", col='brown',main="Polígono de frecuencias relativas" )

Polígono de frecuencias acumuladas

# polígono de frecuencias acumuladas

plot(distribucionTEMP, type="cfp", col='yellow',main="Polígono de frecuencias acumuladas")

Inciso E

Media de PH

mean(pozos3$PH)
## [1] 6.890444

Mediana de PH

median(pozos3$PH)
## [1] 6.9

Moda de PH

mfv(pozos3$PH)
## [1] 7

Media de temperatura

mean(pozos3$TEMP)
## [1] 28.69795

Mediana de temperatura

median(pozos3$TEMP)
## [1] 28.7

Moda de temperatura

mfv(pozos3$TEMP)
## [1] 28.6

Interpretación de resultados

Se observa que para ambos casos de temperatura y de PH los valores correspondientes de media , mediana y moda dan valores muy similares ,esto se observa a que como anteriormente se vió los datos obtenidos para cada cada caso estan mayormente concentrados en valores intermedios dentro de los rangos totales de datos en cada uno de ellos.

Inciso F

Varianza de PH

var(pozos3$PH)
## [1] 0.04908645

Desviación estandar PH

sd(pozos3$PH)
## [1] 0.2215546

Varianza de temperatura

var(pozos3$TEMP)
## [1] 1.035407

Desviación estandar de temperatura

sd(pozos3$TEMP)
## [1] 1.017549

Interpretación de resultados, ¿Pueden dar valores negativos?

No pueden dar valores negativos , debido a que en la varianza se encuentra involucrada en su cálculo la suma de los cuadrados de las diferencias entre los valores obtenidos y la media, lo cual por definición todo número al cuadrado es positivo y por consiguiente tiene que dar un valor mayor o igual que 0 para la varianza , e igual para la desviación estandar que es la parte positiva de su raíz cuadrada.

\[ S^2 >=0 \]

Inciso G

Gráficos de cajas y bigotes

Para PH

# Para PH

boxplot(pozos3$PH, col="brown", lwd=2.5,main="boxplot (PH)")

Para temperatura

boxplot(pozos3$TEMP, col="green", lwd=2.5,main="boxplot (TEMP)")

Inciso H

Gráfico de dispersión PH vs Temperatura

Temperatura <- pozos3$TEMP
PH <- pozos3$PH
df <- data.frame(Temperatura,PH)


ggplot(data=df) +
  geom_point(mapping = aes(x=Temperatura, y=PH), col="red", lwd=2.5) 

Matriz de coeficientes de correlación

cor(pozos3)
##             TEMP         PHB          PH
## TEMP  1.00000000 -0.03662794 -0.02029087
## PHB  -0.03662794  1.00000000  0.76464940
## PH   -0.02029087  0.76464940  1.00000000

Matriz de diagramas de dispersión

pairs(pozos3)

Modelo Líneal

modelolin <- lm( PH ~ Temperatura)
modelolin
## 
## Call:
## lm(formula = PH ~ Temperatura)
## 
## Coefficients:
## (Intercept)  Temperatura  
##    7.017231    -0.004418
plot(Temperatura,PH, main='Recta de mínimos cuadrados',col='green',lwd=1.5)
abline(modelolin, col='red',lwd=2.5)

summary

summary(modelolin)
## 
## Call:
## lm(formula = PH ~ Temperatura)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.78955 -0.09220  0.01089  0.11089  0.59587 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.017231   0.366448  19.149   <2e-16 ***
## Temperatura -0.004418   0.012761  -0.346    0.729    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared:  0.0004117,  Adjusted R-squared:  -0.003023 
## F-statistic: 0.1199 on 1 and 291 DF,  p-value: 0.7294

Ecuación de recta

\[ Y=7.017231-0.004418X \]

Intervalos de confianza

confint(modelolin)
##                   2.5 %     97.5 %
## (Intercept)  6.29600715 7.73845554
## Temperatura -0.02953383 0.02069782

Análisis gráfico de residuos

par(mfrow=c(2,2))
plot(modelolin)

Contraste de hipótesis

A través de la prueba de Shapiro-Wilk

shapiro.test(modelolin$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelolin$residuals
## W = 0.96474, p-value = 1.44e-06

Regresión logística

Contando cuando es base (1) y ácido (0)

table(pozos3$PHB)
## 
##   0   1 
## 160 133
  • Representando si es ácido o base
colores <- NULL

colores[pozos3$PHB==0] <- "green"

colores[pozos3$PHB==1] <- "red"

plot(pozos3$TEMP, pozos3$PHB, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad de ser ácido o básico', main='Aálisis de acídos y básicos')

legend('bottomleft', c('Ácido', 'Alcalino'), pch = 21, col = c('green', 'red'))

Gráfico de regresión Lógistica

AcidBas <- pozos3$PHB
t <- pozos3$TEMP

d <- data.frame(t,AcidBas)

reglog <- glm( AcidBas ~ t, data=d, family=binomial)

summary(reglog)
## 
## Call:
## glm(formula = AcidBas ~ t, family = binomial, data = d)
## 
## Deviance Residuals: 
##    Min      1Q  Median      3Q     Max  
## -1.188  -1.100  -1.058   1.254   1.366  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)
## (Intercept)  1.89892    3.32802   0.571    0.568
## t           -0.07262    0.11592  -0.626    0.531
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 403.69  on 292  degrees of freedom
## Residual deviance: 403.30  on 291  degrees of freedom
## AIC: 407.3
## 
## Number of Fisher Scoring iterations: 3
datosglm <- data.frame(TEMP= seq(1,293,1))

pbs <- predict(reglog, datosglm, type = "response")

#gráfica

plot(pozos3$TEMP, pozos3$PHB, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad de ácides o alcalinidad')

legend('bottomleft', c('Ácido', 'Alcalino'), pch = 21, col = c('green', 'red'))

lines(datosglm$TEMP, pbs, col="blue", lwd=3)

Análisis

¿Considera que estas 2 variables están relacionadas?

No se encuentra una relación directa para determinar si la ácidez o alcalinidad del agua del pozo es dependiente de manera notable con respecto a la temperatura, como se logró observar en el analisis de regresión lineal simple y en la logistica . Se sabe por definición que a mayor temperatura más ácida se vuelve el agua, no es mucha la variación pero si se puede medir , en este caso puede supnerse que no hubo una estrecha relación entre ambas debido a las condiciones a las que un pozo se encuentra , ya que en muchas ocasiones compuestos salinos pueden mantener la tendencia hacia un Ph alcalino del agua u otros tipos de factores que afecten a la medición real.