Examen de la primera unidad de competencia de estadística aplicada
Nombre: Daniel Ángel Valenzuela Guzmán
Matrícula: 182418
Fecha: 23/10/2020
Respuestas amplias y muy bien argumentadas / elaboradas / específicas:
Pregunta 1
1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?
R= La estadística la podemos considerar como una ciencia que nos sirve de herramienta a la hora de hacer uso de los datos, ya que a través de ella nosotros podemos llevar una organización , procesamiento , un análisis de ellos, y partir de esto poder llevar a cabo nuestras propias inferencias o conclusiones acerca de dichos información , lo cual permitirá de alguna forma poder tomar decisiones mucho más acertadas en cuanto al entorno real de la situación analizada.
La estadística en el caso de la ingeniería que estudio actualmente (Ingeniería Química) tiene multiples aplicaciones de gran relevancia, poniendo un ejemplo muy importante en el que se aplica el uso de estadistica , es en la determinación de metales pesados en muestras de aguas , ya que que para poder llevar a cabo esta determinación , primeramente hay que realizar una curva de calibración , la cual nos muestra la relación entre la absorbancia y la concentración de estas especies, una vez que se tienen los datos, hay que hacer el uso de la regresión líneal para poder construir un modelo que nos muestre la relación directa entre estas dos variables , y así haciendo uso de ella podemos determinar la concentración de la especie química dentro de una muestra problema. Tambien tienen aplicación en el área de calidad , cuando queremos determinar si uncierto producto cumple con los estandares requeridos para poder ser vendidos de manera adecuada, según las especificaciones del cliente.
Pregunta 2
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.
Tipos de variables estadisiticas
1.- Cuantitativas: Son aquellas que si se pueden expresar mediante una cantidad númerica alguna caracterisitca de un objeto. Ejemplos: Peso y estatura.
2.- Cualitativas: Son aquellas que no son expresadas númericamente , si no con palabras en las cuales se expresan sus caracterísitcas que permiten identificarlas dentro de un conjunto. Ejemplos : Días de la semana y Colores.
Definición de distribución de frecuencia:
Es una represnetacion gráfica mediante el uso de una tabla en donde se puede visualizar de manera más sencilla, la forma en la que se encuentran distribuidos un determinado conjunto de datos, en ella podemos ver tanto las frecuencias absolutas, relativas y acumuladas para ciertos valores que se estan presentando en dicho conjunto de datos.
Explicación, ¿De qué es la distribución normal?
Es un tipo de distribucion en forma de campana en la que podemos de alguna forma adpatar algún tipo de variable aleatoria para que depende de la media y de su desviación estandar. Es usada para formular hipotesis y poder llevar a cabo su comprobación.Tiene mucha importancia ya que muchos modelos sociales y de la naturaleza pueden ser modelados con ella.
- Importar librerías y definir carpetas.
setwd("~/estadisticaap")
library(pacman)
p_load("DT","prettydoc","modeest","tidyverse","readr","fdth","ggplot2" )*Leer archivo .csv y presentar tabla
Inciso A
Orden de datos de menor a mayor
## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
Inciso B
Número de clases
## [1] 10
## [1] 10
Inciso C
Tabla de frecuencias
Tabla de frecuencias para PH
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
Tabla de frecuencias para temperatura
# Para Temperatura
tfTEMP <- pozos3$TEMP
distribucionTEMP <- fdt(tfTEMP, breaks="Sturges")
distribucionTEMP## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
Explicación de tablas de frecuencias
Nos indica , alrededor de que determinados valores tanto para los casos de temperatura y PH, se encuentran más concentrados los datos obtenidos en cada caso. En el caso de temperatura muchos de los datos se encuentran entre 28.883 y 29.56 °c , mientras que en PH se encuentran entre 6.961 y 7.114, en cuanto a las frecuencias absolutas , mientras que la acumulada nos va diciendo hasta que ciertos valores toamando en cuenta los anteriores, se van presentando estos datos.
Inciso D
Histogramas para PH
Histograma de frecuencias absolutas
# Histograma de frecuencias absolutas
plot(distribucionPH, type="fh", col='red', main="Histograma de frecuencias absolutas",ylab='frecuencia absoluta',xlab='Límites de clase de PH')Histogramas para temperatura
Histograma de frecuencias absolutas
# Histograma de frecuencias absolutas
plot(distribucionTEMP, type="fh", col='red', main="Histograma de frecuencias absolutas",ylab='frecuencia absoluta',xlab='Límites de clase de temperatura')Poligonos de frecuencia para PH
Polígono de frecuencias absolutas
# Polígono de frecuencias absolutas
plot(distribucionPH, type="fp", col='red', main="Polígono de frecuencias absolutas")Polígonos de frecuencia para temperatura
Polígono de frecuencias absolutas
# polígono de frecuencias absolutas
plot(distribucionTEMP, type="fp", col='red', main="Polígono de frecuencias absolutas")Inciso E
Moda de temperatura
## [1] 28.6
Interpretación de resultados
Se observa que para ambos casos de temperatura y de PH los valores correspondientes de media , mediana y moda dan valores muy similares ,esto se observa a que como anteriormente se vió los datos obtenidos para cada cada caso estan mayormente concentrados en valores intermedios dentro de los rangos totales de datos en cada uno de ellos.
Inciso F
Interpretación de resultados, ¿Pueden dar valores negativos?
No pueden dar valores negativos , debido a que en la varianza se encuentra involucrada en su cálculo la suma de los cuadrados de las diferencias entre los valores obtenidos y la media, lo cual por definición todo número al cuadrado es positivo y por consiguiente tiene que dar un valor mayor o igual que 0 para la varianza , e igual para la desviación estandar que es la parte positiva de su raíz cuadrada.
\[ S^2 >=0 \]
Inciso G
Gráficos de cajas y bigotes
Inciso H
Gráfico de dispersión PH vs Temperatura
Temperatura <- pozos3$TEMP
PH <- pozos3$PH
df <- data.frame(Temperatura,PH)
ggplot(data=df) +
geom_point(mapping = aes(x=Temperatura, y=PH), col="red", lwd=2.5) Matriz de coeficientes de correlación
## TEMP PHB PH
## TEMP 1.00000000 -0.03662794 -0.02029087
## PHB -0.03662794 1.00000000 0.76464940
## PH -0.02029087 0.76464940 1.00000000
Modelo Líneal
##
## Call:
## lm(formula = PH ~ Temperatura)
##
## Coefficients:
## (Intercept) Temperatura
## 7.017231 -0.004418
plot(Temperatura,PH, main='Recta de mínimos cuadrados',col='green',lwd=1.5)
abline(modelolin, col='red',lwd=2.5)summary
##
## Call:
## lm(formula = PH ~ Temperatura)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.78955 -0.09220 0.01089 0.11089 0.59587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.017231 0.366448 19.149 <2e-16 ***
## Temperatura -0.004418 0.012761 -0.346 0.729
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared: 0.0004117, Adjusted R-squared: -0.003023
## F-statistic: 0.1199 on 1 and 291 DF, p-value: 0.7294
Ecuación de recta
\[ Y=7.017231-0.004418X \]
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) 6.29600715 7.73845554
## Temperatura -0.02953383 0.02069782
Regresión logística
Contando cuando es base (1) y ácido (0)
##
## 0 1
## 160 133
- Representando si es ácido o base
colores <- NULL
colores[pozos3$PHB==0] <- "green"
colores[pozos3$PHB==1] <- "red"
plot(pozos3$TEMP, pozos3$PHB, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad de ser ácido o básico', main='Aálisis de acídos y básicos')
legend('bottomleft', c('Ácido', 'Alcalino'), pch = 21, col = c('green', 'red'))Gráfico de regresión Lógistica
AcidBas <- pozos3$PHB
t <- pozos3$TEMP
d <- data.frame(t,AcidBas)
reglog <- glm( AcidBas ~ t, data=d, family=binomial)
summary(reglog)##
## Call:
## glm(formula = AcidBas ~ t, family = binomial, data = d)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.188 -1.100 -1.058 1.254 1.366
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.89892 3.32802 0.571 0.568
## t -0.07262 0.11592 -0.626 0.531
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 403.69 on 292 degrees of freedom
## Residual deviance: 403.30 on 291 degrees of freedom
## AIC: 407.3
##
## Number of Fisher Scoring iterations: 3
datosglm <- data.frame(TEMP= seq(1,293,1))
pbs <- predict(reglog, datosglm, type = "response")
#gráfica
plot(pozos3$TEMP, pozos3$PHB, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad de ácides o alcalinidad')
legend('bottomleft', c('Ácido', 'Alcalino'), pch = 21, col = c('green', 'red'))
lines(datosglm$TEMP, pbs, col="blue", lwd=3)Análisis
¿Considera que estas 2 variables están relacionadas?
No se encuentra una relación directa para determinar si la ácidez o alcalinidad del agua del pozo es dependiente de manera notable con respecto a la temperatura, como se logró observar en el analisis de regresión lineal simple y en la logistica . Se sabe por definición que a mayor temperatura más ácida se vuelve el agua, no es mucha la variación pero si se puede medir , en este caso puede supnerse que no hubo una estrecha relación entre ambas debido a las condiciones a las que un pozo se encuentra , ya que en muchas ocasiones compuestos salinos pueden mantener la tendencia hacia un Ph alcalino del agua u otros tipos de factores que afecten a la medición real.