U1E1

Jose Ibarra

10/7/2020

  • Importar datos
library(pacman)
p_load("readr", "DT","prettydoc","fdth","modeest")
pozos <- read.csv("pozos.csv")

Preguntas

Respuestas amplias y muy bien argumentadas / elaboradas / específicas.

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

La estadística es una disciplina científica que se ocupa de la obtención, orden y análisis de un conjunto de datos con el fin de obtener explicaciones y predicciones sobre fenómenos observados.

La estadística consiste en métodos, procedimientos y fórmulas que permiten recolectar información para luego analizarla y extraer de ella conclusiones relevantes. Se puede decir que es la Ciencia de los Datos y que su principal objetivo es mejorar la comprensión de los hechos a partir de la información disponible. El término estadística posee varios significados para personas de diversos entornos e intereses. Para algunos, es un campo de “magia” en el que una persona con conocimientos supera a las demás. Para otros, se trata de un medio para recolectar y representar grandes cantidades de información. Y todavía para otro grupo, se trata de un medio para “tomar decisiones de frente a la incertidumbre”. En la perspectiva idónea, cada uno de estos puntos de vista es correcto.

Conviene saber que la estadística NO es una rama de las matemáticas. Utiliza herramientas de las matemáticas del mismo modo que lo hace la física, la ingeniería o la economía, pero eso no las hace ser parte de las matemáticas. Es cierto que tienen una relación estrecha, pero la estadística y las matemáticas son disciplinas diferentes. La estadística se puede subdividir en dos grandes ramas: descriptiva e inferencial.

  • estadística descriptiva: Se refiere a los métodos de recolección, organización, resumen y presentación de un conjunto de datos. Se trata principalmente de describir las características fundamentales de los datos y para ellos se suelen utilizar indicadores, gráficos y tablas.
  • Estadística inferencial: Se trata de un paso más allá de la mera descripción. Se refiere a los métodos utilizados para poder hacer predicciones, generalizaciones y obtener conclusiones a partir de los datos analizados teniendo en cuenta el grado de incertidumbre existente.

Las aplicaciones de la estadística en el campo de ingeniería electromecánica son muy amplias, así como en todas las ingenierías. Pero en la Ing. Electromecánica tiene papeles muy importantes tales como Fiabilidad de máquinas herramientas, Estudio de fatiga de metales, Prever las averías de un taller y diseñar el equipo de mantenimiento, entre muchas áreas más, pero principalmente en los procesos de mejora de fabricación, investigación y diseño.

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

Tipos de variables

Cualitativas: No se expresan mediante un número (cualidad). A su vez las podemos clasificar en:

  • Ordenables: Aquellas que sugieren una ordenación. (Por ejemplo la graduación militar, El nivel de estudios, etc.).

  • No ordenables: Aquellas que sólo admiten una mera ordenación alfabética, pero no establece orden por su naturaleza. (Por ejemplo el color de pelo, sexo, estado civil, etc.).

Cuantitativas: Se expresan mediante un número (cantidad). De estas hay dos tipos:

  • Discretas: Solo puede tomar valores aislados. (Por ejemplo, nº de hermanos,los días de la semana o los autos vendidos en una concesionaria.).

  • Continuas: Pueden tomar todos los valores de un intervalo. (Por ejemplo, la estatura de los alumnos de 3º de ESO).

Definicion

Distribución de frecuencias: Se le llama distribución de frecuencias a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de datos.

Distribución normal: En estadística y probabilidad se llama distribución normal, distribución de Gauss, distribución gaussiana o distribución de Laplace-Gauss, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en estadística y en la teoría de probabilidades. Cual histograma tiene forma de campana

Incisos para las variables PH y TEMP

A) Ordene los datos de menor a mayor, indique el valor máximo/mínimo y el rango total de datos.

Datos Ordenados

#orden de los datos de mayor a menor
sort(pozos$PH)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
sort(pozos$TEMP)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

Valores máximos y mínimos

summary(pozos$PH)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.10    6.80    6.90    6.89    7.00    7.50
summary(pozos$TEMP)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    25.6    28.0    28.7    28.7    29.2    32.1
#Resumen de los datos de PH para obtener los valores minimos y maximos 
  • EL valor minimo de PH en los datos es 6.10 y el valor Maximo es de 7.50
  • EL valor minimo de TEMP en los datos es 25.6 y el valor Maximo es de 32.1
#valores Maximos y Minimos de los datos para obtener el rango

PH_Max <- max(pozos$PH)
PH_Min <- min(pozos$PH)

TEMP_Max <- max(pozos$TEMP)
TEMP_Min <- min(pozos$TEMP)

Rango

Rango_PH <- (PH_Max - PH_Min)
Rango_PH
## [1] 1.4
Rango_TEMP <- (TEMP_Max - TEMP_Min)
Rango_TEMP
## [1] 6.5

B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase.

PH (numero de clases y ancho de clase)

numclases <- nclass.Sturges(pozos$PH) # numero de clases 
Ancho <- (Rango_PH/numclases )
numclases # numero de clases 
## [1] 10
Ancho # ancho de clases 
## [1] 0.14

TEMP (numero de clases y ancho de clase)

numclases2 <- nclass.Sturges(pozos$TEMP) # numero de clases 
Ancho2 <- (Rango_TEMP/numclases )
numclases2 # numero de clases 
## [1] 10
Ancho2 # ancho de clases 
## [1] 0.65

C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

Tabla de frecuencia para PH

dist <- fdt(pozos$PH, breaks="Sturges")
dist
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%)= frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)= frecuencia acumulada porcentual

Tabla de frecuencia para TEMP

dist2 <- fdt(pozos$TEMP, breaks="Sturges")
dist2
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%)= frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)= frecuencia acumulada porcentual
  • Estas tablas de frecuencia reflejan los valores de frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada yfrecuencia acumulada porcentual con respecto al limite de clase. Con estos datos podemos elaborar graficas como histogramas y polígonos

D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

Histograma para PH y TEMP

  • PH
plot(dist, type = "fh") #PH

  • TEMP
plot(dist2, type = "fh") #TEMP

Poligeno de frecuencia para PH y TEMP

  • PH
plot(dist, type="fp") #Polígono de frecuencia absoluta

  • TEMP
plot(dist2, type="fp") ##Polígono de frecuencia absoluta

Histograma de frecuencia acumulada para PH y TEMP

  • PH
plot(dist, type="cfh") # histograma de frecuencia acumulada

* TEMP

plot(dist2, type="cfh") # histograma de frecuencia acumulada

E) Obtenga la media, mediana, moda e interprete los resultados.

Medidas de tendencia central

Media (Promedio)

mean(pozos$PH) 
## [1] 6.890444
mean(pozos$TEMP)
## [1] 28.69795

Mediana (Promedio de los dos números medios)

median(pozos$PH) 
## [1] 6.9
median(pozos$TEMP) 
## [1] 28.7

Moda (Numero que mas se repite)

mfv(pozos$PH, method="discrete")  
## [1] 7
mfv(pozos$TEMP, method="discrete")  
## [1] 28.6
  • Con la obtención de los datos de medidas de tendencia central podemos analizar los datos con mas detalle de una manera más simple. Por ejemplo, la mediana se puede indicar hacia donde se inclina o se agrupan mas los datos. La media se puede interpretar para ubicar el elemento promedio o típico del grupo de datos

F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

Medidas de dispersión

Varianza

var(pozos$PH)
## [1] 0.04908645
var(pozos$TEMP)
## [1] 1.035407

Desviación estándar

sd(pozos$PH)
## [1] 0.2215546
sd(pozos$TEMP)
## [1] 1.017549
  • ¿Pueden estas medidas ser negativas?

No, no pueden ser negativas ya que en el caso de la desviación estándar surge de un promedio de cuadrados, por lo que nunca puede ser negativa. El valor mas bajo posible es 0, cuando todos los valores sean iguales. Y en el caso de varianza tampoco puede ser negativa ya que promedia valores positivos haciendo imposible tener valores negativos

G) Elabore gráfico de caja y bigote

Gráfico (diagrama) de caja y bigote

PH

boxplot(pozos$PH)

TEMP

boxplot(pozos$TEMP)

H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

Gráfica de dispersión de pH versus temperatura

library(ggplot2)
ggplot(data = pozos, mapping = aes(x = TEMP, y = PH)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "pH ~ temperatura", x = "Temperatura", y = "pH") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) 
## `geom_smooth()` using formula 'y ~ x'

¿Considera que estas 2 variables están relacionadas?

A simple vista se podria decir que estas variables no tienen una gran relacion entre ellas, pero para tener una respuesta mas clara se tendran que hacer los siguientes tests.

Matriz de diagramas de dispersión

pairs(pozos)

Análisis de correlación

cor(pozos)
##               PH        TEMP
## PH    1.00000000 -0.02029087
## TEMP -0.02029087  1.00000000

Prueba de Correlación de pearson

cor.test(x = pozos$TEMP, y= pozos$PH, method="pearson", digits=3)
## 
##  Pearson's product-moment correlation
## 
## data:  pozos$TEMP and pozos$PH
## t = -0.34621, df = 291, p-value = 0.7294
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.13456554  0.09451642
## sample estimates:
##         cor 
## -0.02029087

Modelo de regresión lineal simple

modelo.lineal <- lm(TEMP ~ PH, data= pozos)
summary(modelo.lineal)
## 
## Call:
## lm(formula = TEMP ~ PH, data = pozos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.0411 -0.6971 -0.0064  0.5216  3.4123 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 29.34008    1.85571  15.811   <2e-16 ***
## PH          -0.09319    0.26918  -0.346    0.729    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.019 on 291 degrees of freedom
## Multiple R-squared:  0.0004117,  Adjusted R-squared:  -0.003023 
## F-statistic: 0.1199 on 1 and 291 DF,  p-value: 0.7294
  • Ecuación de la recta de mínimos cuadrados

\[ y = 29.34008 -0.09319 x \]

Intervalos de confianza

confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) 25.6877713 32.9923922
## PH          -0.6229729  0.4365903

Verificar condiciones para aceptar o no el modelo

Para evualuar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos.

par(mfrow =c(1,2))
plot(modelo.lineal)

Contraste de hipótesis (normalidad de residuos) Según el método de prueba de Shapiro-wilk

shapiro.test(modelo.lineal$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.98462, p-value = 0.003125

Conclusion

Después de la elaboración de los tests, podemos concluir que hay ninguna relación negativa entre la temperatura y el pH, ya que al inicio cuando se elaboró la gráfica de dispersión de pH versus temperatura se pudo observar que los datos no tenían una gran relación. Cuando se aplicó el análisis de correlación se obtuvo -0.02029087 de relación, siendo un numero negativo implica que la relación en porcentaje que tienen estos datos es negativa siendo exageradamente baja. También se implemento la prueba de correlación de Pearson la cual confirmo la correlación negativa sabiendo que un valor menor que 0 indica una asociación negativa esto quiere decir, a medida que aumenta el valor temperatura, el valor del pH disminuye. Por último, se hizo un contraste de hipótesis según el método de prueba de Shapiro-wilk con el cual se obtuvo valores de W = 0.96474, p-value = 1.44e-06, ya que el p-value es menor que 0.05 se dice que la relación es negativa.