setwd("~/pye1pm")
library(readxl)
pozos <- read_excel("pozos.xlsx")library(pacman)
p_load("prettydoc", "xfun", "fdth", "modeest", "beanplot", "datasets", "DT", "ggplot2")Preguntas teóricas
1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería?
Es un estudio de datos, que está formada por procedimientos empleados para resumir y describir las características importantes del conjunto de datos que se analza. En la ingeniería industrial se utiliza la estadística para el control de calidad, mejoras de procesos, control del personal, seguridad industrial, entre muchas otras. Con la estadistica se puede realizar un análisis y hacer un pronóstico de lo que se venderá a futuro (para así saber cuántas piezas se necesiten comprar, en una maquila por ejemplo), para darnos una idea de cuánta será la ganancia, y también poder ilustrar todo lo que se obtenga mediante histogramas y así ver de una manera más entendible los datos que se obtuvieron.
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.
Variable cuantitativa: Son variables que se pueden expresar con números, por ejemplo los datos de las mediciones de un árbol, u otro ejemplo son la cantidad de personas en un lugar.
Variable continua: Toman un valor infinito de valores entre un intervalo de datos, por ejemplo la velocidad de un vehículo, o también el tiempo que tarda un corredor en completar los 100 metros lisos.
Variable discreta: Toman un valor finito de valores entre un intervalo de datos, por ejemplo la cantidad de helados vendidos, o también el número de hijos en una familia
Variable cualitativa: Son variables que no se pueden expresar con números, por ejemplo, los colores de las plantas, o también si el alumno es aprobado o reprobado.
Variable ordinal: Se expresa con diferentes niveles y orden, por ejemplo las medallas conseguidas en una competencia. Los valores serían: oro, plata, bronce, o también el grado de satisfacción laboral en una compañía. Los valores serían: muy satisfecho, satisfecho…
Variable nominal: Expresa un nombre que se diferencia claramente, por ejemplo el color de los ojos azul, negro, café… o también la nacionalidad o sexo.
Datos con los que se trabajarán, se muestran en una tabla interactiva
datatable(pozos)Como se puede observar vamos a utilizar el pH y la temperatura.
A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos.
Para el pH
sort(pozos$PH)## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
pozosp<-pozos
pozosp$TEMP<- NULL
dim(pozosp)## [1] 293 1
El valor mínimo que se observa es de 6.1, y el valor máximo es de 7.5, y el número total de datos de pH son 293, el rango que se tiene es de 1.4
Para la temperatura
sort(pozos$TEMP)## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
pozost<-pozos
pozost$PH<- NULL
dim(pozost)## [1] 293 1
El valor mínimo que se observa es de 25.6, y el valor máximo es de 32.1, y el número total de datos de temperatura son 293, el Rango que se tiene es de 6.5
B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Surges y el ancho de clase.
Para el pH
tablaxx <- fdt(pozos$PH, breaks = "Sturges")
tablaxx## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
El número de clases o intervalos respecto al pH es de 10, la amplitud de las clases no tiene el mismo tamaño en todas, ya que varia de 0.154 y 0.153, en el primer intervalo es de 0.154, el segundo 0.153, el tercero 0.154, el cuarto 0.153, y así sucesivamente Para sacar el ancho de la clase he utilizado la formula de: \[ C=RG/K \] Dónde Rg= Valor max - valor min K= 1+3.322Log N N= Total de frecuencias
Sustituyendo: C= (1.4)/1+3.322Log (293)= Nos da que el ancho de nuestra clase en la variale pH es de 0.15225
Para la temperatura
tablaxX <- fdt(pozos$TEMP, breaks = "Sturges")
tablaxX## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
En el caso de la temperatura también contamos con 10 intervalos, pero la amplitud de clase es de 0.708 y 0.707, y se van repitiendo igual que en el caso del pH
\[ C=RG/K \] Sustituyendo: C= (6.5)/1+3.322Log (293)= Nos da que el ancho de nuestra clase en la variable temperatura es de 0.7069
C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla
Para el PH:
tablap <- fdt(pozos$PH, breaks = "Sturges")
tablap## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
La tabla presentada anteriormente es una tabla de frecuencias, en la que se puede observar la frecuencia en la que los datos de el pH son repetidos en un intervalo, por ejemplo el primer y segundo intervalo se repiten 1 vez, en el tercero 7 veces, en el cuarto 40 veces,etc. El primer intervalo nos muestra que abarca desde 6.039 hasta 6.193, el segundo inicia en el final del anterior y termina en 6.346, y así sucesivamente, hasta el último intervalo que inicia en 7.421, hasta 7.575. Se puede observar la frecuencia en la que los datos de el pH son repetidos en un intervalo, por ejemplo el primer y segundo intervalo se repiten 1 vez, en el tercero 7 veces, en el cuarto 40 veces,etc, este dato se mira en unidades, en decimal y porcentual, las columnas de “f”, “rf” y “rf%”. En la columna cf se pueden ver los datos acumulados y en la cf% se miran los datos acumulados de una manera porcentual, siempre nos debe dar 100% en el cf para corroborar que el trabajo está bien realizado.
Para la temperatura:
tablat <- fdt(pozos$TEMP, breaks = "Sturges")
tablat## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
La tabla presentada anteriormente es una tabla de frecuencias, en la que se puede observar la frecuencia en la que los datos de la temperatura son repetidos en un intervalo, por ejemplo el primer intervalo se repiten 2 veces, en el segundo 5 veces, y en el último 2 veces. El primer intervalo nos muestra que abarca desde 25.344 hasta 26.052, el segundo inicia en el final del anterior y termina en 26.759, y así sucesivamente, hasta el último intervalo que inicia en 31.713, hasta 32.421. Estos datos se miran en unidades, en decimal y porcentual, las columnas de “f”, “rf” y “rf%”. En la columna cf se pueden ver los datos acumulados y en la cf% se miran los datos acumulados de una manera porcentual, siempre nos debe dar 100% en el cf para corroborar que el trabajo está bien realizado.
D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.
Para el pH:
HISTOGRAMA DE FRECUENCIA
En este histograma de frecuencias se puede observar lo que son barras, estas barras son la representante gráfica de nuestra tabla de frecuencias que se creó anteriormente, precisamente este histograma representa lo que es la columna de la “f” en el eje y y en el eje x nos muestra nuestras clases o intervalos, y se puede observar que en la clase 7, es en dónde más frecuencia de datos del pH hubo, poco más de 100.
plot (tablap, main ="Histograma de frecuencias para el pH", ylab="pH", xlab="Intervalos")POLÍGONO DE FRECUENCIAS
En el polígono de frecuencias se presenta exactamente lo mismo que el histograma anterior, solamente que en lugarde barras, son líneas las que ahora se representan.
plot(tablap, type="fp", main ="Poligono de frecuencias para el pH", ylab="pH", xlab="Intervalos")HISTOGRAMA DE FRECUENCIA ACUMULADO
Y por último en este histograma se muestra lo que son los datos de la columna “cf” de la tabla de frecuencias, este es la suma de la frecuencia anterior, hasta llegar al total de todas las frecuencias obtenidas.
plot(tablap, type="cfh", xlab="Intervalos", ylab="pH acumulado")Para la temperatura
HISTOGRAMA DE FRECUENCIA
En este histograma de frecuencias se puede observar lo que son barras, estas barras son la representante gráfica de nuestra tabla de frecuencias que se creó anteriormente, precisamente este histograma representa lo que es la columna de la “f” en el eje y y en el eje x nos muestra nuestras clases o intervalos, y se puede observar que en la clase 6, es en dónde más frecuencia de dato de la temperaturahubo, al rededor de 80.
plot (tablat, type ="fh", main ="Histograma de frecuencias para la temperatura", xlab="Frecuencias", ylab="Temperatura")POLÍGONO DE FRECUENCIAS
En el polígono de frecuencias se presenta exactamente lo mismo que el histograma anterior, solamente que en lugarde barras, son líneas las que ahora se representan.
plot(tablat, type="fp", xlab="Temperatura")HISTOGRAMA DE FRECUENCIA ACUMULADO
Y por último en este histograma se muestra lo que son los datos de la columna “cf” de la tabla de frecuencias, este es la suma de la frecuencia anterior, hasta llegar al total de todas las frecuencias obtenidas.
plot(tablat, type="cfh", xlab="Temperatura")E) Obtenga la media, mediana, moda e interprete los resultados.
Para el pH
Media
mean(pozos$PH)## [1] 6.890444
Este número nos indica lo que es el promedio de nuestros datos que tenemos sobre el pH, lo que sucede aquí es sumar todos los datos que nos fueron proporcionados y dividirlos entre los 293 datos totales que hay.
Mediana
median (pozos$PH)## [1] 6.9
La mediana que se muestra nos indica lo que es exactamente la mitad de todos nuestros datos sobre el pH.
Moda
mlv(pozos$PH, method = "mfv")## [1] 7
El número 7 es la moda que hay entre nuestros datos, esto nos indica que el pH que aparece mayor cantidad de veces es el 7
Para la temperatura
Media
mean(pozos$TEMP)## [1] 28.69795
El 29.69 es el promedio de temperatura que se tiene en nuestros datos.
Mediana
median (pozos$TEMP)## [1] 28.7
El 28.7 es exactamente la mitad de todos nuestros datos de temperatura.
Moda
mlv(pozos$TEMP, method = "mfv")## [1] 28.6
El número 28.6 es la moda que hay entre nuestros datos, esto nos indica que el pH que aparece mayor cantidad de veces es el 28.6
F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?
Para el pH
Varianza
var(pozos$PH)## [1] 0.04908645
La varianza que hemos obtenido nos indica la variabilidad de los datos respecto a nuestra media.
Desviación estándar
sd(pozos$PH)## [1] 0.2215546
La desviación estándar nos indica que la dispersión de los datos (0.22), con respecto a la media obtenida
La varianza ni la desviación estándar no pueden ser negativos deben ser => 0, ya que en la fórmula para sacar la varianza, los resultados se elevan al cuadrado, haciendo que sea imposible que queden negativos, y la desviación estándar es obtenida sacandole la raíz a la varianza, así que igual debe ser positiva.
Para la temperatura
Varianza
var(pozos$TEMP)## [1] 1.035407
La varianza que hemos obtenido nos indica la variabilidad de los datos respecto a nuestra media 1.03 es la variabilidad que existe en los datos con respecto a la media, tenemos una varianza que es mayor a la del pH
Desviación estándar
sd(pozos$TEMP)## [1] 1.017549
La desviación estándar nos indica que la dispersión de los datos (1.01), con respecto a la media obtenida, nuestra desviación se extienden en un rango más amplio, comparado con la desviación de el pH
G) Elabore gráfico de caja y bigote
Para el pH
boxplot(pozos$PH)Aquí se puede observar que se tienen 5 datos que son aislados, esto nos indica que son datos no muy normales, por lo tanto en el gráfico de caja y bigote son descartados, ya que la mayor parte del pH se encuentra entre 6.8 y 7.0
Para la temperatura
boxplot(pozos$TEMP)Aquí igual que en el gráfico anterior, se observan datos aislados, ahora son más, ya que no son muy normales, así que se interpretan fuera del gráfico, puede ser ocasionados por el clima que hay en la ciudad que está ubicada el pozo, ya que la temperatura normal es de 28 a 29.3 aproximadamente. Las temperaturas aisladas son de 31 en adelante y menor de 26.4
H) Elabora una gráfica de dispersión de pH versus temperatura, En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?
Gráfico de dispersión scatterplot
En esta gráfica se observa lo que es una comparativa de la concentración versus la velocidad de reacción
plot(pozos$PH, pozos$TEMP,
col = "red",
Main = "Gráfico de dispersión de temperatura y el pH en el pozo",
xlab = "pH",
ylab = "Temperatura",
pch = 19)## Warning in plot.window(...): "Main" is not a graphical parameter
## Warning in plot.xy(xy, type, ...): "Main" is not a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "Main" is not a
## graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "Main" is not a
## graphical parameter
## Warning in box(...): "Main" is not a graphical parameter
## Warning in title(...): "Main" is not a graphical parameter
En el gráfico se puede ver la comparativa del pH con la temperatura, y se puede concluir que no existe una relación estable entre estas dos variables, esto quiere decir que el pH no depende de la temperatura.
xfun::embed_file("E1U1R_1314ITSONVICTOR.Rmd")