\[Nombre: Irving Alonso Flores Reyes\] \[ Matrícula: 00000165185 \] \[30/10/2021\]
1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?.
La estadística es una herramienta básica en negocios y producción. Es usada para entender la variabilidad de sistemas de medida, control de procesos, así como el control estadístico de procesos, para compilar datos y para tomar decisiones. Se remonta a dos tipos actividades dentro del desarrollo social, que se presentan aparentemente sin puntos comunes: los juegos al azar, y las actividades políticas. La fundamentación matemática de los juegos al azar conllevó al desarrollo de la Teoría de las Probabilidades. Así como las necesidades que se presentan a las instituciones políticas para la descripción e interpretación de datos numéricos en los estudios sociales, económico y político de las poblaciones. Por estadística puede ser definida la disciplina matemática que se relaciona con la recolección, procesamiento, análisis e interpretación de datos numéricos.
Software La estadistica es importante en software ya que es utilizada recurrentemente para analisis estadisticos de la recopilacion, organizacion, analisis, interpretacion y presentacion de datos. Tambien las estadisticas empresariales les ayudan a descubrir los patrones y tendencias de los clientes y otra información útil que les ayuda a tomar decisiones.
Son utilizados para respaldar el análisis y la gestión de datos de ciencias sociales. Los analistas de números en seguros, gobierno, servicios financieros, investigación de mercado, atención médica, comercio minorista, gestión de riesgos.
Lenguajes de programacion: se implementa la estadistica para la limpieza y preparación de datos implica varios procesos, incluido el formato y el agrupamiento de datos. También incluye normalización de datos, identificación y tratamiento de valores perdidos. La agrupación de conjuntos de datos, la correlación y las estadísticas descriptivas.
Empresarial: se implementa la estadistica para el análisis multivariante, el análisis avanzado, la inteligencia empresarial, el análisis predictivo y la gestión de datos.
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.
Variable cuantitativa: Son variables que se expresan numéricamente.
Variable continua: Toman un valor infinito de valores entre un intervalo de datos. El tiempo que tarda un corredor en completar los 100 metros lisos.
Variable discreta: Toman un valor finito de valores entre un intervalo de datos. Número de helados vendidos.
Variable cualitativa: Son variables que se expresan, por norma general, en palabras.
Variable ordinal: Expresa diferentes niveles y orden.
Variable nominal: Expresa un nombre claramente diferenciado. Por ejemplo el color de ojos puede ser azul, negro, castaño, verde, etc.
Distribución de frecuencias: Es la manera en la que se ordena una serie de observaciones en diferentes grupos, y normalmente en modo ascendente o descendente.
Tipos de distribuciones de frecuencia:
Frecuencia absoluta(fi): Es la cantidad de observaciones que pertenecen a cada grupo. También, se interpreta como la cantidad de veces que se repite un suceso. Por ejemplo, continuando con el caso anterior, puede ser que de un grupo de 100 personas, 20 de ellos tengan entre 26 y 40 años.
Frecuencia relativa(hi): Se calcula dividiendo la frecuencia absoluta entre el número de datos, por ejemplo, volviendo a la situación planteada líneas arriba, 20/100 es igual a 0,2 o 20%.
Frecuencia absoluta acumulada(Fi): Resulta de sumar las frecuencias absolutas de una clase o grupo de la muestra (o población) con la anterior o las anteriores. Por ejemplo, para calcular la frecuencia absoluta acumulada del tercer grupo se suman las frecuencias absolutas del primer, segundo y tercer grupo.
Frecuencia relativa acumulada(Hi): Es el resultado de sumar las frecuencias relativas, tal y como explicamos para la frecuencia absoluta acumulada. Por ejemplo, para calcular la frecuencia relativa acumulada del cuarto grupo, se suman las frecuencias relativas del primer, segundo, tercer y cuarto grupo.
La distribución normal: adapta una variable aleatoria a una función que depende de la media y la desviación típica. Es decir, la función y la variable aleatoria tendrán la misma representación pero con ligeras diferencias.
Fórmula de la distribución normal
- Dada una variable aleatoria X, decimos que la frecuencia de sus observaciones puede aproximarse satisfactoriamente a una distribución normal tal que:
\[ \begin{equation}\label{eq:ho} X∼N(μ,σ) \end{equation}\]
Donde los parámetros de la distribución son la media o valor central y la desviación típica:
Media o valor central = \(μ\)
Desviacion tipica= \(σ\)
library(pacman)
p_load("readxl", "prettydoc", "DT", "fdth", "ggplot2")
pozos <- read_excel("pozos.xlsx", col_types = c("numeric"))
pozos <- read_excel("pozos.xlsx")
Temp <- pozos$TEMP
PH <- pozos$PH
A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos
Datos de PH y de TEMP:
"*PH*"
## [1] "*PH*"
sort(PH)
## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
"*Temperatura*"
## [1] "*Temperatura*"
sort(Temp)
## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
Maximos y minimos de PH y TEMP:
"*PH*"
## [1] "*PH*"
PHmax <- max(PH)
PHmin <-min(PH)
"*Temperatura de pozos de agua subterráne*"
## [1] "*Temperatura de pozos de agua subterráne*"
Tempmax <- max(Temp)
Tempmin <-min(Temp)
Rango de PH y Temp:
"*PH*"
## [1] "*PH*"
rango <-(PHmax-PHmin)
rango
## [1] 1.4
"*Temperatura de pozos de agua subterráne*"
## [1] "*Temperatura de pozos de agua subterráne*"
rango <-(Tempmax-Tempmin)
rango
## [1] 6.5
B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase.
Intervalos de PH y Temperatura (Temp)
"*PH*"
## [1] "*PH*"
nclass.Sturges(PH)
## [1] 10
"*Temperatura de pozos de agua subterráne*"
## [1] "*Temperatura de pozos de agua subterráne*"
nclass.Sturges(Temp)
## [1] 10
Ancho de la clase
"*Ancho*"
## [1] "*Ancho*"
Ancho =(rango/10)
Ancho
## [1] 0.65
C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.
Tabla de frecuencia para PH y Temperatura (Temp)
"*PH*"
## [1] "*PH*"
PhSturges <-fdt(PH, breaks= "Sturges")
PhSturges
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
"*Temperatura (Temp)*"
## [1] "*Temperatura (Temp)*"
TemSturges <-fdt(Temp, breaks= "Sturges")
TemSturges
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
En la tabla de ‘PH’ refleja nos muestra el total en la frecuencia acomulada que seria del 293 y en la frecuencia absoluta el 108 la frecuencia relativa sale en decimales por lo tanto nuestro mayor numero a alcanzar es 1 en esta tabla tenemos al 0.37 como mayor y un 0.00 menor
En la tabla de ‘Temperatura’ nos muestra el total en la frecuencia acomulada que seria del 293 y en la frecuencia absoluta un 81 la frecuencia relativa sale en decimales por lo tanto nuestro mayor numero a alcanzar es 1 en esta tabla tenemos al 0.28 como mayor y un 0.1 menor
D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.
Histograma para el PH y de Temperatura (Temp)
"Histograma de PH"
## [1] "Histograma de PH"
hist(x = pozos$PH, main = "* Histograma de PH *",
xlab = "PH", ylab = "F", col="orchid")
"Histograma para el Temperatura (Temp)"
## [1] "Histograma para el Temperatura (Temp)"
hist(x = pozos$TEMP, main = "*Histograma para el Temperatura*",
xlab = "Temp", ylab = "F", col="yellowGreen")
Polígono de frecuencias PH y de Temperatura (Temp):
"* Polígono de frecuencias PH *"
## [1] "* Polígono de frecuencias PH *"
plot(PhSturges, type ="fp", main = "Polígono de frecuencias PH",
xlab = "PH", ylab = "F", col="red")
"* Polígono de frecuencias Temperatura *"
## [1] "* Polígono de frecuencias Temperatura *"
plot(TemSturges, type ="fp", main = "Polígono de frecuencias de Temperatura",
xlab = "Temp", ylab = "Frecuencia", col="orangeRed")
Histograma de frecuencia acumulado para PH y para Temperatura (Temp)
plot(PhSturges, type ="cfh", main = "* Histograma de frecuencia acumulado PH *",
xlab = "* PH* ",ylab = "" , col="thistle")
plot(TemSturges, type ="cfh", main = "* Histograma de frecuencia acumulado *",
xlab = "* Temp *",ylab = "F" , col="forestGreen")
E) Obtenga la media, mediana, moda e interprete los resultados.
Media mediana y moda de PH y de de Temperatura (Temp)
"* Media, mediana y moda de PH *"
## [1] "* Media, mediana y moda de PH *"
mean(PH)
## [1] 6.890444
median(PH)
## [1] 6.9
mfv(PH)
## [1] 7
"* Media, mediana y moda de Temperatura *"
## [1] "* Media, mediana y moda de Temperatura *"
mean(Temp)
## [1] 28.69795
median(Temp)
## [1] 28.7
mfv(PH)
## [1] 7
F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?
Como la varianza es siempre cero o un número positivo, esto significa que la desviación estándar nunca puede ser negativa, ya que la raíz cuadrada de cero o un número positivo no puede ser negativo.
Varianza y desviación estándarde PH:
"* Varianza* "
## [1] "* Varianza* "
var(PH)
## [1] 0.04908645
"* Desviación estándar *"
## [1] "* Desviación estándar *"
sd(PH)
## [1] 0.2215546
Varianza y desviación estándarde Temp:
"* Varianza *"
## [1] "* Varianza *"
var(Temp)
## [1] 1.035407
"* Desviación estándar *"
## [1] "* Desviación estándar *"
sd(Temp)
## [1] 1.017549
G) Elabore gráfico de caja y bigote
Gráfico de caja y bigote PH y de Temperatura (Temp)
"PH"
## [1] "PH"
boxplot(PH, main = "* Gráfico de caja y bigote *", ylab="* PH *", col="green")
"Temperatura (Temp)"
## [1] "Temperatura (Temp)"
boxplot(PH, main = "* Gráfico de caja y bigote *", ylab="*Temperatura *", col="brown")
H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?
Pienso que si estan relacionados ya que si uno hace una reaccion el otro responde junto con el ya sea si la temperatura disminuye el Ph se reducces y viceversa
Diagrama de dispersión Ph vs Temperatura
ggplot(data = pozos)+geom_point(mapping = aes(x=Temp, y=PH),col='forestGreen',lwd=2)
Regresión PH vs Temperatura
regresion <- lm(PH ~ TEMP, data=pozos)
summary(regresion)
##
## Call:
## lm(formula = PH ~ TEMP, data = pozos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.78955 -0.09220 0.01089 0.11089 0.59587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.017231 0.366448 19.149 <2e-16 ***
## TEMP -0.004418 0.012761 -0.346 0.729
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared: 0.0004117, Adjusted R-squared: -0.003023
## F-statistic: 0.1199 on 1 and 291 DF, p-value: 0.7294
plot(pozos$TEMP, pozos$PH, xlab="* Temperatura*", ylab="pH", col="limeGreen", lwd=2, main="* Temperatura vs PH *")
abline(regresion)