- Importar datos
Preguntas
Respuestas amplias y muy bien argumentadas / elaboradas / específicas.
1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?
La estadística es una disciplina científica que se ocupa de la obtención, orden y análisis de un conjunto de datos con el fin de obtener explicaciones y predicciones sobre fenómenos observados.
La estadística consiste en métodos, procedimientos y fórmulas que permiten recolectar información para luego analizarla y extraer de ella conclusiones relevantes. Se puede decir que es la Ciencia de los Datos y que su principal objetivo es mejorar la comprensión de los hechos a partir de la información disponible. El término estadística posee varios significados para personas de diversos entornos e intereses. Para algunos, es un campo de “magia” en el que una persona con conocimientos supera a las demás. Para otros, se trata de un medio para recolectar y representar grandes cantidades de información. Y todavía para otro grupo, se trata de un medio para “tomar decisiones de frente a la incertidumbre”. En la perspectiva idónea, cada uno de estos puntos de vista es correcto.
Conviene saber que la estadística NO es una rama de las matemáticas. Utiliza herramientas de las matemáticas del mismo modo que lo hace la física, la ingeniería o la economía, pero eso no las hace ser parte de las matemáticas. Es cierto que tienen una relación estrecha, pero la estadística y las matemáticas son disciplinas diferentes. La estadística se puede subdividir en dos grandes ramas: descriptiva e inferencial.
- estadística descriptiva: Se refiere a los métodos de recolección, organización, resumen y presentación de un conjunto de datos. Se trata principalmente de describir las características fundamentales de los datos y para ellos se suelen utilizar indicadores, gráficos y tablas.
- Estadística inferencial: Se trata de un paso más allá de la mera descripción. Se refiere a los métodos utilizados para poder hacer predicciones, generalizaciones y obtener conclusiones a partir de los datos analizados teniendo en cuenta el grado de incertidumbre existente.
Las aplicaciones de la estadística en el campo de ingeniería electromecánica son muy amplias, así como en todas las ingenierías. Pero en la Ing. Electromecánica tiene papeles muy importantes tales como Fiabilidad de máquinas herramientas, Estudio de fatiga de metales, Prever las averías de un taller y diseñar el equipo de mantenimiento, entre muchas áreas más, pero principalmente en los procesos de mejora de fabricación, investigación y diseño.
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.
Tipos de variables
Cualitativas: No se expresan mediante un número (cualidad). A su vez las podemos clasificar en:
Ordenables: Aquellas que sugieren una ordenación. (Por ejemplo la graduación militar, El nivel de estudios, etc.).
No ordenables: Aquellas que sólo admiten una mera ordenación alfabética, pero no establece orden por su naturaleza. (Por ejemplo el color de pelo, sexo, estado civil, etc.).
Cuantitativas: Se expresan mediante un número (cantidad). De estas hay dos tipos:
Discretas: Solo puede tomar valores aislados. (Por ejemplo, nº de hermanos,los días de la semana o los autos vendidos en una concesionaria.).
Continuas: Pueden tomar todos los valores de un intervalo. (Por ejemplo, la estatura de los alumnos de 3º de ESO).
Definicion
Distribución de frecuencias: Se le llama distribución de frecuencias a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de datos.
Distribución normal: En estadística y probabilidad se llama distribución normal, distribución de Gauss, distribución gaussiana o distribución de Laplace-Gauss, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en estadística y en la teoría de probabilidades. Cual histograma tiene forma de campana
Incisos para las variables PH y TEMP
A) Ordene los datos de menor a mayor, indique el valor máximo/mínimo y el rango total de datos.
Datos Ordenados
## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
Valores máximos y mínimos
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.10 6.80 6.90 6.89 7.00 7.50
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.6 28.0 28.7 28.7 29.2 32.1
- EL valor minimo de PH en los datos es 6.10 y el valor Maximo es de 7.50
- EL valor minimo de TEMP en los datos es 25.6 y el valor Maximo es de 32.1
B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase.
PH (numero de clases y ancho de clase)
## [1] 10
## [1] 0.14
C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.
Tabla de frecuencia para PH
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
Tabla de frecuencia para TEMP
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%)= frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)= frecuencia acumulada porcentual- Estas tablas de frecuencia reflejan los valores de frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada yfrecuencia acumulada porcentual con respecto al limite de clase. Con estos datos podemos elaborar graficas como histogramas y polígonos
D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.
Poligeno de frecuencia para PH y TEMP
- PH
- TEMP
E) Obtenga la media, mediana, moda e interprete los resultados.
Medidas de tendencia central
Mediana (Promedio de los dos números medios)
## [1] 6.9
## [1] 28.7
Moda (Numero que mas se repite)
## [1] 7
## [1] 28.6
- Con la obtención de los datos de medidas de tendencia central podemos analizar los datos con mas detalle de una manera más simple. Por ejemplo, la mediana se puede indicar hacia donde se inclina o se agrupan mas los datos. La media se puede interpretar para ubicar el elemento promedio o típico del grupo de datos
F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?
Medidas de dispersión
Desviación estándar
## [1] 0.2215546
## [1] 1.017549
- ¿Pueden estas medidas ser negativas?
No, no pueden ser negativas ya que en el caso de la desviación estándar surge de un promedio de cuadrados, por lo que nunca puede ser negativa. El valor mas bajo posible es 0, cuando todos los valores sean iguales. Y en el caso de varianza tampoco puede ser negativa ya que promedia valores positivos haciendo imposible tener valores negativos
G) Elabore gráfico de caja y bigote
H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?
Gráfica de dispersión de pH versus temperatura
library(ggplot2)
ggplot(data = pozos, mapping = aes(x = TEMP, y = PH)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "pH ~ temperatura", x = "Temperatura", y = "pH") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) ## `geom_smooth()` using formula 'y ~ x'
¿Considera que estas 2 variables están relacionadas?
A simple vista se podria decir que estas variables no tienen una gran relacion entre ellas, pero para tener una respuesta mas clara se tendran que hacer los siguientes tests.
Análisis de correlación
## PH TEMP
## PH 1.00000000 -0.02029087
## TEMP -0.02029087 1.00000000
Prueba de Correlación de pearson
##
## Pearson's product-moment correlation
##
## data: pozos$TEMP and pozos$PH
## t = -0.34621, df = 291, p-value = 0.7294
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.13456554 0.09451642
## sample estimates:
## cor
## -0.02029087
Modelo de regresión lineal simple
##
## Call:
## lm(formula = TEMP ~ PH, data = pozos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.0411 -0.6971 -0.0064 0.5216 3.4123
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 29.34008 1.85571 15.811 <2e-16 ***
## PH -0.09319 0.26918 -0.346 0.729
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.019 on 291 degrees of freedom
## Multiple R-squared: 0.0004117, Adjusted R-squared: -0.003023
## F-statistic: 0.1199 on 1 and 291 DF, p-value: 0.7294
- Ecuación de la recta de mínimos cuadrados
\[ y = 29.34008 -0.09319 x \]
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) 25.6877713 32.9923922
## PH -0.6229729 0.4365903
Verificar condiciones para aceptar o no el modelo
Para evualuar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos.
Contraste de hipótesis (normalidad de residuos) Según el método de prueba de Shapiro-wilk
##
## Shapiro-Wilk normality test
##
## data: modelo.lineal$residuals
## W = 0.98462, p-value = 0.003125
Conclusion
Después de la elaboración de los tests, podemos concluir que hay ninguna relación negativa entre la temperatura y el pH, ya que al inicio cuando se elaboró la gráfica de dispersión de pH versus temperatura se pudo observar que los datos no tenían una gran relación. Cuando se aplicó el análisis de correlación se obtuvo -0.02029087 de relación, siendo un numero negativo implica que la relación en porcentaje que tienen estos datos es negativa siendo exageradamente baja. También se implemento la prueba de correlación de Pearson la cual confirmo la correlación negativa sabiendo que un valor menor que 0 indica una asociación negativa esto quiere decir, a medida que aumenta el valor temperatura, el valor del pH disminuye. Por último, se hizo un contraste de hipótesis según el método de prueba de Shapiro-wilk con el cual se obtuvo valores de W = 0.96474, p-value = 1.44e-06, ya que el p-value es menor que 0.05 se dice que la relación es negativa.