- EXAMEN UNIDAD 1
- 1.- ¿Qué es la estadística y qué aplicaciones tiene en la ingeniería (según su ingeniería)?
- 2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada un. Defina distribución de frecuencia y explique que es la distribución normal.
- Importe los datos del archivo de Excel “pozos” y conteste lo siguiente usando R:
- Pregunta de rescate:
EXAMEN UNIDAD 1
Nombre: María Isabel Valenzuela Guzmán Matricula 216230
1.- ¿Qué es la estadística y qué aplicaciones tiene en la ingeniería (según su ingeniería)?
La estadística es una rama de las matemáticas que estudia la variabilidad y en la cual se recolectan, analizan, describen y estudian una serie de datos con la finalidad de obtener un resultado. Asimismo la estadística tiene dos tipos:
- Estadística descriptiva: en donde se resumen y describen las caracteristicas importantes de un conjunto de mediciones, o una población, comunmente en gráficas o tablas.
- Estadística inferencial: formada por procedimientos empleados para hacer inferencias acerca de características poblacionales, a partir de información contenida en una muestra sacada de esa población; es decir, se sacan conclusiones, se hacen predicciones y se toman decisiones a partir de esa muestra.
Aplicada en la ingeniería mecatrónica:
- Optimización al buscar materiales con mayor rentabilidad para la durabilidad en el diseño de alguna máquina, se deben hacer inferencias para elegir el más adecuado.
- Estimación de los avances tecnológicos, si cierto proceso será viable o si se descarta la hipótesis.
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada un. Defina distribución de frecuencia y explique que es la distribución normal.
Importe los datos del archivo de Excel “pozos” y conteste lo siguiente usando R:
Estos datos son: Datos de pH y Temperatura de pozos de agua subterránea. Se elaboran los incisos 1 vez para pH y otra para Temperatura
- Ordene los datos de menor a mayor, indique el valor máximo/mínimo y el rango total de datos.
#Importar datos
library(readr)
pt <- read.csv("pozos.csv")
#Ordenar de menor a mayor para ph
sort(pt$ï..PH)## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
## [1] 7.5
## [1] 6.1
## [1] 1.4
## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
## [1] 32.1
## [1] 25.6
## [1] 6.5
- Obtenga (el numero de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase
- El número de los intervalos o clases son 10
- El ancho de clase viene dado por el límite superior menos el inferior: 0.154
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
## ï..PH
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
##
## TEMP
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
- Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.
## ï..PH
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
##
## TEMP
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
- Límites de clases indica el ancho de la clase
- “f” es la frecuencia absoluta e indica las veces que ese dato se repite en la muestra
- “rf” es la frecuencia relativa e indica el cociente de la frecuencia absoluta entre el total de los datos
- “rf(%)” es la frecuencia relativa porcentual y expresa la frecuencia relativa multiplicada por 100
- “cf” es la frecuencia acumulada y es la suma de los datos de esa clase mas los de la clase anterior
- “cf(%)” es la frecuencia acumulada porcentual e indica la suma de la frecuencia relativa porcentual de esa clase y la anterior. O también, la división de “cf” entre el total de datos, y eso multiplicado por 100
- Elabore un histograma, polígono de frecuencia, histograma de frecuencia acumulado.
- Obtenga la media, mediana, moda e interprete los resultados. ¿Pueden estas medidas ser negativas?
- La media demuestra la suma de todos los valores entre el número de valores. (6.89 para pH y 28.69 para Temperatura)
- La mediana es el valor que se encuentra justo en medio de los datos ordenados de menor a mayor, y si se encuentran dos valores éstos se suman y dividen entre 2. (6.9 para pH y 28.7 para Temperatura)
- La moda es el valor que más se repite en la muestra de datos. (7 para pH y 28.6 para Temperatura)
- Sí pueden ser negativas si se están trabajando con valores negativos.
## [1] 6.890444
## [1] 6.9
## [1] 7
## [1] 28.69795
## [1] 28.7
## [1] 28.6
- Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?
- La varianza demuestra la variabilidad de los datos con respecto a la media, siendo este valor pequeño indica que no existe mucha variabilidad. (0.04 en pH y 1.03 en Temperatura).
- La desviacón estándar indica la variación que existe entre los datos, esta también resultando baja indica que caso no hay variación entre los datos (0.2 en pH y 1.1 en Temperatura)
- Ninguna de éstas dos puede ser negativa, ya que al momento de efectuar la varianza los valores se elevan al cuadrado quedando siempre con signo positivo. Mientras que la desviacion estándar siendo la raíz de la varianza tiene que ser positiva.
## [1] 0.04908645
## [1] 0.2215546
## [1] 1.035407
## [1] 1.017549
- Elaborar un gráfico de caja y bigote
- Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?
- En la gráfica se pude observar que los valores se encuentran muy dispersos, del mismo modo, en los intervalos de modelo lineal se encuentran pocos valores cercanos.
- A tráves de un análisis de correlación de Pearson se observó que el valor de pearson es muy grande, indicando que hay poca correlación. Del mismo modo se obtuvo la correlacion, esta fue negativa (-0.02), siendo este valor demasiado bajo considero que las variables tienen una relación muy baja. Sin embargo no se puede descartar la hipótesis nula, debido a que en un análisis de residual de Shapiro-wilk el valor de w fues de 0.96
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggplot(data = pt, mapping = aes(x = ï..PH, y =TEMP )) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Temperatura~PH", x = "Temperatura", y = "pH") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) ## `geom_smooth()` using formula 'y ~ x'
##
## Call:
## lm(formula = ï..PH ~ TEMP, data = pt)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.78955 -0.09220 0.01089 0.11089 0.59587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.017231 0.366448 19.149 <2e-16 ***
## TEMP -0.004418 0.012761 -0.346 0.729
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared: 0.0004117, Adjusted R-squared: -0.003023
## F-statistic: 0.1199 on 1 and 291 DF, p-value: 0.7294
## ï..PH TEMP
## ï..PH 1.00000000 -0.02029087
## TEMP -0.02029087 1.00000000
##
## Pearson's product-moment correlation
##
## data: pt$ï..PH and pt$TEMP
## t = -0.34621, df = 291, p-value = 0.7294
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.13456554 0.09451642
## sample estimates:
## cor
## -0.02029087
##
## Shapiro-Wilk normality test
##
## data: modelo.lineal$residuals
## W = 0.96474, p-value = 1.44e-06
Pregunta de rescate:
Mini ensayo de mínimo media y máximo una cuartilla contestando a la pregunta: ¿De qué manera o maneras reales puede México ser un país más desarrollado? Elaboren y argumenten su propuesta o propuesta. (Use datos para fundamentarse)
Invirtiendo en la ciencia; puesto que, la educación en México está siendo cada vez más, exigiendo a los alumnos más grados de estudio y aun así sigue ocurriendo lo que se llama “fuga de cerebros”, que esto se debe a que los estudiantes no cuentan con los recursos necesarios para sus investigaciones, conllevando tener que buscarlo en otros países más desarrollados. Es por ellos que hay pocos cientifícos reconocidos mexicanos EN México. Los países desarrollados dedican entre 1.5% y 4.2% de su PIB al GIDE (Gasto en Investigación Científica y Desarrollo) mientras que en México se dedica una pequeña porción del 0.55%
Si esto ocurriera, el crecimiento se vería en aumento, no se tendrían que buscar importaciones. Del mismo modo, los avances tecnológicos residirían en México, junto con aportaciones de otros países.
Referencias web:
https://www.eleconomista.com.mx/arteseideas/Mexico-encabeza-fuga-de-cerebros-en-Latinoamerica-20181227-0075.html https://www.foroconsultivo.org.mx/INCyTU/index.php/notas/75-11-inversion-para-ciencia-tecnologia-e-innovacion-en-mexico-n