EXAMEN UNIDAD 1

EXAMEN UNIDAD 1

Nombre: María Isabel Valenzuela Guzmán Matricula 216230

1.- ¿Qué es la estadística y qué aplicaciones tiene en la ingeniería (según su ingeniería)?

La estadística es una rama de las matemáticas que estudia la variabilidad y en la cual se recolectan, analizan, describen y estudian una serie de datos con la finalidad de obtener un resultado. Asimismo la estadística tiene dos tipos:

Estadística descriptiva: en donde se resumen y describen las caracteristicas importantes de un conjunto de mediciones, o una población, comunmente en gráficas o tablas.
Estadística inferencial: formada por procedimientos empleados para hacer inferencias acerca de características poblacionales, a partir de información contenida en una muestra sacada de esa población; es decir, se sacan conclusiones, se hacen predicciones y se toman decisiones a partir de esa muestra.

Aplicada en la ingeniería mecatrónica:

Optimización al buscar materiales con mayor rentabilidad para la durabilidad en el diseño de alguna máquina, se deben hacer inferencias para elegir el más adecuado.
Estimación de los avances tecnológicos, si cierto proceso será viable o si se descarta la hipótesis.

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada un. Defina distribución de frecuencia y explique que es la distribución normal.

Importe los datos del archivo de Excel “pozos” y conteste lo siguiente usando R:

Estos datos son: Datos de pH y Temperatura de pozos de agua subterránea. Se elaboran los incisos 1 vez para pH y otra para Temperatura

Ordene los datos de menor a mayor, indique el valor máximo/mínimo y el rango total de datos.

#Importar datos
library(readr)
pt <- read.csv("pozos.csv")

#Ordenar de menor a mayor para ph
sort(pt$ï..PH)

##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5

#Valor máximo y mínimo para ph
pHmax <- max(pt$ï..PH)
pHmax

## [1] 7.5

pHmin <- min(pt$ï..PH)
pHmin

## [1] 6.1

#Rango o amplitud de los datos para pH
amph <- (pHmax-pHmin)
amph

## [1] 1.4

#Ordenar de menor a mayor para temperatura
sort(pt$TEMP)

##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

#Valor máximo y mínimo para Temperatura
Tmax <- max(pt$TEMP)
Tmax

## [1] 32.1

Tmin <- min(pt$TEMP)
Tmin

## [1] 25.6

#Rango o amplitud de los datos para Temperatura
ampt <- (Tmax-Tmin)
ampt

## [1] 6.5

Obtenga (el numero de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase

El número de los intervalos o clases son 10
El ancho de clase viene dado por el límite superior menos el inferior: 0.154

library ("fdth")

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

#Fórmula de Sturges
dist <- fdt(pt, breaks="Sturges")
dist

## ï..PH 
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00
## 
## TEMP 
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

#Fórmula de Sturges
dist <- fdt(pt, breaks="Sturges")
dist

## ï..PH 
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00
## 
## TEMP 
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Límites de clases indica el ancho de la clase
“f” es la frecuencia absoluta e indica las veces que ese dato se repite en la muestra
“rf” es la frecuencia relativa e indica el cociente de la frecuencia absoluta entre el total de los datos
“rf(%)” es la frecuencia relativa porcentual y expresa la frecuencia relativa multiplicada por 100
“cf” es la frecuencia acumulada y es la suma de los datos de esa clase mas los de la clase anterior
“cf(%)” es la frecuencia acumulada porcentual e indica la suma de la frecuencia relativa porcentual de esa clase y la anterior. O también, la división de “cf” entre el total de datos, y eso multiplicado por 100

Elabore un histograma, polígono de frecuencia, histograma de frecuencia acumulado.

plot(dist, type="fh") # histograma de frecuencia absoluta

plot(dist, type = "fp") #polígono de frecuencia absoluta

plot(dist, type="cfh") # histograma de frecuencia acumulada

Obtenga la media, mediana, moda e interprete los resultados. ¿Pueden estas medidas ser negativas?

La media demuestra la suma de todos los valores entre el número de valores. (6.89 para pH y 28.69 para Temperatura)
La mediana es el valor que se encuentra justo en medio de los datos ordenados de menor a mayor, y si se encuentran dos valores éstos se suman y dividen entre 2. (6.9 para pH y 28.7 para Temperatura)
La moda es el valor que más se repite en la muestra de datos. (7 para pH y 28.6 para Temperatura)
Sí pueden ser negativas si se están trabajando con valores negativos.

#Para el pH
mean(pt$ï..PH)

## [1] 6.890444

median(pt$ï..PH)

## [1] 6.9

mfv(pt$ï..PH)

## [1] 7

#Para la Temperatura
mean(pt$TEMP)

## [1] 28.69795

median(pt$TEMP)

## [1] 28.7

mfv(pt$TEMP)

## [1] 28.6

Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

La varianza demuestra la variabilidad de los datos con respecto a la media, siendo este valor pequeño indica que no existe mucha variabilidad. (0.04 en pH y 1.03 en Temperatura).
La desviacón estándar indica la variación que existe entre los datos, esta también resultando baja indica que caso no hay variación entre los datos (0.2 en pH y 1.1 en Temperatura)
Ninguna de éstas dos puede ser negativa, ya que al momento de efectuar la varianza los valores se elevan al cuadrado quedando siempre con signo positivo. Mientras que la desviacion estándar siendo la raíz de la varianza tiene que ser positiva.

#Para pH
var(pt$ï..PH)

## [1] 0.04908645

sd(pt$ï..PH)

## [1] 0.2215546

#Para Temperatura
var(pt$TEMP)

## [1] 1.035407

sd(pt$TEMP)

## [1] 1.017549

Elaborar un gráfico de caja y bigote

#Para pH
boxplot(pt$ï..PH)

#Para Temperatura
boxplot(pt$TEMP)

Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

En la gráfica se pude observar que los valores se encuentran muy dispersos, del mismo modo, en los intervalos de modelo lineal se encuentran pocos valores cercanos.
A tráves de un análisis de correlación de Pearson se observó que el valor de pearson es muy grande, indicando que hay poca correlación. Del mismo modo se obtuvo la correlacion, esta fue negativa (-0.02), siendo este valor demasiado bajo considero que las variables tienen una relación muy baja. Sin embargo no se puede descartar la hipótesis nula, debido a que en un análisis de residual de Shapiro-wilk el valor de w fues de 0.96

library(GGally)

## Loading required package: ggplot2

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

ggplot(data = pt, mapping = aes(x = ï..PH, y =TEMP )) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Temperatura~PH", x = "Temperatura", y = "pH") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5))

## `geom_smooth()` using formula 'y ~ x'

modelo.lineal <- lm( ï..PH~ TEMP, data = pt)
summary(modelo.lineal)

## 
## Call:
## lm(formula = ï..PH ~ TEMP, data = pt)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.78955 -0.09220  0.01089  0.11089  0.59587 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.017231   0.366448  19.149   <2e-16 ***
## TEMP        -0.004418   0.012761  -0.346    0.729    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared:  0.0004117,  Adjusted R-squared:  -0.003023 
## F-statistic: 0.1199 on 1 and 291 DF,  p-value: 0.7294

cor(pt)

##             ï..PH        TEMP
## ï..PH  1.00000000 -0.02029087
## TEMP  -0.02029087  1.00000000

cor.test(x = pt$ï..PH, y = pt$TEMP, method = "pearson")

## 
##  Pearson's product-moment correlation
## 
## data:  pt$ï..PH and pt$TEMP
## t = -0.34621, df = 291, p-value = 0.7294
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.13456554  0.09451642
## sample estimates:
##         cor 
## -0.02029087

shapiro.test(modelo.lineal$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.96474, p-value = 1.44e-06

Pregunta de rescate:

Mini ensayo de mínimo media y máximo una cuartilla contestando a la pregunta: ¿De qué manera o maneras reales puede México ser un país más desarrollado? Elaboren y argumenten su propuesta o propuesta. (Use datos para fundamentarse)

Invirtiendo en la ciencia; puesto que, la educación en México está siendo cada vez más, exigiendo a los alumnos más grados de estudio y aun así sigue ocurriendo lo que se llama “fuga de cerebros”, que esto se debe a que los estudiantes no cuentan con los recursos necesarios para sus investigaciones, conllevando tener que buscarlo en otros países más desarrollados. Es por ellos que hay pocos cientifícos reconocidos mexicanos EN México. Los países desarrollados dedican entre 1.5% y 4.2% de su PIB al GIDE (Gasto en Investigación Científica y Desarrollo) mientras que en México se dedica una pequeña porción del 0.55%

Si esto ocurriera, el crecimiento se vería en aumento, no se tendrían que buscar importaciones. Del mismo modo, los avances tecnológicos residirían en México, junto con aportaciones de otros países.

Referencias web:

https://www.eleconomista.com.mx/arteseideas/Mexico-encabeza-fuga-de-cerebros-en-Latinoamerica-20181227-0075.html https://www.foroconsultivo.org.mx/INCyTU/index.php/notas/75-11-inversion-para-ciencia-tecnologia-e-innovacion-en-mexico-n

U1E1

Isabel Valenzuela

7/10/2020

EXAMEN UNIDAD 1

1.- ¿Qué es la estadística y qué aplicaciones tiene en la ingeniería (según su ingeniería)?

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada un. Defina distribución de frecuencia y explique que es la distribución normal.

Importe los datos del archivo de Excel “pozos” y conteste lo siguiente usando R:

Pregunta de rescate: