Examen_UC2

Jaime Valenzuela

11/26/2021

library(pacman)
p_load(rmdformats,readr,readxl,ggplot2,plotly,DT,xfun,gridExtra,leaflet)

1. ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

La estadística es la parte de la ciencia que se encarga de la recolecció de datos para poder analizarlos y poder hacer inferencias y conclusiones. Es considerada el arte de poder tomar decisiones después del analísis de los datos que se obtuvieron con las distintas herramientas estadisticas. Dada la información anterior de que es la estadistica se puede dar una idea de como esta tiene aplicaciones en la ingeniería, en este caso en la ingeniería en software o más extenso aún en la informatica. Actualmente ambas disciplinas están muy relacionadas porque el hecho de que existan recursos informaticos con herramientas estadísticas facilita mucho el uso de estas y con esto se puede llegar a conclusiones y toma de decisiones. También en relaciones a las IA la estadística tiene mucho que aportar puesto que una IA es básicamente estadistica, es decir, tomar experiencias, datos y poder tomar decisiones por si mismas.

2.Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

  • Variables cuantitativas: Son variables que se expresan númericamente, es decir, que pueden contarse. Ejemplos: Discreta: la cantidad de algo que tiene una persona: 2,4,6. Continuas: la estatura de una persona: 1.65cm.
  • Variables cualitativas: Son las variables que no pueden ser calculadas con números. Ejemplos: Nominal: el color de ojos de una persona, ordinal: la condición de un pasaporte: aprobado, negado, en espera, binario: una respuesta que solo puede ser si o no.
  • Distribución de frecuencia: Es la manera de ordena una serie de observaciones en diferentes grupo, suelen hacerse en modo ascendente o descendentes.
  • Distribución normal: Es cuando los datos están distribuidos mayormente alrededor o cerca de la mediana y de la media.

Caso de estudio

Importar datos

library(readxl)
pozos <- read_excel("pozos.xlsx")

Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos.

PH

ph <- t(pozos$PH)
ph <- as.vector(ph)
ph <- ph[1:293]
ph <- as.numeric(ph)

sort(ph,decreasing=FALSE)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
max(ph)
## [1] 7.5
min(ph)
## [1] 6.1
## RANGO
max(ph)-min(ph)
## [1] 1.4

Temperatura

temperatura <- t(pozos$TEMP)
temperatura <- as.vector(temperatura)
temperatura <- temperatura[1:293]

sort(temperatura,decreasing=FALSE)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
max(temperatura)
## [1] 32.1
min(temperatura)
## [1] 25.6
## RANGO
max(temperatura)-min(temperatura)
## [1] 6.5
datos4 <- data.frame(ph,temperatura)

Obtenga (el número de) los intervalos (o clases) usando la fórmula según Surges y el ancho de clase.

PH

n <- length(ph)
## Número de intervalos
i <- ceiling(sqrt(n))
i
## [1] 18

Temperatura

n1 <- length(temperatura)
## Número de intervalos
i2 <- ceiling(sqrt(n1))
i2
## [1] 18

Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

PH

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
tabla<- fdt(ph)
tabla
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

Lo que esta tabla de frecuencia nos indica es que existen 10 intervalos dentro de los cuales pueden entrar los niveles de PH, se nos muestra que en el primer y en el segundo intervalo solo entra un nivel de PH, lo cual representa el .34% de la frecuencia relativa porcentual de todos los datos. Después, en el tercer intervalo hay 7 niveles de PH y representan el 2.94% de la frecuencia relativa porcentual, en los intervalos siguientes ya suben los datos que pertenecen a ese intervalo 40, 67, 44, 108, los cuales representan el 13.65%, 22.87%, 15.87% y 36.68% de la frecuencia relativa respectivamente. Seguido de estos vienen dos intervalos que tienen la misma frecuencia absoluta con 12, estos representan el 4.10% de la frecuencia relativa porcentual y en el ultimo intervalo solo tiene una frecuencia de 1 el cual representa el .34% al igual que el primer intervalo. Si sumamos los porcentaje de frecuencia relativa debe de dar un 100% como se muestra en la última columna de la tabla

Temperatura

library(fdth)
tabla1<- fdt(temperatura)
tabla1
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Lo que esta tabla de frecuencia nos indica es que existen 10 intervalos dentro de los cuales pueden entrar las temperaturas, se nos muestra que en el primer intervalo tiene 2 de frecuencia, lo cual representa el .68% de la frecuencia relativa porcentual de todos los datos. Después, en el segundo intervalo hay 5 y representan el 1.71% de la frecuencia relativa porcentual, en los intervalos siguientes ya suben los datos que pertenecen a ese intervalo 17, 63, 79, 81 y 28 los cuales representan el 5.8%, 21.5%, 26.96%, 27.65% y 9.56% de la frecuencia relativa respectivamente. Seguido de estos viene un intervalo con 9, este representan el 3.07% de la frecuencia relativa porcentual y los ultimos 2 contienen 7 y 2, los cuales representan el 2.39% y .68% respectivamente. Si sumamos los porcentaje de frecuencia relativa debe de dar un 100% como se muestra en la última columna de la tabla

Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

PH

plot(tabla, type = "fh")
title(main = "PH")

plot(tabla, type = "fp")
title(main = "PH")

plot(tabla, type = "cfh")
title(main = "PH")

### Temperatura

plot(tabla1, type = "fh")
title(main = "TEMPERATURA")

plot(tabla1, type = "fp")
title(main = "TEMPERATURA")

plot(tabla1, type = "cfh")
title(main = "TEMPERATURA")

E) Obtenga la media, mediana, moda e interprete los resultados.

PH

mean(ph)
## [1] 6.890444
median(ph)
## [1] 6.9
library(modeest)
## Registered S3 method overwritten by 'rmutil':
##   method         from
##   print.response httr
## 
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
## 
##     mfv
mlv(ph,method = "mfv")
## [1] 7

Los datos pueden considerarse normales puesto que la mayoría de estos se encuentran cerca del valor de la media y la mediana que son 6.89 y 6.9 respectivamente.

Temperatura

mean(temperatura)
## [1] 28.69795
median(temperatura)
## [1] 28.7
library(modeest)
mlv(temperatura,method = "mfv")
## [1] 28.6

Los datos pueden considerarse normales puesto que la mayoría de estos se encuentran cerca del valor de la media y la mediana que son 28.69 y 28.7 respectivamente.

Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

PH

var(ph)
## [1] 0.04908645
sd(ph)
## [1] 0.2215546

Después de obtener la desviación estadar se puede concluir parcialmente que los datos no están muy dispersos entre si. Y estos valores no pueden ser negativos, porque no se pueden trabajar raices con números negativos.

Temperatura

var(temperatura)
## [1] 1.035407
sd(temperatura)
## [1] 1.017549

Después de obtener la desviación estadar se puede concluir parcialmente que los datos no están muy dispersos entre si incluso teniendo un rango mayor a los datos del PH. Y estos valores no pueden ser negativos, porque no se pueden trabajar raices con números negativos.

Elabore gráfico de caja y bigote

PH

boxplot(ph)

Se puede observar que en los datos del ph hay pocos que están dispersos de la mediana y media.

Temperatura

boxplot(temperatura)

Se puede observar que en los datos de la temperatura hay un mayor número de datos que están dispersos de la mediana y media.

Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

cor(pozos)
##               PH        TEMP
## PH    1.00000000 -0.02029087
## TEMP -0.02029087  1.00000000
ggplot(data = datos4)+
  aes(x=temperatura,y=ph)+
  geom_point()

Considero que la relación que tienen estos datos es negativa, es decir, los valores se mueven en direcciones opuestas.

Pregunta de rescate

Mini ensayo de mínimo media y máximo una cuartilla contestando a la pregunta: ¿De qué manera o maneras reales puede México ser un país más desarrollado? Elaboren y argumenten su propuesta o propuestas. (Use datos para fundamentarse)

Considero que actualmente México no es una potencia por distintos factores, pero la que más me llama la atención es la pobreza que se vive en este país, pero es muy fácil hablar de ello desde una casa que tiene internet, sin saber como viven las personas que realmente tienen este problema. El indice de pobreza en México en 2020 fue del 43.9% y el taza de desempleo es de 4.2%.

¿Por qué no funcionaría que una persona millonaria le regale dinero a los pobres? Considero que siempre se ha planteado esa idea en nuestra mente, pero no es así de sencillo, porque no se estaría resolviendo el problema de la pobreza, solo se estaría posponiendo, de igual manera pasa con los “apoyos” que da el gobierno, que en mi opinión están mal distribuídos, sin embargo, debe mencionarse que si existen buenas intenciones pero no llevadas de la mejor manera.

Como aún no comprendo bien los temas de economía creo que no soy el indicado para desarrollar propuestas, sin embargo, considero que regalar dinero no es una buena manera, si no más bien, la generación de empleos si sería una buena opción.