Examen_UC2

Elisa Velasquez

26/11/2021

Preguntas

1. ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

La estadística es la ciencia de la interpretación de los datos, y de la toma de decisiones en entornos de variabilidad e incertidumbre. Ha evolucionado en respuesta a las necesidades de los científicos y de aquellos otros cuyos datos presentan variabilidad. Se considera el lenguaje universal de la ciencia, y es fundamental parala toma de decisiones. Los conceptos y métodos de la estadística permiten a u ingeniero planificar sus procedimientos teniendo en cuenta la variabilidad de los datos. Los métodos estadísticos se utilizan para analizar los datos y extraer la máxima información, identificando además la fiabilidad de dicha información. Por lo tanto, podemos decir que la estadística es fundamental para los ingenieros en software, quienes trabajan con mucha información, y haciendo uso de métodos estadísticos procesan la información para obtener los datos mas relevantes, y deciden así un curso de acción.

Fuentes: (De ambas preguntas)

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

En estadística, generalmente encontramos 2 tipos de variables según su medición:

1.- Variables cualitativas: También llamadas categóricas, no se pueden medir numéricamente. Basicamente aquellas que se miden por cualidades. Por ejemplo: El género de una persona. Se pueden clasificar en:

Ordinales: Puede tomar distintos valores ordenados siguiendo una escala establecida. Por ejemplo: Alto, bajo y mediano.

Nominales: Los valores no pueden ser sometidos a un criterio de orden, como por ejemplo los colores o el lugar de registro.

2.- Variables cuantitativas: También llamadas numéricas, tienen un valor numérico establecido, basicamente son aquellas que se miden en cantidades. Por ejemplo: El precio de algo. Estas se clasifican en:

  • Continuas: Pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo: La velocidad de un auto.

  • Discretas: También llamadas discontinuas, solo pueden tomar números enteros. Por ejemplo: La cantidad de personas en una sala.

  • Distribución de frecuencia: Es la información estructurada que se ha recogido de una variable. Un ejemplo son las tablas o graficas de frecuencia.

  • Distribución normal: Ocurre cuando los datos se distribuyen alrededor de la mediana y la media.

Pregunta de rescate

Mini ensayo de mínimo media y máximo una cuartilla contestando a la pregunta: ¿De qué manera o maneras reales puede México ser un país más desarrollado? Elaboren y argumenten su propuesta o propuestas. (Use datos para fundamentarse)

México ha sido considerado un país subdesarrollado o tercermundista, es decir, un país con menores ingresos, una mayor tasa de desempleo y un bajo índice de desarrollo. Actualmente el índice de desarrollo humano (IDH) de México es de .779, ocupando el puesto No. 74 en el ranking mundial. La tasa de desempleo es de 3.4%, y tiene un PIB per cápita de 8.346,70 USD, con una tasa de crecimiento anual de -8,2%.

Pero, ¿Que nos dice esto?, para casi todos estos son solo números, estadísticas sin sentido, o información que consideramos irrelevante. Pero, si te cuento que en México el 8.5% de la población vive en la pobreza extrema, que el 4.7% es analfabeta, que 18 de las 50 ciudades en México tienen un lugar dentro del top 50 de las ciudades mas peligrosas, con una tasa de homicidios de 29 por cada 100,000 habitantes, etc. México tiene el puesto 11 en países más contaminantes del planeta, pero el lugar 16 si se trata por el índice de muertes atribuibles con 340,000 fallecimientos.

Y de 3.88 millones de casos reportados de COVID, se registraron 294 mil defunciones. Actualmente, el 58,9% de la población recibió por lo menos una vacuna, mientras que el 49,9 recibió su dosis completa. Todos los datos que mencione pintan un panorama pequeño de la situación en México, que podría ser considerado preocupante, pero hay que recordar que esto ha sido después de una pandemia, y a pesar de esta la economía no se desplomo, aun cuando podríamos decir que no estábamos preparados.

Entonces, ¿De qué manera o maneras reales puede México ser un país más desarrollado? Es una buena pregunta, la cual a pesar de mi investigación no puedo responder completamente, mencione algunos factores o detalles importantes de la situación en México, hablamos sobre el nivel de inseguridad, pero esta es una variable demasiado complicada y variante como para tener una solución sencilla.

Creo que un buen punto de partida seria la educación, y si bien siempre hay buenas campañas de educación en México, y no somos el país peor parado, aun es importante la alfabetización y educación de la población, esto con la esperanza de concientizar a las personas de sus acciones y su impacto en el mundo, para que mas personas consigan mejores trabajos, para que los índices de criminalidad bajen, etc. Hay un sin fin de variables que podrían verse afectadas positivamente por esto, además con el aumento de las vacunas se espera bajar la tasa de muertes por COVID, a pesar de el posible aumento de casos por movilización de personas.

Y así, podría continuar mencionando acciones que podrían llevar a México a ser un país mas desarrollado, pero no se trata de eso, lo importante al final podría ser la economía del país, que se ha visto afectada por el cierre de comercios, la baja del turismo, etc. ¿Como la aumentamos? Bueno, México es un país rico en recursos, que muchas veces son desperdiciados, como el agua, que constantemente se desperdicia o contamina, y esto nos cuesta dinero, pues debe ser tratada para su reutilización. Una de las actividades económicas principales es la agricultura, para la cual se necesita agua, y una mejor distribución, por que si bien hay mucha agricultura, también hay mucho desperdicio de producto agrícola debido a la falta de distribución.

Fuentes:

Caso de estudio

Los siguiente datos representan los datos de pH y temperatura de pozos de agua subterránea, dichos datos seran utilizados para desarrollar nuestro analisis y contestar una serie de incisos.

  • Importar datos:
library(readxl)
pozos <- read_excel("pozos.xlsx")
  • Librerias:
library(pacman)
p_load(fdth, modeest, ggplot2)

A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos.

1.- Ph

  • Datos ordenados:
ph <- t(pozos$PH)
ph <- as.vector(ph)
ph <- ph[1:293]
ph <- as.numeric(ph)

sort(ph,decreasing=FALSE)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
  • Máximo:
max(ph)
## [1] 7.5
  • Mínimo:
min(ph)
## [1] 6.1
  • Rango:
max(ph)-min(ph)
## [1] 1.4

2.- Temperatura

  • Datos ordenados:
temp <- t(pozos$TEMP)
temp <- as.vector(temp)
temp <- temp[1:293]

sort(temp,decreasing=FALSE)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
  • Máximo:
max(temp)
## [1] 32.1
  • Mínimo:
min(temp)
## [1] 25.6
  • Rango:
max(temp)-min(temp)
## [1] 6.5

B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase.

1.- PH:

  • Número de intervalos:
num <- length(ph)
intervalos <- ceiling(sqrt(num))
intervalos
## [1] 18

2.- Temperatura:

  • Número de intervalos:
nu <- length(temp) #Esto solo lo hago para demostrar que es lo mismo.
inter <- ceiling(sqrt(nu))
inter
## [1] 18

C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

1.- Ph:

tabla<- fdt(ph)
tabla
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

2.- Temperatura:

tabla2<- fdt(temp)
tabla2
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

1.- Ph:

  • Histograma de frecuencia absoluta:
plot(tabla, type = "fh")
title(main = "Ph")

  • Poligono de frrecuencia absoluta:
plot(tabla, type = "fp")
title(main = "Ph")

  • Histograma de frecuencia acumulada:
plot(tabla, type = "cfh")
title(main = "Ph")

De acuerdo con estas graficas los valores se concentran en el intervalo de 6.96 a 7.11, con una distribucion centralizada. Esto nos indica que los valores de tendencia central seran cercanos unos a otros.

2.- Temperatura:

  • Histograma de frecuencia absoluta:
plot(tabla2, type = "fh")
title(main = "Temperatura")

  • Poligono de frrecuencia absoluta:
plot(tabla2, type = "fp")
title(main = "Temperatura")

  • Histograma de frecuencia acumulada:
plot(tabla2, type = "cfh")
title(main = "Temperatura")

De acuerdo con estas graficas los valores se concentran en el medio, entre los intervalos de 28.175 a 29.59. Esto nos dice que los valores de las medidas de tendencia central seran muy cercanos unos a otros.

E) Obtenga la media, mediana, moda e interprete los resultados.

1.- Ph:

  • Media:
mean(ph)
## [1] 6.890444
  • Mediana:
median(ph)
## [1] 6.9
  • Moda:
mlv(ph,method = "mfv")
## [1] 7

Como ya mencionamos los valores de las medidas de tendencia central se encuentran muy cercanos unos a otros.

2.- Temperatura:

  • Media:
mean(temp)
## [1] 28.69795
  • Mediana:
median(temp)
## [1] 28.7
  • Moda:
mlv(temp,method = "mfv")
## [1] 28.6

Como se demostro en las graficas anteriores los valores de tendencia central se encuentran muy cercanos unos de otros.

F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

1.- Ph:

  • Varianza:
var(ph)
## [1] 0.04908645
  • Desviación estándar:
sd(ph)
## [1] 0.2215546

Aqui observamos que los datos tienen poca variabilidad por lo que no se encuentran tan dispersos entre si, y no pueden ser negativos.

2.- Temperatura:

  • Varianza:
var(temp)
## [1] 1.035407
  • Desviación estándar:
sd(temp)
## [1] 1.017549

Podemos observar que los datos son mas variantes, por lo tanto, se encontraran mas dispersos. Y los valores no pueden ser negativos.

G) Elabore gráfico de caja y bigote

1.- Ph:

boxplot(ph)

Aqui observamos una distribucion normal, pues los dtaos se encuentran en su mayoria al rededor de la mediana y media.

2.- Temperatura:

boxplot(temp)

En cambio, aqui encontramos que los datos tienden mas a alejarse de los valores de la mediana y la media, presentando una distribucion mas anormal.

H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

ggplot(pozos, aes(temp, ph)) + geom_point()+ geom_smooth() + xlab("Temperatura") + ylab("Ph") 
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

De acuerdo con la ultima grafica, las variables, ph y temperatura, estan poco o nada relacionadas entre si, pues los datos se encuentran muy dispersos.