E1U2

Examen 1 - Unidad 2

Nombre: Ricardo Pacheco Urias Matrícula: 229178 - 26/11/2021

Respuestas amplias y muy bien argumentadas / elaboradas / específicas.

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

Gran parte de la de las interpretaciones que formulamos en nuestro día a día se origina mayormente de nuestro criterio cognitivo en base a los acontecimientos, pero claro, un criterio no es suficiente si no tiene como pilar hechos, datos, números, comparaciones, etcétera; es ahí donde la estadística toma acción. La estadística es una de las herramientas más indispensables para el humano moderno, nos sirve como un lenguaje universal para identificar el porqué, el cómo, el cuándo y el dónde de casi cualquier evento o eventos; lo que nos permite es obtener la información específica para que mediante un proceso estadístico de filtración, análisis y predicción de datos podamos generar una interpretación bastante cercana a la verdad aproximándonos a ella matemáticamente. Sin mucha verborrea, la estadística es el acto de recolectar, explicar y representar datos.

La estadística sirve literalmente en cualquier gremio académico o profesional, cualquier acto u evento ve generar datos loca cuales necesitaran ser interpretados, lo cual es la especialidad de la estadística, por ejemplo, en el caso de ingeniería de software los datos son el núcleo de todo lo que representa la profesión, de hecho una de las funciones del software es automatizar todo estos procesos estadísticos mediante código, datos que se generan en la red son interpretados por algoritmos los cuales implementan machine laringe, que además provienen de biga data, algo muy probable que sucederá es que los datos se convertirán en la moneda de cambio de las grandes empresas tecnológicas que almacena toda esa cantidad de datos que generan las interacción de los usuarios con sus plataformas. Todo esto que mencione se concreta gracias a la estadística.

2.- Enliste y defina los tipos de variables usados en estadística, da 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

1) Variables cualitativas: estas son las variables que son incapaces de ser medidas numéricamente hablando; un ejemplo de estas variables podría ser tu orientación sexual, la forma de tu rostro, tu tipo de cabello, etc.

2) Variables cuantitativas: estas son las variables que son categorizadas en rangos numéricos, es decir, la métrica que se usa para clasificarlos son números; un ejemplo de estas variables podría ser, tu peso corporal, el interés que pagas de tu tarjeta, en la presión del aire en un neumático, etc.

Distribución de frecuencia: este concepto estadístico es la manera representativa en la cual se muestra la información que se ha recolectado sobre los datos o las variables analizadas, por lo general son mediante el uso de una tabla o gráfica y de manera estructurada.

Distribución normal: es un método matemático de modelación que permite determinar las probabilidades de acontecimiento de distintos números de variables, es cualquier conjunto organizado de datos que da una estructura a los mismo para permitir al lector identificar sus aspectos más importantes.

Importe los datos del archivo de Excel ‘pozos’ y conteste lo siguiente usando R:

Estos datos son: Datos de pH y Temperatura de pozos de agua subterránea

library(tidyverse)

## Warning: package 'tidyverse' was built under R version 4.1.2

## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --

## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.4     v dplyr   1.0.7
## v tidyr   1.1.4     v stringr 1.4.0
## v readr   2.0.1     v forcats 0.5.1

## Warning: package 'forcats' was built under R version 4.1.2

## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

library(datasets)
library(readr)
pozos <- read_csv("pozos.csv")

## Rows: 293 Columns: 2

## Warning in min(width - (crayon::col_nchar(types) + nchar(counts) + 4)): no non-
## missing arguments to min; returning Inf

## -- Column specification --------------------------------------------------------

## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.

View(pozos)

Se elaborarán estos incisos 1 vez para pH y otra para Temperatura

A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos.

sort(pozos$PH, decreasing = FALSE)

##   [1] 61 63 64 64 64 64 64 64 64 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65
##  [26] 65 66 66 66 66 66 66 66 66 66 66 66 66 66 66 66 66 66 66 66 66 66 66 66 67
##  [51] 67 67 67 67 67 67 67 67 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68
##  [76] 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68
## [101] 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 69 69 69 69 69 69 69 69 69
## [126] 69 69 69 69 69 69 69 69 69 69 69 69 69 69 69 69 69 69 69 69 69 69 69 69 69
## [151] 69 69 69 69 69 69 69 69 69 69 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70
## [176] 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70
## [201] 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70
## [226] 70 70 70 70 70 70 70 70 70 70 70 70 70 71 71 71 71 71 71 71 71 71 71 71 71
## [251] 71 71 71 71 71 71 71 71 71 71 71 71 71 71 71 71 71 71 72 72 72 72 72 72 72
## [276] 72 72 72 72 72 73 73 73 73 73 73 74 74 74 74 74 74 75

sort(pozos$TEMP, decreasing = FALSE)

##   [1] 256 258 262 263 263 264 264 268 268 269 270 270 271 272 272 273 273 273
##  [19] 273 274 274 274 274 274 275 275 275 275 275 275 275 275 275 275 275 275
##  [37] 276 277 277 277 277 278 278 278 278 278 278 278 278 278 278 278 279 279
##  [55] 279 279 279 279 279 279 279 279 279 279 279 279 280 280 280 280 280 280
##  [73] 280 280 280 280 280 280 280 280 280 280 280 280 281 281 281 282 282 282
##  [91] 282 282 282 282 282 282 282 282 282 283 283 283 283 283 283 283 284 284
## [109] 284 284 284 284 284 285 285 285 285 285 285 285 285 285 286 286 286 286
## [127] 286 286 286 286 286 286 286 286 286 286 286 286 286 286 286 287 287 287
## [145] 287 287 287 287 287 287 287 287 287 287 288 288 288 288 288 288 288 288
## [163] 288 288 288 288 289 289 289 289 289 289 289 289 289 289 289 289 289 289
## [181] 289 289 289 289 290 290 290 290 290 290 290 290 290 290 290 290 290 290
## [199] 291 291 291 291 291 291 291 291 291 291 291 292 292 292 292 292 292 292
## [217] 292 292 292 292 292 292 292 293 293 293 293 294 294 294 294 294 294 294
## [235] 294 294 294 294 295 295 295 295 295 295 295 295 295 296 296 296 297 297
## [253] 298 298 298 298 298 298 299 299 299 299 300 300 300 300 300 300 301 301
## [271] 301 301 302 302 302 303 303 303 303 304 305 306 308 309 311 311 311 312
## [289] 314 315 317 319 321

Tablas con las variables PH y TEMP ordenadas de menor a mayor mediante el uso del comando “sort”.

summary(pozos$PH)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    61.0    68.0    69.0    68.9    70.0    75.0

Indica el valor mínimo y máximo de PH en un sumario.

summary(pozos$TEMP)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     256     280     287     287     292     321

Indica el valor mínimo y máximo de TEMP en un sumario.

Los valores mínimos y máximos son valores extremos y anormales, son numéricamente distantes del resto de los datos, estos valores estadísticos que posiblemente serán erróneos, y no reflejarán la realidad o estarán muy alejados a esta.

range(pozos$PH, na.rm = TRUE)

## [1] 61 75

RangoP = ceiling(max(pozos$PH) - min(pozos$PH))  #Cálculo  PH
RangoP

## [1] 14

Valor del rango de la variable PH.

range(pozos$TEMP, na.rm = TRUE)

## [1] 256 321

RangoT = ceiling(max(pozos$TEMP) - min(pozos$TEMP))  #Cálculo rango TEMP
RangoT

## [1] 65

Valor del rango de la variable TEMP.

El valor del rango nos es útil para comprender el gap entre el valor máximo y el valor mínimo de un valor estadística, mediante este se puede visualizar la dispersión total en una muestra en específico.

B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase.

library(fdth)

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

ph = ceiling(1+log(pozos$PH)) # Numero de intervalos en PH
ph

##   [1] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
##  [38] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
##  [75] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
## [112] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
## [149] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
## [186] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
## [223] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
## [260] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6

Numero de intervalos que manifiesta la variable PH.

Temp = ceiling(1+log(pozos$TEMP)) # Numero de intervalos en TEMP
Temp

##   [1] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
##  [38] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
##  [75] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
## [112] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
## [149] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
## [186] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
## [223] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
## [260] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7

Numero de intervalos que manifiesta la variable TEMP.

form = nclass.Sturges(pozos$PH)
RangoP = ceiling(max(pozos$PH) - min(pozos$PH))  #Cálculo  PH
ancho = round(RangoP/form, 1) #Cálculo ancho de clase.
ancho

## [1] 1.4

Ancho de clase de los datos de la variable PH.

form = nclass.Sturges(pozos$TEMP)
RangoT = ceiling(max(pozos$TEMP) - min(pozos$TEMP))  #Cálculo rango
ancho = round(RangoT/form, 1)
ancho

## [1] 6.5

Ancho de clase de los datos de la variable TEMP.

El ancho de clase es la diferencia entre los límites de la clase, este valor estadístico nos sirve para analizar los valores que varían durante el recorrido de las variables.

C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

tabla_frec <- fdt(pozos)
tabla_frec

## PH 
##     Class limits   f   rf rf(%)  cf  cf(%)
##   [60.39,61.926)   1 0.00  0.34   1   0.34
##  [61.926,63.462)   1 0.00  0.34   2   0.68
##  [63.462,64.998)   7 0.02  2.39   9   3.07
##  [64.998,66.534)  40 0.14 13.65  49  16.72
##   [66.534,68.07)  67 0.23 22.87 116  39.59
##   [68.07,69.606)  44 0.15 15.02 160  54.61
##  [69.606,71.142) 108 0.37 36.86 268  91.47
##  [71.142,72.678)  12 0.04  4.10 280  95.56
##  [72.678,74.214)  12 0.04  4.10 292  99.66
##   [74.214,75.75)   1 0.00  0.34 293 100.00
## 
## TEMP 
##       Class limits  f   rf rf(%)  cf  cf(%)
##   [253.44,260.517)  2 0.01  0.68   2   0.68
##  [260.517,267.594)  5 0.02  1.71   7   2.39
##  [267.594,274.671) 17 0.06  5.80  24   8.19
##  [274.671,281.748) 63 0.22 21.50  87  29.69
##  [281.748,288.825) 79 0.27 26.96 166  56.66
##  [288.825,295.902) 81 0.28 27.65 247  84.30
##  [295.902,302.979) 28 0.10  9.56 275  93.86
##  [302.979,310.056)  9 0.03  3.07 284  96.93
##  [310.056,317.133)  7 0.02  2.39 291  99.32
##   [317.133,324.21)  2 0.01  0.68 293 100.00

Tabla de frecuencias de los datos de pozos.

Tabla PH: se muestra los intervalos que se tomaran en cuenta, seguido de este se encuentra la frecuencia con que aparecen, después a esta su porcentaje de frecuencia la cual se divide en este caso (1/293)x(100), a su derecha está la frecuencia acumulada donde se toma el valor inicial en este caso 1 y se suma con la siguiente frecuencia que igualmente es 1, por lo que se suma la frecuencia acumulada, 1+1, así sucesivamente, por último y no menos importante está el porcentaje de frecuencia acumulado, este divide la frecuencia acumulado entre el total y lo multiplica por 100, en este caso (1/293)x(100).

Tabla TEMP: se muestra los intervalos que se tomaran en cuenta, seguido de este se encuentra la frecuencia con que aparecen, después a esta su porcentaje de frecuencia la cual se divide en este caso (2/293)x(100), a su derecha está la frecuencia acumulada donde se toma el valor inicial en este caso 2 y se suma con la siguiente frecuencia que es 5, por lo que se suma la frecuencia acumulada, 2+5, así sucesivamente, por ultimo está el porcentaje de frecuencia acumulado, este divide la frecuencia acumulado entre el total y lo multiplica por 100, en este caso (2/293)x(100).

D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

plot(tabla_frec)

Histogramas de PH y TEMP: estos nos sirve para representar las diferencias de frecuencias absolutas y relativas entre los intervalos o clases de una variable, en estos histograma el ancho de cada barra corresponde a los límites de la clase PH y TEMP, los límites de cada clase aparecen en el eje de la X y la frecuencia en el eje de la Y. En este caso, el histograma de la clase TEMP indica ser más regular que el de la clase PH.

plot(tabla_frec, type="fp")

Polígonos de frecuencias de PH y TEMP: nos indican la frecuencias absolutas o relativas en los intervalos de PH y TEMP, en lo cual coinciden con los histogramas, también sus valores medios de los intervalos se indican en el eje de X y la frecuencia en el de Y; el polígono de frecuencias sólo toma en consideración el punto medio como representativo de PH y TEMP, lo cual lo hace diferenciarse del histograma.

plot(tabla_frec, type="cfh")

Histograma de frecuencias acumulado de PH y TEMP: aquí sucede algo similar al histograma normal, solo que con la diferencia que en este caso se muestra la frecuencia acumulada poniendo los intervalos de lado del eje X y la frecuencia acumulada de lado del eje de las Y.

E) Obtenga la media, mediana, moda e interprete los resultados.

mean(pozos$PH) # Media PH

## [1] 68.90444

mean(pozos$TEMP) # Media TEMP

## [1] 286.9795

Media de PH y TEMP: la media nos sirve para sacar un promedio de los valores y saber qué valor seria si se distribuyera por igual.

median(pozos$PH) # Mediana PH

## [1] 69

median(pozos$TEMP) # Mediana TEMP

## [1] 287

Mediana de PH y TEMP: la mediana nos sirve para marcar la pauta de tendencia de manera centralizada.

library(modeest)

## Registered S3 method overwritten by 'rmutil':
##   method         from
##   print.response httr

## 
## Attaching package: 'modeest'

## The following object is masked from 'package:fdth':
## 
##     mfv

mlv(pozos$PH, method = "mfv") # Moda PH

## [1] 70

mlv(pozos$TEMP, method = "mfv") # Moda TEMP

## [1] 286

Moda de PH y TEMP: la moda nos sirve para saber qué valor se repite más frecuentemente en todo el conjunto de datos.

F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

var(pozos$PH) # Varianza PH

## [1] 4.908645

var(pozos$TEMP) # Varianza TEMP

## [1] 103.5407

Varianza de PH y TEMP: este dato nos sirve para saber cuál es la variabilidad de los datos entre en comparación con la media del mismo PH y TEMP.

sd(pozos$PH) # Desviacion estandar PH

## [1] 2.215546

sd(pozos$TEMP) # Desviacion estandar TEMP

## [1] 10.17549

Desviación estándar de PH y TEMP: estos valores nos indican que tan alejado o dispersos están los datos de la moda de PH y TEMP.

Puedo interpretar estos valores y deducir que sería bastante incongruente que alguna de estas medidas sea negativa, ya que se volvería inútil hacer una comparación de estos.

G) Elabore gráfico de caja y bigote

boxplot(pozos$PH) # Grafico caja y bigote PH

boxplot(pozos$TEMP) # Grafico caja y bigote TEMP

Grafico de caja y bigotes de PH y TEMP: estos nos sirven para representar gráficamente una serie de datos numéricos a través de sus cuartiles, los cuales son para bifurcar los datos de una distribución.

H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

pairs (pozos)

Para poder decir que hay una relación entre estas dos variables tiene que, a ver un pequeño patrón entre ellos, y no logro identificar ningún patrón de comportamiento que los relaciones, porque concluyo en estos datos no tiene alguna relación estadística coherente.

Pregunta de rescate (opcional):

Mini ensayo de mínimo media y máximo una cuartilla contestando a la pregunta: ¿De qué manera o maneras reales puede México ser un país más desarrollado? Elaboren y argumenten su propuesta o propuestas. (Use datos para fundamentarse)

Es una pregunta bastante compleja, para levantar a México del estancamiento o incluso hundimiento económico en el cual se ha encontrado en las últimas décadas es una tarea que no cual cualquier estrategia de impulso económico puede lograrlo, son muy amplios los factores que tenemos que tomar en cuenta para llegar a considerar a México un país desarrollado, tanto social, política y económicamente hablando. Estando consiente de los factores que ignoro puedo decir que lo que yo propondría para hacer de México una potencia es el que altos mandos del país se enfoquen más en distribuir más los recursos y las riquezas del país y se olviden del amasamiento de poder y capital que deja al país en una dicotomía económica lamentable, como comentaba, tal vez nos deberíamos a enfocar más a mejorar lo que ya tenemos o a arreglar lo que ya arruinamos, incluso las dos a la vez, pero es complicado, pienso que el primer paso para avanzar en ese tarea seria acabar son esa polarización social que tanto marca a nuestro país y comencemos a vernos como un todo, es necesario sembrar propuestas para crear algún sistemas anticorrupción a nivel nacional y estatal, también teniendo en cuenta al mismo tiempo la creación de algún ente político no corrupto e independiente, que considere la estructura federal de gobierno nacional y apoye a los mexicanos.