E1U2

Daniel Acedo

26/11/2021

library(fdth,modeest)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
library(pacman)
p_load(rmdformats,readr,readxl,ggplot2,plotly,DT,xfun,gridExtra,leaflet,TSstudio)

Examen de la primera unidad de competencia de probabilidad y estadística

Nombre: Christian Daniel Acedo Chaidez // Matrícula: 00000228373 // Fecha: 26/11/2021

Respuestas amplias y muy bien argumentadas / elaboradas / específicas.

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

En palabras simples la estadística es la ciencia de recolectar, describir e interpretar datos, como se nos enseñó a lo largo de este semestre, se dice que la estadística es el lenguaje universal de la ciencia. Y si lo analizas con detenimiento es completamente cierto, ya que los datos son lo que nos hacen tener una base con la cual trabajar. El arte que implica la estadística, y la forma correcta de implementarlo es lo que hemos estado construyendo con el aprendizaje adquirido proyecto con proyecto. Si utilizamos el arte de la estadística con la metodología correcta, podremos obtener información precisa de los datos que requerimos para nuestros proyectos. Estos métodos incluyen definir cuidadosamente la situación en la que basas tu proyecto, recolectar los datos necesarios y resumirlos con precisión para así obtener y comunicar las conclusiones significativas que estos datos te indicaron.

Hablar de las implicaciones que tiene la estadística en la ingeniería en software es como preguntar qué relación tiene el horneado en el proceso de realización del pan, con esto me refiero a que la ingeniería van en conjunto con la estadística, ya que esta se utiliza como herramienta para realizar importantes avances de datos recopilados de experimentos de uno u otro tipo, es usada para entender la variabilidad de sistemas de medida, control de procesos, así como el control estadístico de procesos para compilar datos y para tomar decisiones con las cuales tendremos una base al momento de empezar un nuevo proyecto. Sin una buena metodología e información, no tendremos un buen resultado.

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

Aunque hay mucho de tipos de variables estadísticas, por norma general podemos encontrarnos dos tipos de variables:

Variables cualitativas: Estas no se pueden medir numéricamente. Por ejemplo: Color de un producto o el género de una persona.

Variables cuantitativas: Estos tienen un valor numérico establecido. Por ejemplo: Precio de un producto o la edad de una persona.

Las variables cuantitativas se pueden clasificar en discretas y continuas:

Variable continua: Toman un valor infinito de valores entre un intervalo de datos. Por ejemplo: La velocidad de un tren, o el tiempo que tarda un corredor en completar los 100 metros lisos.

Variable discreta: Toman un valor finito de valores entre un intervalo de datos. Por ejemplo: Número de sándwiches vendidos o el número de hijos de una familia.

Asimismo, las variables cualitativas se pueden clasificar en ordinales y nominales:

Variable ordinal: Expresa diferentes niveles y orden. Por ejemplo: La posición de alguien en una carrera o la calificación de un alumno

Variable nominal: Expresa un nombre claramente diferenciado. Por ejemplo: el color de piel de una persona, la religión de una persona, o ideología política de una persona.

La distribución de frecuencia es la representación en forma de tabla o gráfica presentada de manera estructurada sobre toda la información que se ha recogido sobre la variable que se estudia. Una distribución normal es el modelo teórico capaz de aproximar satisfactoriamente el valor de una variable aleatoria, cuando en estadística se habla de cómo los datos están distribuidos en una muestra o en una población nos referimos esta misma distribución.

importación de datos

library(readxl)
pozos <- read_excel("pozos.xlsx")
View(pozos)
p<-(pozos$PH)
t<-(pozos$TEMP)

Inciso A)

  • Menor a mayor

  • PH

sort(p,decreasing = FALSE)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
  • Temperatura
sort(t,decreasing = FALSE)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

Valor maximo y minimo

  • PH
max(p)
## [1] 7.5
min(p)
## [1] 6.1
  • Temperatura
max(t)
## [1] 32.1
min(t)
## [1] 25.6

Rango total

  • PH

Los datos de PH cuentan con un rago de de 1.4 esto se debe a que va de 6.1 a 7.5

max(p)-min(p)
## [1] 1.4
  • Temperatura

Los datos de temperatura cuentan con un rago de de 6.5 esto se debe a que va de 25.6 a 32.1

max(t)-min(t)
## [1] 6.5

Inciso B)

  • Intervalos usando la fórmula según Sturges

  • PH

v<-length(p)

inter<-ceiling(sqrt(v))
inter
## [1] 18
  • PH
v<-length(t)

inter<-ceiling(sqrt(v))
inter
## [1] 18

Inciso C)

  • Tabla de frecuencias: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada

  • En la tabla de frecuencia se obseran intervalos los cuales la amplitud tienen 10 similares, y observando la frecuencia absoluta al mismo tiempo, podemos observar que los datos se encuentran dentro de este mismo intervalo, asimismo se aprecia la frecuencia relativa que se obtiene por dividir la frecuencia absoluta por el numero de datos, despues tenemos la frecuencia relativa porcentual en donde podemos apreciar los valores de frecuencia relativa representados en forma de porcentaje para así poder observar de forma más detallada este crecimiento o viceversa, tambien podemos observar la frecuencia acumulada del resultado de sumar en ciclo las frecuencias absolutas y la frecuencia acumulada porcentual, dandonos datos más especificos al momento de visualizar los datos de frecuencia.

  • PH

tablaPH<- fdt(p)
tablaPH
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

Aquí se observa que la frecuencia absoluta mayor es 108, esto nos indica que en el intervalo de 6.961 a 7.114 es donde se encuentra mayor cantidad de valores, representando el 36.86% de los datos y se observa que en el primero segundo y ultimo intervalo se encuentra un solo valor, lo que a comparación de los otros valores estos son mucho menores representando solo el 0.34% de los datos, se observa que hay 293 datos, mirando la frecuencia acumulada porcentual se indica que estos son el 100%.

  • Temperatura
tablaTEMP<- fdt(t)
tablaTEMP
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Con los valores de temperatura la frecuencia absoluta mayor es 81 lo que nos indica que en el intervalo de 28.88 a 29.59 es donde hay más datos, representando el 27.65% de estos y observamos que en el primer y último intervalo se encuentran solo 2 valores, siendo la frecuencia absoluta menor representando solo el 0.68% de los datos.

Inciso D)

  • Histograma

  • PH

plot(tablaPH,type="fh")

En esta gráfica podemos observar la frecuencia de cada intervalo, asimismo nos damos cuenta de que el pico más alto indica que los valores de PH que más se encuentran en estos datos son de 6.96 a 7.11 y los valores de PH que menos se encuentran en este segmento de datos son los de 6.04 a 6.35 y de 7.42 a 7.58.

  • Temperatura
plot(tablaTEMP,type="fh")

En esta gráfica podemos observar que la mayor frecuencia de datos de temperatura se encuentra en los intervalos que van de 28.17 a 29.59 lo que nos ayuda a observar que estos datos son normales por la curvación de la gráfica y que se agrupan en la media.

Poligono de frecuencias

  • PH
plot(tablaPH,type="fp")

En este polígono de frecuencia podemos observar los mismos datos pero más sencillo de analizar observando los aumentos y disminuciones en los valores de los datos de una manera más detallada.

  • Temperatura
plot(tablaTEMP,type="fp")

Histograma de frecuencias acumuladas

  • PH
plot(tablaPH,type="cfh")

Se observa que en este histograma no deja de aumentar, ya que las frecuencias acumuladas se obtienen de sumar sucesivamente las frecuencias absolutas de todos los intervalos.

  • Temperatura
plot(tablaTEMP,type="cfh")

Este histograma al igual que el otro siempre va en aumento ya que las frecuencias acumuladas se obtienen de sumar sucesivamente las frecuencias absolutas de todos los intervalos.

Punto E)

  • Media

  • PH

En promedio el PH es de 6.89

mean(p)
## [1] 6.890444

En promedio la temperatura es de 28.69

  • Temperatura
mean(t)
## [1] 28.69795
  • Mediana

  • PH

Entre la mitad de los valores del PH ordenados de menor a mayor se encuentra la mediana, que en este caso es de 6.9 lo que nos indica que la mitad de los valores van a estar debajo de 6.9 y la otra mitad por encima de 6.9

median(p)
## [1] 6.9

Entre la mitad de los valores del PH ordenados de menor a mayor se encuentra la mediana, en este caso es 28.7 que nos indica que la mitad de los valores van a estar debajo de 28.7 y la otra mitad por encima de 28.7 * Temperatura

median(t)
## [1] 28.7
  • Moda

  • PH

Aqui se observa que el dato que mas se repite (Moda) del ph es de 7.

mfv(p,method="mfv")
## [1] 7
  • Temperatura

Aqui se observa que el dato que mas se repite (Moda) en la temperatura es de 28.6 grados

mfv(t,method="mfv")
## [1] 28.6
  • En estos dos valores (PH y Temperatura) observamos que son normales porque se encuentran cerca de la media y mediana

Inciso F)

  • Varianza

  • PH

Los datos de PH se encuentran agrupados en un mismo sitio ya que entre más cerca esten estos datos de 0, significa que están mas dispersos.

var(p)
## [1] 0.04908645
  • Temperatura

Aqui se puede absorvar de igual forma que los datos estan concentrados alrededor de esta media

var(t)
## [1] 1.035407

Desviacion estandar

Esta nos indican los mismos datos, solo que la desviacion estandar se realiza calculando la raiz cuadrada de la varianza * PH

sd(p)
## [1] 0.2215546
  • Temperatura
sd(t)
## [1] 1.017549

¿Pueden estas medidas ser negativas? No pueden ser negativas, ya que los residuos al ser una raiz cuadrada, no es posible que den un número negativo.

Inciso G)

  • Gráfico de caja y bigote

  • PH

boxplot(p)

Se observa en este gráfico de caja y bigotes que los datos no se encuentran dispersos, ya que esta es pequeña y simetrica a la vez, deduciendo así que los valores son simetricos, ya que estos estan más cerca de la mediana.

  • Temperatura
boxplot(t)

Se observa de igual manera en este gráfico de caja y bigotes que los datos no se encuentran dispersos, un poco más elevados que los de PH, ya que la caja no es tan asimétrica con respecto a la mediana, pero igualmente la gráfica no se inclina ni arriba ni abajo.

Inciso H)

  • Gráfica de dispersión de pH versus temperatura
ggplot(pozos,aes(x=TEMP,y=PH))+geom_point()

¿Considera que estas 2 variables están relacionadas?

No se encuentran relacionadas, ya que no se ve algun patrón similar en ningun punto, no se ve ninguna relación entre la variable independiente sobre la que es dependiente.

Pregunta de rescate (opcional): Mini ensayo de mínimo media y máximo una cuartilla contestando a la pregunta: ¿De qué manera o maneras reales puede México ser un país más desarrollado? Elaboren y argumenten su propuesta o propuestas. (Use datos para fundamentarse)

Hablar de las maneras reales en las que puede México ser un país de primer mundo como lo es Estados Unidos o el Reino Unido por poner un ejemplo es un tema extenso al que se le tiene que tener mucho respeto, y pienso que no es tan fácil como decir “quiero arreglar México”, ya que para cambiar México es necesario que todas las personas pongan su grano de arena, pero nadie va a querer hacer un cambio real si el mismo gobierno no hace bien su trabajo, habiendo tanta corrupción, desinformación e ignorancia.

Toco estos puntos porque, una manera real en la que México pueda ser un país más desarrollado sería invertir en la educación, e investigar nuevas maneras de llegar a las personas. Informar a las personas de cosas tan sencillas como son los impuestos, los negocios e inclusive la misma educación.

Hablar sobre la educación en México nos remonta a una situación que merece atención, esto debido a que en la realización de la prueba del Programa para la Evaluación Internacional de Alumnos (PISA) se dedujo que el rendimiento escolar de los alumnos mexicanos (423 puntos) está debajo del promedio de los países de la OCDE (493 puntos).

Con esta situación en mente y con la llegada de la COVID-19 que provocó el cierre de múltiples escuelas alrededor del mundo se han detectado múltiples oportunidades de mejora, por ejemplo, varios de los estudiantes que no se inscribieron en el ciclo escolar 2020-2021 se relaciona con:

• 26.6% considera que las clases a distancia son poco funcionales para el aprendizaje. • 25.3% señala que alguno de sus padres o tutores se quedaron sin trabajo. • 21.9% carece de computadora o dispositivos digitales que los ayuden a conectarse a internet.

Por lo que pienso que, si nos enfocamos en ayudar a las personas que no tienen acceso a una educación digna, podremos reparar a México desde los cimientos, que son las personas, y hay distintas maneras de poder ayudar, tanto económicamente, como ayudando a personas a abrir los ojos de lo que verdaderamente se está enfrentando nuestro país.

Los países del primer mundo tienen las mejores escuelas y la mejor educación del mundo, ¿porque México no le da la importancia necesaria a este aspecto?, pienso que podríamos incentivar a las personas por medio de diferentes acciones como podrían ser el arte o proyectos sociales que involucren a las personas a querer crecer como personas y crecer junto a México para tener una mejor sociedad, menos ignorante y más preparada para el mundo de la adultez.