E1U1

Gilberto Aldana

30/10/2021

Examen de la Unidad de Competencias 1

¿Qué es la estadística y qué aplicaciones tiene en ingeniería?

  • La estadística consiste en métodos, procedimientos y fórmulas que permiten recolectar información para luego analizarla y extraer de ella conclusiones relevantes. Se puede decir que es la Ciencia de los Datos y que su principal objetivo es mejorar la comprensión de los hechos a partir de la información disponible.

  • La estadística en ingeniería de Software tiene diferentes usos, pues es utilizada en diferentes áreas como por ejemplo:

    • Administración de proyectos: Se utilizan análisis estadísticos para poder estimar las fechas en las que se realizarán los entregables en los proyectos, así como también estimar los tiempos de las iteraciones (según las metodologías de desarrollo que se esté utilizando)
    • Pruebas de software: Se realiza una hipótesis para cáda método, que es la manera en la que el software debe de funcionar.
    • Calidad de Software: Se utilizan procedimientos estadísticos para saber el porcentaje de fallas que puede haber en servidores o cualquier producto de desarrollos.

Enliste y defina los tipos de variables usados en estadística

  • Cualitativas: son aquellas que expresan características o cualidades, y no pueden ser medidas con números.

  • Cuantitativas: son aquellas que se expresan mediante un número, por tanto, se puede realizar operaciones aritméticas con ellas.

Defina que es distribución de frecuencia

Es la forma en la que un conjunto de datos se clasifica en distintos grupos excluyentes entre sí. Es decir, si un dato pertenece a un grupo no puede pertenecer a otro.

Defina que es la distribución normal

Es un modelo teórico capaz de aproximar satisfactoriamente el valor de una variable aleatoria a una situación ideal.

Importar Datos

Se importan los datos de PH y Temperatura de un archivo Excel (xlsx)

library(readxl)
pozos <- read_excel("pozos.xlsx")
ph <- (pozos$PH)
temp <- (pozos$TEMP)

Se muestran los datos de PH y Temperatura

library(pacman)
p_load(rmdformats,readr,readxl,ggplot2,plotly,DT,xfun,gridExtra,leaflet)
datatable(pozos)

Datos de PH

A continuación, se muestra un resumen de los datos de PH

summary(ph)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.10    6.80    6.90    6.89    7.00    7.50

A continuación, se ordenan los datos de menor a mayor

sort(ph)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5

El valor mínimo del PH es

min(ph)
## [1] 6.1

El valor máximo del PH es

max(ph)
## [1] 7.5

El rango es de

rangoPH <- max(ph)-min(ph)
rangoPH
## [1] 1.4

Datos de Temperatura

A continuación, se muestra un resumen de los datos de Temperatura

summary(temp)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    25.6    28.0    28.7    28.7    29.2    32.1

A continuación, se ordenan los datos de menor a mayor

sort(temp)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

El valor mínimo de la temperatura es

min(temp)
## [1] 25.6

El valor máximo de la temperatura es

max(temp)
## [1] 32.1

El rango es de

rangoTemp <- max(temp)-min(temp)
rangoTemp
## [1] 6.5

Obtenga los intervalos usando la fórmula de Surges y el ancho de clase

  • La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos que son necesarios para representar gráficamente un conjunto de datos estadísticos. Esta regla fue enunciada en 1926 por el matemático alemán Herbert Sturges.
  • Sturges propuso un método sencillo, basado en el número de muestras x que permitiesen encontrar el número de clases y su amplitud de rango. La regla de Sturges es muy utilizada sobre todo en el área de la estadística, específicamente para construir histogramas de frecuencia.
  • La fórmula es: \(k=1+[log2(N)]\)

Intervalos de PH según Sturges

nclass.Sturges(ph)
## [1] 10

El número de intervalos que tiene el PH es de 10

anchoPH <- (rangoPH/nclass.Sturges(ph))
anchoPH
## [1] 0.14

El ancho que tiene el PH es de 0.14

Intervalos de la Temperatura según Sturges

nclass.Sturges(temp)
## [1] 10

El número de intervalos que tiene la temperatura es de 10

anchoTemp <- (rangoTemp/nclass.Sturges(temp))
anchoTemp
## [1] 0.65

El ancho que tiene el PH es de 0.65

Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

Tabla de frecuencias de PH

library('fdth')
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
tablaPH <- fdt(ph, breaks="Sturges")
tablaPH
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

Se puede notar que la frecuencia más alta se encuentra en el intervalo [6.961, 7.114), con un valor de 108, esto representa el 91% de los datos.

Tabla de frecuencias para la Temperatura

tablaTemp <- fdt(temp, braks="Sturges")
tablaTemp
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Se puede notar que la frecuencia mas alta la tiene el intervalo [28.883, 29.59), con un valor de 81, que esto representa el 84.30% de los datos.

Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

Histograma de frecuencias y polígono de frecuencias para PH

hist(ph, main="Tabla de Histogramas de PH")

plot(tablaPH, type = "fh", main= "Histograma de frecuencia absoluta del PH")

plot(tablaPH, type = "fp", main= "Poligono de frecuencia absoluta del PH")

plot(tablaPH, type = "cfh", main= "Histograma de frecuencia acumulada del PH")

Los gráficos indican que los datos más frecuentes se encuentran en el rango de 6.96 a 7.11. En el gráfico de polígonos de frecuencia absoluta también se puede notar que los datos no son normales, teniendo grandes variaciones.

Histograma de frecuencias y polígono de frecuencias para Temperatura

hist(temp, main="Tabla de Histogramas de Temperatura")

plot(tablaTemp, type = "fh", main= "Histograma de frecuencia absoluta de la Temperatura")

plot(tablaTemp, type = "fp", main= "Poligono de frecuencia absoluta de la Temperatura")

plot(tablaTemp, type = "cfh", main= "Histograma de frecuencia acumulada de la Temperatura")

Los gráficos indican que los datos de temperatura más frecuentes se encuentran en el rango de 28.17 y los 28.88. En el gráfico de polígonos de frecuencia absoluta también se puede notar que los datos pueden ser normales, debido a que sus cambios no son tan bruscos como lo son en los gráficos del PH.

Obtenga la media, mediana, moda e interprete los resultados.

Datos para PH

  • Media
mean(ph)
## [1] 6.890444
  • Mediana
median(ph)
## [1] 6.9
  • Moda
mfv(ph)
## [1] 7

Datos para Temperatura

  • Media
mean(temp)
## [1] 28.69795
  • Mediana
median(temp)
## [1] 28.7
  • Moda
mfv(temp)
## [1] 28.6

Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

PH

  • Varianza
var(ph)
## [1] 0.04908645

Al ser la varianza de 0.04908645 se puede considerar pequeña, por lo cual podemos decir que hay muy poca variación entre los datos.

  • Desviación estándar
sd(ph)
## [1] 0.2215546

La desviación es de 0.2215546, por lo cual, indica que los datos tienen una separación aproximada de 0.221 de la media del PH

##Temperatura * Varianza

var(temp)
## [1] 1.035407

Al ser la varianza de 1.035407 se puede considerar pequeña, por lo cual podemos decir que hay muy poca variación entre los datos.

  • Desviación estándar
sd(temp)
## [1] 1.017549

La desviación es de 1.017549, por lo cual, indica que los datos tienen una separación aproximada de 1.017 de la media de la Temperatura

Elabore gráfico de caja y bigote

PH

boxplot(ph)

Temperatura

boxplot(temp)

Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

ggplot(data = pozos) +  geom_point(mapping = aes(x= temp, y= ph), lwd = 2)

Esta es una tabla de dispersión con los datos de PH y Temperatura, podemos ver que hay más datos en el centro del gráfico, con esto puedo decir que las dos variables tienen relación. Al tener un incremento en la temperatura, el PH disminuye, al igual forma, al tener una disminución de la temperatura, el PH aumenta.

Pregunta de rescate (opcional): Mini ensayo de mínimo media y máximo una cuartilla contestando a la pregunta: ¿De qué manera o maneras reales puede México ser un país más desarrollado? Elaboren y argumenten su propuesta o propuesta. (Use datos para fundamentarse)

México puede ser un país desarrollado si comienza a incluir la tecnología en sus procesos, por ejemplo, realizar estudios en los campos con software y hardware que ayuden a saber que el nivel de porcentaje de humedad, esto sería muy útil para el crecimiento de las plantas o cultivo.

También, México tiene distintos climas entre sus estados y puede aprovechar para poder obtener beneficios de este, como por ejemplo, comenzar a obtener más energía solar mediante páneles solares o también con turbinas en caso de mares o eólicas para lugares abiertos. El uso de energías renovables sería de gran ayuda para el país pues reduce sus emisiones. También podría ayudar a que las personas se interesen por utilizar más productos que se alimenten de energía totalmente limpia como lo pueden ser vehículos eléctricos, sustituir electrodomesticos como la estufa a gas por una eléctrica o los calentadores de agua.