E1U2

Jose Nunez

26/11/2021

library(pacman)
p_load("base64enc", "htmltools", "mime","fdth", "xfun", "prettydoc","readr", "readxl","knitr","DT","dplyr", "ggplot2","plotly", "gganimate","gifski","scales","ggfortify","hrbrthemes","modeest")

Examen Unidad de Competencia 2.

Questionamiento.

¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

La estadística forma parte de la ciencia donde utilizando de manera correcta su metodología podemos emplear sus metodos para que nos permita obtener informacion precisa de datos, desde la situacion definidad, la recoleccion de los datos el resumen preciso y llegar a obtener y comunicar conclusiones significativas con los resultados.

Aplicación en Ingenieria de Software:

Podemos realizar operaciones de manera que con la estadistica y software logremos obtener resultados y faciliten la toma de desiciones, hablese de un Sistema de Información. Además que actualmente es muy utilizada para Inteligencia Artificial donde nos permite el entrenamiento de modelos.

Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

  • Variable Cuantitativa es aquella variable estadística que, a diferencia de la cualitativa, puede expresarse a través de cifras. Por esta razón, puede analizarse con métodos estadísticos.

    • Variables discretas: Son aquellas que toman, solamente, determinados valores y no cualquier valor que se encuentre entre dos de ellos. Por ejemplo, cuando una variable solo puede tomar valores enteros es discreta. Imaginemos el número de coches que posee una persona. Un individuo no puede tener un coche y medio.

    • Variables continuas: Son aquellas que pueden tomar cualquier valor. Habitualmente, esto quiere decir que puede tomar valores que no son enteros. Por ejemplo, el peso de una bolsa de arroz puede ser de 1,25 kg.

  • Variable Cuantitativa es aquella variable estadística que expresa una cualidad, o característica, del objeto o individuo en cuestión. Las variables cualitativas no suelen corresponderse con cifras. Sin embargo, es posible vincularlas con números.

    • Dicotómicas o binarias: Solo admiten dos posibilidades. Por ejemplo, nacional o extranjero.

    • Politómicas: Pueden tener más de dos valores. Estas pueden, a su vez, subclasificarse en:

      • Nominales: No pueden ordenarse en una jerarquía específica, por ejemplo, la profesión.

      • Ordinales: Son aquellas que sí pueden ordenarse, por ejemplo, el nivel que se tiene en un idioma: básico, intermedio, avanzado o nativo.

Caso de Estudio, ph y Temperatura en POZOS

  • Importacion de los Datos de pH y Temperatura de pozos de agua subterránea
pozos <- read_excel("docs/pozos.xlsx")

Ordenamiento de Menor a Mayor

PH

ph <- t(pozos$PH)

ph <- as.vector(ph)

sort(ph, decreasing=FALSE)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
  • valor PH máximo \(7.5\)
maxp <- max(ph)
maxp
## [1] 7.5
  • valor PH minimo \(6.1\)
minp <- min(ph)
minp
## [1] 6.1
  • Rango \(1.4\)
maxp-minp
## [1] 1.4

Temperatura

temp <- t(pozos$TEMP)

temp <- as.vector(temp)

sort(temp, decreasing=FALSE)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
  • valor Temperatura máximo \(32.1\)
maxt <- max(temp)
maxt
## [1] 32.1
  • valor Temperatura minimo \(25.6\)
mint <-min(temp)
mint
## [1] 25.6
  • Rango \(6.5\)
maxt - mint
## [1] 6.5

Obtenga (el número de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase.

PH

nclass.Sturges(ph)
## [1] 10

TEMPERATURA

nclass.Sturges(temp)
## [1] 10

Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

PH

tablap<- fdt(ph)
tablap
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

TEMPERATURA

tablat<- fdt(temp)
tablat
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

Histogramas y Poligonos de Frecuencia del PH

plot(tablap, type = "fh", col="blue")
title(main = "PH")

plot(tablap, type = "fp", pch=19, col="red")
  title(main = "PH")

plot(tablap, type = "cfh", col="blue")
title(main = "PH")

plot(tablap, type = "cfp", pch=19,col="red")
title(main = "PH")

Histogramas y Poligonos de Frecuencia de la Temperatura

plot(tablat, type = "fh", col="blue")
title(main = "Temperatura")

plot(tablat, type = "fp",col="red",pch=19)
  title(main = "Temperatura")

plot(tablat, type = "cfh", col="blue")
title(main = "Temperatura")

plot(tablat, type = "cfp", col = "red",pch = 19, lwd = 2)
title(main = "Temperatura")

Obtenga la media, mediana, moda e interprete los resultados.

PH

  • Media
mean(ph)
## [1] 6.890444
  • Mediana
median(ph)
## [1] 6.9
  • Moda
mlv(ph,method = "mfv")
## [1] 7

Temperatura

  • Media
mean(temp)
## [1] 28.69795
  • Mediana
median(temp)
## [1] 28.7
  • Moda
mlv(temp,method = "mfv")
## [1] 28.6

Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

PH

  • Varianza \(0.049\)
var(ph)
## [1] 0.04908645
  • Desviacion Estandar \(0.22\)
sd(ph)
## [1] 0.2215546

Temperatura

  • Varianza \(1.035\)
var(temp)
## [1] 1.035407
  • Desviacion Estandar \(1.01\)
sd(temp)
## [1] 1.017549

La Varianza no puede ser negativa ya que representa como el conjunto de valores estan dispersos, el minimo valor que puede tomar es 0, por otro lado la desviación estantar mide la dispersion de los datos, entre mas dispersos esten mas grande es su desviacion y de mismo modo no puede ser negativa, en cambio si el resultado es cercano a 0 indica que los datos tienden a estar mas cerca de la media.

Graficos de Caja y Bigote

 bp <- ggplot(pozos, aes(y =ph, x=" ") )+
  geom_boxplot(width=0.2, fill="slateblue", alpha=0.5)+
  stat_boxplot(geom ='errorbar', width = 0.12) +
  ylab("PH POZOS")+
            xlab(" ")+
            labs(title="Gráfico de caja y bigote PH", )
  
bp

 bp <- ggplot(pozos, aes(y =temp, x=" ") )+
  geom_boxplot(width=0.3, fill="slateblue", alpha=0.5)+
  stat_boxplot(geom ='errorbar', width = 0.12)  +
   ylab("Temperatura POZOS")+
            xlab(" ")+
            labs(title="Gráfico de caja y bigote Temperatura", )
  
bp

Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

cor(pozos)
##               PH        TEMP
## PH    1.00000000 -0.02029087
## TEMP -0.02029087  1.00000000
disp <- ggplot(data = pozos, aes(x=temp,y=ph))+
        geom_point()
ggplotly(disp)

Los datos tienen una relacion nula debido a que no siguen una tendencia negativa o positiva, además que los puntos estan demasiado dispersos.