EXAMEN UNIDAD 2

Paulina Cortez

26/11/2021

library(pacman)
p_load(rmdformats,readr,readxl,ggplot2,plotly,DT,xfun,gridExtra,leaflet)

Preguntas.

  1. ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

La estadística es una ciencia, la cual es responsable de recopilar información. A su vez se encarga de organizar y procesar dicha información, con el fin de poder interpretar los datos para posteriormente poder llegar a una conclusión. La estadística también se ocupa de la presentación correcta y clara de los análisis realizados. Esta ciencia es de suma importancia ya que es un instrumento muy poderoso que nos ayuda en la toma de decisiones.

La estadística es una parte fundamental dentro de todas las ingenierías, ya que es utilizada como una herramienta que permite el análisis de conjuntos de datos, y a su vez, permite llegar a una conclusión fundamentada. Dentro de la Ingeniería en Software, la estadística permite el análisis de situaciones que el ingeniero requiera, es decir, permite análizar con precisión los datos/información que el ingeniero necesita, todo con el fin de desarrollar software de calidad. Además de lo anterior, mucha estadística “disfrazada” se encuentra dentro de esta rama, tal como la minería de datos o la inteligencia artificial.

  1. Enliste y define los tipos de variables usados en estadística, de 2 ejemplos de cada uno.
  • Variable cualitativa. Son aquellas cualidades que NO pueden ser calculadas mediante números.

    • Nominal. Estas no tienen un orden específico. Por ejemplo: Colores al azar o el estado civil: soltero, casado, viudo o divorciado.

    • Ordinal. Estas siguen un orden o una jerarquía. Por ejemplo: Los datos que se ordenan según su importancia, o el resultado de una carrera: primero, segundo y tercero.

    • Binaria. Estas solamente permiten dos resultados. Por ejemplo: Sí y No, Hombre y Mujer, entre otras.

  • Variable cuantitativa. Son aquellas cualidades que SÍ pueden medirse o expresarse a través de números.

    • Discreta. Aquí se utilizan valores enteros y no finitos. Por ejemplo, la cantidad de familiares que hay en una familia o el número de años que cumple una persona.

    • Continua. Aquí se utilizan valores finitos y se suele caracterizar por usar valores decimales. Por ejemplo el peso o estatura de una persona.

  1. Defina distribución de frecuencia y explique que es la distribución normal
  • Distribución de frecuencia. Se le conoce como distribución de frecuencia a la manera en que un conjunto de datos se clasifica en distintos grupos. Este tipo de distribución facilita la obtención de información que contienen los datos, o bien conocer el número de ocurrencias.

  • Distribución normal. La distribución normal de una variable esta determinada por dos parámetros, su media y su desviación estándar. Esto quiere decir que, cuando los datos se encuentran distribuidos cerca de la media, dichos datos, tienen una distribución normal.

Caso de estudio.

Importar los datos.

library(readxl)
pozos <- read_excel("pozos.xlsx")

Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos.

x <- t(pozos$PH)
x <- as.vector(x)
x <- x[1:293]
ph <- as.numeric(x)
y <- t(pozos$TEMP)
y <- as.vector(y)
tem <- y[1:293]

PH.

sort(ph, decreasing = FALSE)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
  • Valor máximo.
max(ph)
## [1] 7.5
  • Valor mínimo.
min(ph)
## [1] 6.1
  • Rango.
max(ph) - min(ph)
## [1] 1.4

Temperatura.

sort(tem, decreasing = FALSE)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
  • Valor máximo.
max(tem)
## [1] 32.1
  • Valor mínimo.
min(tem)
## [1] 25.6
  • Rango.
max(tem) - min(tem)
## [1] 6.5

Obtenga (el número de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase.

PH.

p <- length(ph)

intervalo <- ceiling(1+log(p,2))
intervalo
## [1] 10

Temperatura.

t <- length(tem)

intervalo1 <- ceiling(1+log(t,2))
intervalo1
## [1] 10

Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

PH.

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
tabla<- fdt(ph)
tabla
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

Dentro de la anterior tabla de frecuencias existen 10 intervalos, donde los datos correspondientes al PH se pueden distribuir. Dentro del primer y segundo intervalo, solamente un valor se encuentra contenido, por lo que la frecuencia absoluta, relativa, relativa porcentual, se mantienen con los mismos datos, sin embargo, las frecuencias acumuladas cambian de valor. Este unico valor representa el 0.34% de la frecuencia relativa porcentual. Dentro del siguiente intervalo se encuentran 7 datos, los cuales representan el 2.39% de la frecuencia relativa y con un total de 9 datos. Los siguientes intervalos representan el 13.65%, 22.87%, 15.02% y 36.86% de la frecuencia relativa respectivamente, con un total de 268 datos, hasta el momento. Dentro de los siguientes dos intervalos, se encuentran 24 datos, 12 en cada uno, por lo que ambos representan el 4.10% de la frecuencia relativa porcentual. Por ultimo en el intervalo [7.421,7.575) solamente se encuentra contenido un dato, por lo que representa un 0.34% de la frecuencia relativa porcentual. Llegando así al 100% de los datos, los cuales son 293.

Temperatura.

tabla1<- fdt(tem)
tabla1
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Dentro de la anterior tabla de frecuencias existen 10 intervalos, donde los datos correspondientes a la temperatura se pueden distribuir. Dentro del primer intervalo se contienen dos datos, los cuales representan el .68% de la frecuencia relativa porcentual. El siguiente intervalo contiene un total de 5 datos, llegando así a un total de 7 datos y el 2.39% del total de los datos. Los siguientes intervalos representan el 5.8%, 21.50%, 26.96%, 27.65% y el 9.56% de la frecuencia relativa porcentual, respectivamente. Llegando así a un totol de 275 datos distribuidos, los cuales representan el 93.86% de todos los datos. El intervalo de [30.298,31.006) contiene 9 datos, mientras que el intervalo [31.006,31.713) contiene 7, estos representan el 3.07% y 2.39% de la frecuencia relativa porcentual, respectivamente. En el último intervalo se contienen 2 datos, por lo que, igual que en el primer intervalo, representa el .68% de la frecuencia relativa porcentual, llegando así al 100% de los datos, con un total de 293.

Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

PH.

plot(tabla, type ="fh")
title(main = "Histograma PH")

plot(tabla, type ="fp")
title(main = "Poligono de frecuencias PH")

Las anteriores gráficas representan las frecuencias dentro de los intervalos presentados anteriormente en la tabla de frecuencias. Se puede observar como la mayor frecuencia se encuentra dentro del intervalo de [6.961,7.114), mientras que en los primeros 2 y en el último intervalo se presenta la menor frecuencia con un total de uno en cada una.

plot(tabla, type = "cfh")
title(main = "Histograma de frecuencias acumuladas PH")

En la anterior gráfica se representa la frecuencia acumulada del PH. Se puede observar que dentro del intervalo [6.961,7.114) existe una mayor frecuencia, ya que este crece mucho de un intervalo a otro. A su vez, se puede ver como a partir de ahí las frecuencias son menores, ya que los saltos no son tan notorios.

Temperatura.

plot(tabla1, type ="fh")
title(main = "Histograma Temperatura")

plot(tabla1, type ="fp")
title(main = "Poligono de frecuencias Temperatura")

Las anteriores gráficas representan las frecuencias dentro de los intervalos presentados anteriormente en la tabla de frecuencias. Con base a ellas, se puede observar como la mayoría de los datos se encuentran dentro de los intervalos [27.467,28.175), [28.175,28.883) y [28.883,29.59), debido que en esa parte de la gráfica se presentan barras más altas.

plot(tabla1, type = "cfh")
title(main = "Histograma de frecuencias acumuladas Temperatura")

En la anterior gráfica se representa la frecuencia acumulada de la temperatura. Se puede observar como dentro de los intervalos [27.467,28.175), [28.175,28.883) y [28.883,29.59) se presenta una mayor frecuencia, ya que los saltos son más notorios. También se puede ver como, a partir de ellos, las frecuencias disminuyen.

Obtenga la media, mediana, moda e interprete los resultados.

PH.

#Media

mean(ph)
## [1] 6.890444
### Mediana. 

median(ph)
## [1] 6.9
#Moda

library(modeest)
## Registered S3 method overwritten by 'rmutil':
##   method         from
##   print.response httr
## 
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
## 
##     mfv
mlv(ph, method = "mfv")
## [1] 7

Con base a los tres valores obtenidos, puedo concluir que los datos se pueden considerar como normales, ya que, la gran mayoría de los datos se encuentran cercanos a la media (6.89) y a la mediana (6.9). Esto se puede comprobar con la moda, ya que la moda representa el valor que más se repite, por lo que, al tener una moda de 7, se puede decir que se encuentra cercanos a su media y mediana.

Temperatura.

#Media

mean (tem)
## [1] 28.69795
#Mediana

median(tem)
## [1] 28.7
#Moda
mlv(tem, method = "mfv")
## [1] 28.6

Con base a los tres valores obtenidos, puedo concluir que los datos se pueden considerar como normales, ya que, la gran mayoría de los datos se encuentran cercanos a la media (28.69) y a la mediana (28.7). Esto se puede comprobar con la moda, ya que la moda representa el valor que más se repite, por lo que, al tener una moda de 28.6, se puede decir que se encuentra cercanos a su media y mediana.

Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

PH.

var(ph)
## [1] 0.04908645
sd(ph)
## [1] 0.2215546

Con base a los valores obtenidos, se puede concluir que estos datos no tienen mucha dispersión, es decir no se existe mucha separación entre los datos. Estos valores no pueden ser negativos ya que, no se pueden trabajar con números negativos dentro de una raíz. Además de ser matemáticamente imposible, ya que para calcular la varianza se elevan al cuadrado los residuos.

Temperatura.

var(tem)
## [1] 1.035407
sd(tem)
## [1] 1.017549

Con base a los valores obtenidos, se puede concluir que estos datos no tienen mucha dispersión, es decir no se existe mucha separación entre los datos. Estos valores no pueden ser negativos ya que, no se pueden trabajar con números negativos dentro de una raíz. Además de ser matemáticamente imposible, ya que para calcular la varianza se elevan al cuadrado los residuos.

Elabore gráfico de caja y bigote

PH.

boxplot(ph)

El anterior gráfico de caja y bigote de los datos correspondientes al PH, nos confirma que los datos no tienen tanta disperción ya que, sus bigotes no son tan largos. Se observa como todos los datos se encuentran concentrados cerca de su media (6.89). También nos indica, que existen pocos valores que extremos, que no han sido tomados en cuenta, ya que no son representativos.

Temperatura.

boxplot(tem)

El anterior gráfico de caja y bigote de los datos correspondientes a la temperatura, nos confirma que los datos no tienen tanta disperción ya que, sus bigotes no son tan largos. Se observa como todos los datos se encuentran concentrados cerca de su media (28.69). También nos indica, que existen más valores extremos, en comparación al gráfico correspondiente a los datos de PH, que no han sido tomados en cuenta, ya que no son representativos.

Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

ggplot(data = pozos)+
  aes(x=tem,y=ph)+
  geom_point()

Después de analizar la gráfica, puedo concluir que, la relación es inversa. La relación inversa significa que ambas variables, en este caso PH y Temperatura se mueven en dirección opuesta.