E1U2

Luna Ruelas Arturo

26/11/2021

##EXAMEN 2

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

La estadística es básicamente el conjunto de métodos científicos ligados a la toma, organización, recopilación, presentación, interpretación y análsis de datos, tanto para deducción de conclusiones como para la toma de decisiones razonables tomando como base el análisis previo. La estadística es muy utilizada en ingeniería de software, específicamente en la programación pues se ahí se utiliza mucho la recopilación de datos para posteriormente análizarlos e interpretarlos, por ejemplo el programador que desarrolla sistemas para la interpretación de información de diversos campos laborales, uno de estos sistemas desarrollados para la comprensión de datos vendría siendo básicamente este mismo en el que se desarrolla el trabajo (RStudio).

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

Dentro de la estadística existen dos tipos de variables que son:

-Cualitativas: Este tipo de variables son las que hacen referencia a las características o cualidades que no pueden ser calculadas con números, si no que son clasificadas con palabras, por ejemplo: Estado civil, orientación sexual, profesión, etc.

-Cuantitativas: Este tipo de variables son características o cualidades que sí pueden expresarse o medirse a través de números, por ejemplo: Peso, estatura, cantidad de miebros familiares, etc.

A su vez estos dos tipos de variables se subdividen en tres tipos para la cualitativa y dos tipos para la cuantitativa, y estos son:

CUALITATIVAS:

Cualitativa nominal: Estas son aquellas variables que no siguen un orden en específico, como por ejemplo los colores, estos son tales como el negro, naranja, amarillo o también aplica en las nacionalidades, mexicano, argentino, español, etc.

Cualitativas ordinal: Las ordinales son aquellas variables que siguen un orden o jerarquía. Por ejemplo en una carrera de atletismo existe una jerarquía de primero, segundo y tercer lugar, o también en la jerarquía en la que está organizada una empresa, etc.

Cualitativa binaria: Son variables que permiten tan solo dos resultados. Por ejemplo, sí/no, True/False, Hombre/Mujer, etc.

CUANTITATIVAS:

Cuantitativa discreta: Estas son aquellas variables que utilizan valores enteros y no finitis, por ejemplo cantidad de familiares que tiene una persona, cantidad de jugadores que tiene un equipo de futbol en el campo, etc.

Cuantitativas ordinal: Estas son aquellas variables que utilizan valores finitos y objetivos, y suelen caracterizarse por utilizar valores decimales, por ejemplo el peso de una persona, la estatura, etc.

##¿Qué es la distribución de frecuencias? Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la variable por filas. En las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de la información que contienen los datos.

##¿Qué es la distribución de frecuencias? En otras palabras, la distribución normal adapta una variable aleatoria a una función que depende de la media y la desviación típica. Es decir, la función y la variable aleatoria tendrán la misma representación pero con ligeras diferencias.

#Se importaron los datos descargados del drive
library(readxl)
pozos <- read_excel("~/ESTADISTICA R/pozos.xlsx")
View(pozos)

A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos.

#Se implementaron métodos de sort para poder filtrar los datos a variables llamadas "ph" y "temp".

ph <- sort(pozos$PH)
temp <- sort(pozos$TEMP)

#posteriormente estas variables con los datos filtrados se utilizaron para el ordenamiento de estos mismos de manera ascendente, es por ello que dentro de decreasing se encuentra = FALSE ya que no queremos que vaya decreciendo, al igual para estos métodos utilizamos nuevas variables llamadas "ordenPH" y "ordenTEMP".

ordenPH <- sort(ph, decreasing = FALSE )
ordenTEMP <- sort(temp, decreasing = FALSE)

#Posteriormente se utilizaron los metodos "min()", "max()", "range()" para poder así obtener el dato mínimo, máximo y el rango total como se requiere en el punto "A".

minPH <- min(ph)
maxPH <- max(ph)
rangoPH<-range(ph)
minTEMP <- min(temp)
maxTEMP <- max(temp)
rangoTEMP<-range(temp)

#Se agregan las variables solas para que estas puedan ser desplegadas.

#ORDEN PH:

#Agregamiento de variables para desplegar datos
ordenPH
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5

Observamos los datos de ph ordenados de manera ascendente

#ORDEN TEMPERATURA:

#Agregamiento de variables para desplegar datos
ordenTEMP
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

Observamos los datos de la temperatura ordenada de manera ascendente

Mínimo, máximo y rango total de datos de PH:

#Agregamiento de variables para desplegar datos
minPH
## [1] 6.1
maxPH
## [1] 7.5
rangoPH
## [1] 6.1 7.5

Aquí observamos que el valor mínimo de PH que tenemos es de 6.1 con un máximo de 7.5 y podemos observar que el rango total de datos juega entre esos dos valores.

Mínimo, máximo y rango total de datos de TEMP:

#Agregamiento de variables para desplegar datos
minTEMP
## [1] 25.6
maxTEMP
## [1] 32.1
rangoTEMP
## [1] 25.6 32.1

Aquí observamos que el valor mínimo de TEMPERATURA que tenemos es de 25.6 con un máximo de 32.1 y podemos observar que el rango total de datos juega entre esos dos valores.

B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Surges y el ancho de clase.

La formula de Sturges es: \[1+3.32*log(n)\]

#Se calculan los invervalos de "PH" y "TEMP" por el método de sturges, también se calcula el ancho de los intervalos. 

#Método de sturges para calcular intervalos de PH. 
sturgesPH <- nclass.Sturges(ph)
sturgesFPH <- fdth::fdt(ph)

#Método de sturges para calcular intervalos de TEMP.
sturgesTEMP <- nclass.Sturges(ph)
sturgesFTEMP <- fdth::fdt(temp)
#Este ancho  se debe redondear si existe un exceso decimal.
anchoPH <- diff(range(ph)/10)
#Este ancho se debe redondear si existe un exceso decimal.
anchoTEMP <- diff(range(temp)/10)

Insertamos las variables (en chunks) creadas anteriormente para lograr observar los resultados:

Intervalos del PH (ph):

sturgesPH
## [1] 10
sturgesFPH
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

Intervalos de TEMP (temperatura):

sturgesTEMP
## [1] 10
sturgesFTEMP
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Anchura de los intervalos de PH(ph):

anchoPH
## [1] 0.14

Anchura de los intervalos de TEMP(temperatura)

anchoTEMP
## [1] 0.65

C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

#Tabla de frecuencia con limites de clases
tablaPH <- fdth::fdt(ph)
tablaTEMP <- fdth::fdt(temp)

Se coloca la variable creada para desplegar la tabla de frecuencias:

tablaPH
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

Dentro de la tabla de frecuencias podemos observar que mientras en los límites de clases de 6.039 a 6.173 de ph y encontramos una frecuencia de 1 u una frecuencia relativa del 0.00 junto con una porcentual del 0.34% y una frecuencia acumulada del 1. y cómo observamos con forme va aumentando los límites de clases del ph van aumentando las frecuencias, esto hace referencia a que tenemos un 0.34% de que un pozo tenga un ph del rango de 6.039 a 6.173.

tablaTEMP
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

AL igual que en la tabla anterior esta se interpreta por los límites de clase pero en este caso son diferentes rangos los cuales podemos encontrar, y como podemos observar encontramos con una frecuencia de 2, y una recuencia porcentutal de 0.68%, hace referencia al tener un pozo subterraneo hay un 0.68% de que tengan un rango de 25.344 a 26.052 de temperaturas.

D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

PARA TEMP

#Creación de histograma de frecuencia absoluta
plot(tablaTEMP, type = "fh")

#Creación de poligonos de frecuencia absoluta
plot(tablaTEMP, type = "fp")

#Creación de histograma de frecuencia relativa
plot(tablaTEMP, type = "rfh")

#Creación de poligono de frecuencia relativa
plot(tablaTEMP, type = "rfp")

#Creación de histograma de frecuencia acumulativa
plot(tablaTEMP, type = "cfh")

#Creación de histograma de frecuencia acumulativa
plot(tablaPH, type = "cfp")

PARA PH:

#Creación de histograma de frecuencia absoluta
plot(tablaPH, type = "fh")

#Creación de poligonos de frecuencia absoluta
plot(tablaPH, type = "fp")

#Creación de histograma de frecuencia relativa
plot(tablaPH, type = "rfh")

#Creación de poligono de frecuencia relativa
plot(tablaPH, type = "rfp")

#Creación de histograma de frecuencia acumulativa
plot(tablaPH, type = "cfh")

#Creación de histograma de frecuencia acumulativa
plot(tablaPH, type = "cfp")

E) Obtenga la media, mediana, moda e interprete los resultados.

PARA PH:

#Obteniendo la media
mean(tablaPH)
## [1] 6.881179

Observamos una media de 6.881179 de PH, este es el PH mayormente encontrado en el agua de los pozos.

#Obteniendo la mediana
median(tablaPH)
## [1] 6.913473

Aquí encontramos que 6.913473 el punto medio de todos los datos importados sobre PH

#Obteniendo la moda
fdth::mfv(ph)
## [1] 7

Como observamos la moda es de 7, este es el valor que más se repite.

PARA TEMP:

#Obteniendo la media
mean(tablaTEMP)
## [1] 28.72671

Observamos una media de 28.72671 de temperatura, esta es la temperatura mayormente encontrada en el agua de los pozos.

#Obteniendo la mediana
median(tablaTEMP)
## [1] 28.70781

Aquí encontramos que 28.70781 es el punto medio de todos los datos importados sobre temperatura

#Obteniendo la moda
fdth::mfv(temp)
## [1] 28.6

Como observamos la moda es de 28.6, este es el valor que más se repite en las temperaturas.

F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

PARA PH:

var(ph)
## [1] 0.04908645
sd(ph)
## [1] 0.2215546

PARA TEMP:

var(temp)
## [1] 1.035407
sd(temp)
## [1] 1.017549

No, estas medidas no pueden ser negativas pues si nos basamos en los datos de frecuencias anteriores no podríamos tenes frecuencias porcentuales tan elevadas en los rangos centrales entre los rangos 4,5,6, y 7. Esto aplica para PH y TEMP.

G) Elabore gráfico de caja y bigote

boxplot(ph)

boxplot(temp)

H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

pairs(pozos)

Considero que si están relacionadas estas dos variables ya que como podemos observar en donde se encuentra la mediana y la moda es donde se centran mayormente los puntitos que hacen referencia al PH y a TEMP.