Examen de la primera unidad de competencia de estadística aplicada

Respuestas amplias y muy bien argumentadas / elaboradas / específicas.

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

Estadistica es una rama de la matematica que nos ayuda a obtener resultados a partir de datos aplicando consigo leyes de probabilidad. La estadistica en la ingenieria es aplicada en la resolucion de problemas ya sean productivos, baja en el numero de errores por proceso, obtimizacion de tiempos, rutas de produccion mas favorables para reducción de costos y personal.

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

Las variables en estadistica puesden ser cualitativas o cuantitativas, las primeras expresan caracteristicas, ejemplo; sexo, estado civil, lugar de nacimiento, etc, y las cuantitativas son expresadas en magnitudes o numeros, ejemplo; edad, altura, peso, etc. la distribucióm de frecuencias nos indica en una tabla cuantas veces se da una ocurrencia para un valor, ayudando a contabilizar mas facil el total de esos datos. la distribucion normal nos ayuda a aproximar valores de una variable a una situacion ideal, esta situacion depende de una funcion que involucra la media y la desviacion tipica

Estos datos son: Datos de pH y Temperatura de pozos de agua subterránea

Se elaborarán estos incisos 1 vez para pH y otra para Temperatura

pozos <- read_csv("POZOS EXAMEN.csv")

## 
## -- Column specification --------------------------------------------------------
## cols(
##   PH = col_double(),
##   TEMP = col_double()
## )

datatable(pozos)

A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos.

# Datos ordenados de pH 

orden.pH <-sort(pH, decreasing=FALSE) 
orden.pH

##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5

# rango total de datos de pH (min-max)
rango<-(pHmax-pHmin)
rango

## [1] 1.4

# Datos ordenados de pH 
Temp <- pozos$TEMP
orden.Temp <-sort(Temp, decreasing=FALSE) 
orden.Temp

##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

# rango total de datos de Temperatura (min-max)
rango1<- (Tempmax-Tempmin)
rango1

## [1] 6.5

B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Surges y el ancho de clase.

No.Datos.pH<-length(pH)
No.Datos.Temp<-length(Temp)

#Numero de clase con Sturges para pH
npH<-nclass.Sturges(pH)
npH

## [1] 10

#Numero de clase con Sturges para Temperatura
nTemp<-nclass.Sturges(Temp)
nTemp

## [1] 10

#ancho de clase para pH
anchopH<-ancho.clase.pH<-(rango/npH)
anchopH

## [1] 0.14

#ancho de clase para Temperatura
anchoTemp<-ancho.clase.Temp<-(rango1/nTemp)
anchoTemp

## [1] 0.65

C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

#Freceuncia absoluta 
abs.pH<-table(pozos$PH)

#Frecuencia relativa
rel.pH<-(abs.pH/margin.table(abs.pH))
rel.pH

## 
##         6.1         6.3         6.4         6.5         6.6         6.7 
## 0.003412969 0.003412969 0.023890785 0.058020478 0.078498294 0.030716724 
##         6.8         6.9           7         7.1         7.2         7.3 
## 0.197952218 0.150170648 0.266211604 0.102389078 0.040955631 0.020477816 
##         7.4         7.5 
## 0.020477816 0.003412969

#Frecuencia relativa porcentual
(rel.pH*100)

## 
##        6.1        6.3        6.4        6.5        6.6        6.7        6.8 
##  0.3412969  0.3412969  2.3890785  5.8020478  7.8498294  3.0716724 19.7952218 
##        6.9          7        7.1        7.2        7.3        7.4        7.5 
## 15.0170648 26.6211604 10.2389078  4.0955631  2.0477816  2.0477816  0.3412969

D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

#Graficos para datos de pH

dist <- fdt(pH, breaks = "Sturges")
# Histograma
hist(pH, col = "hotpink3")

# Polígono de frecuencias absolutas
plot(dist, type = "fp", col = "gray22")

# Histograma de frecuencias acumulado
plot(dist, type = "cfh", col = "green3")

#Graficos para datos de Temp

dist1 <- fdt(Temp, breaks = "Sturges")
# Histograma
hist(Temp, col= "darkorange2")

# Polígono de frecuencias absolutas
plot(dist1, type = "fp", col= "darkorchid2")

# Histograma de frecuencias acumulado
plot(dist1, type = "cfh", col= "darkseagreen1")

E) Obtenga la media, mediana, moda e interprete los resultados.

#Media pH
media <- mean(pH)
paste("La media de la variable pH es", media)

## [1] "La media de la variable pH es 6.89044368600683"

Un valor que nos indica que la mayoria de los datos tiende a tener un valor cercano o proximo a 6.89, como se puede observar con la mediana, el valor central de los datos, se acerca mucho a la media registrada.

#mediana pH
mediana <- median(pH)
paste("La mediana de la variable pH es", mediana)

## [1] "La mediana de la variable pH es 6.9"

Este valor se encuentra muy cercano a los valores de media y moda, por lo cual se puede tomar como representativo, al estar justo al medio de los datos ordenados, nos dice como pueden comportarse los demas datos.

#Moda pH
moda <- mfv(pH)
paste("La moda de la variable pH es", moda)

## [1] "La moda de la variable pH es 7"

Lo cual nos dice que es el dato que mas se presenta en el analisis de las muestras de agua de pozo, que si vemos el histograma de temperatura, esta relacionado de igual manera con el dato que mas se presenta, un valor de entre 28 y 29°C

#Media Temp
media1 <- mean(Temp)
paste("La media de la variable Temp es", media1)

## [1] "La media de la variable Temp es 28.69795221843"

Un valor que nos indica que la mayoria de los datos tiende a tener un valor cercano o proximo a 28.69, como se puede observar con la mediana, el valor central de los datos, se acerca mucho a la media registrada.

#mediana Temp
mediana1 <- median(Temp)
paste("La mediana de la variable Temp es", mediana1)

## [1] "La mediana de la variable Temp es 28.7"

Este valor se encuentra muy cercano a los valores de media, por lo cual se puede tomar como representativo, al estar justo al medio de los datos ordenados, nos dice como pueden comportarse los demas datos.

#Moda Temp
moda1 <- mfv(Temp)
paste("La moda de la variable Temp es", moda1)

## [1] "La moda de la variable Temp es 28.6"

El dato de 28.6, se encuentra entre los que mas fueron analizados para sacar un pH, la comparacion sera analizada mas adelante.

F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

Var.pH<-var(pH)
paste("La varianza de la variable pH es", Var.pH)

## [1] "La varianza de la variable pH es 0.0490864463041751"

Debido a que los rangos de pH en la escala no son muchos, la varianza resulta ser pequeña, al tener un rango muy corto entre los datos, en este caso fue de 0.049, indicando que entre datos hay poca varicion de la unidad medida. Resultaria imposible una varianza y desviacion estandar negativas, ya que es calculada mediante cuadrados.

Desvest.pH<-sd(pH)
paste("La desviacion estandar de la variable pH es", Desvest.pH)

## [1] "La desviacion estandar de la variable pH es 0.22155461246423"

esta variable nos indica que los datos se alejan en promedio 0.221 de la media calculada de pH

Var.Temp<-var(Temp)
paste("La varianza de la variable Temp es", Var.Temp)

## [1] "La varianza de la variable Temp es 1.03540675113376"

Los datos fueron registrados a diversas temperaturas ambientales, y por lo mismo, no hay cambios bruscos de temperatura entre los datos, obteniendo una varianza de 1.03, razonable ya que la mayoria de los datos se concentran entre 27.5 y 29.5.

Desvest.Temp<-sd(Temp)
paste("La desviacion estandar de la variable Temp es", Desvest.Temp)

## [1] "La desviacion estandar de la variable Temp es 1.01754938510805"

esta variable nos indica que los datos se alejan en promedio 1.017 de la media calculada de temperatura.

G) Elabore gráfico de caja y bigote

#Grafico de caja y bigotes para pH
boxplot(pH, col="indianred1")

#Grafico de caja y bigotes para Temperatura
boxplot(Temp, col = "lightseagreen")

H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

plot(pozos$PH, pozos$TEMP)

A simple vista puede observarser que cuando la temperatura fue tomada entre los 27.5 y 29.5 datos, es cuando el pH de entre 6.8 y 7.0 fue registrado, indicando que hay una relacion en el nivel de pH respecto a la temperatura.

E1U1

Bernardo Valenzuela Martínez

23/10/2020