library(pacman)
p_load(rmdformats,readr,readxl,ggplot2,plotly,DT,xfun,gridExtra,leaflet,TSstudio)
1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?
En cuanto a la estadística considero que está ligado intímamente a Ingeniería en Software ya que gracias a todos los sistemas operativos que tenemos a la mano tenemos la facilidad de crear e investigar más a profundidad casos de estudio con las herramientas que nos brinda
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.
Variables cuantitativas: Se le define a variables cuantitativas como las variables que se expresan numéricamente y nos ayudan a tener una idea o aproximación numérica.
Variable continua: Toman un valor infinito de valores entre un intervalo de datos.
Variable discretas: Toman solamente valores reales por lo que son muy específicos al momento de seleccionar sus valores ya que sólo toman valores pertenecientes a un conjunto de números
Variable cualitativa: Son variables que se expresan, por norma general, en palabras. Variable ordinal: Expresa diferentes niveles y orden.
Importar Datos
setwd("~/ESTADISTICA")
p <- read_excel("pozos.xlsx")
datatable(p)
pH <- t(p$PH)
pH <- as.vector(pH)
sort(pH, decreasing=FALSE)
## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
pH MÁXIMA Y MÍNIMA
max(pH)
## [1] 7.5
min(pH)
## [1] 6.1
TEMP <- t(p$TEMP)
TEMP <- as.vector(TEMP)
sort(TEMP, decreasing=FALSE)
## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
TEMPERATURA MÁXIMA Y MÍNIMA
max(TEMP)
## [1] 32.1
min(TEMP)
## [1] 25.6
B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Surges y el ancho de clase.
nclass.Sturges(pH)
## [1] 10
nclass.Sturges(TEMP)
## [1] 10
C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
tablapH <- fdt(pH)
tablapH
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
library(fdth)
tablaTemp <- fdt(TEMP)
tablaTemp
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.
plot(tablapH, type = "fh", col="sky blue")
title(main = "Histograma pH")

plot(tablapH, type = "fp", pch=19, col="red")
title(main = "Polígono de frecuencia pH")

plot(tablapH, type = "cfh", col="sky blue")
title(main = "Histograma Frecuencia Acumulada pH")

plot(tablapH, type = "cfp", pch=1,col="red")
title(main = "Polígono de frecuencia Acumulada PH")

plot(tablaTemp, type = "fh", col="sky blue")
title(main = "Histograma Temperatura")

plot(tablaTemp, type = "fp", pch=19, col="red")
title(main = "Polígono de frecuencia Temperatura")

plot(tablaTemp, type = "cfh", col="sky blue")
title(main = "Histograma Frecuencia Acumulada Temperatura")

plot(tablaTemp, type = "cfp", pch=1,col="red")
title(main = "Polígono de frecuencia Acumulada Temperatura")

F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?
Tanto la varianza como la desviación estándar, no pueden ser negativas ya que siempre están arraigadas a valores mayores o iguales a 0 por lo que sería imposible dar un desviación o varianza negativa.
Varianza pH
var(pH)
## [1] 0.04908645
Desviación estándar pH
sd(pH)
## [1] 0.2215546
Varianza Temperatura
var(TEMP)
## [1] 1.035407
Desviación estándar Temperatura
sd(TEMP)
## [1] 1.017549
G) Elabore gráfico de caja y bigote
bp <- ggplot(p, aes(y =pH, x=" ") )+
geom_boxplot(width=0.2, fill="sky blue", alpha=0.5)+
stat_boxplot(geom ='errorbar', width = 0.10) +
ylab("pH de los pozos")+
xlab("")+
labs(title=" Gráfico caja y bigote pH pozos", )
bp

bp <- ggplot(p, aes(y =TEMP, x=" ") )+
geom_boxplot(width=0.2, fill="sky blue", alpha=0.3)+
stat_boxplot(geom ='errorbar', width = 0.12) +
ylab("Temperatura POZOS")+
xlab(" ")+
labs(title=" Gráfico caja y bigote Temperatura Pozos", )
bp

H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?
En este caso no están relacionadas, sin embargo es sabido que las moléculas de agua se afectan con el calor, cuando hay un incremento en la temperatura el pH disminuye y cuando disminuye la temperatura el pH aumenta.
disp <- ggplot(data = p, aes(x=TEMP,y=pH))+
geom_point()
ggplotly(disp)