setwd("~/Probabilidad y Estadistica")
library(readxl)
pozos <-read_excel("pozos.xlsx")
View(pozos)

#Variable de Temperatura
temperatura <- pozos$TEMP


#Ordenar de menor a mayor
sort(temperatura)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
min(temperatura)#25.6
## [1] 25.6
max(temperatura)#32.1 
## [1] 32.1
range(temperatura)
## [1] 25.6 32.1
nclass.Sturges(temperatura)#Numero de clases 10
## [1] 10
range=max(32.1)-min(25.6)
range
## [1] 6.5
AnchoDeClase=((32.1)-(25.6))/(10)
AnchoDeClase
## [1] 0.65
#Tabla de frecuencias
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(temperatura, breaks = "Sturges")
dist
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00
#partir la pantalla en un arreglo de 3x2
par(mfrow=c(3,2))
hist(temperatura, breaks = "Sturges")#histograma
plot(dist, type = "cfh")#histograma de frecuencia acumulada
plot(dist, type = "cfp")#poligono de frecuencia acumulada
plot(dist, type = "fh")#histograma de frecuencia absoluta 
plot(dist, type = "fh", col = "blue")# histograma de frecuencias absolutas, azul
#Ambos son proporcionales uno del otro

library(modeest)
## 
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
## 
##     mfv
mean(temperatura)  #promedio, media, media aritmética
## [1] 28.69795
#La media (promedio) de un conjunto de datos se encuentra al sumar todos
#los números en el conjunto de datos y luego al dividir entre el número 
#de valores en el conjunto.

median(temperatura) #mediana 
## [1] 28.7
#La mediana es el valor medio cuando un conjunto de datos se ordena de
#menor a mayor.

summary(temperatura) #Resumen Estadistico
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    25.6    28.0    28.7    28.7    29.2    32.1
#cargar paquete de moda
#La moda es el número que se presenta con más frecuencia en un 
#conjunto de datos.
mfv(temperatura)
## [1] 28.6
#varianza y desviacion estandar
var(temperatura)
## [1] 1.035407
sd(temperatura)
## [1] 1.017549
# es una medida de dispersión que representa la variabilidad de una serie de 
#datos respecto a su media

#La desviación estándar es la medida de dispersión más común, que indica
#qué tan dispersos están los datos con respecto a la media. 
#Mientras mayor sea la desviación estándar, mayor será la dispersión 
#de los datos.


#¿Pueden estas medidas ser negativas?
#La desviacion estandar es un indicador en extremo valioso con muchas
#aplicaciones, un alto porcentaje de las observaciones de la 
#distribucion tiene un valor que se encuentra menos de una 
#desviacion estandar de la media, por lo cual no puede salir
#un resultado negativo porque se utiliza una raiz cuadrada
#y los numeros imaginarios no se utilizan en probabilidad y estadistica



#grafico de caja y bigote
boxplot(temperatura)

library(ggplot2)

ggplot(data = pozos) +
  geom_point(mapping = aes(x=TEMP, y=PH))

#las variables de la temperatura y el agua estan relacionadas
#El pH es afectado mayormente debido a la temperatura