setwd("~/Probabilidad y Estadistica")
library(readxl)
pozos <-read_excel("pozos.xlsx")
View(pozos)
#Variable de Temperatura
temperatura <- pozos$TEMP
#Ordenar de menor a mayor
sort(temperatura)
## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
min(temperatura)#25.6
## [1] 25.6
max(temperatura)#32.1
## [1] 32.1
range(temperatura)
## [1] 25.6 32.1
nclass.Sturges(temperatura)#Numero de clases 10
## [1] 10
range=max(32.1)-min(25.6)
range
## [1] 6.5
AnchoDeClase=((32.1)-(25.6))/(10)
AnchoDeClase
## [1] 0.65
#Tabla de frecuencias
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
dist <- fdt(temperatura, breaks = "Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
#partir la pantalla en un arreglo de 3x2
par(mfrow=c(3,2))
hist(temperatura, breaks = "Sturges")#histograma
plot(dist, type = "cfh")#histograma de frecuencia acumulada
plot(dist, type = "cfp")#poligono de frecuencia acumulada
plot(dist, type = "fh")#histograma de frecuencia absoluta
plot(dist, type = "fh", col = "blue")# histograma de frecuencias absolutas, azul
#Ambos son proporcionales uno del otro
library(modeest)
##
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
##
## mfv
mean(temperatura) #promedio, media, media aritmética
## [1] 28.69795
#La media (promedio) de un conjunto de datos se encuentra al sumar todos
#los números en el conjunto de datos y luego al dividir entre el número
#de valores en el conjunto.
median(temperatura) #mediana
## [1] 28.7
#La mediana es el valor medio cuando un conjunto de datos se ordena de
#menor a mayor.
summary(temperatura) #Resumen Estadistico
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.6 28.0 28.7 28.7 29.2 32.1
#cargar paquete de moda
#La moda es el número que se presenta con más frecuencia en un
#conjunto de datos.
mfv(temperatura)
## [1] 28.6
#varianza y desviacion estandar
var(temperatura)
## [1] 1.035407
sd(temperatura)
## [1] 1.017549
# es una medida de dispersión que representa la variabilidad de una serie de
#datos respecto a su media
#La desviación estándar es la medida de dispersión más común, que indica
#qué tan dispersos están los datos con respecto a la media.
#Mientras mayor sea la desviación estándar, mayor será la dispersión
#de los datos.
#¿Pueden estas medidas ser negativas?
#La desviacion estandar es un indicador en extremo valioso con muchas
#aplicaciones, un alto porcentaje de las observaciones de la
#distribucion tiene un valor que se encuentra menos de una
#desviacion estandar de la media, por lo cual no puede salir
#un resultado negativo porque se utiliza una raiz cuadrada
#y los numeros imaginarios no se utilizan en probabilidad y estadistica
#grafico de caja y bigote
boxplot(temperatura)
library(ggplot2)

ggplot(data = pozos) +
geom_point(mapping = aes(x=TEMP, y=PH))

#las variables de la temperatura y el agua estan relacionadas
#El pH es afectado mayormente debido a la temperatura