setwd("~/R/ESTADISTICA")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2","plotly", "gganimate","gifski","scales", "rmdformats", "readxl", "ggplot2", "plotly", "gridExtra", "leaflet")
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
pozos <- read_excel("pozos.xlsx")
1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?
La estadistica para mi es una rama de las matematicas que sirve para la recoleccion de informacion, organizacion y para el analisis de los datos para un cierto problema planteado y la aplicacion que le encuentro en la carrera de ingeniería en software seria para el analisis de informacion en una base de datos.
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno.Defina distribución de frecuencia y explique que es la distribución normal.
Variable cuantitativa: Son las que usan para representar cantidades que tengan que ver con numeros, por ejemplo, El peso de una persona
Variable cualitativas: Se usa para describir las caracteristicas de un objeto, por ejemplo, La profesión que tiene una persona; si es doctor, abogado o cualquier otra cosa.
Distribución de frecuencia: La distribución de frecuencia es cuando los datos se concentran en el inicio o al final de la grafica.
Distribución normal: La distribución normal es cuando los datos estan mas concentrados de la mediana o del centro.
A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total
de datos.
table(pozos$PH)
##
## 6.1 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7 7.1 7.2 7.3 7.4 7.5
## 1 1 7 17 23 9 58 44 78 30 12 6 6 1
Como se puede observar, el valor minimo del PH es de 6.1, mientras que el valor maximo del PH es de 7.5, por lo que se puede saber es que el rango de los valores es de 6.1 a 7.5 (6.1-7.5)
table(pozos$TEMP)
##
## 25.6 25.8 26.2 26.3 26.4 26.8 26.9 27 27.1 27.2 27.3 27.4 27.5 27.6 27.7 27.8
## 1 1 1 2 2 2 1 2 1 2 4 5 12 1 4 11
## 27.9 28 28.1 28.2 28.3 28.4 28.5 28.6 28.7 28.8 28.9 29 29.1 29.2 29.3 29.4
## 14 18 3 12 7 7 9 19 13 12 18 14 11 14 4 11
## 29.5 29.6 29.7 29.8 29.9 30 30.1 30.2 30.3 30.4 30.5 30.6 30.8 30.9 31.1 31.2
## 9 3 2 6 4 6 4 3 4 1 1 1 1 1 3 1
## 31.4 31.5 31.7 31.9 32.1
## 1 1 1 1 1
Como se puede observar, el valor minimo de la temperatura es de 25.6, mientras que el valor maximo del PH es de 32.1, por lo que se puede saber es que el rango de los valores es de 25.6 a 32.1 (25.6-32.1)
B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Surges y el ancho de clase.
intervalosPH <- 1+(3.3*log10(length(pozos$PH)))
intervalosPH
## [1] 9.140663
PHancho <- (7.5-6.1)/10
PHancho
## [1] 0.14
intervalosTEMP <- 1+(3.3*log10(length(pozos$TEMP)))
intervalosTEMP
## [1] 9.140663
TEMPancho <- (7.5-6.1)/10
TEMPancho
## [1] 0.14
C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.
PHfrecuencias <- fdt(pozos$PH)
PHfrecuencias
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
En esta tabla se puede ver las frecuencias que hay en cada intervalo, la primera columna: representa los limites de cada invervalo; La segunda columna: representa la frecuencia absoluta de los datos que estan dentro de los limites de cada intervalo; La tercera columna representa la frecuencia relativa; La cuarta columna: representa la frecuencia relativa pero con porcentajes; La quinta columna: representa la frecuencia acumulada que se consigue sumando la frecuencia absolutas de todas los intevalos pasadas; Y la ultima columna: representa la frecuencia acumulada pero con porcentajes.
TEMPfrecuencias <- fdt(pozos$TEMP)
TEMPfrecuencias
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
En esta tabla se puede ver las frecuencias que hay en cada intervalo, la primera columna: representa los limites de cada invervalo; La segunda columna: representa la frecuencia absoluta de los datos que estan dentro de los limites de cada intervalo; La tercera columna representa la frecuencia relativa; La cuarta columna: representa la frecuencia relativa pero con porcentajes; La quinta columna: representa la frecuencia acumulada que se consigue sumando la frecuencia absolutas de todas los intevalos pasadas; Y la ultima columna: representa la frecuencia acumulada pero con porcentajes.
D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.
plot(PHfrecuencias, type="fh")
plot(PHfrecuencias, type="fp")
plot(PHfrecuencias, type="cfh")
E) Obtenga la media, mediana, moda e interprete los resultados.
mean(pozos$PH)
## [1] 6.890444
La mediana se consiguio dividiendo la suma de todos los datos entre los numeros totales de los datos
median(pozos$PH)
## [1] 6.9
La mediana representa el valor del medio ordenado
library(modeest)
## Registered S3 method overwritten by 'rmutil':
## method from
## print.response httr
##
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
##
## mfv
mlv(pozos$PH, method = "mfv")
## [1] 7
La moda es el valor que mas se repite en una muestra, que en este caso es 7.
mean(pozos$TEMP)
## [1] 28.69795
La mediana se consiguio dividiendo la suma de todos los datos entre los numeros totales de los datos
median(pozos$TEMP)
## [1] 28.7
La mediana representa el valor del medio ordenado
library(modeest)
mlv(pozos$TEMP, method = "mfv")
## [1] 28.6
La moda es el valor que mas se repite en una muestra, que en este caso es 28.6
F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas
medidas ser negativas?
G) Elabore gráfico de caja y bigote
boxplot(pozos$PH)
### Como se puede ver en el grafico de PH, la distribución de los datos es normal, ya que los puntos que se salen de la caja representan los casos de datos anormales que rara vez pueden suceder, la linea del medio representa la mediana de los datos y la linea que esta cerca de la media son los cuartiles y las lineas mas alejadas representan los limites de los datos.
boxplot(pozos$TEMP)
### Como se puede ver en el grafico de TEMP, la distribución de los datos es normal, ya que los puntos que se salen de la caja representan los casos de datos anormales que rara vez pueden suceder, la linea del medio representa la mediana de los datos y la linea que esta cerca de la media son los cuartiles y las lineas mas alejadas representan los limites de los datos.
H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a
esta gráfica: ¿Considera que estas 2 variables están relacionadas?