1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?
La estadística es una ciencia que usa muestras de datos para conseguir hipotesis dependiendo del calculo de probabilidades, esta tien diversas aplicaciones, la mas resaltable es de la predicción en diversos campos, por ejemplo en la predicción del clima o las pandemias.
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.
Variable cuantitativa: Este tipo de variables puede expresarse atraves de cifras. Algunos ejemplos serian la estatura, el peso, la edad, etc.
Variable cualitativa: Este tipo de variables describe las cualidades, circunstancias o características de un objeto o persona, sin hacer uso de números. Unos ejemplos pueden ser el estado civil, el sexo, la orientación sexual, etc.
Distribución de frecuencia: Es la agrupación de datos en varios intervalos de una muestra de datos que revisa cuantos de estos datos estan dentro de cada intervalo.
Distribución normal: Es un modelo deseado, es decir que generalmente se busca que las muestras de datos se parezcon lo mas posible.
setwd("~/ESTADISTICA/Final") #Directorio de trabajo
library(pacman) #para importar la biblioteca "pacman"
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2","plotly", "gganimate","gifski","scales", "rmdformats", "readxl", "ggplot2", "plotly", "gridExtra", "leaflet")
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
pozos <- read_excel("pozos.xlsx") #Importamos los datos del archivo de excel
Datos del pH
Ordenar datos de pH de menor a mayor y el rango total
table(pozos$PH)
##
## 6.1 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7 7.1 7.2 7.3 7.4 7.5
## 1 1 7 17 23 9 58 44 78 30 12 6 6 1
Se puede observar como el valor mínimo es de 6.1 mientras que el valor máximo es de 7.5, por lo tanto, sabemos que el rango es desde 6.1 hasta 7.5 y este se representa así: (6.1, 7.5)
Obtener el número de intervalos y ancho de clase de los datos de pH
numIntervalosPH <- 1+(3.3*log10(length(pozos$PH)))
numIntervalosPH
## [1] 9.140663
Aquí obtenemos el número de intervalos utilizando la fórmula de Sturges, en este caso el resultado nos da 9.14, pero se redondea a 10 porque si lo redondeamos a 9 perderíamos los datos que estarían en el último intervalo
anchoPH <- (7.5-6.1)/10
anchoPH
## [1] 0.14
En esta parte sacamos el ancho de los intervalos, este lo sacamos dividiendo la amplitud de los datos por el número de intervalos.
Tabla de frecuencias
frecuenciasPH <- fdt(pozos$PH)
frecuenciasPH
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
Con esta tabla se representan las frecuencias que hay en cada intervalo, en la primera columna se ven los limites de cada clase.
En la segunda columna se muestra la frecuencia absoluta que son la cantidad de los datos que hay dentro de los límites de cada clase.
La tercera columna muestra la frecuencia relativa, la cual se calcula como el cociente de la frecuencia absoluta entre el número total de datos de la muestra.
La cuarta columna es la misma frecuencia relativa pero representada en porcentajes.
La quinta columna es la frecuencia acumulada, esta se consigue sumando las frecuencias absolutas de todas las clases pasadas.
Finalmente, la sexta columna muestra la frecuencia acumulada pero representada en porcentajes.
Histograma
plot(frecuenciasPH, type="fh")
Aquí podemos observar la representación gráfica de las frecuencias absolutas, mientras más grande sea la frecuencia absoluta de cada clase más alta será la barra de la respectiva clase.
Polígono de frecuencias
plot(frecuenciasPH, type="fp")
Aquí podemos observar un polígono de frecuencias absolutas, también vemos como es similar a la gráfica anterior, esto es porque es esencialmente lo mismo, esto se debe a que un polígono de frecuencias se hace uniendo puntos en la parte más alta de las barras de un histograma.
Histograma de frecuencias acumulado
plot(frecuenciasPH, type="cfh")
Este histograma funciona de la misma manera que el histograma anterior, sin embargo, al estar hecho con frecuencias acumuladas se puede ver cómo es una especie de escalera, ya que aparte de los datos que hay en su respectiva clase también se suman los de todas las clases pasadas, es por esa razón que la última clase tiene valor de 293, ya que este es el número de datos de la muestra.
Media
mean(pozos$PH)
## [1] 6.890444
La media se consigue dividiendo la suma de todos los datos de la muestra entre el número total de datos de la muestra, en este caso el resultado de la media es de 6.89, por lo que si se elige un dato de la muestra de manera aleatoria es muy probable que sea cercano a 6.89.
Mediana
median(pozos$PH)
## [1] 6.9
La mediana representa el valor del dato que esta en la posición central de todos los datos ordenados, esto quiere decir que es un valor que representa de manera general la muestra.
Moda
library(modeest)
## Registered S3 method overwritten by 'rmutil':
## method from
## print.response httr
##
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
##
## mfv
mlv(pozos$PH, method = "mfv")
## [1] 7
La moda es el valor que mas se repite en una muestra, que en este caso es 7.
Despues de analizar las medidas de tendencia central podemos decir que los datos son normales, ya que la media, mediana y moda tienen valores muy similares.
Varianza
var(pozos$PH)
## [1] 0.04908645
La varianza representa la variabilidad de una muestra de datos respecto a la media de los mismos, esta se calcula como la suma de los residuos elevados al cuadrado y divididos entre el total de muestras. En este caso tenemos una varianza muy baja, esto quiere decir que si se agregara un nuevo dato es probable que este cercano a la media.
Desviación estándar
sd(pozos$PH)
## [1] 0.2215546
La desviación estándar indica que tan dispersos están los datos respecto a la media, esto quiere decir que mientras más grande sea la desviación estándar, mayor será la dispersión de los datos, en este caso la desviación estándar es baja por lo que los datos de la muestra están concentrados cerca de la media.
Al interpretar las medidas de dispersión se puede concluir que los datos suelen estar cerca de la media y por lo tanto los datos extremos son bastante inusuales y casos que raramente pueden repetirse.
Cabe resaltar que la varianza y la desviación estándar no pueden ser negativas ya que ambas se calculan elevando al cuadrado, por lo que es imposible que resulte en un valor negativo.
Gráfico de caja y bigote
boxplot(pozos$PH)
Aquí vemos un gráfico de caja y bigote, en este se representan varias cosas importantes, la línea gruesa del medio representa la mediana, es decir, la que parte a la mitad los datos, después las dos líneas que están cerca de la mediana, la de abajo es el primer cuartil y la de arriba es el tercer cuartil, después, las líneas más lejanas son los límites para casos extremos leves y finalmente los puntos sueltos fuera de los limites representan los casos extremos fuera del intervalo para casos extremos leves, es decir que son casos muy raros que no es probable que sucedan.
Datos de la temperatura
Ordenar datos de pH de menor a mayor y el rango total
table(pozos$TEMP)
##
## 25.6 25.8 26.2 26.3 26.4 26.8 26.9 27 27.1 27.2 27.3 27.4 27.5 27.6 27.7 27.8
## 1 1 1 2 2 2 1 2 1 2 4 5 12 1 4 11
## 27.9 28 28.1 28.2 28.3 28.4 28.5 28.6 28.7 28.8 28.9 29 29.1 29.2 29.3 29.4
## 14 18 3 12 7 7 9 19 13 12 18 14 11 14 4 11
## 29.5 29.6 29.7 29.8 29.9 30 30.1 30.2 30.3 30.4 30.5 30.6 30.8 30.9 31.1 31.2
## 9 3 2 6 4 6 4 3 4 1 1 1 1 1 3 1
## 31.4 31.5 31.7 31.9 32.1
## 1 1 1 1 1
Se puede observar como el valor mínimo es de 25.6 mientras que el valor máximo es de 32.1, por lo tanto, sabemos que el rango es desde 25.6 hasta 32.1 y este se representa así: (25.6, 32.1)
Obtener el número de intervalos y ancho de clase de los datos de pH
numIntervalosTEMP <- 1+(3.3*log10(length(pozos$TEMP)))
numIntervalosTEMP
## [1] 9.140663
Aquí obtenemos el número de intervalos utilizando la fórmula de Sturges, en este caso el resultado nos da 9.14, pero se redondea a 10 porque si lo redondeamos a 9 perderíamos los datos que estarían en el último intervalo
anchoTEMP <- (32.1-25.6)/10
anchoTEMP
## [1] 0.65
En esta parte sacamos el ancho de los intervalos, este lo sacamos dividiendo la amplitud de los datos por el número de intervalos.
Tabla de frecuencias
frecuenciasTEMP <- fdt(pozos$TEMP)
frecuenciasTEMP
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
Con esta tabla se representan las frecuencias que hay en cada intervalo, en la primera columna se ven los limites de cada clase.
En la segunda columna se muestra la frecuencia absoluta que son la cantidad de los datos que hay dentro de los límites de cada clase.
La tercera columna muestra la frecuencia relativa, la cual se calcula como el cociente de la frecuencia absoluta entre el número total de datos de la muestra.
La cuarta columna es la misma frecuencia relativa pero representada en porcentajes.
La quinta columna es la frecuencia acumulada, esta se consigue sumando las frecuencias absolutas de todas las clases pasadas.
Finalmente, la sexta columna muestra la frecuencia acumulada pero representada en porcentajes.
Histograma
plot(frecuenciasTEMP, type="fh")
Aquí podemos observar la representación gráfica de las frecuencias absolutas, mientras más grande sea la frecuencia absoluta de cada clase más alta será la barra de la respectiva clase.
Polígono de frecuencias
plot(frecuenciasTEMP, type="fp")
Aquí podemos observar un polígono de frecuencias absolutas, también vemos como es similar a la gráfica anterior, esto es porque es esencialmente lo mismo, esto se debe a que un polígono de frecuencias se hace uniendo puntos en la parte más alta de las barras de un histograma.
Histograma de frecuencias acumulado
plot(frecuenciasTEMP, type="cfh")
Este histograma funciona de la misma manera que el histograma anterior, sin embargo, al estar hecho con frecuencias acumuladas se puede ver cómo es una especie de escalera, ya que aparte de los datos que hay en su respectiva clase también se suman los de todas las clases pasadas, es por esa razón que la última clase tiene valor de 293, ya que este es el número de datos de la muestra.
Media
mean(pozos$TEMP)
## [1] 28.69795
La media se consigue dividiendo la suma de todos los datos de la muestra entre el número total de datos de la muestra, en este caso el resultado de la media es de 28.69, por lo que si se elige un dato de la muestra de manera aleatoria es muy probable que sea cercano a 28.69.
Mediana
median(pozos$TEMP)
## [1] 28.7
La mediana representa el valor del dato que esta en la posición central de todos los datos ordenados, esto quiere decir que es un valor que representa de manera general la muestra.
Moda
library(modeest)
mlv(pozos$TEMP, method = "mfv")
## [1] 28.6
La moda es el valor que mas se repite en una muestra, que en este caso es 28.6.
Despues de analizar las medidas de tendencia central podemos decir que los datos son normales, ya que la media, mediana y moda tienen valores muy similares.
Varianza
var(pozos$TEMP)
## [1] 1.035407
La varianza representa la variabilidad de una muestra de datos respecto a la media de los mismos, esta se calcula como la suma de los residuos elevados al cuadrado y divididos entre el total de muestras. En este caso tenemos una varianza baja, esto quiere decir que si se agregara un nuevo dato es probable que este cercano a la media.
Desviación estándar
sd(pozos$TEMP)
## [1] 1.017549
La desviación estándar indica que tan dispersos están los datos respecto a la media, esto quiere decir que mientras más grande sea la desviación estándar, mayor será la dispersión de los datos, en este caso la desviación estándar es baja por lo que los datos de la muestra están concentrados cerca de la media.
Al interpretar las medidas de dispersión se puede concluir que los datos suelen estar cerca de la media y por lo tanto los datos extremos son bastante inusuales y casos que raramente pueden repetirse.
Cabe resaltar que la varianza y la desviación estándar no pueden ser negativas ya que ambas se calculan elevando al cuadrado, por lo que es imposible que resulte en un valor negativo.
Gráfico de caja y bigote
boxplot(pozos$TEMP)
Aquí vemos un gráfico de caja y bigote, en este se representan varias cosas importantes, la línea gruesa del medio representa la mediana, es decir, la que parte a la mitad los datos, después las dos líneas que están cerca de la mediana, la de abajo es el primer cuartil y la de arriba es el tercer cuartil, después, las líneas más lejanas son los límites para casos extremos leves y finalmente los puntos sueltos fuera de los limites representan los casos extremos fuera del intervalo para casos extremos leves, es decir que son casos muy raros que no es probable que sucedan.
Gráfica de dispersión de pH y Temperatura
dispersion <- ggplot(data = pozos, aes(x=pozos$TEMP,y=pozos$PH)) +
xlab("Temperatura") +
ylab("pH") +
geom_point()
ggplotly(dispersion)
## Warning: Use of `pozos$TEMP` is discouraged. Use `TEMP` instead.
## Warning: Use of `pozos$PH` is discouraged. Use `PH` instead.
Viendo esta gráfica puedo decir firmemente que estas dos variables no están muy relacionadas, ya que vemos muchos puntos ordenados de manera horizontal, esto quiere decir que hay muchos puntos con el mismo valor de pH, pero con diferente temperatura, por lo que no tiene mucha relación la temperatura con el pH.
cor(pozos)
## PH TEMP
## PH 1.00000000 -0.02029087
## TEMP -0.02029087 1.00000000
Aquí confirmamos que estas dos variables no están muy relacionadas por lo que concluimos que estas 2 variables son independientes una de la otra.