Nombre: Víctor Manuel Cota García Matrícula:00000230491 26/11/2021
1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?
La estadística es la ciencia de recopilar, analizar, presentar e interpretar datos, nos permite crear predicciones con base a los datos que poseemos y es una herramienta de suma importancia para el desarrollo humano, así mismo posee infinidad de aplicaciones en función del campo en el que se utilice:
Ingeniería ambiental
Estudios de suelo.
Calidad del aire y agua.
Estudios demográficos.
Predicciones climatológicas.
- Ingeniería automotriz
Mejora de modelos.
Mejoras en la línea de producción.
Marketing.
- Ingeniería en Software
Creación de algoritmos de software.
Creación de bases de datos. …
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.
Variable cuantitativa: Representan cantidades, hay dos tipos de variables cuantitativas, discretas y continuas, las discretas son aquellas que cuentan elementos o valores individuales, como por ejemplo el número de archivos en una computadora según su tipo o las especies de abejas que habitan en un lugar determinado; las variables cuantitativas continuas son aquellas que miden valores continuos o no finitos, como por ejemplo el peso de un objeto o el volumen de este.
-Variables cualitativas_: Son aquellas que expresan características o cualidades, y no pueden ser medidas con números, se dividen en binarias, nominales y ordinales, en el caso de las binarias sólo pueden expresar si o no, por ejemplo el resultado de un partido de fútbol o el resultado de una lotería, mientras que una nominal es una característica propia, por ejemplo la nacionalidad de una persona o el color de sus ojos, y por último una variable ordinal son aquellas que pertenecen a un grupo con una jerarquía, por ejemplo la posición que ocupa un pescador en un torneo o tu puntaje crediticio.
Distribución de frecuencia: Una distribución de frecuencia es una representación, ya sea en formato gráfico o tabular, que muestra el número de observaciones dentro de un intervalo dado. El tamaño del intervalo depende de los datos que se analizan y de los objetivos del analista. Los intervalos deben ser mutuamente excluyentes y exhaustivos.
Distribución normal: Es una distribución de probabilidad que es simétrica con respecto a la media, lo que muestra que los datos cercanos a la media son más frecuentes que los datos alejados de la media.
Importar datos
library(readr)
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
library(modeest)
##
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
##
## mfv
library(readxl)
pozos <- read_excel("pozos.xlsx")
ph <- t(pozos$PH)
ph <- ph[1:293]
temp <- t(pozos$TEMP)
temp <- temp[1:293]
Acidez-pH
Conjunto de datos \(pH\) ordenado de menor a mayor.
sort(ph, decreasing = FALSE)
## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
Máximo del conjunto de datos \(pH\).
max(ph)
## [1] 7.5
- El máximo del conjunto de datos es 7.5.
Mínimo del conjunto de datos \(pH\).
min(ph)
## [1] 6.1
- El mínimo del conjunto de datos es 6.1.
Rango del conjunto de datos \(pH\).
range(ph)
## [1] 6.1 7.5
- El conjunto de datos abarca del 6.1 al 7.5.
Número de intervalos de la clase según Surges
nclass.Sturges(ph)
## [1] 10
- El número de intervalos de la clase es 10.
Tabla de frecuencias del conjunto de datos \(pH\).
distph <- fdt(ph,breaks="Sturges")
distph
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
La tabla se interpreta tal como:
\(f\) = frecuencia absoluta
\(rf\) = frecuencia relativa
\(rf\)(%) = frecuencia relativa porcentual
\(cf\) = frecuencia acumulada
\(cf\)(%) =frecuencia acumulada porcentual
Se observa que durante el primer intervalo \((6.039, 6.193)\) se concentran 1 de los valores que conforman la tabla, siendo estos 293 en total, esto nos da una frecuencia relativa del \(0.34\)%.
El intervalo \((6.653, 6.807)\) existen 67 datos, por esto la frecuencia acumulada aumenta un \(22.87\)% respecto al último intervalo, en \((7.114, 7.268)\) existan 12 valores que entran dentro de este intervalo, aumentado la frecuencia acumulada en un \(4.1\)%, el último valor se posiciona en el último intervalo \((7.421, 7.575)\) llevando la frecuencia acumulada a un \(100\)%.
Histogramas de pH
- Frecuencia absoluta
plot(distph, type = "fh")
- Polígonos de frecuencia absoluta
plot(distph, type = "fp")
- Frecuencia relativa
plot(distph, type = "rfh")
- Polígonos de frecuencia relativa
plot(distph, type = "rfp")
- Frecuencia acumulada
plot(distph, type = "cfh")
- Polígonos de frecuencia acumulada
plot(distph, type = "cfp")
Medidas de tendencia central del conjunto de datos pH
Media
mean(ph)
## [1] 6.890444
- La media del conjunto de datos es \(6.890444\) ya que al cuantificar y promediar estos este es el valor promedio.
Mediana
median(ph)
## [1] 6.9
- Entre los 293 datos del conjunto en el medio de este se encuentra el número \(6.9\).
Moda
mlv(ph, method = "mfv")
## [1] 7
- Con un total de 78 veces, \(7\) es el valor que más se repite en todo el conjunto.
Medidas de Dispersión de Datos de pH
Varianza
var(ph)
## [1] 0.04908645
Desviación Estándar
sd(ph)
## [1] 0.2215546
¿Pueden estas medidas ser negativas?
“El término varianza se refiere a la dispersión de los valores en un conjunto de datos determinado, la varianza no puede ser negativa. El valor más bajo que puede tomar es cero.”
“La desviación estándar no puede ser negativa. Surge de un promedio de cuadrados, por lo que nunca puede ser negativa. El valor más bajo posible es 0, cuando todos los valores sean iguales.”
Gráfico de caja y bigotes
boxplot(ph)
- Se observa que el grueso de los datos se ubican en la parte central de la caja.
Temperatura
Conjunto de datos \(temperatura\) ordenado de menor a mayor.
sort(temp, decreasing = FALSE)
## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
Máximo del conjunto de datos \(temperatura\).
max(temp)
## [1] 32.1
- El máximo del conjunto de datos es 32.1.
Mínimo del conjunto de datos \(temperatura\).
min(temp)
## [1] 25.6
- El mínimo del conjunto de datos es 25.6.
Rango del conjunto de datos \(temperatura\).
range(temp)
## [1] 25.6 32.1
- El conjunto de datos abarca del 25.6 al 32.1.
Número de intervalos de la clase según Surges
nclass.Sturges(temp)
## [1] 10
- El número de intervalos de la clase es 10.
Tabla de frecuencias del conjunto de datos \(temperatura\).
disttemp <- fdt(temp,breaks="Sturges")
disttemp
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
La tabla se interpreta tal como:
\(f\) = frecuencia absoluta
\(rf\) = frecuencia relativa
\(rf\)(%) = frecuencia relativa porcentual
\(cf\) = frecuencia acumulada
\(cf\)(%) =frecuencia acumulada porcentual
Se observa que durante el primer intervalo \((25.344, 26.052)\) se concentran 2 de los valores que conforman la tabla, esto nos da una frecuencia relativa del \(0.68\)%.
En los intervalos 2 a 7 existen 273 valores, formando el \(93.18\)% de los valores.
El intervalo \((30.298, 31.006)\) contiene 9 valores formando estos el \(3.07\)% del volumen de datos, el siguiente intervalo abarca 7 de los valores del conjunto llevando la frecuencia acumulada de un \(99.32\)% a un \(83.28\)% y por último el intervalo final conforma un \(0.68\)% de los datos del conjunto llevando la frecuencia acumulada a un \(100\)%.
Histogramas de temperatura
- Frecuencia absoluta
plot(disttemp, type = "fh")
- Polígonos de frecuencia absoluta
plot(disttemp, type = "fp")
- Frecuencia relativa
plot(disttemp, type = "rfh")
- Polígonos de frecuencia relativa
plot(disttemp, type = "rfp")
- Frecuencia acumulada
plot(disttemp, type = "cfh")
- Polígonos de frecuencia acumulada
plot(disttemp, type = "cfp")
Medidas de tendencia central del conjunto de datos temperatura
Media
mean(temp)
## [1] 28.69795
- Al promediar los datos obtenemos de media \(28.69795\).
Mediana
median(temp)
## [1] 28.7
- Dentro del conjunto de datos, el valor \(28.7\) ocupa la posición central.
Moda
mlv(temp, method = "mfv")
## [1] 28.6
- Dentro del conjunto de datos, el valor \(28.6\) es el que se repite más veces.
Medidas de Dispersión de Datos de pH
Varianza
var(temp)
## [1] 1.035407
Desviación Estándar
sd(temp)
## [1] 1.017549
Gráfico de caja y bigotes
boxplot(temp)
Gráfica de dispersión de pH versus temperatura
plot(x = temp, y = ph, main = "ph vs. temperatura", xlab = "Temperatura", ylab = "pH")
- ¿Considera que estas 2 variables están relacionadas?
La mayoría de datos se concentran en el centro, también podemos observar que cuando aumenta la temperatura la acidez tiende a disminuir, así que considero que las variables se relacionan de la siguiente manera, la temperatura disminuye y el pH aumenta, si la temperatura aumenta el pH disminuye.