1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?
R: La estadistica es la practica de obtener conclusiones validas acerca de un gran grupo que podemos llamar como poblacion, que son nuestros datos, sin la necesidad de evaluar a todo el grupo porque muchas veces puede ser infinito. A la pequeña parte analizada se le llama muestra, con el objetivo de deducir ciertos datos u hechos acerca de la poblacion que vimos gracias a la muestra. Algunas aplicaciones en la ingenieria vienen directamente relacionadas a la calidad del producto que maneje la empresa, un ejemplo de esto viene siendo cuando se busca comprender la variabilidad en los consumidores y opiniones, obtener promedios de uso en que circunstancias, horas, edad de las personas que consumen un producto. Otro ejemplo podria ser cuando se buscan materiales para completar algun proyecto tecnologico, se busca el promedio de los elementos ya sean elasticidad, dureza, etc. necesarios en ciertos materiales y estos como pueden variar en exactitud.
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno.
R:
Cualitativa nominal que son aquellas cuyos datos no tienen orden como los colores o por ejemplo si se busca una estadistica de los cereales serian los tipos de cereales.
Cualitativa ordinal donde los datos siguen una jerarquia como el nivel socio economico de las personas (alto, medio, bajo), o bien el nivel de calidad de un mismo producto hecho por distintas empresas
Las cualitativas binarias que como su nombre lo indica, solo pueden ser dos valores, como el sol y la luna, dia y noche, el frio y calor. O si le preguntan a una persona ¿vives cerca? la respuesta seria “si” o “no”.
Cuantitativa discreta que son valores enteros discretos, como numero de amigos de una persona o el numero de dulces que tiene un niño. Sin un limite definido, se pueden extender hasta el infinito.
Cuantitativa continua que es donde se pueden utilizar valores finitos y especificos, normalmente decimales, como la altura de personas o su peso
3.-Defina distribución de frecuencia y explique que es la distribución normal.
La distribución de frecuencias es la forma en la que un conjunto de datos se clasifica en distintos grupos excluyentes entre sí. Lo que quiero decir es, si un dato pertenece a un grupo, no puede pertenecer a otro.
La distribución normal cambia una variable aleatoria a una función dependiente de la media y la desviación típica. Con esto quiero decir que la función y la variable aleatoria tendrán la misma representación con muy ligeras diferencias.
setwd("~/pye1pm")library(fdth)##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
library(modeest)##
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
##
## mfv
library(pacman)
p_load("DT","prettydoc","xfun","readr", "datasets", "ggplot2", "beanplot")
library(readxl)
pozos <- read_excel("pozos.xlsx")
View(pozos)Primero vamos a ordenar los valores de menor a mayor y ver el numero de datos o rango
sort(pozos$PH)## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
numero <- length(pozos$PH)
numero## [1] 293
sort(pozos$TEMP)## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
numero2 <- length(pozos$TEMP)
numero2## [1] 293
Aqui se presentan el valor minimo, el primer y tercer cuartil, la mediana, la media y el valor maximo
summary(pozos$PH)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.10 6.80 6.90 6.89 7.00 7.50
summary(pozos$TEMP)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.6 28.0 28.7 28.7 29.2 32.1
Seguimos con la tabla de frecuencias y las clases junto con el ancho de clase f= frecuencia absoluta rf= frecuencia relativa rf(%) frecuencia relativa porcentual cf= frecuencia acumulada cf(%)=frecuencia acumulada porcentual
Estas tablas dividen nuestros valores del ph y temperatura de pozos en distintas clases o rangos donde se permite tener una idea de la dispersion de los datos, asi como presentar la frecuencia absoluta, relativa, relativa porcentual, acumulada y acumulada porcentual de cada una de estas clases.
tabla1 <- fdt(pozos$PH, breaks = "Sturges")
tabla1## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
tabla2 <- fdt(pozos$TEMP, breaks = "Sturges")
tabla2## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
Continuaremos con los histogramas de frecuencias
Frecuencia absoluta ph
plot(tabla1, type="fh")Frecuencia absoluta temperatura
plot(tabla2, type="fh")Histograma de frecuencias relativas ph
plot(tabla1, type="rfh") Histograma de frecuencias relativas temperatura
plot(tabla2, type="rfh")Histograma de frecuencias acumuladas ph
plot(tabla1, type="cfh")Histograma de frecuencias acumuladas temperatura
plot(tabla2, type="cfh")Ahora se continuara con los poligonos
Polígono de frecuencias absolutas ph
plot(tabla1, type="fp")Polígono de frecuencias absolutas temperatura
plot(tabla2, type="fp")Polígono de frecuencias relativas ph
plot(tabla1, type="rfp")Polígono de frecuencias relativas temperatura
plot(tabla2, type="rfp")Polígono de frecuencias acumuladas ph
plot(tabla1, type="cfp")Polígono de frecuencias acumuladas temperatura
plot(tabla2, type="cfp")ahora las medidas de tendencia central
media, mediana y moda ph
mean(pozos$PH)## [1] 6.890444
median(pozos$PH)## [1] 6.9
mlv(pozos$PH, method="mfv")## [1] 7
6.890444 vendria siendo el valor promedio que toma el ph en estos pozos. 6.9 seria el valor medio de todos, el que se encuentra en el centro de todos sin la exactitud del promedio. 7 vendria siendo el valor de ph que tienen la mayoria de los pozos.
media, mediana y moda temperatura
mean(pozos$TEMP)## [1] 28.69795
median(pozos$TEMP)## [1] 28.7
mlv(pozos$TEMP, method="mfv")## [1] 28.6
28.69795 vendria siendo el valor promedio que toma la temperatura en estos pozos. 28.7 seria el valor mediano de la temperatura en todos los pozos, el que se encuentra en el centro de todos sin la exactitud del promedio. 28.6 vendria siendo el valor de la temperatura que tienen la mayoria de los pozos.
Continuaremos con las medidas de dispersion lineal
Varianza del ph
var(pozos$PH)## [1] 0.04908645
Esta significa que los datos varian 0.04908645 con respecto a la media ya sea mas que la media o menos, mas no es muy precisa y debido a que es una magnitud, no puede ser negativa.
La desviación estándar del ph
sd(pozos$PH)## [1] 0.2215546
Esta desviacion cuantifica la dispersion de datos con respecto a la media con mayor exactitud que la varianza y al ser bajo significa que los datos tienden a la media. Ya que es una magnitud, no puede ser negativa
Varianza de la temperatura
var(pozos$TEMP)## [1] 1.035407
Esta significa que los datos varian 1.035407 con respecto a la media ya sea mas que la media o menos, mas no es muy precisa y debido a que es una magnitud, no puede ser negativa.
La desviación estándar de la temperatura
sd(pozos$TEMP)## [1] 1.017549
como se dijo anteriormente, esta es la dispersion de datos con respecto a la media y al ser pequeña significa que los pozos tienden a tener una temperatura cercana al promedio
El grafico de caja y bigote del ph
boxplot(pozos$PH)El grafico de caja y bigote de la temperatura
boxplot(pozos$TEMP)plot(pozos$PH, pozos$TEMP)cor(pozos$PH, pozos$TEMP)## [1] -0.02029087
pairs(pozos)A partir de lo que se observa en las graficas de dispersion del punto anterior, se puede deducir que las variables de temperatura y ph no estan relacionadas la una con la otra e incluso se obtiene una correlacion negativa por lo que ambas variables van en distintas direcciones.