Examen unidad 1

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

R: La estadistica es la practica de obtener conclusiones validas acerca de un gran grupo que podemos llamar como poblacion, que son nuestros datos, sin la necesidad de evaluar a todo el grupo porque muchas veces puede ser infinito. A la pequeña parte analizada se le llama muestra, con el objetivo de deducir ciertos datos u hechos acerca de la poblacion que vimos gracias a la muestra. Algunas aplicaciones en la ingenieria vienen directamente relacionadas a la calidad del producto que maneje la empresa, un ejemplo de esto viene siendo cuando se busca comprender la variabilidad en los consumidores y opiniones, obtener promedios de uso en que circunstancias, horas, edad de las personas que consumen un producto. Otro ejemplo podria ser cuando se buscan materiales para completar algun proyecto tecnologico, se busca el promedio de los elementos ya sean elasticidad, dureza, etc. necesarios en ciertos materiales y estos como pueden variar en exactitud.

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno.

Cualitativa nominal que son aquellas cuyos datos no tienen orden como los colores o por ejemplo si se busca una estadistica de los cereales serian los tipos de cereales.

Cualitativa ordinal donde los datos siguen una jerarquia como el nivel socio economico de las personas (alto, medio, bajo), o bien el nivel de calidad de un mismo producto hecho por distintas empresas

Las cualitativas binarias que como su nombre lo indica, solo pueden ser dos valores, como el sol y la luna, dia y noche, el frio y calor. O si le preguntan a una persona ¿vives cerca? la respuesta seria “si” o “no”.

Cuantitativa discreta que son valores enteros discretos, como numero de amigos de una persona o el numero de dulces que tiene un niño. Sin un limite definido, se pueden extender hasta el infinito.

Cuantitativa continua que es donde se pueden utilizar valores finitos y especificos, normalmente decimales, como la altura de personas o su peso

3.-Defina distribución de frecuencia y explique que es la distribución normal.

La distribución de frecuencias es la forma en la que un conjunto de datos se clasifica en distintos grupos excluyentes entre sí. Lo que quiero decir es, si un dato pertenece a un grupo, no puede pertenecer a otro.

La distribución normal cambia una variable aleatoria a una función dependiente de la media y la desviación típica. Con esto quiero decir que la función y la variable aleatoria tendrán la misma representación con muy ligeras diferencias.

setwd("~/pye1pm")

library(fdth)

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

library(modeest)

## 
## Attaching package: 'modeest'

## The following object is masked from 'package:fdth':
## 
##     mfv

library(pacman)
p_load("DT","prettydoc","xfun","readr", "datasets", "ggplot2", "beanplot")
library(readxl)
pozos <- read_excel("pozos.xlsx")
View(pozos)

Primero vamos a ordenar los valores de menor a mayor y ver el numero de datos o rango

sort(pozos$PH)

##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5

numero <- length(pozos$PH)
numero

## [1] 293

sort(pozos$TEMP)

##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

numero2 <- length(pozos$TEMP)
numero2

## [1] 293

Aqui se presentan el valor minimo, el primer y tercer cuartil, la mediana, la media y el valor maximo

summary(pozos$PH)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.10    6.80    6.90    6.89    7.00    7.50

summary(pozos$TEMP)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    25.6    28.0    28.7    28.7    29.2    32.1

Seguimos con la tabla de frecuencias y las clases junto con el ancho de clase f= frecuencia absoluta rf= frecuencia relativa rf(%) frecuencia relativa porcentual cf= frecuencia acumulada cf(%)=frecuencia acumulada porcentual

Estas tablas dividen nuestros valores del ph y temperatura de pozos en distintas clases o rangos donde se permite tener una idea de la dispersion de los datos, asi como presentar la frecuencia absoluta, relativa, relativa porcentual, acumulada y acumulada porcentual de cada una de estas clases.

tabla1 <- fdt(pozos$PH, breaks = "Sturges")
tabla1

##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

tabla2 <- fdt(pozos$TEMP, breaks = "Sturges")
tabla2

##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Continuaremos con los histogramas de frecuencias

Frecuencia absoluta ph

plot(tabla1, type="fh")

Frecuencia absoluta temperatura

plot(tabla2, type="fh")

Histograma de frecuencias relativas ph

plot(tabla1, type="rfh")

Histograma de frecuencias relativas temperatura

plot(tabla2, type="rfh")

Histograma de frecuencias acumuladas ph

plot(tabla1, type="cfh")

Histograma de frecuencias acumuladas temperatura

plot(tabla2, type="cfh")

Ahora se continuara con los poligonos

Polígono de frecuencias absolutas ph

plot(tabla1, type="fp")

Polígono de frecuencias absolutas temperatura

plot(tabla2, type="fp")

Polígono de frecuencias relativas ph

plot(tabla1, type="rfp")

Polígono de frecuencias relativas temperatura

plot(tabla2, type="rfp")

Polígono de frecuencias acumuladas ph

plot(tabla1, type="cfp")

Polígono de frecuencias acumuladas temperatura

plot(tabla2, type="cfp")

ahora las medidas de tendencia central

media, mediana y moda ph

mean(pozos$PH)

## [1] 6.890444

median(pozos$PH)

## [1] 6.9

mlv(pozos$PH, method="mfv")

## [1] 7

6.890444 vendria siendo el valor promedio que toma el ph en estos pozos. 6.9 seria el valor medio de todos, el que se encuentra en el centro de todos sin la exactitud del promedio. 7 vendria siendo el valor de ph que tienen la mayoria de los pozos.

media, mediana y moda temperatura

mean(pozos$TEMP)

## [1] 28.69795

median(pozos$TEMP)

## [1] 28.7

mlv(pozos$TEMP, method="mfv")

## [1] 28.6

28.69795 vendria siendo el valor promedio que toma la temperatura en estos pozos. 28.7 seria el valor mediano de la temperatura en todos los pozos, el que se encuentra en el centro de todos sin la exactitud del promedio. 28.6 vendria siendo el valor de la temperatura que tienen la mayoria de los pozos.

Continuaremos con las medidas de dispersion lineal

Varianza del ph

var(pozos$PH)

## [1] 0.04908645

Esta significa que los datos varian 0.04908645 con respecto a la media ya sea mas que la media o menos, mas no es muy precisa y debido a que es una magnitud, no puede ser negativa.

La desviación estándar del ph

sd(pozos$PH)

## [1] 0.2215546

Esta desviacion cuantifica la dispersion de datos con respecto a la media con mayor exactitud que la varianza y al ser bajo significa que los datos tienden a la media. Ya que es una magnitud, no puede ser negativa

Varianza de la temperatura

var(pozos$TEMP)

## [1] 1.035407

Esta significa que los datos varian 1.035407 con respecto a la media ya sea mas que la media o menos, mas no es muy precisa y debido a que es una magnitud, no puede ser negativa.

La desviación estándar de la temperatura

sd(pozos$TEMP)

## [1] 1.017549

como se dijo anteriormente, esta es la dispersion de datos con respecto a la media y al ser pequeña significa que los pozos tienden a tener una temperatura cercana al promedio

El grafico de caja y bigote del ph

boxplot(pozos$PH)

El grafico de caja y bigote de la temperatura

boxplot(pozos$TEMP)

plot(pozos$PH, pozos$TEMP)

cor(pozos$PH, pozos$TEMP)

## [1] -0.02029087

pairs(pozos)

A partir de lo que se observa en las graficas de dispersion del punto anterior, se puede deducir que las variables de temperatura y ph no estan relacionadas la una con la otra e incluso se obtiene una correlacion negativa por lo que ambas variables van en distintas direcciones.