E1U2

Roberto Contreras Martínez

26/11/2021

Examen Probabilidad y Estadística

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

La estadística es la forma de explicar el mundo a traves de la ciencia y las matemáticas. Es una disiplina que incluye metodologías como: 1)definir cuidadosamente la situación, 2) recolectar los datos, 3)resumir con precisión los datos y 4)obtener y comunicar las conclusiones significativas. La estadística es una herramienta mul útil en casi cualquier area del conocimiento y la ingeniería, porque nos lleva a un entendimiento más profundo de los resultados y los datos. Más concretamente, en el desarrollo de Software y la informatica en general se utiliza mucho la estadística, inteligencias artificiales y redes neuronales presentes en plataformas que utilizamos día a día, como Google y Facebook, utilizan modelos estadisticos porque necesitan analizar datos y llegar a conclusiones y resultados.

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno.

  • Cualitativas: Son las que no se puedes medir ni representar con números, como el estado civil de una persona o su tipo de sangre.
  • Cuantitativas: Son las que si se representan con valores númericos, como la edad de una persona o el número de integrantes de su familia.
  • Discretas: Son un tipo de cuantitativas que solo pueden tomar valores enteros, como cuando cuentas un número de personas o el número de habitaciones en una casa.
  • Continuas: Son un tipo de cuantitativas que pueden tomas valores flotantes, osea, no enteros, como una temperatura o una distancias medidas presisamente con decimales.

Defina distribución de frecuencia y explique qué es la distribución normal.

  • La distribución de frecuencia es una forma de representar un listado de datos, ordenandolos en una tabla de acuerdo a una serie de intervalos, y analizando los distintos tipos de frecuencias de cada intervalo.
  • Una distribución normal es cuando, en las frecuencias antes mencionadas, la moda, la media y la mediana se acercan mucho, y los datos tienden a ese mismo valores, presentandose más frecuencia cerca de la media. Es una forma de describir la tendencia de una serie de datos, mientras más normales sean más semejantes serán entre sí.

Importe los datos del archivo de Excel ‘pozos’ y conteste lo siguiente usando R:

library(readr)
pozos <- read_csv("pozos.csv")
## Rows: 293 Columns: 2
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## dbl (2): PH, TEMP
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
ph <- pozos$PH
tem <- pozos$TEMP

Estos datos son: Datos de pH y Temperatura de pozos de agua subterránea

Se elaborarán estos incisos 1 vez para pH y otra para Temperatura

A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos.

PH

sort(ph)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5

Máximo:

max(ph)
## [1] 7.5

Mínimo:

min(ph)
## [1] 6.1

Rango:

ph.r <- max(ph)-min(ph)
ph.r
## [1] 1.4

Temperatura

sort(tem)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

Máximo:

max(tem)
## [1] 32.1

Mínimo:

min(tem)
## [1] 25.6

Rango:

tem.r <- max(tem)-min(tem)
tem.r
## [1] 6.5

B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Surges y el ancho de clase.

PH

Número de intervalos:

ph.nc <- nclass.Sturges(ph)
ph.nc
## [1] 10

Ancho de clase:

ph.r/ph.nc
## [1] 0.14

Temperatura

Número de intervalos:

tem.nc <- nclass.Sturges(tem)
tem.nc
## [1] 10

Ancho de clase:

tem.r/tem.nc
## [1] 0.65

C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var

PH

ph.fdt  <- fdt(ph, breaks="Sturges")
ph.fdt
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

Temperatura

tem.fdt  <- fdt(tem, breaks="Sturges")
tem.fdt
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

En ambos casos se pueden ver datos más o menos normales, con ligera tendencia a la derecha (al máximo).

D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

PH

Histograma:

hist(ph)

Temperatura

Histograma:

hist(tem)

E) Obtenga la media, mediana, moda e interprete los resultados.

PH

Media:

mean(ph)
## [1] 6.890444

Mediana:

median(ph)
## [1] 6.9

Moda:

mfv(ph)
## [1] 7

Temperatura

Media:

mean(tem)
## [1] 28.69795

Mediana:

median(tem)
## [1] 28.7

Moda:

mfv(tem)
## [1] 28.6

Estos datos reafirman lo que dije anteriormente en las distribuciones de frecuencia sobre la normalidad de los datos.

F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

PH

Varianza

var(ph)
## [1] 0.04908645

Desviación estandar

sd(ph)
## [1] 0.2215546

Temperatura

Varianza

var(tem)
## [1] 1.035407

Desviación estandar

sd(tem)
## [1] 1.017549

No pueden ser negativas.

G) Elabore gráfico de caja y bigote

PH

boxplot(ph)

Temperatura

boxplot(tem)

H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí.

library(ggplot2)
ggplot(pozos, aes(x=ph,y=tem))+
  geom_point(colour = 1)

En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

Probablemente, ya que se ven los datos concentrados en una cierta area.