Examen Probabilidad y Estadística
1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?
La estadística es la forma de explicar el mundo a traves de la ciencia y las matemáticas. Es una disiplina que incluye metodologías como: 1)definir cuidadosamente la situación, 2) recolectar los datos, 3)resumir con precisión los datos y 4)obtener y comunicar las conclusiones significativas. La estadística es una herramienta mul útil en casi cualquier area del conocimiento y la ingeniería, porque nos lleva a un entendimiento más profundo de los resultados y los datos. Más concretamente, en el desarrollo de Software y la informatica en general se utiliza mucho la estadística, inteligencias artificiales y redes neuronales presentes en plataformas que utilizamos día a día, como Google y Facebook, utilizan modelos estadisticos porque necesitan analizar datos y llegar a conclusiones y resultados.
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno.
- Cualitativas: Son las que no se puedes medir ni representar con números, como el estado civil de una persona o su tipo de sangre.
- Cuantitativas: Son las que si se representan con valores númericos, como la edad de una persona o el número de integrantes de su familia.
- Discretas: Son un tipo de cuantitativas que solo pueden tomar valores enteros, como cuando cuentas un número de personas o el número de habitaciones en una casa.
- Continuas: Son un tipo de cuantitativas que pueden tomas valores flotantes, osea, no enteros, como una temperatura o una distancias medidas presisamente con decimales.
Defina distribución de frecuencia y explique qué es la distribución normal.
- La distribución de frecuencia es una forma de representar un listado de datos, ordenandolos en una tabla de acuerdo a una serie de intervalos, y analizando los distintos tipos de frecuencias de cada intervalo.
- Una distribución normal es cuando, en las frecuencias antes mencionadas, la moda, la media y la mediana se acercan mucho, y los datos tienden a ese mismo valores, presentandose más frecuencia cerca de la media. Es una forma de describir la tendencia de una serie de datos, mientras más normales sean más semejantes serán entre sí.
Importe los datos del archivo de Excel ‘pozos’ y conteste lo siguiente usando R:
library(readr)
pozos <- read_csv("pozos.csv")
## Rows: 293 Columns: 2
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## dbl (2): PH, TEMP
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
ph <- pozos$PH
tem <- pozos$TEMP
Estos datos son: Datos de pH y Temperatura de pozos de agua subterránea
Se elaborarán estos incisos 1 vez para pH y otra para Temperatura
A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos.
PH
sort(ph)
## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
Máximo:
max(ph)
## [1] 7.5
Mínimo:
min(ph)
## [1] 6.1
Rango:
ph.r <- max(ph)-min(ph)
ph.r
## [1] 1.4
Temperatura
sort(tem)
## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
Máximo:
max(tem)
## [1] 32.1
Mínimo:
min(tem)
## [1] 25.6
Rango:
tem.r <- max(tem)-min(tem)
tem.r
## [1] 6.5
B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Surges y el ancho de clase.
PH
Número de intervalos:
ph.nc <- nclass.Sturges(ph)
ph.nc
## [1] 10
Ancho de clase:
ph.r/ph.nc
## [1] 0.14
Temperatura
Número de intervalos:
tem.nc <- nclass.Sturges(tem)
tem.nc
## [1] 10
Ancho de clase:
tem.r/tem.nc
## [1] 0.65
C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
PH
ph.fdt <- fdt(ph, breaks="Sturges")
ph.fdt
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
Temperatura
tem.fdt <- fdt(tem, breaks="Sturges")
tem.fdt
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
En ambos casos se pueden ver datos más o menos normales, con ligera tendencia a la derecha (al máximo).
D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.
PH
Histograma:
hist(ph)
Temperatura
Histograma:
hist(tem)
E) Obtenga la media, mediana, moda e interprete los resultados.
PH
Media:
mean(ph)
## [1] 6.890444
Mediana:
median(ph)
## [1] 6.9
Moda:
mfv(ph)
## [1] 7
Temperatura
Media:
mean(tem)
## [1] 28.69795
Mediana:
median(tem)
## [1] 28.7
Moda:
mfv(tem)
## [1] 28.6
Estos datos reafirman lo que dije anteriormente en las distribuciones de frecuencia sobre la normalidad de los datos.
F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?
PH
Varianza
var(ph)
## [1] 0.04908645
Desviación estandar
sd(ph)
## [1] 0.2215546
Temperatura
Varianza
var(tem)
## [1] 1.035407
Desviación estandar
sd(tem)
## [1] 1.017549
No pueden ser negativas.
G) Elabore gráfico de caja y bigote
PH
boxplot(ph)
Temperatura
boxplot(tem)
H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí.
library(ggplot2)
ggplot(pozos, aes(x=ph,y=tem))+
geom_point(colour = 1)
En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?
Probablemente, ya que se ven los datos concentrados en una cierta area.