1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?
La estadistica es la disciplina que se relaciona con la recolección, procesamiento, análisis e interpretación de datos numéricos. La estadistica en la ingeniería de software es muy importante, al igual de todos las carreras que la aplican, ya que nos da datos muy exactos que nos permiten analizarlos y hacer inferencias en ellos. Como programadores aplicamos mucho la estadistica al momento de programar, y tambien ayuda mucho en la toma de decisiciones, ya que es aplicada como programación en problemas ambientales, lo cual da datos muy exactos y hacen mas facil una toma de decisiones.
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno.
Cuantitativas: Aquellas con las que tiene sentido hacer operaciones aritméticas como sumar o multiplicar. Tales como estatura y peso
Cualitativas: Las que no son cuantitativas. Usualmente sirven para categorizar a los individuos (sexo, color, especie, marca) o para identificar (nombre, número de identificación).
3.- Defina distribución de frecuencia:
Es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente. La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico.
Explique que es la distribución normal: La distribución normal es un modelo teórico capaz de aproximar satisfactoriamente el valor de una variable aleatoria a una situación ideal.
En otras palabras, la distribución normal adapta una variable aleatoria a una función que depende de la media y la desviación típica. Es decir, la función y la variable aleatoria tendrán la misma representación pero con ligeras diferencias.
Los datos utilizados para realizar el examen individual de la unidad 2 son: pozos.xlsx Alumna: Soto López Nadia Alejandra Id: 00000210930
library(readxl)
pozos <- read_excel("pozos.xlsx")
Datos ordenados de mayor a menor de PH:
Para esto utilizamos el comando sort acompañado de un FALSE que indica que es de menor a mayor.
PH <- t(pozos$PH)
PH <- as.vector(PH)
PH <- PH[1:293]
PH <- as.numeric(PH)
sort(PH,decreasing=FALSE)
## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
Datos ordenados de menor a mayor de temperatura:
Para esto utilizamos el comando sort acompañado de un FALSE que indica que es de menor a mayor.
TEMP <- t(pozos$TEMP)
TEMP <- as.vector(TEMP)
TEMP <- TEMP[1:293]
TEMP <- as.numeric(TEMP)
sort(TEMP,decreasing=FALSE)
## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
Valor máximo de PH:
max(PH)
## [1] 7.5
Valor máximo de PH:
max(TEMP)
## [1] 32.1
Valor mínimo de PH:
min(PH)
## [1] 6.1
Valor mínimo de temperatura:
min(TEMP)
## [1] 25.6
Rango de datos de PH:
max(PH)-min(PH)
## [1] 1.4
Rango de datos de Temperatura:
max(TEMP)-min(TEMP)
## [1] 6.5
Intervalos de PH:
n <- length(PH)
i <- ceiling(sqrt(n))
i
## [1] 18
Intervalos de temperatura:
n <- length(TEMP)
i <- ceiling(sqrt(n))
i
## [1] 18
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
Tabla de frecuencia de PH:
tablaPH<- fdt(PH)
tablaPH
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
Tabla de frecuencia de temperatura:
tablaTem<- fdt(TEMP)
tablaTem
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
La primera columna representa la frecuencia absoluta “f”, despues esta la frecuencia relativa “rf”, esta la frecuencia relativa porcentual “rf%”. tenemos tambien la frecuencia absoluta acumulada que es representada por el “cf”, y por ultimo esta la frecuencia relativa porcentual acumulada que es la “cf%”
Histigrama absoluto de PH:
hist(pozos$PH)
Histograma absoluto de temperatura:
hist(pozos$TEMP)
Poligono de frecuencia de PH:
plot(tablaPH, type = "fp")
title(main = "PH")
Poligono de frecuencia de Temperatura:
plot(tablaTem, type = "fp")
Histograma de frecuencia acumulado de PH:
plot(tablaPH, type = "cfh")
Histograma de frecuencia acumulado de temperatura:
plot(tablaTem, type = "cfh")
Media de PH:
mean(pozos$PH)
## [1] 6.890444
Mediana de PH:
median(pozos$PH)
## [1] 6.9
Moda de PH:
library(modeest)
##
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
##
## mfv
mlv(PH,method = "mfv")
## [1] 7
Media de temperatura:
mean(pozos$TEMP)
## [1] 28.69795
Mediana de temperatura:
median(pozos$TEMP)
## [1] 28.7
Moda de temperatura:
library(modeest)
mlv(TEMP,method = "mfv")
## [1] 28.6
Los datos obtenido en la media del PH 6.89 y de temperatura es 28.69 ya que son los datos promedio de los datos numericos, siendo sumados todos los datos y dividos entre el número de los Tenemos tambien la mediana del PH y la temperatura es el valor central que se encuentra en los datos númericos. Y por ultimo está la moda que representa el dato que aparece con mayor frecuencia en un conjunto de datos.
Desviación estandar de PH
sd(pozos$PH)
## [1] 0.2215546
Desviación estandar de temperatura
sd(pozos$TEMP)
## [1] 1.017549
Varianza de PH:
var(pozos$PH)
## [1] 0.04908645
Varianza de Temperatura:
var(pozos$TEMP)
## [1] 1.035407
Los datos de varianza y disviación estandar, no pueden ser negativos, ya que no podemos trabajar con numeros negativos, y de ser asi estos estarían incorrectos.
Grafico de caja y bigote de PH:
boxplot(pozos$PH)
Grafico de caja y bigote de temperatura:
boxplot(pozos$TEMP)
Grafica de dispersión de PH VS TEMPERATURA
cor(pozos)
## PH TEMP
## PH 1.00000000 -0.02029087
## TEMP -0.02029087 1.00000000