E1U2

NadiaSoto

26/11/2021

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

La estadistica es la disciplina que se relaciona con la recolección, procesamiento, análisis e interpretación de datos numéricos. La estadistica en la ingeniería de software es muy importante, al igual de todos las carreras que la aplican, ya que nos da datos muy exactos que nos permiten analizarlos y hacer inferencias en ellos. Como programadores aplicamos mucho la estadistica al momento de programar, y tambien ayuda mucho en la toma de decisiciones, ya que es aplicada como programación en problemas ambientales, lo cual da datos muy exactos y hacen mas facil una toma de decisiones.

2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno.

Cuantitativas: Aquellas con las que tiene sentido hacer operaciones aritméticas como sumar o multiplicar. Tales como estatura y peso

Cualitativas: Las que no son cuantitativas. Usualmente sirven para categorizar a los individuos (sexo, color, especie, marca) o para identificar (nombre, número de identificación).

3.- Defina distribución de frecuencia:

Es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente. La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico.

Explique que es la distribución normal: La distribución normal es un modelo teórico capaz de aproximar satisfactoriamente el valor de una variable aleatoria a una situación ideal.

En otras palabras, la distribución normal adapta una variable aleatoria a una función que depende de la media y la desviación típica. Es decir, la función y la variable aleatoria tendrán la misma representación pero con ligeras diferencias.

Los datos utilizados para realizar el examen individual de la unidad 2 son: pozos.xlsx Alumna: Soto López Nadia Alejandra Id: 00000210930

library(readxl)
pozos <- read_excel("pozos.xlsx")

Datos ordenados de mayor a menor de PH:

Para esto utilizamos el comando sort acompañado de un FALSE que indica que es de menor a mayor.

PH <- t(pozos$PH)
PH <- as.vector(PH)
PH <- PH[1:293]
PH <- as.numeric(PH)

sort(PH,decreasing=FALSE)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5

Datos ordenados de menor a mayor de temperatura:

Para esto utilizamos el comando sort acompañado de un FALSE que indica que es de menor a mayor.

TEMP <- t(pozos$TEMP)
TEMP <- as.vector(TEMP)
TEMP <- TEMP[1:293]
TEMP <- as.numeric(TEMP)

sort(TEMP,decreasing=FALSE)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

Valor máximo de PH:

max(PH)
## [1] 7.5

Valor máximo de PH:

max(TEMP)
## [1] 32.1

Valor mínimo de PH:

min(PH)
## [1] 6.1

Valor mínimo de temperatura:

min(TEMP)
## [1] 25.6

Rango de datos de PH:

max(PH)-min(PH)
## [1] 1.4

Rango de datos de Temperatura:

max(TEMP)-min(TEMP)
## [1] 6.5

Intervalos de PH:

n <- length(PH)
i <- ceiling(sqrt(n))
i
## [1] 18

Intervalos de temperatura:

n <- length(TEMP)
i <- ceiling(sqrt(n))
i
## [1] 18
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var

Tabla de frecuencia de PH:

tablaPH<- fdt(PH)
tablaPH
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

Tabla de frecuencia de temperatura:

tablaTem<- fdt(TEMP)
tablaTem
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

La primera columna representa la frecuencia absoluta “f”, despues esta la frecuencia relativa “rf”, esta la frecuencia relativa porcentual “rf%”. tenemos tambien la frecuencia absoluta acumulada que es representada por el “cf”, y por ultimo esta la frecuencia relativa porcentual acumulada que es la “cf%”

Histigrama absoluto de PH:

hist(pozos$PH)

Histograma absoluto de temperatura:

hist(pozos$TEMP)

Poligono de frecuencia de PH:

plot(tablaPH, type = "fp")
title(main = "PH")

Poligono de frecuencia de Temperatura:

plot(tablaTem, type = "fp")

Histograma de frecuencia acumulado de PH:

plot(tablaPH, type = "cfh")

Histograma de frecuencia acumulado de temperatura:

plot(tablaTem, type = "cfh")

Media de PH:

mean(pozos$PH)
## [1] 6.890444

Mediana de PH:

median(pozos$PH)
## [1] 6.9

Moda de PH:

library(modeest)
## 
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
## 
##     mfv
mlv(PH,method = "mfv")
## [1] 7

Media de temperatura:

mean(pozos$TEMP)
## [1] 28.69795

Mediana de temperatura:

median(pozos$TEMP)
## [1] 28.7

Moda de temperatura:

library(modeest)
mlv(TEMP,method = "mfv")
## [1] 28.6

Los datos obtenido en la media del PH 6.89 y de temperatura es 28.69 ya que son los datos promedio de los datos numericos, siendo sumados todos los datos y dividos entre el número de los Tenemos tambien la mediana del PH y la temperatura es el valor central que se encuentra en los datos númericos. Y por ultimo está la moda que representa el dato que aparece con mayor frecuencia en un conjunto de datos.

Desviación estandar de PH

sd(pozos$PH)
## [1] 0.2215546

Desviación estandar de temperatura

sd(pozos$TEMP)
## [1] 1.017549

Varianza de PH:

var(pozos$PH)
## [1] 0.04908645

Varianza de Temperatura:

var(pozos$TEMP)
## [1] 1.035407

Los datos de varianza y disviación estandar, no pueden ser negativos, ya que no podemos trabajar con numeros negativos, y de ser asi estos estarían incorrectos.

Grafico de caja y bigote de PH:

boxplot(pozos$PH)

Grafico de caja y bigote de temperatura:

boxplot(pozos$TEMP)

Grafica de dispersión de PH VS TEMPERATURA

cor(pozos)
##               PH        TEMP
## PH    1.00000000 -0.02029087
## TEMP -0.02029087  1.00000000