E1U1

Nombre: Andrea Borboa Ramírez Matricula 00000164926

Fecha: 29/10/2021

1. ¿Qué es la estadística y que aplicaciones tiene en la Ingeniería en software?

La estadística son métodos, procedimientos y fórmulas que permiten recolectar información para luego analizarla y extraer de ella conclusiones relevantes. Su principal objetivo es mejorar la comprensión de los hechos a partir de la información disponible.

La estadística es importante en la ingeniería en software ya que ayuda a decidir entre diferentes variables para resolver ecuaciones complejas, se puede aplicar en diferentes especialidades del software como:

  • Software de aplicación: Son programas especialmente disectados para resolver problemas de estadística, hay muchos programas que no son específicamente estadísticos, pero ayudan a realizar cálculos aplicables a la estadística. Algunos ejemplos de ellos pueden ser: Excel, MiniTab, RStudio, Stata, SAS, Matlab, etc.

  • Minado de datos: La minería de datos es el proceso de hallar anomalías, patrones y correlaciones en grandes conjuntos de datos para predecir resultados.

  • Inteligencia de negocios: Son procesos, aplicaciones y tecnologías que facilitan la obtención de datos provenientes de los sistemas de gestión empresarial para su análisis e interpretación.

  • Inteligencia Artificial Integran distintos contrastes, estimaciones, transformaciones y modelos para conseguir una aproximación coherente y total en Análisis de Datos, estableciendo estrategias que dirijan el proceso de modelización, de elección de técnicas y transformaciones a aplicar, y de ayuda a la interpretación de los resultados.

2. Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno.

  • Cuantitativa: Las variables cuantitativas son aquellas variables estadísticas que otorgan, como resultado, un valor numérico.

    • Ejemplos de variables cuantitativas:

      • El peso, la altura o la cantidad de miembros en una familia.

      • La remuneración de los empleados en una empresa.

  • Cualitativa: La variable cualitativa es aquella variable estadística que expresa una cualidad, o característica, del objeto o individuo en cuestión.

    • Ejemplos de variables cualitativas:

      • Etnia o rasa

      • Profesión

3. Defina distribución de frecuencia y explique que es la distribución normal

  • Distribución de frecuencia: La distribución de frecuencias es la forma en la que un conjunto de datos se clasifica en distintos grupos excluyentes entre sí. Es decir, si un dato pertenece a un grupo no puede pertenecer a otro.

    • Tipos de distribuciones de frecuencia: los tipos de distribuciones de frecuencia son los siguientes:

      • Frecuencia absoluta(fi): Es la cantidad de observaciones que pertenecen a cada grupo. También, se interpreta como la cantidad de veces que se repite un suceso.

      • Frecuencia relativa(hi): Se calcula dividiendo la frecuencia absoluta entre el número de datos.

      • Frecuencia absoluta acumulada (Fi): Resulta de sumar las frecuencias absolutas de una clase o grupo de la muestra (o población) con la anterior o las anteriores.

      • Frecuencia relativa acumulada (Hi): Es el resultado de sumar las frecuencias relativas.

  • Distribución Normal: La distribución normal es una distribución con forma de campana donde las desviaciones estándar sucesivas con respecto a la media establecen valores de referencia para estimar el porcentaje de observaciones de los datos.

4. Importe los datos del archivo de Excel ‘pozos’ y conteste lo siguiente usando R:

## a) Ordene los datos de menor a mayor, indique el valor máximo / minimo y el rango total de datos:

  • Importación de datos:
library(pacman)
p_load("readxl", "prettydoc", "DT")
pozos <- read_excel("pozos.xlsx", col_types = c("numeric"))
library(readxl)
pozos <- read_excel("pozos.xlsx")
View(pozos)
Temp <- pozos$TEMP

PH <- pozos$PH
  • Ordenamos los datos de mayor a menor:

    • Datos de PH:
sort(PH)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
* Datos de TEMP:
sort(Temp)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
* Maximos y minimos de PH:
PHmax <- max(PH)
PHmin <-min(PH)
* Maximos y minimos de TEMP:
Tempmax <- max(Temp)
Tempmin <-min(Temp)
* Rango de Temp:
rango <-(Tempmax-Tempmin)
rango
## [1] 6.5
* Rango de PH:
rango <-(PHmax-PHmin)
rango
## [1] 1.4

b. Obtenga (el número de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase.

  • Intervalos:

    *PH:

nclass.Sturges(PH)
## [1] 10
*Temp:
nclass.Sturges(Temp)
## [1] 10
  • Ancho de la clase:
A =(rango/10)
A
## [1] 0.14

c. Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta,frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

  • Tabla de frecuencia para Temp:
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
tSturges <-fdt(Temp, breaks= "Sturges")
tSturges
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

El intervalo con una mayor frecuencia es [28.883 - 29.59] con una frecuencia de 81 y la menor frecuencia es de 2, esto se puede observar en 2 intervalos: [25.344 - 26.052] y [31.713 - 32.421]

  • Tabla de frecuencia para PH:
phSturges <-fdt(PH, breaks= "Sturges")
phSturges
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

En el intervalo de [6.961 - 7.114] se muestra una mayor frecuencia de datos con una frecuencia de 108, la menor frecuencia es de 1, esto se puede observar en 3 intervalos: [1.039 - 6.193], [6.193 - 6.346] y [7.421-7.575]

d. Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

  • Histograma para el PH:
hist(x = pozos$PH, main = "Histograma de PH", 
     xlab = "Datos de PH", ylab = "Frecuencia", col="purple")

  • Histograma para el Temp:
hist(x = pozos$TEMP, main = "Histograma de Temperatura de pozos", 
     xlab = "Temperatura de pozos de agua subterranea", ylab = "Frecuencia", col="Blue")

  • Polígono de frecuencias PH:
plot(phSturges, type ="fp", main = "Polígono de frecuencias PH", 
     xlab = "Datos de PH", ylab = "Frecuencia", col="purple")

  • Polígono de frecuencias Temp:
plot(tSturges, type ="fp", main = "Polígono de frecuencias de Temperatura", 
     xlab = "Temperatura de los pozos de agua subterraneos", ylab = "Frecuencia", col="blue")

  • Histograma de frecuencia acumulado para PH:
plot(phSturges, type ="cfh", main = "Histograma de frecuencia acumulado PH", 
     xlab = "Datos de PH",ylab = "Frecuencia" , col="purple")

  • Histograma de frecuencia acumulada para Temp:
plot(tSturges, type ="cfh", main = "Histograma de frecuencia acumulado
de la temperatura de pozos subterraneos", 
     xlab = "Temperatura de pozos subterraneos",ylab = "Frecuencia" , col="blue")

e. Obtenga la mediana, la media y la moda

  • Media mediana y moda de PH:
mean(PH)
## [1] 6.890444
median(PH)
## [1] 6.9
mfv(PH)
## [1] 7
  • Media mediana y moda de Temp:
mean(Temp)
## [1] 28.69795
median(Temp)
## [1] 28.7
mfv(PH)
## [1] 7

f. Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

la Desviación Estándar y la varianza no pueden ser negativas, el valor mas bajo que pueden tomar ambas es de 0

  • Varianza de PH:
var(PH)
## [1] 0.04908645
  • Desviación estándar de PH:
sd(PH)
## [1] 0.2215546
  • Varianza de Temp:
var(Temp)
## [1] 1.035407
  • Desviación estándar de Temp:
sd(Temp)
## [1] 1.017549

g. Elabore gráfico de caja y bigote

  • Gráfico de caja y bigote PH:
boxplot(PH, main = "Gráfico de caja y bigote de PH", ylab="Datos de PH", col="Purple")

  • Gráfico de caja y bigote de Temp:
boxplot(PH, main = "Gráfico de caja y bigote de Temperatura", ylab="Temperatura de los pozos de agua", col="Blue")

h. Elabora una gráfica de dispersión de PH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

  • Diagrama de dispersión Ph vs Temperatura:
library(ggplot2)
ggplot(data = pozos)+geom_point(mapping = aes(x=Temp, y=PH),col='Blue',lwd=2)

  • Regresión TEMP vs PH
regresion <- lm(PH ~ TEMP, data=pozos)
summary(regresion)
## 
## Call:
## lm(formula = PH ~ TEMP, data = pozos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.78955 -0.09220  0.01089  0.11089  0.59587 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.017231   0.366448  19.149   <2e-16 ***
## TEMP        -0.004418   0.012761  -0.346    0.729    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared:  0.0004117,  Adjusted R-squared:  -0.003023 
## F-statistic: 0.1199 on 1 and 291 DF,  p-value: 0.7294
plot(pozos$TEMP, pozos$PH, xlab="Temperatura del pozo", ylab="pH", col="Purple", lwd=2, main="Regresion Temp vs Ph")
abline(regresion)

*¿Considera que estas dos están relacionadas?

En base a las gráficas se puede concluir que si están ligeramente relacionadas ya que cuando sube la temperatura el PH acido aumenta.

