1. ¿Qué es la estadística y que aplicaciones tiene en la Ingeniería en software?
La estadística son métodos, procedimientos y fórmulas que permiten recolectar información para luego analizarla y extraer de ella conclusiones relevantes. Su principal objetivo es mejorar la comprensión de los hechos a partir de la información disponible.
La estadística es importante en la ingeniería en software ya que ayuda a decidir entre diferentes variables para resolver ecuaciones complejas, se puede aplicar en diferentes especialidades del software como:
Software de aplicación: Son programas especialmente disectados para resolver problemas de estadística, hay muchos programas que no son específicamente estadísticos, pero ayudan a realizar cálculos aplicables a la estadística. Algunos ejemplos de ellos pueden ser: Excel, MiniTab, RStudio, Stata, SAS, Matlab, etc.
Minado de datos: La minería de datos es el proceso de hallar anomalías, patrones y correlaciones en grandes conjuntos de datos para predecir resultados.
Inteligencia de negocios: Son procesos, aplicaciones y tecnologías que facilitan la obtención de datos provenientes de los sistemas de gestión empresarial para su análisis e interpretación.
Inteligencia Artificial Integran distintos contrastes, estimaciones, transformaciones y modelos para conseguir una aproximación coherente y total en Análisis de Datos, estableciendo estrategias que dirijan el proceso de modelización, de elección de técnicas y transformaciones a aplicar, y de ayuda a la interpretación de los resultados.
2. Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno.
Cuantitativa: Las variables cuantitativas son aquellas variables estadísticas que otorgan, como resultado, un valor numérico.
Ejemplos de variables cuantitativas:
El peso, la altura o la cantidad de miembros en una familia.
La remuneración de los empleados en una empresa.
Cualitativa: La variable cualitativa es aquella variable estadística que expresa una cualidad, o característica, del objeto o individuo en cuestión.
Ejemplos de variables cualitativas:
Etnia o rasa
Profesión
3. Defina distribución de frecuencia y explique que es la distribución normal
Distribución de frecuencia: La distribución de frecuencias es la forma en la que un conjunto de datos se clasifica en distintos grupos excluyentes entre sí. Es decir, si un dato pertenece a un grupo no puede pertenecer a otro.
Tipos de distribuciones de frecuencia: los tipos de distribuciones de frecuencia son los siguientes:
Frecuencia absoluta(fi): Es la cantidad de observaciones que pertenecen a cada grupo. También, se interpreta como la cantidad de veces que se repite un suceso.
Frecuencia relativa(hi): Se calcula dividiendo la frecuencia absoluta entre el número de datos.
Frecuencia absoluta acumulada (Fi): Resulta de sumar las frecuencias absolutas de una clase o grupo de la muestra (o población) con la anterior o las anteriores.
Frecuencia relativa acumulada (Hi): Es el resultado de sumar las frecuencias relativas.
Distribución Normal: La distribución normal es una distribución con forma de campana donde las desviaciones estándar sucesivas con respecto a la media establecen valores de referencia para estimar el porcentaje de observaciones de los datos.
4. Importe los datos del archivo de Excel ‘pozos’ y conteste lo siguiente usando R:
## a) Ordene los datos de menor a mayor, indique el valor máximo / minimo y el rango total de datos:
- Importación de datos:
library(pacman)
p_load("readxl", "prettydoc", "DT")
pozos <- read_excel("pozos.xlsx", col_types = c("numeric"))
library(readxl)
pozos <- read_excel("pozos.xlsx")
View(pozos)
Temp <- pozos$TEMP
PH <- pozos$PHOrdenamos los datos de mayor a menor:
- Datos de PH:
sort(PH)## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
* Datos de TEMP:
sort(Temp)## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
* Maximos y minimos de PH:
PHmax <- max(PH)
PHmin <-min(PH)* Maximos y minimos de TEMP:
Tempmax <- max(Temp)
Tempmin <-min(Temp)* Rango de Temp:
rango <-(Tempmax-Tempmin)
rango## [1] 6.5
* Rango de PH:
rango <-(PHmax-PHmin)
rango## [1] 1.4
b. Obtenga (el número de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase.
Intervalos:
*PH:
nclass.Sturges(PH)## [1] 10
*Temp:
nclass.Sturges(Temp)## [1] 10
- Ancho de la clase:
A =(rango/10)
A## [1] 0.14
c. Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta,frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.
- Tabla de frecuencia para Temp:
library(fdth)##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
tSturges <-fdt(Temp, breaks= "Sturges")
tSturges## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
El intervalo con una mayor frecuencia es [28.883 - 29.59] con una frecuencia de 81 y la menor frecuencia es de 2, esto se puede observar en 2 intervalos: [25.344 - 26.052] y [31.713 - 32.421]
- Tabla de frecuencia para PH:
phSturges <-fdt(PH, breaks= "Sturges")
phSturges## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
En el intervalo de [6.961 - 7.114] se muestra una mayor frecuencia de datos con una frecuencia de 108, la menor frecuencia es de 1, esto se puede observar en 3 intervalos: [1.039 - 6.193], [6.193 - 6.346] y [7.421-7.575]
d. Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.
- Histograma para el PH:
hist(x = pozos$PH, main = "Histograma de PH",
xlab = "Datos de PH", ylab = "Frecuencia", col="purple")- Histograma para el Temp:
hist(x = pozos$TEMP, main = "Histograma de Temperatura de pozos",
xlab = "Temperatura de pozos de agua subterranea", ylab = "Frecuencia", col="Blue")- Polígono de frecuencias PH:
plot(phSturges, type ="fp", main = "Polígono de frecuencias PH",
xlab = "Datos de PH", ylab = "Frecuencia", col="purple")- Polígono de frecuencias Temp:
plot(tSturges, type ="fp", main = "Polígono de frecuencias de Temperatura",
xlab = "Temperatura de los pozos de agua subterraneos", ylab = "Frecuencia", col="blue")- Histograma de frecuencia acumulado para PH:
plot(phSturges, type ="cfh", main = "Histograma de frecuencia acumulado PH",
xlab = "Datos de PH",ylab = "Frecuencia" , col="purple")- Histograma de frecuencia acumulada para Temp:
plot(tSturges, type ="cfh", main = "Histograma de frecuencia acumulado
de la temperatura de pozos subterraneos",
xlab = "Temperatura de pozos subterraneos",ylab = "Frecuencia" , col="blue")e. Obtenga la mediana, la media y la moda
- Media mediana y moda de PH:
mean(PH)## [1] 6.890444
median(PH)## [1] 6.9
mfv(PH)## [1] 7
- Media mediana y moda de Temp:
mean(Temp)## [1] 28.69795
median(Temp)## [1] 28.7
mfv(PH)## [1] 7
f. Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?
la Desviación Estándar y la varianza no pueden ser negativas, el valor mas bajo que pueden tomar ambas es de 0
- Varianza de PH:
var(PH)## [1] 0.04908645
- Desviación estándar de PH:
sd(PH)## [1] 0.2215546
- Varianza de Temp:
var(Temp)## [1] 1.035407
- Desviación estándar de Temp:
sd(Temp)## [1] 1.017549
g. Elabore gráfico de caja y bigote
- Gráfico de caja y bigote PH:
boxplot(PH, main = "Gráfico de caja y bigote de PH", ylab="Datos de PH", col="Purple")- Gráfico de caja y bigote de Temp:
boxplot(PH, main = "Gráfico de caja y bigote de Temperatura", ylab="Temperatura de los pozos de agua", col="Blue")h. Elabora una gráfica de dispersión de PH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?
- Diagrama de dispersión Ph vs Temperatura:
library(ggplot2)
ggplot(data = pozos)+geom_point(mapping = aes(x=Temp, y=PH),col='Blue',lwd=2)- Regresión TEMP vs PH
regresion <- lm(PH ~ TEMP, data=pozos)
summary(regresion)##
## Call:
## lm(formula = PH ~ TEMP, data = pozos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.78955 -0.09220 0.01089 0.11089 0.59587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.017231 0.366448 19.149 <2e-16 ***
## TEMP -0.004418 0.012761 -0.346 0.729
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared: 0.0004117, Adjusted R-squared: -0.003023
## F-statistic: 0.1199 on 1 and 291 DF, p-value: 0.7294
plot(pozos$TEMP, pozos$PH, xlab="Temperatura del pozo", ylab="pH", col="Purple", lwd=2, main="Regresion Temp vs Ph")
abline(regresion)*¿Considera que estas dos están relacionadas?
En base a las gráficas se puede concluir que si están ligeramente relacionadas ya que cuando sube la temperatura el PH acido aumenta.