Examen de la Unidad de Competencias 1
¿Qué es la estadística y qué aplicaciones tiene en ingeniería?
La estadística consiste en métodos, procedimientos y fórmulas que permiten recolectar información para luego analizarla y extraer de ella conclusiones relevantes. Se puede decir que es la Ciencia de los Datos y que su principal objetivo es mejorar la comprensión de los hechos a partir de la información disponible.
La estadística en ingeniería de Software tiene diferentes usos, pues es utilizada en diferentes áreas como por ejemplo:
- Administración de proyectos: Se utilizan análisis estadísticos para poder estimar las fechas en las que se realizarán los entregables en los proyectos, así como también estimar los tiempos de las iteraciones (según las metodologías de desarrollo que se esté utilizando)
- Pruebas de software: Se realiza una hipótesis para cáda método, que es la manera en la que el software debe de funcionar.
- Calidad de Software: Se utilizan procedimientos estadísticos para saber el porcentaje de fallas que puede haber en servidores o cualquier producto de desarrollos.
Enliste y defina los tipos de variables usados en estadística
Cualitativas: son aquellas que expresan características o cualidades, y no pueden ser medidas con números.
Cuantitativas: son aquellas que se expresan mediante un número, por tanto, se puede realizar operaciones aritméticas con ellas.
Defina que es distribución de frecuencia
Es la forma en la que un conjunto de datos se clasifica en distintos grupos excluyentes entre sí. Es decir, si un dato pertenece a un grupo no puede pertenecer a otro.
Defina que es la distribución normal
Es un modelo teórico capaz de aproximar satisfactoriamente el valor de una variable aleatoria a una situación ideal.
Importar Datos
Se importan los datos de PH y Temperatura de un archivo Excel (xlsx)
library(readxl)
pozos <- read_excel("pozos.xlsx")
ph <- (pozos$PH)
temp <- (pozos$TEMP)Se muestran los datos de PH y Temperatura
library(pacman)
p_load(rmdformats,readr,readxl,ggplot2,plotly,DT,xfun,gridExtra,leaflet)
datatable(pozos)Datos de PH
A continuación, se muestra un resumen de los datos de PH
summary(ph)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.10 6.80 6.90 6.89 7.00 7.50
A continuación, se ordenan los datos de menor a mayor
sort(ph)## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
El valor mínimo del PH es
min(ph)## [1] 6.1
El valor máximo del PH es
max(ph)## [1] 7.5
El rango es de
rangoPH <- max(ph)-min(ph)
rangoPH## [1] 1.4
Datos de Temperatura
A continuación, se muestra un resumen de los datos de Temperatura
summary(temp)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.6 28.0 28.7 28.7 29.2 32.1
A continuación, se ordenan los datos de menor a mayor
sort(temp)## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
El valor mínimo de la temperatura es
min(temp)## [1] 25.6
El valor máximo de la temperatura es
max(temp)## [1] 32.1
El rango es de
rangoTemp <- max(temp)-min(temp)
rangoTemp## [1] 6.5
Obtenga los intervalos usando la fórmula de Surges y el ancho de clase
- La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos que son necesarios para representar gráficamente un conjunto de datos estadísticos. Esta regla fue enunciada en 1926 por el matemático alemán Herbert Sturges.
- Sturges propuso un método sencillo, basado en el número de muestras x que permitiesen encontrar el número de clases y su amplitud de rango. La regla de Sturges es muy utilizada sobre todo en el área de la estadística, específicamente para construir histogramas de frecuencia.
- La fórmula es: \(k=1+[log2(N)]\)
Intervalos de PH según Sturges
nclass.Sturges(ph)## [1] 10
El número de intervalos que tiene el PH es de 10
anchoPH <- (rangoPH/nclass.Sturges(ph))
anchoPH## [1] 0.14
El ancho que tiene el PH es de 0.14
Intervalos de la Temperatura según Sturges
nclass.Sturges(temp)## [1] 10
El número de intervalos que tiene la temperatura es de 10
anchoTemp <- (rangoTemp/nclass.Sturges(temp))
anchoTemp## [1] 0.65
El ancho que tiene el PH es de 0.65
Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.
Tabla de frecuencias de PH
library('fdth')##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
tablaPH <- fdt(ph, breaks="Sturges")
tablaPH## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
Se puede notar que la frecuencia más alta se encuentra en el intervalo [6.961, 7.114), con un valor de 108, esto representa el 91% de los datos.
Tabla de frecuencias para la Temperatura
tablaTemp <- fdt(temp, braks="Sturges")
tablaTemp## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
Se puede notar que la frecuencia mas alta la tiene el intervalo [28.883, 29.59), con un valor de 81, que esto representa el 84.30% de los datos.
Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.
Histograma de frecuencias y polígono de frecuencias para PH
hist(ph, main="Tabla de Histogramas de PH")plot(tablaPH, type = "fh", main= "Histograma de frecuencia absoluta del PH")plot(tablaPH, type = "fp", main= "Poligono de frecuencia absoluta del PH")plot(tablaPH, type = "cfh", main= "Histograma de frecuencia acumulada del PH") Los gráficos indican que los datos más frecuentes se encuentran en el rango de 6.96 a 7.11. En el gráfico de polígonos de frecuencia absoluta también se puede notar que los datos no son normales, teniendo grandes variaciones.
Histograma de frecuencias y polígono de frecuencias para Temperatura
hist(temp, main="Tabla de Histogramas de Temperatura")plot(tablaTemp, type = "fh", main= "Histograma de frecuencia absoluta de la Temperatura")plot(tablaTemp, type = "fp", main= "Poligono de frecuencia absoluta de la Temperatura")plot(tablaTemp, type = "cfh", main= "Histograma de frecuencia acumulada de la Temperatura") Los gráficos indican que los datos de temperatura más frecuentes se encuentran en el rango de 28.17 y los 28.88. En el gráfico de polígonos de frecuencia absoluta también se puede notar que los datos pueden ser normales, debido a que sus cambios no son tan bruscos como lo son en los gráficos del PH.
Obtenga la media, mediana, moda e interprete los resultados.
Datos para PH
- Media
mean(ph)## [1] 6.890444
- Mediana
median(ph)## [1] 6.9
- Moda
mfv(ph)## [1] 7
Datos para Temperatura
- Media
mean(temp)## [1] 28.69795
- Mediana
median(temp)## [1] 28.7
- Moda
mfv(temp)## [1] 28.6
Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?
PH
- Varianza
var(ph)## [1] 0.04908645
Al ser la varianza de 0.04908645 se puede considerar pequeña, por lo cual podemos decir que hay muy poca variación entre los datos.
- Desviación estándar
sd(ph)## [1] 0.2215546
La desviación es de 0.2215546, por lo cual, indica que los datos tienen una separación aproximada de 0.221 de la media del PH
##Temperatura * Varianza
var(temp)## [1] 1.035407
Al ser la varianza de 1.035407 se puede considerar pequeña, por lo cual podemos decir que hay muy poca variación entre los datos.
- Desviación estándar
sd(temp)## [1] 1.017549
La desviación es de 1.017549, por lo cual, indica que los datos tienen una separación aproximada de 1.017 de la media de la Temperatura
Elabore gráfico de caja y bigote
PH
boxplot(ph)Temperatura
boxplot(temp)Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?
ggplot(data = pozos) + geom_point(mapping = aes(x= temp, y= ph), lwd = 2) Esta es una tabla de dispersión con los datos de PH y Temperatura, podemos ver que hay más datos en el centro del gráfico, con esto puedo decir que las dos variables tienen relación. Al tener un incremento en la temperatura, el PH disminuye, al igual forma, al tener una disminución de la temperatura, el PH aumenta.
Pregunta de rescate (opcional): Mini ensayo de mínimo media y máximo una cuartilla contestando a la pregunta: ¿De qué manera o maneras reales puede México ser un país más desarrollado? Elaboren y argumenten su propuesta o propuesta. (Use datos para fundamentarse)
México puede ser un país desarrollado si comienza a incluir la tecnología en sus procesos, por ejemplo, realizar estudios en los campos con software y hardware que ayuden a saber que el nivel de porcentaje de humedad, esto sería muy útil para el crecimiento de las plantas o cultivo.
También, México tiene distintos climas entre sus estados y puede aprovechar para poder obtener beneficios de este, como por ejemplo, comenzar a obtener más energía solar mediante páneles solares o también con turbinas en caso de mares o eólicas para lugares abiertos. El uso de energías renovables sería de gran ayuda para el país pues reduce sus emisiones. También podría ayudar a que las personas se interesen por utilizar más productos que se alimenten de energía totalmente limpia como lo pueden ser vehículos eléctricos, sustituir electrodomesticos como la estufa a gas por una eléctrica o los calentadores de agua.