Nombre: Jesús Enrique Murillo Tapia Matrícula: 00000205150 Fecha: 30/10/2021
Importar librerias
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")
Introducción
1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?
Es una rama de las matematicas, en la cual esta enfocada en la interpretacion y manejo de datos numericos, para analizar comportamientos, y con ellos tener posibilidades de ciertos sucesos.
Es la ciencia que se encarga de la recolección, ordenamiento,representación, análisis e interpretación de datos generados en una investigación sobre hechos, individuos o grupos de los mismos, para deducir de ello conclusionesprecisasoestimacionesfuturas. (Salazar Pinto, C., Castillo Galarza, S. D., & Del Castillo Galarza, S. 2017)
Salazar Pinto, C., Castillo Galarza, S. D., & Del Castillo Galarza, S. (2017). Fundamentos básicos de estadística. http://www.dspace.uce.edu.ec/handle/25000/13720
Aplicaciones en ingeniería química
Sirven de ayuda para realizar producciones a escala industrial, para realizar ciertos parametros en el manejo de procesos, lo cuales ayuda a tener el mejor resultado posible.
2.- Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.
• Variable cualitativa. Las variables cualitativas son aquellas características o cualidades que no pueden ser calculadas con números, sino que son clasificadas con palabras.
• Cualitativa nominal: aquellas variables que no siguen ningún orden en específico. Ejemplo. Los colores, tales como el negro, naranja o amarillo.
• Cualitativa ordinal: aquellas que siguen un orden o jerarquía. Ejemplo. El nivel socioeconómico alto, medio o bajo.
• Variable cuantitativa. Las variables cuantitativas son aquellas características o cualidades que sí pueden expresarse o medirse a través de números.
• Cuantitativa discreta: aquella variable que utiliza valores enteros y no finitos. Ejemplos: número de paginas de un libro, número que se ocupa en una fila.
• Cuantitativa continua: aquella variable que utiliza valores finitos y objetivos, y suele caracterizarse por utilizar valores decimales. Ejemplo: Altura de una persona, peso de un recien nacido.
Distribución de frecuencia Son tablas en las cuales agrupan datos y cada uno esta categorizado, haciendo un resumen de datos con la finalidad de facilitar la obtención de inofrmación.
Distribución normal Sirve para conocer la probabilidad de encontrar un valor de la variable que sea igual o inferior a un cierto valor , conociendo la media, la desviación estándar, y la varianza de un conjunto de datos en sustituyéndolos en la función que describe el modelo. Es una distribución que se reperesenta en forma de campana donde las desviaciones estándar sucesivas con respecto a la media establecen valores de referencia para estimar el porcentaje de observaciones de los datos.
setwd("~/Aplicada")
library(readxl)
pozos <- read_excel("pozos.xlsx")
View(pozos)
datatable(pozos)
Estos datos son: Datos de pH y Temperatura de pozos de agua subterránea Se elaborarán estos incisos 1 vez para pH y otra para Temperatura
A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos.
Datos de menor a mayor PH
PH
sort(pozos$`PH`, decreasing = FALSE )
## [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
## [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
## [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
## [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
- valor mínimo PH
min(pozos$`PH`)
## [1] 6.1
- valor maximo PH
max(pozos$`PH`)
## [1] 7.5
Rango de datos PH
range(pozos$`PH`)
## [1] 6.1 7.5
Datos de menor a mayor TEMP
sort(pozos$`TEMP`, decreasing = FALSE )
## [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
## [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
## [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
## [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
## [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
## [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
## [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1
- Valor maximo TEMP
min(pozos$`TEMP`)
## [1] 25.6
- Valor maximo Temp
max(pozos$`TEMP`)
## [1] 32.1
- Rango de datos TEMP
range(pozos$`TEMP`)
## [1] 25.6 32.1
B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Sturges y el ancho de clase.
La regla de Sturges es un método empírico muy utilizado en la estadística descriptiva para determinar el número de clases que deben existir en un histograma de frecuencias, para así poder clasificar un conjunto de datos que representan una muestra o población. Básicamente, con esta regla se determina el ancho de los contenedores gráficos, de los histogramas de frecuencia.
C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
tabla <- fdt(pozos)
tabla
## PH
## Class limits f rf rf(%) cf cf(%)
## [6.039,6.193) 1 0.00 0.34 1 0.34
## [6.193,6.346) 1 0.00 0.34 2 0.68
## [6.346,6.5) 7 0.02 2.39 9 3.07
## [6.5,6.653) 40 0.14 13.65 49 16.72
## [6.653,6.807) 67 0.23 22.87 116 39.59
## [6.807,6.961) 44 0.15 15.02 160 54.61
## [6.961,7.114) 108 0.37 36.86 268 91.47
## [7.114,7.268) 12 0.04 4.10 280 95.56
## [7.268,7.421) 12 0.04 4.10 292 99.66
## [7.421,7.575) 1 0.00 0.34 293 100.00
##
## TEMP
## Class limits f rf rf(%) cf cf(%)
## [25.344,26.052) 2 0.01 0.68 2 0.68
## [26.052,26.759) 5 0.02 1.71 7 2.39
## [26.759,27.467) 17 0.06 5.80 24 8.19
## [27.467,28.175) 63 0.22 21.50 87 29.69
## [28.175,28.883) 79 0.27 26.96 166 56.66
## [28.883,29.59) 81 0.28 27.65 247 84.30
## [29.59,30.298) 28 0.10 9.56 275 93.86
## [30.298,31.006) 9 0.03 3.07 284 96.93
## [31.006,31.713) 7 0.02 2.39 291 99.32
## [31.713,32.421) 2 0.01 0.68 293 100.00
D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.
histograma
plot(tabla,type='fh') # Absolute frequency histogram
En esta gráfica en el caso de los valores de PH, desmutra que se presenta en mayor cantidad entre 6.65 y 6.96, lo que desmuestra valor un poco acidos, estando cerca de ser neutros.
La temepratura se presentan valores entre 28 y 30. Estando cerca de la temperatura estandar que sería 25 °C
Poligono
plot(tabla,type='fp') # Absolute frequency histogram
En esta gráfica podemos ver valores cerca de la neutralidad en el caso del PH y por el lado de la temperatura un valor mas frecuente cerca de los 29°C. ## histograma de frecuencias acumulado
plot(tabla,type='cfh') # Relative frequency histogram
Estas graficas desmuestra en orden ascendete los valores que mas se repiten
E) Obtenga la media, mediana, moda e interprete los resultados.
MEDIDAS DE TENDENCIA CENTRAL
Media PH
Valor promedio
mean(pozos$`PH`)
## [1] 6.890444
Esto quere decir que los pozos son casi neutros, siendo poco acidos.
Mediana PH
Medida de tendencia central
median(pozos$`PH`)
## [1] 6.9
Moda PH
Valor que mas se repite
library(modeest)
##
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
##
## mfv
mlv(pozos$`PH`, method = "mfv")
## [1] 7
En este caso desmuestra que el valor del pH de los posos es neutro.
Media TEMP
Valor promedio
mean(pozos$`TEMP`)
## [1] 28.69795
Mediana TEMP
Medida de tendencia central
median(pozos$`TEMP`)
## [1] 28.7
Moda TEMP
Valor que mas se repite
library(modeest)
mlv(pozos$`TEMP`, method = "mfv")
## [1] 28.6
F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?
Varianza
Medida que representa la dispersion que existe en un conjunto de datos para saber su variabilidad
var(pozos$`PH`)
## [1] 0.04908645
El valor demostrado en la varianza interpreta que los valores no son muy variables entre si dando un número de varianza = 0.04908645
var(pozos$`TEMP`)
## [1] 1.035407
Al dar varianza = 1.035407, espreza que los valores en el caso de la temperatura son muy vaiables.
Desviación Estandar
Este medida sirve para interpretar la cuantificación de la variación o la dispersión.
sd(pozos$`PH`)
## [1] 0.2215546
Este valor desmuestra que tan alejado esta de la media central con lo que desmuestra que esta un poco alejado.
sd(pozos$`TEMP`)
## [1] 1.017549
La de desviación estandar en la temperatura demuestra que esta cerca media central.
- ¿Pueden estas medidas ser negativas? No, debido la varianza siempre presenta valor arriba de cero, por lo tanto, no puede dar valores negativos, y por el manejo de su formula podemos saber que estos no dan negativo.
G) Elabore gráfico de caja y bigote
Grafico de caja y bigote
boxplot(pozos$PH ~ pozos$TEMP, col="grey")
Esta gráfica presenta que los valores suelen ser alcalinos a una temperatura entre 28 y 30°c
H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?
ggplot(data = pozos)+
geom_point(mapping = aes(x= TEMP, y= PH), lwd = 2, col= "black")
pairs(pozos)
Esta gráfica representa que hay mayor concentracion en ciertos valores, por lo cual esto puede demostrar que los valores de la temeperatura afecta al pH, haciendo que este cambié de valor conforme aumente o disminuya la temperatura.
¿Considera que estas 2 variables están relacionadas? Si, con los cambios de temperatura, cambia el valor del pH, si aumenta la temperatura disminuye el pH pero si disminuye la temperatura aumenta el pH.
Pregunta de rescate (opcional):
Mini ensayo de mínimo media y máximo una cuartilla contestando a la pregunta: ¿De qué manera o maneras reales puede México ser un país más desarrollado? Elaboren y argumenten su propuesta o propuesta. (Use datos para fundamentarse)
Para saber de que manera puede México ser un país más desarrollo, primero se debe entender ciertas cosas, y puntos de vistas que vive cada mexicano en sus respectivas ciudades y localidades, ya que dependiendo la zona en la que vive un mexicano se puede comprobar estadísticamente si este tendrá o no mayor probabilidad de salir adelante, y de tener un buen futuro. Desde mi punto de vista hay ciertos motivos los cuales hacen que México no pueda progresar:
La corrupción en México. A nivel internacional México tiene un gran índice de corruptibilidad, lo cual esto hace que se desvíen fondos, los cuales pueden ser útiles para el bien común y mejorar la infraestructura de la localidad en donde habitan los ciudadanos, a lo cual, esto hace que disminuya su calidad de vida.
Religión. Con el debido respeto de no ofender a nadie, México es un país con un alto índice de creyentes religiosos, esto hace que el ciudadano sea más conformista y espera “a que le caiga un milagro del cielo”.
Centralización. México es un país muy centralizado, por lo cual en donde tienes mayor probabilidad de tener éxito es mudarte a la Ciudad de México, ya que ahí se encuentran una gran cantidad de grandes empresas, se encuentran las mejores escuelas del país, se encuentra mayor oferta laboral, y esto hace que otros estados tengan menor oportunidad de crecer económicamente.
México tiene una gran capacidad para ser un país de un alto desarrollo, solo falta aprovechar las cualidades que tiene este país, ya que es megadiverso, y es fuente de una gran cantidad de recursos naturales, cuenta con entradas a dos océanos. De esta manera puede México ser un país más desarrollado, haciendo que cada mexicano tenga acceso a la información, estar a la vanguardia con las energías renovables, producir y no solo consumir productos de otros países.