los objetivos de la estadistica son el analizar, recopilar e interpretar datos con cierto grado de incertidumbre y nosotros como ingenieros la podemos utilizar para crear nuevos productos y modelos de predicción con ciertos datos.
con la tabla de frecuencia se puede ver que el dato con mayor frecuencia es de el limite de clase de [7.764,8.194) para el ph y el dato con mayor frecuencia para el numero de variables es del limite de clase de [5.94,6.246), ademas de mecionar que en ambos hay datos faltantes que solucionamos con el codigo “na.rm=TRUE” en este punto se utilizan variables de caja y bigotes ya que se usan variables numericas comprobado con class(),por lo tanto son variables cuantitativas por lo que es adecuado el uso de este tipo de graficos
library(readr)
Reporte_Indice_de_Calidad_de_Aguas_Marinas_y_Costeras_ICAM <- read_csv("C:/Users/User/Downloads/Reporte_Indice_de_Calidad_de_Aguas_Marinas_y_Costeras_ICAM.csv")
View(Reporte_Indice_de_Calidad_de_Aguas_Marinas_y_Costeras_ICAM)
#renombrar base de datos
calidad<-Reporte_Indice_de_Calidad_de_Aguas_Marinas_y_Costeras_ICAM
#instalar librerias
install.packages("fdth",repos = "http://cran.us.r-project.org")
## package 'fdth' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\User\AppData\Local\Temp\RtmpOIGadY\downloaded_packages
library(fdth)
install.packages("ggplot2",repos = "http://cran.us.r-project.org")
## package 'ggplot2' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\User\AppData\Local\Temp\RtmpOIGadY\downloaded_packages
library(ggplot2)
#tablas de frecuencia
tabla1<-fdt(calidad$ph,na.rm = TRUE,k=nclass.Sturges(calidad));tabla1
## Class limits f rf rf(%) cf cf(%)
## [6.475,6.904) 3 0.00 0.47 3 0.47
## [6.904,7.334) 15 0.02 2.36 18 2.83
## [7.334,7.764) 43 0.07 6.77 61 9.61
## [7.764,8.194) 322 0.51 50.71 383 60.31
## [8.194,8.624) 230 0.36 36.22 613 96.54
## [8.624,9.054) 19 0.03 2.99 632 99.53
## [9.054,9.484) 3 0.00 0.47 635 100.00
tabla2<-fdt(calidad$num_variables,na.rm = TRUE,k=nclass.Sturges(calidad));tabla2
## Class limits f rf rf(%) cf cf(%)
## [5.94,6.246) 375 0.59 59.06 375 59.06
## [6.246,6.551) 0 0.00 0.00 375 59.06
## [6.551,6.857) 0 0.00 0.00 375 59.06
## [6.857,7.163) 239 0.38 37.64 614 96.69
## [7.163,7.469) 0 0.00 0.00 614 96.69
## [7.469,7.774) 0 0.00 0.00 614 96.69
## [7.774,8.08) 21 0.03 3.31 635 100.00
#grafico adecuado
class(calidad$ph)
## [1] "numeric"
ph1<-as.data.frame(table(calidad$ph))
ggplot(ph1,aes(x=Var1,y=Freq,fill=Var1))+geom_boxplot()+geom_jitter(size=0.7,alpha=6)+labs(title = "frecuencia ph", x="ph")
class(calidad$num_variables)
## [1] "numeric"
numvar<-as.data.frame(table(calidad$num_variables))
ggplot(numvar,aes(x=Var1,y=Freq,fill=Var1))+geom_boxplot()+geom_jitter(size=0.7,alpha=6)+labs(title = "nro. de variables", x="variables")
##Punto 4
se puede decir con base a los datos resultantes que el oxigeno disuelto presenta una asimetria positiva y la media es mayor que la moda ya que el coeficiente es mayor a 0, en cuanto al coeficiente de curtosis se puede decir que es leptocurtica ya que el coeficiente de curtosis es mayor a 3. se trabaj con una tabla de caja y bigotes nuevamente ya que sirven con el tipo de variable continua de la medicion del oxigeno disuelto.presntea una varianza baja por lo que la dispersion de datos va a ser una aproximacion de igual manera teniedno en cuenta la desviacion estandar y el coeficiente de variacion.
install.packages("ggplot2",repos = "http://cran.us.r-project.org")
library(ggplot2)
install.packages("modeest",repos = "http://cran.us.r-project.org")
## package 'modeest' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\User\AppData\Local\Temp\RtmpOIGadY\downloaded_packages
library(modeest)
#variable od
o<-as.data.frame(table(calidad$od))
#media
mean(calidad$od)
## [1] 6.65822
#mediana
median(calidad$od)
## [1] 6.58
#varianza
var(calidad$od)
## [1] 2.982982
#desviacion estandar
sd(calidad$od)
## [1] 1.727131
#rango
diff(range(calidad$od))
## [1] 19.52
#coeficiente de variacion
install.packages("FinCal",repos = "http://cran.us.r-project.org")
## package 'FinCal' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\User\AppData\Local\Temp\RtmpOIGadY\downloaded_packages
library(FinCal)
coefficient.variation(sd=sd(calidad$od),avg = mean(calidad$od))
## [1] 0.2593983
#coeficiente de sesgo
install.packages("moments",repos = "http://cran.us.r-project.org")
## package 'moments' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\User\AppData\Local\Temp\RtmpOIGadY\downloaded_packages
library(moments)
skewness(calidad$od)
## [1] 2.110797
#coeficiente de curtosis
kurtosis(calidad$od)
## [1] 20.46966
#grafico
ggplot(o,aes(x=Var1,y=Freq,fill=Var1))+geom_boxplot()+geom_jitter(size=0.6,alpha=5)+facet_wrap(~Var1,nrow = 2)