ANÁLISIS ESTADÍSTICO

CARGA DE DATOS Y LIBRERÍAS

CARGA DE DATOS

#Carga de datos
setwd("~/UNI/ESTADISTICA")
datos <- read.csv("Depositos_Sulfuro.csv", header = TRUE, sep = ";", dec = ".")

#Limpiamos la Variable

# Limpiamos la Variable
latitud <- as.numeric(datos$latdeg)
latitud <- na.omit(latitud)
latitud<- subset(latitud,latitud>=0)

CARGA DE LIBRERIAS

#Carga de librerias
library(gt)
library(dplyr)
library(knitr)
library(e1071)

TABLA DE DISTRIBUCIÓN DE FRECUENCIA POR STURGES

TABLA DE DISTRIBUCION DE FRECUENCIA POR STURGES

# Calculamos el numero de datos
n <- length(latitud)

# Numero de clases con Sturges
k <- floor(1 + 3.3 * log10(n))


# Min, Max 
minimo <- min(latitud)
maximo <- max(latitud)

#Rango
R <- maximo - minimo

# Amplitud
A <- R/k


# Límites inferior (Li) y superior (Ls)
Li <- round(seq(from = minimo, to = maximo-A, by = A), 2)
Ls <- round(seq(from = minimo+A, to = maximo, by = A), 2)

# Marca de clase
MC <- round((Li + Ls)/2, 2)


# Frecuencia Absoluta (ni)
ni <- numeric(length(Li))
for (i in 1:length(Li)) {
  ni[i] <- sum(latitud >= Li[i] & latitud < Ls[i])
}
ni[length(Li)] <- sum(latitud >= Li[length(Li)] & latitud <= maximo)

# Frecuencia Relativa (hi)
hi <- (ni / sum(ni)) * 100

# Frecuencias Acumuladas
Niasc <- cumsum(ni)
Nidsc <- rev(cumsum(rev(ni)))
Hiasc <- round(cumsum(hi), 2)
Hidsc <- round(rev(cumsum(rev(hi))), 2)

# TABLA FINAL
TDFlat <- round(data.frame(
  Li, Ls, MC, ni, hi , Niasc, Nidsc, Hiasc, Hidsc
),2)
TDFlat
##      Li   Ls    MC  ni    hi Niasc Nidsc  Hiasc  Hidsc
## 1   0.0  7.3  3.65  12  1.18    12  1014   1.18 100.00
## 2   7.3 14.6 10.95  15  1.48    27  1002   2.66  98.82
## 3  14.6 21.9 18.25  44  4.34    71   987   7.00  97.34
## 4  21.9 29.2 25.55  33  3.25   104   943  10.26  93.00
## 5  29.2 36.5 32.85 102 10.06   206   910  20.32  89.74
## 6  36.5 43.8 40.15 200 19.72   406   808  40.04  79.68
## 7  43.8 51.1 47.45 312 30.77   718   608  70.81  59.96
## 8  51.1 58.4 54.75 146 14.40   864   296  85.21  29.19
## 9  58.4 65.7 62.05 117 11.54   981   150  96.75  14.79
## 10 65.7 73.0 69.35  33  3.25  1014    33 100.00   3.25

Fila total de las sumas de ni y hi

# FILA TOTAL
fila_total <- data.frame(
  Li = "TOTAL",
  Ls = "",
  MC = "",
  ni = sum(TDFlat$ni),
  hi = round(sum(TDFlat$hi),),
  Niasc = "",
  Nidsc = "",
  Hiasc = "",
  Hidsc = ""
)

#TABLA FINAL 
TDFlat_p <- rbind(TDFlat, fila_total)

TDFlat_p
##       Li   Ls    MC   ni     hi Niasc Nidsc Hiasc Hidsc
## 1      0  7.3  3.65   12   1.18    12  1014  1.18   100
## 2    7.3 14.6 10.95   15   1.48    27  1002  2.66 98.82
## 3   14.6 21.9 18.25   44   4.34    71   987     7 97.34
## 4   21.9 29.2 25.55   33   3.25   104   943 10.26    93
## 5   29.2 36.5 32.85  102  10.06   206   910 20.32 89.74
## 6   36.5 43.8 40.15  200  19.72   406   808 40.04 79.68
## 7   43.8 51.1 47.45  312  30.77   718   608 70.81 59.96
## 8   51.1 58.4 54.75  146  14.40   864   296 85.21 29.19
## 9   58.4 65.7 62.05  117  11.54   981   150 96.75 14.79
## 10  65.7   73 69.35   33   3.25  1014    33   100  3.25
## 11 TOTAL            1014 100.00

TABLA DE DISTRIBUCIÓN DE FRECUENCIA POR STURGES FINAL

# TABLA GT
tabla_lat_p <- TDFlat_p %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nº:1*"),
    subtitle = md("Tabla de distribución de frecuencias simples y acumuladas de 
                  latitud en los depósitos masivos de sulfuros")
  ) %>%
  tab_source_note(
    source_note = md("Autor: GRUPO 2")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )

tabla_lat_p
Tabla Nº:1
Tabla de distribución de frecuencias simples y acumuladas de latitud en los depósitos masivos de sulfuros
Li Ls MC ni hi Niasc Nidsc Hiasc Hidsc
0 7.3 3.65 12 1.18 12 1014 1.18 100
7.3 14.6 10.95 15 1.48 27 1002 2.66 98.82
14.6 21.9 18.25 44 4.34 71 987 7 97.34
21.9 29.2 25.55 33 3.25 104 943 10.26 93
29.2 36.5 32.85 102 10.06 206 910 20.32 89.74
36.5 43.8 40.15 200 19.72 406 808 40.04 79.68
43.8 51.1 47.45 312 30.77 718 608 70.81 59.96
51.1 58.4 54.75 146 14.40 864 296 85.21 29.19
58.4 65.7 62.05 117 11.54 981 150 96.75 14.79
65.7 73 69.35 33 3.25 1014 33 100 3.25
TOTAL 1014 100.00
Autor: GRUPO 2

DEBIDO A QUE LA TABLA SE PRESENTA CON NUMEROS MUY DIFICILES SE DECIDIO SIMPLIFICAR LA TABLA

TABLA DE DISTRIBUCIÓN DE FRECUENCIA SIMPLIFICADA

HISTOGRAMA DE DISTRIBUCIÓN DE FRECUENCIA

histograma_lat<-hist(latitud,
                     main = "Gráfica Nº1: Distribución absoluta local de la latitud
                     en depositos masivos de sulfuros volcanicos ",
                     xlab = "Latitud",
                     ylab = "Cantidad",
                     col = "gray")

TABLA DE DISTRIBUCION DE FRECUENCIA SIMPLIFICADA

#LIMITE INFERIOR SIMPLIFICADA

lis<- histograma_lat$breaks[1:15]
lis
##  [1]  0  5 10 15 20 25 30 35 40 45 50 55 60 65 70
#LIMITE SUPERIOR SIMPLIFICADA
lss<-histograma_lat$breaks[2:16]
lss
##  [1]  5 10 15 20 25 30 35 40 45 50 55 60 65 70 75
#MARCA DE CLASE
MC_f<-histograma_lat$mids
MC_f
##  [1]  2.5  7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.5 57.5 62.5 67.5 72.5
# Frecuencia absoluta(ni)
ni_f <-histograma_lat $counts
ni_f
##  [1]   5  14  13  38  28   6  96 160  81 251 135  55  99  32   1
# Frecuencia relativa (hi)
hi_f <- (ni_f/sum(ni_f))*100
hi_f
##  [1]  0.49309665  1.38067061  1.28205128  3.74753452  2.76134122  0.59171598
##  [7]  9.46745562 15.77909270  7.98816568 24.75345168 13.31360947  5.42406312
## [13]  9.76331361  3.15581854  0.09861933
# Frecuencias Acumuladas
Niasc_f <- cumsum(ni_f)
Nidsc_f <- rev(cumsum(rev(ni_f)))
Hiasc_f <- round(cumsum(hi_f), 2)
Hidsc_f <- round(rev(cumsum(rev(hi_f))), 2)

# TABLA FINAL
TDFlat_f <- round(data.frame(
  lis, lss, MC_f, ni_f, hi_f, Niasc_f, Nidsc_f, Hiasc_f, Hidsc_f
),2)

TDFlat_f
##    lis lss MC_f ni_f  hi_f Niasc_f Nidsc_f Hiasc_f Hidsc_f
## 1    0   5  2.5    5  0.49       5    1014    0.49  100.00
## 2    5  10  7.5   14  1.38      19    1009    1.87   99.51
## 3   10  15 12.5   13  1.28      32     995    3.16   98.13
## 4   15  20 17.5   38  3.75      70     982    6.90   96.84
## 5   20  25 22.5   28  2.76      98     944    9.66   93.10
## 6   25  30 27.5    6  0.59     104     916   10.26   90.34
## 7   30  35 32.5   96  9.47     200     910   19.72   89.74
## 8   35  40 37.5  160 15.78     360     814   35.50   80.28
## 9   40  45 42.5   81  7.99     441     654   43.49   64.50
## 10  45  50 47.5  251 24.75     692     573   68.24   56.51
## 11  50  55 52.5  135 13.31     827     322   81.56   31.76
## 12  55  60 57.5   55  5.42     882     187   86.98   18.44
## 13  60  65 62.5   99  9.76     981     132   96.75   13.02
## 14  65  70 67.5   32  3.16    1013      33   99.90    3.25
## 15  70  75 72.5    1  0.10    1014       1  100.00    0.10

Fila total de las sumas de ni y hi

# FILA TOTAL
fila_total_f <- data.frame(
  lis = "TOTAL",
  lss = "",
  MC_f = "",
  ni_f = sum(TDFlat_f$ni_f),
  hi_f = round(sum(TDFlat_f$hi_f),),
  Niasc_f = "",
  Nidsc_f = "",
  Hiasc_f = "",
  Hidsc_f = ""
)

TDFlat_t <- rbind(TDFlat_f, fila_total_f)

TDFlat_t
##      lis lss MC_f ni_f   hi_f Niasc_f Nidsc_f Hiasc_f Hidsc_f
## 1      0   5  2.5    5   0.49       5    1014    0.49     100
## 2      5  10  7.5   14   1.38      19    1009    1.87   99.51
## 3     10  15 12.5   13   1.28      32     995    3.16   98.13
## 4     15  20 17.5   38   3.75      70     982     6.9   96.84
## 5     20  25 22.5   28   2.76      98     944    9.66    93.1
## 6     25  30 27.5    6   0.59     104     916   10.26   90.34
## 7     30  35 32.5   96   9.47     200     910   19.72   89.74
## 8     35  40 37.5  160  15.78     360     814    35.5   80.28
## 9     40  45 42.5   81   7.99     441     654   43.49    64.5
## 10    45  50 47.5  251  24.75     692     573   68.24   56.51
## 11    50  55 52.5  135  13.31     827     322   81.56   31.76
## 12    55  60 57.5   55   5.42     882     187   86.98   18.44
## 13    60  65 62.5   99   9.76     981     132   96.75   13.02
## 14    65  70 67.5   32   3.16    1013      33    99.9    3.25
## 15    70  75 72.5    1   0.10    1014       1     100     0.1
## 16 TOTAL          1014 100.00

TABLA DE DISTRIBUCION DE FRECUENCIA SIMPLIFICADA FINAL

# TABLA DE DISTRIBUCION DE FRECUENCIA SIMPLIFICADA FINAL
tabla_lat_f <- TDFlat_t %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nº:2*"),
    subtitle = md("Tabla de distribución de frecuencias simples y acumuladas de 
                  latitud en los depósitos masivos de sulfuros")
  ) %>%
  tab_source_note(
    source_note = md("Autor: GRUPO 2")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )

tabla_lat_f
Tabla Nº:2
Tabla de distribución de frecuencias simples y acumuladas de latitud en los depósitos masivos de sulfuros
lis lss MC_f ni_f hi_f Niasc_f Nidsc_f Hiasc_f Hidsc_f
0 5 2.5 5 0.49 5 1014 0.49 100
5 10 7.5 14 1.38 19 1009 1.87 99.51
10 15 12.5 13 1.28 32 995 3.16 98.13
15 20 17.5 38 3.75 70 982 6.9 96.84
20 25 22.5 28 2.76 98 944 9.66 93.1
25 30 27.5 6 0.59 104 916 10.26 90.34
30 35 32.5 96 9.47 200 910 19.72 89.74
35 40 37.5 160 15.78 360 814 35.5 80.28
40 45 42.5 81 7.99 441 654 43.49 64.5
45 50 47.5 251 24.75 692 573 68.24 56.51
50 55 52.5 135 13.31 827 322 81.56 31.76
55 60 57.5 55 5.42 882 187 86.98 18.44
60 65 62.5 99 9.76 981 132 96.75 13.02
65 70 67.5 32 3.16 1013 33 99.9 3.25
70 75 72.5 1 0.10 1014 1 100 0.1
TOTAL 1014 100.00
Autor: GRUPO 2

GRÁFICAS DE DISTRIBUCIÓN DE FRECUENCIA

Colores de las barras

# colores de las barras
colores <- gray.colors(length(ni), start = 0.3, end = 0.9)

Histograma de frecuencia absoluta local

hist(
  latitud,
  main = "Gráfica Nº2: Distribución absoluta local de latitud en depositos masivos 
  de sulfuros volcanicos ",
  xlab = "latitud",
  ylab = "Cantidad",
  col = colores
)

Histograma de frecuencia absoluta global

hist(
  latitud,
  main = "Gráfica Nº3: Distribución absoluta global de latitud en depositos masivos 
  de sulfuros volcanicos",
  xlab = "latitud",
  ylab = "Cantidad ",
  col = colores,
  ylim = c(0, 1014)
)

Histograma de frecuencia relativa local

# Intervalos de 5 en 5
breaks_5 <- seq(
  from = floor(min(latitud)/5)*5,
  to   = ceiling(max(latitud)/5)*5,
  by   = 5
)

# Etiquetas de intervalos
etiquetas_x <- breaks_5[-1]

barplot(
  hi_f,
  names.arg = etiquetas_x,
  col = colores,
  space = 0,
  cex.names = 0.6,
  ylab = "Porcentaje (%)",
  xlab = "latitud",
  main = "Gráfica Nº4: Distribución relativa local de latitud
en depósitos masivos de sulfuros volcánicos",
  las = 1
)

Histograma de frecuencia relativa global

barplot(
  hi_f,
  names.arg = etiquetas_x,
  col = colores,
  ylim = c(0, 100),
  cex.names = 0.6,
  space = 0,
  ylab = "Porcentaje (%)",
  xlab = "Latitud",
  main = "Gráfica Nº5: Distribución relativa global de latitud
  en depósitos masivos de sulfuros volcánicos",
  las = 2
)

DIAGRAMA DE CAJA

boxplot(
  latitud,
  horizontal = TRUE,
  main = "Gráfica Nº6: Distribución de latitud en depositos masivos 
  de sulfuros volcanicos",
  xlab = "Latitud",
  col = colores
)

Convertir columnas que quedaron como character a numéricas

Niasc_f <- as.numeric(TDFlat_f$Niasc_f)
Nidsc_f <- as.numeric(TDFlat_f$Nidsc_f)

Ojivas combinadas Ni

plot(lss, Nidsc_f, type="o",
     main="Gráfica Nº7: Distribución de latitud en depositos masivos 
  de sulfuros volcanicos"
     , ylab="Cantidad", col="blue", xlab="latitud")

lines(lis, Niasc_f, col="black", add=TRUE, type="b")

Ojivas combinadas Hi

plot(lss, Hidsc_f, type="o",
     main="Gráfica Nº8: Distribución de latitud en depositos masivos 
  de sulfuros volcanicos"
     , ylab="Porcentaje", col="blue", xlab="Latitud)")

lines(lis, Hiasc_f, col="black", add=TRUE, type="b")

INDICADORES ESTADISTICOS Y OUTLIERS

Ver los cuartiles

summary(latitud)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       0      37      48      45      54      73

Indicadores Estadisticos

POSICION

#MEDIA ARITMETICA
x<-mean(latitud)
x
## [1] 44.99901
#MEDIANA ARITMETICA
ri<-min(latitud)
rs<-max(latitud)
Me<-median(latitud)
Me
## [1] 48

DISPERSION

#DESVIACIÓN ESTÁNDAR
sd<-sd(latitud)
sd
## [1] 13.24367
#COEFICIENTE DE VARIACIÓN
CV <- ((sd / x) * 100)
CV
## [1] 29.43103

FORMA

#COEFICIENTE DE ASIMETRÍA
As<-skewness(latitud)
As
## [1] -0.6460008
#COEFICIENTE DE CURTOSIS
K<-kurtosis(latitud)
K
## [1] 0.4379226

TABLA DE INDICADORES ESTADISTICOS

Variable<-c("Latitud")
TablaIndicadores<-data.frame(Variable,ri,rs,round(x,2),Me,round(sd,2), round(CV,2), round(As,2),round(K,2))
colnames(TablaIndicadores)<-c("Variable","minimo","máximo","x","Me","sd","Cv (%)","As","K")

library(knitr)
kable(TablaIndicadores, format = "markdown", caption = "Tabla N°3. Indicadores estadíticos
      de la variable latitud en los depositos masivos de sulfuros volcanicos")
Tabla N°3. Indicadores estadíticos de la variable latitud en los depositos masivos de sulfuros volcanicos
Variable minimo máximo x Me sd Cv (%) As K
Latitud 0 73 45 48 13.24 29.43 -0.65 0.44

TABLA DE OUTLIERS

outliers<-boxplot.stats(latitud)$out 
# Contar los valores atípicos 
num_outliers <- length(outliers) 
num_outliers
## [1] 22
minoutliers<-min(outliers)
minoutliers
## [1] 0
maxoutliers<-max(outliers)
maxoutliers
## [1] 11
TablaOutliers<-data.frame(num_outliers,minoutliers,maxoutliers)
colnames(TablaOutliers)<-c("Outliers","Mínimo","Máximo")
kable(TablaOutliers, format = "markdown", caption = "Tabla N°4: Outliers de la variable
      latitud en los depositos masivos de sulfuros volcanicos).")
Tabla N°4: Outliers de la variable latitud en los depositos masivos de sulfuros volcanicos).
Outliers Mínimo Máximo
22 0 11

CONCLUSIÓN

CONCLUSIÓN

La variable latitud, medida en grados, fluctúa entre 0 y 73, con valores que se encuentran en torno a la mediana de 48, y una desviación estándar de 13.24, lo que indica un conjunto de datos relativamente homogéneo. La mayor concentración de registros se localiza en la parte media–alta de la variable. Se identifican 22 valores atípicos, los cuales se concentran principalmente entre 0 y 11 grados de latitud. Por todo lo anterior, el comportamiento de la latitud es medianamente beneficioso, ya que la concentración de depósitos en latitudes medias–altas coincide con zonas geológicas ampliamente exploradas y con mayor disponibilidad de información para el análisis minero.