#actividad 1 analisis estadistico

primero que todo cargamos nuestra vace de datos

library(readxl)


datos <- read_xlsx("actividad_1.xlsx")

Revisión de datos (1 punto): Teniendo en cuenta el conjunto de datos específico relacionado con su conjunto de datos, en primer lugar, deben evaluar:

  1. ¿Cuál es la población objetivo?

R La poblacion es una muestra parece ser un llacimiento de rocas o un pozo donde se estajeron diferentes tipos de rocas

  1. ¿Existe una muestra? ¿Cuál es?

R sí, nuestra muestra son 20 rocas las cuales cuentan con una diversidad de datos poropiedades

  1. Menciones un parámetro y un estadístico en este estudio, si es posible.

r un parametro podria ser a que profundidad sueron extraidas y un estadistico que podriamos realizar es la media

  1. Clasifique cada una de las variables de acuerdo con su naturaleza y nivel de medición
# Crear la tabla con los datos proporcionados
tabla <- data.frame(
  Variable = c("Profundidad del yacimiento", 
               "Composición química (% de SiO2)", 
               "Tipo de roca", 
               "Presencia de fallas", 
               "Densidad de mineral (g/cm³)"),
  Naturaleza = c("Cuantitativa continua", 
                 "Cuantitativa continua", 
                 "Cualitativa nominal", 
                 "Cualitativa binaria", 
                 "Cuantitativa continua")
)

# Mostrar la tabla
tabla
  1. Organización de datos en tablas de frecuencia (1 punto): Elabora al menos tres tablas de frecuencia para variables categóricas (Ejemplo: Tipo de Roca, Presencia de Fósiles, Región Geológica).
# 1. Tabla de frecuencia para "Tipo de Roca"
tabla_tipo_roca <- table(datos$`Tipo de Roca`)
tabla_tipo_roca_df <- as.data.frame(tabla_tipo_roca)
colnames(tabla_tipo_roca_df) <- c("Tipo de Roca", "Frecuencia")

# Mostrar la tabla de frecuencia - Tipo de Roca

tabla_tipo_roca_df
tabla_presencia_fosiles <- table(datos$`Presencia de Fósiles`)
tabla_presencia_fosiles_df <- as.data.frame(tabla_presencia_fosiles)
colnames(tabla_presencia_fosiles_df) <- c("Presencia de Fosiles", "Frecuencia")

# Mostrar la tabla de frecuencia - Presencia de Fósiles

tabla_presencia_fosiles_df
# Definir los intervalos de agrupación para la variable "Profundidad"
# Crear intervalos de 50 metros
breaks <- seq(0, max(datos$`Profundidad (m)`) + 50, by = 50)  # crear intervalos de 50 metros
# Crear la variable "Intervalo de profundidad" usando cut()
Intervalo_Profundidad <- cut(datos$`Profundidad (m)`, breaks = breaks, right = FALSE)

# Crear la tabla de frecuencias agrupadas
tabla_frecuencia_agrupada <- table(Intervalo_Profundidad)
tabla_frecuencia_agrupada_df <- as.data.frame(tabla_frecuencia_agrupada)
colnames(tabla_frecuencia_agrupada_df) <- c("Intervalo de Profundidad", "Frecuencia")

# Mostrar la tabla de frecuencias agrupadas
print("Tabla de Frecuencia Agrupada - Profundidad del Yacimiento:")
## [1] "Tabla de Frecuencia Agrupada - Profundidad del Yacimiento:"
tabla_frecuencia_agrupada_df

Interpreta todas las tablas.

Distribución de tipos de roca: Las muestras están divididas casi equitativamente entre rocas sedimentarias, ígneas y metamórficas. Presencia de fósiles: La mayoría de las muestras contienen fósiles, lo que sugiere que estas formaciones geológicas tienen una alta preservación de fósiles. Profundidad de los yacimientos: La mayoría de los yacimientos se encuentran en profundidades de hasta 100 metros, con pocas muestras en profundidades mayores a 250 metros

  1. Organización de datos en gráficos

A partir de las tablas anteriores, elabora al menos tres gráficos:Diagrama circular para la distribución de tipos de rocas

library(ggplot2)

# Crear el gráfico de pastel
# Convertir tabla a data.frame
tabla_tipo_roca_df <- as.data.frame(tabla_tipo_roca)

# Renombrar columnas si es necesario
colnames(tabla_tipo_roca_df) <- c("tipo_de_roca", "Frecuencia")

# Crear el gráfico de pastel
ggplot(tabla_tipo_roca_df, aes(x = "", y = Frecuencia, fill = tipo_de_roca)) +
  geom_col(color = "black") +  
  geom_label(aes(label = Frecuencia), 
             position = position_stack(vjust = 0.5),
             show.legend = FALSE) +  
  guides(fill = guide_legend(title = "Tipo de Roca")) +  
  coord_polar(theta = "y") +  
  ggtitle("Distribución de Tipos de Roca")

Histograma de la profundidad del yacimiento con su polígono de frecuen

library(ggplot2)

# Convertir la tabla a data.frame
tabla_frecuencia_df <- as.data.frame(tabla_frecuencia_agrupada)

# Renombrar columnas si es necesario
colnames(tabla_frecuencia_df) <- c("Intervalo", "Frecuencia")

# Extraer los límites inferior y superior de cada intervalo para calcular el punto medio automáticamente
tabla_frecuencia_df$Inferior <- as.numeric(gsub("\\[|,.*", "", tabla_frecuencia_df$Intervalo))
tabla_frecuencia_df$Superior <- as.numeric(gsub(".*,(.*?)\\)", "\\1", tabla_frecuencia_df$Intervalo))
tabla_frecuencia_df$PuntoMedio <- (tabla_frecuencia_df$Inferior + tabla_frecuencia_df$Superior) / 2

# Crear el histograma con polígono de frecuencia
ggplot(tabla_frecuencia_df, aes(x = PuntoMedio, y = Frecuencia)) +
  geom_bar(stat = "identity", fill = "lightblue", color = "black", alpha = 0.7, width = (tabla_frecuencia_df$Superior[1] - tabla_frecuencia_df$Inferior[1])) +  
  geom_line(aes(x = PuntoMedio, y = Frecuencia), color = "red", size = 1) +  
  geom_point(aes(x = PuntoMedio, y = Frecuencia), color = "red", size = 2) +  
  scale_x_continuous(breaks = tabla_frecuencia_df$PuntoMedio) +  
  ggtitle("Histograma de la Profundidad del Yacimiento con Polígono de Frecuencia") +
  xlab("Profundidad (m)") +
  ylab("Frecuencia") +
  theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Diagrama de cajas y bigotes para analizar la variabilidad de la composición química de las rocas.

library(ggplot2)

# Crear el diagrama de cajas y bigotes con rotación
ggplot(datos, aes(x = `% de SiO2`, y = `Tipo de Roca`, fill = `Tipo de Roca`)) +
  geom_boxplot(alpha = 0.7, outlier.color = "red", outlier.shape = 16) +  
  ggtitle("Diagrama de Cajas y Bigotes - Variabilidad del % de SiO2 en Tipos de Roca") +
  xlab("% de SiO₂") +
  ylab("Tipo de Roca") +
  theme_minimal() +
  theme(legend.position = "none")  # Oculta la leyenda porque ya está en el eje Y

library(ggplot2)

# Crear el diagrama de cajas y bigotes sin distinguir tipo de roca
ggplot(datos, aes(x = "", y = `% de SiO2`)) +
  geom_boxplot(fill = "lightblue", alpha = 0.7, outlier.color = "red", outlier.shape = 16) +  
  ggtitle("Diagrama de Cajas y Bigotes - Variabilidad del % de SiO2 en Todas las Rocas") +
  xlab("") +
  ylab("% de SiO₂") +
  theme_minimal()

Interpreta todos los gráfico

La gráfica es un diagrama de pastel en coordenadas polares que representa la frecuencia de los 3 tipos de rocas, las igneas con 7 unidades, las metamórficas con 6 unidades y sedimentarias con 7 unidades. Esta distribución indica una representación equitativa de las rocas ígneas y sedimentarias, mientras que las metamórficas presentan una frecuencia ligeramente menor.

Este gráfico muestra la distribución de la profundidad de un yacimiento, con el eje horizontal representando la profundidad y el vertical la frecuencia. Se observa que la frecuencia es alta en los primeros intervalos de profundidad, disminuye en los intermedios, y vuelve a aumentar en los últimos, sugiriendo una distribución bimodal con dos picos de frecuencia. Esto indica que hay dos rangos de profundidad donde se encuentran más yacimientos, lo cual es relevante para la exploración y explotación del yacimiento.

Este diagrama de cajas y bigotes compara la variabilidad del porcentaje de SiO2 en tres tipos de roca: sedimentaria, metamórfica e ígnea. La roca sedimentaria muestra la menor variabilidad y una mediana ligeramente puesta hacia valores más altos de SiO2. La roca metamórfica presenta una variabilidad intermedia con una distribución más simétrica. La roca ígnea muestra la mayor variabilidad y una mediana desplazada hacia valores más bajos de SiO2, indicando una distribución asimétrica.

Este diagrama de cajas y bigotes muestra la variabilidad del porcentaje de SiO2 en todas las rocas combinadas, revelando una distribución relativamente simétrica con una mediana cercana al 68% y una variabilidad considerable, indicada por la longitud de la caja y los bigotes, lo que sugiere una amplia gama de porcentajes de SiO2 en las muestras analizadas.

7.Cálculo de estadísticas descriptiva

Elabora una tabla resumen con estadísticas descriptivas para variables cuantitativas(mínimo, máximo, media, mediana, desviación estándar

tabla_datos <- data.frame(
  variables = c("Profundidad (m)","Densidad (g/cm³)","% de SiO2`"),
  minimo =c(min(datos$`Profundidad (m)`), min(datos$`Densidad (g/cm³)`), min(datos$`% de SiO2`)),
  maximo =c(max(datos$`Profundidad (m)`), max(datos$`Densidad (g/cm³)`), max(datos$`% de SiO2`)),
  media =c(mean(datos$`Profundidad (m)`), mean(datos$`Densidad (g/cm³)`), mean(datos$`% de SiO2`)),
  mediana =c(median(datos$`Profundidad (m)`), median(datos$`Densidad (g/cm³)`), median(datos$`% de SiO2`)),
  desviacion=c(sd(datos$`Profundidad (m)`), sd(datos$`Densidad (g/cm³)`), sd(datos$`% de SiO2`))
)
tabla_datos

Realiza una tabla de frecuencias para variables cualitativa

# Crear la tabla de frecuencias en un data.frame
tabla_frecuencia <- data.frame(
  Tipo_de_Roca = c("Ígnea", "Metamórfica", "Sedimentaria"),
  Fosiles_Si = c(
    sum(datos$`Tipo de Roca` == "Ígnea" & datos$`Presencia de Fósiles` == "Sí"),
    sum(datos$`Tipo de Roca` == "Metamórfica" & datos$`Presencia de Fósiles` == "Sí"),
    sum(datos$`Tipo de Roca` == "Sedimentaria" & datos$`Presencia de Fósiles` == "Sí")
  ),
  Fosiles_No = c(
    sum(datos$`Tipo de Roca` == "Ígnea" & datos$`Presencia de Fósiles` == "No"),
    sum(datos$`Tipo de Roca` == "Metamórfica" & datos$`Presencia de Fósiles` == "No"),
    sum(datos$`Tipo de Roca` == "Sedimentaria" & datos$`Presencia de Fósiles` == "No")
  ),
  Total = c(
    sum(datos$`Tipo de Roca` == "Ígnea"),
    sum(datos$`Tipo de Roca` == "Metamórfica"),
    sum(datos$`Tipo de Roca` == "Sedimentaria")
  )
)

# Mostrar la tabla
tabla_frecuencia

Explica qué información relevante se puede extraer de estas tablas en términos deexploración geológica

A partir dela primera tabla realizada es posible determinar que: -El rango de profundidad (85m-310m) indica la extension de la zona explorada, permitiendo comprender de mejor manera la estratigrafía de la zona. -La alta desviacion estandar en la profundidad (82.56) indica que existe una gran variacion en la profundidad de las muestras, lo que puede indicar una geología compleja. -Los valores reportados (2.6-2.75 gcm³) sugieren rocas de densidad intermedia, siendo esto un indicador clave en su composición mineral. -La baja desviación estándar (0.042) indica que la densidad es relativamente cte, lo que podría indicar una litología uniforme.

La tabla demuestra que las rocas sedimentarias tienen la mayor cantidad de muestras con fósiles, lo que confirma su naturaleza sedimentaria.