Instrucciones

  1. Contextualizar tanto la base de datos como las variables describiendo en qué consiste cada una de ellas.

  2. Analizar las características de la base de datos. Esta pueden incluir: número de filas, número de columnas, nombres de las variables, tipos de variables, entre otros.

  3. Analizar cada una de las variables según su tipo: numéricas y categóricas.

  4. Filtrar la base de datos para entender mejor su estructura. Aplique filtros en al menos cinco oportunidades.

  5. Utilice la función table para explorar la base de datos.

  6. Identifique los valores NA (Not Available) en la base de datos.

  7. Analice la presencia de posibles valores atípicos.

  8. Comente cada uno de los resultados obtenidos.

Ejemplo del Informe

ANÁLISIS EXPLORATORIO DE DATOS GEOESTADÍSTICOS

La geología es una disciplina fundamental en el estudio de la estructura, composición y evolución de la Tierra. El análisis de datos geológicos permite comprender fenómenos como la distribución de minerales, la evolución de cuencas sedimentarias, la identificación de estructuras tectónicas y la evaluación de recursos naturales. En este taller, se explorarán datos geológicos para identificar patrones y correlaciones entre variables como la composición química de rocas, la profundidad de yacimientos y la densidad de minerale

Se cargan los datos

library(readxl)
df <- read_excel("Base_Datos_Geologia.xlsx")
df 
## # A tibble: 50 × 6
##       ID `Profundidad (m)` Tipo_de_Roca `% de SiO2` `Densidad (g/cm³)`
##    <dbl>             <dbl> <chr>              <dbl>              <dbl>
##  1     1               120 Sedimentaria        65.2               2.65
##  2     2               230 Ignea               72.4               2.7 
##  3     3                85 Metamórfica         68.3               2.75
##  4     4               150 Sedimentaria        71.1               2.68
##  5     5               300 Ignea               62                 2.6 
##  6     6               210 Metamórfica         69.5               2.72
##  7     7                95 Sedimentaria        66.8               2.66
##  8     8               275 Ignea               73                 2.71
##  9     9               140 Metamórfica         64.5               2.64
## 10    10               310 Sedimentaria        70.3               2.69
## # ℹ 40 more rows
## # ℹ 1 more variable: `Presencia de Fósiles` <chr>

La base de datos consta de 50 observaciones y 6 variables, las cuales son:

colnames(df)
## [1] "ID"                   "Profundidad (m)"      "Tipo_de_Roca"        
## [4] "% de SiO2"            "Densidad (g/cm³)"     "Presencia de Fósiles"

El tipo de variable de mi base de datos es:

str(df)
## tibble [50 × 6] (S3: tbl_df/tbl/data.frame)
##  $ ID                  : num [1:50] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Profundidad (m)     : num [1:50] 120 230 85 150 300 210 95 275 140 310 ...
##  $ Tipo_de_Roca        : chr [1:50] "Sedimentaria" "Ignea" "Metamórfica" "Sedimentaria" ...
##  $ % de SiO2           : num [1:50] 65.2 72.4 68.3 71.1 62 69.5 66.8 73 64.5 70.3 ...
##  $ Densidad (g/cm³)    : num [1:50] 2.65 2.7 2.75 2.68 2.6 2.72 2.66 2.71 2.64 2.69 ...
##  $ Presencia de Fósiles: chr [1:50] "Sí" "No" "Sí" "No" ...

Aplicando filtros

Creando subgrupos de bases de datos

library(magrittr)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
Tabla_1 <- df %>%
  dplyr::group_by(Tipo_de_Roca) %>%                                  
  dplyr::summarise(Total = n()) %>%                          
  dplyr::mutate(Porcentaje = round(Total/sum(Total)*100, 3)) %>%   
  dplyr::arrange(Tipo_de_Roca)

Tabla_1
## # A tibble: 3 × 3
##   Tipo_de_Roca Total Porcentaje
##   <chr>        <int>      <dbl>
## 1 Ignea           16         32
## 2 Metamórfica     16         32
## 3 Sedimentaria    18         36

Grafico

library(ggplot2)
G1<-ggplot(Tabla_1, aes(x =Tipo_de_Roca, y=Total) ) + 
  geom_bar(width = 0.7,stat="identity",                 
           position = position_dodge(), fill="cyan4") +  
  ylim(c(0,23))+
  #xlim(c(0,300)) +                  
  #ggtitle("Un título") + 
  labs(x="Tipo de Roca", y= "Frecuencias \n (Porcentajes)")   +   
  geom_text(aes(label=paste0(Total," ", "", "(", Porcentaje, "%", ")")),  
            vjust=-0.9, 
            color="black", 
            hjust=0.5,
            # define text position and size
            position = position_dodge(0.9),  
            angle=0, 
            size=4.5) +   
  theme(axis.text.x = element_text(angle = 0, vjust = 1, hjust=1)) +      
  theme_bw(base_size = 16) +
  #coord_flip() +                                                         
  facet_wrap(~"Distribución de Tipo de Roca")
G1