Contextualizar tanto la base de datos como las variables describiendo en qué consiste cada una de ellas.
Analizar las características de la base de datos. Esta pueden incluir: número de filas, número de columnas, nombres de las variables, tipos de variables, entre otros.
Analizar cada una de las variables según su tipo: numéricas y categóricas.
Filtrar la base de datos para entender mejor su estructura. Aplique filtros en al menos cinco oportunidades.
Utilice la función table para explorar la base de datos.
Identifique los valores NA (Not Available) en la base de datos.
Analice la presencia de posibles valores atípicos.
Comente cada uno de los resultados obtenidos.
La geología es una disciplina fundamental en el estudio de la estructura, composición y evolución de la Tierra. El análisis de datos geológicos permite comprender fenómenos como la distribución de minerales, la evolución de cuencas sedimentarias, la identificación de estructuras tectónicas y la evaluación de recursos naturales. En este taller, se explorarán datos geológicos para identificar patrones y correlaciones entre variables como la composición química de rocas, la profundidad de yacimientos y la densidad de minerale
Se cargan los datos
library(readxl)
df <- read_excel("Base_Datos_Geologia.xlsx")
df
## # A tibble: 50 × 6
## ID `Profundidad (m)` Tipo_de_Roca `% de SiO2` `Densidad (g/cm³)`
## <dbl> <dbl> <chr> <dbl> <dbl>
## 1 1 120 Sedimentaria 65.2 2.65
## 2 2 230 Ignea 72.4 2.7
## 3 3 85 Metamórfica 68.3 2.75
## 4 4 150 Sedimentaria 71.1 2.68
## 5 5 300 Ignea 62 2.6
## 6 6 210 Metamórfica 69.5 2.72
## 7 7 95 Sedimentaria 66.8 2.66
## 8 8 275 Ignea 73 2.71
## 9 9 140 Metamórfica 64.5 2.64
## 10 10 310 Sedimentaria 70.3 2.69
## # ℹ 40 more rows
## # ℹ 1 more variable: `Presencia de Fósiles` <chr>
La base de datos consta de 50 observaciones y 6 variables, las cuales son:
colnames(df)
## [1] "ID" "Profundidad (m)" "Tipo_de_Roca"
## [4] "% de SiO2" "Densidad (g/cm³)" "Presencia de Fósiles"
El tipo de variable de mi base de datos es:
str(df)
## tibble [50 × 6] (S3: tbl_df/tbl/data.frame)
## $ ID : num [1:50] 1 2 3 4 5 6 7 8 9 10 ...
## $ Profundidad (m) : num [1:50] 120 230 85 150 300 210 95 275 140 310 ...
## $ Tipo_de_Roca : chr [1:50] "Sedimentaria" "Ignea" "Metamórfica" "Sedimentaria" ...
## $ % de SiO2 : num [1:50] 65.2 72.4 68.3 71.1 62 69.5 66.8 73 64.5 70.3 ...
## $ Densidad (g/cm³) : num [1:50] 2.65 2.7 2.75 2.68 2.6 2.72 2.66 2.71 2.64 2.69 ...
## $ Presencia de Fósiles: chr [1:50] "Sí" "No" "Sí" "No" ...
Aplicando filtros
Creando subgrupos de bases de datos
library(magrittr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Tabla_1 <- df %>%
dplyr::group_by(Tipo_de_Roca) %>%
dplyr::summarise(Total = n()) %>%
dplyr::mutate(Porcentaje = round(Total/sum(Total)*100, 3)) %>%
dplyr::arrange(Tipo_de_Roca)
Tabla_1
## # A tibble: 3 × 3
## Tipo_de_Roca Total Porcentaje
## <chr> <int> <dbl>
## 1 Ignea 16 32
## 2 Metamórfica 16 32
## 3 Sedimentaria 18 36
Grafico
library(ggplot2)
G1<-ggplot(Tabla_1, aes(x =Tipo_de_Roca, y=Total) ) +
geom_bar(width = 0.7,stat="identity",
position = position_dodge(), fill="cyan4") +
ylim(c(0,23))+
#xlim(c(0,300)) +
#ggtitle("Un título") +
labs(x="Tipo de Roca", y= "Frecuencias \n (Porcentajes)") +
geom_text(aes(label=paste0(Total," ", "", "(", Porcentaje, "%", ")")),
vjust=-0.9,
color="black",
hjust=0.5,
# define text position and size
position = position_dodge(0.9),
angle=0,
size=4.5) +
theme(axis.text.x = element_text(angle = 0, vjust = 1, hjust=1)) +
theme_bw(base_size = 16) +
#coord_flip() +
facet_wrap(~"Distribución de Tipo de Roca")
G1