dados <- readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2023/2023-04-11/egg-production.csv')
Rows: 220 Columns: 6
── Column specification ────────────────────────────────────────────────────────
Delimiter: ","
chr (3): prod_type, prod_process, source
dbl (2): n_hens, n_eggs
date (1): observed_month
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Então a primira coisa que vocês terão que fazer é ler sobre os dados no link acima, baixar os dados de acordo com as instruções, carregar o tidyverse e seguir as orientações abaixo!
Só vamos usar UM conjunto de dados
Só utilizar os dados de eggproduction egg <- readr::read_csv(‘https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2023/2023-04-11/egg-production.csv’)
Respostas
Exercício 1 - removendo colunas de um conjunto de dados
Remover a última coluna do dataset (a coluna chamada source)
library(dplyr)
Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':
filter, lag
Os seguintes objetos são mascarados por 'package:base':
intersect, setdiff, setequal, union
clean <-select(dados,-source)
Exercício 2 - selecionando variáveis numéricas de um conjunto de dados
Selecionar apenas as variáveis numéricas
num <-select_if(dados,is.numeric)
Exercício 3 - criando subconjuntos a partir de um conjunto de dados
Criar um dataset só com hatching e outro dataset apenas com table eggs
Exercício 9 - combinando duas variáveis numéricas em uma única coluna
Criar uma variável categórica com os fatores n_eggs e n_hens, combinando seus valores em uma única coluna
junto <- dados %>%pivot_longer(cols=c(n_hens, n_eggs), names_to="type", values_to="value")
Exercício 10 - sumarizando dados (média, desvio, etc) de acordo com fatores específicos de cada variável
Faça um sumário dos dados com as médias de n_hens e n_eggs por ano, por produto e por processo
sum <- dados %>%separate(observed_month, into =c("year","month","day"), sep="-") %>%select(-month, -day, -source) %>%group_by(year,prod_type,prod_process) %>%summarise_if(is.numeric, mean)