Exercício - Semana 2

Manipulação de Dados

Author

Marina Scalon

Chegou a hora de fixar o nosso aprendizado das funções aprendidas em aula do tidyr e do dplyr!

Para isso, vamos usar um conjunto de dados do tidytuesday

E os dados escolhidos por mim foram o de produção de ovos nos EUA

Então a primira coisa que vocês terão que fazer é ler sobre os dados no link acima, baixar os dados de acordo com as instruções, carregar o tidyverse e seguir as orientações abaixo!

Só vamos usar UM conjunto de dados

Só utilizar os dados de eggproduction egg <- readr::read_csv(‘https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2023/2023-04-11/egg-production.csv’)

Exercício 1 - removendo colunas de um conjunto de dados

Remover a última coluna do dataset (a coluna chamada source)

Exercício 2 - selecionando variáveis numéricas de um conjunto de dados

Selecionar apenas as variáveis numéricas

Exercício 3 - criando subconjuntos a partir de um conjunto de dados

Criar um dataset só com hatching e outro dataset apenas com table eggs

Exercício 4 - criando subconjuntos a partir de fatores específicos dentro do conjunto de dados

Criar um dataset só com table eggs e todos os processos (all)

Exercício 5 - mudando nome das variáveis

Mudar os nomes das variáveis para português

Exercício 6 - mudando nomes de fatores dentro de variáveis específicas

Mudar os nomes dos fatores para português

Exercício 7 - criando nova variável a partir da combinação de variáveis pré-existentes

Criar uma nova variável chamada ‘produtividade’ com a razão entre número de ovos (n_eggs) e número de galinhas (n_hens)

Exercício 8 - criando subconjunto de dados a partir de uma seleção específica das variáveis

Criar um dataset só de produtos cage free e criar novas variáveis separando n_eggs e n_hens por organicos e não orgânicos

Exercício 9 - combinando duas variáveis numéricas em uma única coluna

Criar uma variável categórica com os fatores n_eggs e n_hens, combinando seus valores em uma única coluna

Exercício 10 - sumarizando dados (média, desvio, etc) de acordo com fatores específicos de cada variável

Faça um sumário dos dados com as médias de n_hens e n_eggs por ano, por produto e por processo