Atividade
Um estudo foi realizado para investigar as características físicas de diferentes espécies de peixes. Os dados coletados incluem informações sobre peso (Weight), comprimento (Length), altura (Height) e largura (Width) de peixes das espécies Bream, Roach, Whitefish, Parkki, Perch, Pike e Smelt. Esses dados estão organizados em uma planilha e serão utilizados para análises estatísticas e ecológicas.
Objetivo
Realizar uma análise exploratória dos dados para identificar padrões, relações entre as variáveis e possíveis erros ou inconsistências nos registros.
Dados
tibble [159 × 5] (S3: tbl_df/tbl/data.frame)
$ Species: chr [1:159] "Bream" "Bream" "Bream" "Bream" ...
$ Weight : num [1:159] 242 290 340 363 430 450 500 390 450 500 ...
$ Length : num [1:159] 30 31.2 31.1 33.5 34 34.7 34.5 35 35.1 36.2 ...
$ Height : num [1:159] 11.5 12.5 12.4 12.7 12444 ...
$ Width : num [1:159] 4.02 4.31 4.7 4.46 5134 ...
Frequência absoluta por espécie
Perch |
56 |
Bream |
35 |
Roach |
20 |
Pike |
17 |
Smelt |
14 |
Parkki |
11 |
Whitefish |
6 |
Os dados da tabela apresenta as variáveis que podemos classificar em quantitativa nominal (espécies) e quantitativa contínua (altura,peso,largura e comprimento). Conseguimos observar também que as amostras por espécies não apresentam uma uniformidade, sendo a espécie Perch com maior número de observações (56 indivíduos) e a espécie Whitefish com a menor ocorrência (6 indivíduos). Essa falta de uniformidade torna-se problemática em análise estatísitcas inferências e descritivas, pois a comparação dos dados entre as espécies ficam desigual.
Histogramas- dados gerais
Considerando que o eixo X temos os dados (largura,altura etc) e o eixo Y o número de observações. De forma geral conseguimos observar que a escala produzida em todos os histogramas é discrepante com grandes saltos, o que pode indicar que na tabela há valores muito discrepantes ou erros de digitação (há indivíduos com dados zerados).Para uma avaliação visual mais interessante podemos ajustar a escala do eixo x e ficamos com os seguintes gráficos:
Para a variável “Peso” podemos observar que a maioria dos peixos tinham menos de 500g (aproximadamente entre 100-300g) com pelo menos 15 observações em seu pico, tendo o histograma uma distribuição assimétrica a direita. Para a variável comprimento, o gráfico tem distribuição simétrica tendo seu pico entre 20-25 cm com pelo menos 15 observações.
No histograma da altura (cm) as observações concentram-se em 1000 cm com aproximadamente 120 observações, sendo as demais observações bem distribuidas. Por fim, os dados de largura foram bem distribuidas tendo uma apresentação mais expressiva entre 4000 cm (~15 observações.).
Boxplot- dados gerais
O boxplot resume a distribuição dos dados usando 5 medidas sendo elas: mínimo; 1°Quartil(Q1); Mediana; 3°Quartil (Q3) e máximo. Para os dados das variáveis quantitativas obtemos os seguintes gráficos:
Peso: Podemos observar três outliers ; o valor máximo encontra-se em 1250g; o 3° quartil é superior a 500g e a mediana inferior a 500g (por volta de 250g); o valor mínimo se encontra em 0g.
Comprimento: Apresentou apenas um outlier; o valor máximo encontra-se por volta de 60cm; o 3° quartil é 40cm e a mediana é próximo a 30cm; o valor mínimo é inferior a 20 cm
Altura: Apresentou muitos outliers (mais de dez); valor máximo é superior a 5000 cm; o 3° quartil é de aproximadamente 2500cm e a mediana é próximo a 0 cm juntamente com o valor mínimo.
Largura: Apresentou apenas um outlier; o valor máximo é de aproximadamente 7000 cm; o 3° quartil é de 3000 cm; a mediana é próxima a 0 cm juntamente com o valor mínimo.
Na tabela a seguir conseguimos observar todos os dados descritivos:
[1] "Species" "Weight" "Length" "Height" "Width"
Estatísticas Descritivas Completas
Weight |
398.33 |
273.00 |
120.00 |
650.00 |
357.98 |
128148.5 |
89.87 |
Length |
31.23 |
29.40 |
23.15 |
39.65 |
11.61 |
134.8 |
37.18 |
Height |
2416.14 |
11.73 |
6.61 |
2902.50 |
4500.07 |
20250610.5 |
186.25 |
Width |
1293.22 |
5.28 |
3.65 |
3048.50 |
2180.53 |
4754722.8 |
168.61 |
Em Height e Widht a medida da média são muito superiores a mediana indicando provavel presença de valores extremos ou erros de digitação. No peso (Weight) o Cv é alto indicando variabilidade extrema (alguns mais pesado que outros). Em comprimento (Leght) a mediana é próxima a média significando uma distribuição simétrica.
Gráfico de Barra- por espécie
O histograma a seguir podemos observar um comparativo das espécies para cada uma das variáveis quantitativas.
Peso: Espécie Pike, Bream e Whitefish com maior peso , respectivamente, e smelt com o menor (próximo a zero)
Comprimento: Espécie Pike, Bream e Whitefish com maiores comprimentos, respectivamente, e Smelt menor comprimento.
Altura: Whitefish e Smelt com maior e menor altura respectivamente.
Largura: Espécie Whitefish, Pike e Perch apresentaram maiores largura respectivamente, e a Smelt o menor.
A espécie Whitefish constou como maior em todos os parâmetros que pode ser explicado pelo fato do número reduzido de observações (6 indivíduos) .
Boxplot- por espécie
O Boxplot a seguir podemos observar um comparativo das espécies para cada variável.
Peso: Pike e Bream com médias altas (acima de 500g); Smealt e Roach com menor peso (mediana <100g); presença de outlier em que Breams e Pikers com pesos excepcionalmente altos (>1500g)
Comprimento: Pike e Bream maiores (mediana>35cm) e Smelt o menor (mediana~12cm); Perck com alta dispersão (25-45cm).
Altura: Bream e Pike espécies mais altas (mediana>12cm) e Smelt o mais baixo (mediana~2cm);
Largura: Bream e Pike larguras maiores (mediana>4cm) e Smelts o mais estreito (mediana~1cm).Roach e Perch com variação moderada
Pike e Bream em geral maiores (topo do tamanho e peso) e Smelt menor espécie em todos os parâmetros.
Espécie Whitefish x Pike
Vamos analisar os gráficos de correlação entre espécie Whitefish e Pike em algumas variáveis.