Objetivo

O objetivo é fazer uma análise descritiva e verificar se existe diferença no tamanho da sépala (sepal_length, sepal_width) e da pétala (petal_length, petal_width) entre as espécies (variável species).

Desejamos ver inicialmente a estrutura dos nossos dados, como eles estão organizados, se há dados faltantes, etc.

Tabela dos Dados
sepal_length sepal_width petal_length petal_width species
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
5.4 3.9 1.7 0.4 setosa
4.6 3.4 1.4 0.3 setosa
5.0 3.4 1.5 0.2 setosa
4.4 2.9 1.4 0.2 setosa
4.9 3.1 1.5 0.1 setosa

Análise Exploratória de Dados

Nos seguintes gráficos teremos os seguintes esquema: gráfico A representará os boxplots e gráfico B representará os gráficos de densidade.

Podemos ver que mais de 75% das setosas tem sépalas com comprimento menores que mais de 75% dos dois demais, ou seja, tem, de fato, sépala com comrpimento menores, em geral. A maioria das setosas tem sépala com comprimento concentrado ao redor de 5.

Na versicolor, vemos também que a maioria das versicolor tem sépala com comprimento concentrado ao redor de 6.

Já na virgínica, temos que ela tem mais de 50% das nossas observações com comprimento concentrado ao redor de 6.5, sendo 75% dos dados maiores que 6.3

Em resumo, suspeitamos que as comprimento das sépalas sigam a seguinte ordem em tamanho decrescente: virginica, versicolor, setosa.

Percebemos que mais de 75% das setosas tem sépalas com larguras menores que mais de 75% dos dois demais, ou seja, tem, de fato, sépala com larguras maiores, em geral. A maioria das setosas tem sépala com largura concentrada ao redor de 3,4.

Na versicolor, visualizamos que a maioria tem sépala com largura concentrada ao redor de 2,8, com 75% dos dados sendo maiores que 2,5.

Já na virgínica, temos que ela tem mais de 50% das nossas observações com largura concentrada ao redor de 3, sendo 75% dos dados maiores que 2,5.

Em resumo, suspeitamos que as larguras das sépalas sigam a seguinte ordem em tamanho decrescente: setosa, versicolor, virginica.

Percebemos que 100% das setosas tem pétalas com comprimentos menores que os dois demais, ou seja, tem, de fato, pétalas com comprimentos menores, em geral. A maioria das setosas tem pétalas com comprimentos concentrados ao redor de 1.

Vemos na versicolor que a maioria delas tem sépala com comprimento de pétala concentrado ao redor de 4,5. Vemos que 100% das versicolores são menores que 75% das virgínicas, e que 100% das versicolores são maiores que a setosa.

Já na virgínica, temos que ela tem 75% das nossas observações acima dos dois outros tipos e dados concetrados em torno de 5,5.

Em resumo, suspeitamos que os comprimentos das pétalas sigam a seguinte ordem em tamanho decrescente: virginica, versicolor, setosa.

Percebemos que 100% das setosas tem pétalas com larguras menores que os dois demais, ou seja, tem, de fato, pétalas com larguras menores, em geral. A maioria das setosas tem pétalas com comprimentos concentrados ao redor de 0,2.

Vemos na versicolor que a maioria delas tem sépala com comprimento de pétala concentrado ao redor de 1,25. Vemos que 100% das versicolores são menores que 75% das virgínicas, e que 100% das versicolores são maiores que a setosa.

Já na virgínica, temos que ela tem 75% das nossas observações acima dos dois outros tipos e dados concetrados em torno de 2.

Em resumo, suspeitamos que as larguras das pétalas sigam a seguinte ordem em tamanho decrescente: virginica, versicolor, setosa.

Comprovação Estatística

Temos nossas suspeitas, porém iremos atribuir as nossas decisões um valor estatístico a elas. Entre os mais variados métodos possíveis, selecionaremos dois, apenas.

Teste de Hipótese

Realizaremos um teste não-paramétrico chamado de Kruskal-Wallis, onde ele utiliza os postos para testa se eles são igualmente distribuídos em certas condições, como seria esperado sob a hipótese nula. Sendo mais claro, testaremos se:

             

\[ H_0: \ F_1(x_1 + \Delta_1) = F_2(x_2 + \Delta_2) = F_3(x_3 + \Delta_3) \rightarrow \Delta_i = 0 \ \forall \ i = 1,2, 3 \] \[ H_1: \ \Delta_i \neq 0 \ \text{para pelo menos um $i = 1,2,3$} \]

Tabela dos Testes
statistic p.value parameter method Variável ~ Grupo
96.93744 0 2 Kruskal-Wallis rank sum test sepal_length ~ species
62.49463 0 2 Kruskal-Wallis rank sum test sepal_width ~ species
130.41407 0 2 Kruskal-Wallis rank sum test petal_length ~ species
131.09335 0 2 Kruskal-Wallis rank sum test petal_width ~ species

Ao nível de significância de 1% rejeitamos a hipótese que as médias são todas iguais, em todas as variáveis, como já suspeitávamos e agora obtivemos uma confirmação estatística. Observação importante é notar que os p-valores não são, de fato, 0, porém bastante próximos de tal maneira que é arredondado para 0.

K-Means

Também podemos nos valer de técnicas de análise multivariada, ou seja, usaremos o método chamado de ‘K-means’, um tipo de clusterização. Essa técnina procura particionar um conjunto de dados em um número específico de grupo, k grupos, minimizando um certo critério numérico.

Resultado da nossa clusterização
species cluster Contagem
setosa setosa-modelo 50
versicolor versicolor-modelo 38
versicolor virginica-modelo 12
virginica virginica-modelo 50

Podemos ver no primeiro gráfico a relação entre os tamanhos das dimensões das pétalas e das sépalas. No segundo gráfico, vimos o resultado do nosso modelo, cada cor representa uma espécie de planta diferente.

Na tabela, vemos a relação da nossa amostra com o resultado do nosso modelo. Acertamos todas, menos 12 de 50 das versicolores pelo método K-means, ou seja, acertamos 138 de 150, 92%. Sendo assim, vemos que há de fato 3 tipos diferentes de espécies de irís, as suas dimensões são de fato diferentes.