O objetivo é fazer uma análise descritiva e verificar se existe diferença no tamanho da sépala (sepal_length, sepal_width) e da pétala (petal_length, petal_width) entre as espécies (variável species).
Desejamos ver inicialmente a estrutura dos nossos dados, como eles estão organizados, se há dados faltantes, etc.
| sepal_length | sepal_width | petal_length | petal_width | species |
|---|---|---|---|---|
| 5.1 | 3.5 | 1.4 | 0.2 | setosa |
| 4.9 | 3.0 | 1.4 | 0.2 | setosa |
| 4.7 | 3.2 | 1.3 | 0.2 | setosa |
| 4.6 | 3.1 | 1.5 | 0.2 | setosa |
| 5.0 | 3.6 | 1.4 | 0.2 | setosa |
| 5.4 | 3.9 | 1.7 | 0.4 | setosa |
| 4.6 | 3.4 | 1.4 | 0.3 | setosa |
| 5.0 | 3.4 | 1.5 | 0.2 | setosa |
| 4.4 | 2.9 | 1.4 | 0.2 | setosa |
| 4.9 | 3.1 | 1.5 | 0.1 | setosa |
Nos seguintes gráficos teremos os seguintes esquema: gráfico A representará os boxplots e gráfico B representará os gráficos de densidade.
Podemos ver que mais de 75% das setosas tem sépalas com comprimento menores que mais de 75% dos dois demais, ou seja, tem, de fato, sépala com comrpimento menores, em geral. A maioria das setosas tem sépala com comprimento concentrado ao redor de 5.
Na versicolor, vemos também que a maioria das versicolor tem sépala com comprimento concentrado ao redor de 6.
Já na virgínica, temos que ela tem mais de 50% das nossas observações com comprimento concentrado ao redor de 6.5, sendo 75% dos dados maiores que 6.3
Em resumo, suspeitamos que as comprimento das sépalas sigam a seguinte ordem em tamanho decrescente: virginica, versicolor, setosa.
Percebemos que mais de 75% das setosas tem sépalas com larguras menores que mais de 75% dos dois demais, ou seja, tem, de fato, sépala com larguras maiores, em geral. A maioria das setosas tem sépala com largura concentrada ao redor de 3,4.
Na versicolor, visualizamos que a maioria tem sépala com largura concentrada ao redor de 2,8, com 75% dos dados sendo maiores que 2,5.
Já na virgínica, temos que ela tem mais de 50% das nossas observações com largura concentrada ao redor de 3, sendo 75% dos dados maiores que 2,5.
Em resumo, suspeitamos que as larguras das sépalas sigam a seguinte ordem em tamanho decrescente: setosa, versicolor, virginica.
Percebemos que 100% das setosas tem pétalas com comprimentos menores que os dois demais, ou seja, tem, de fato, pétalas com comprimentos menores, em geral. A maioria das setosas tem pétalas com comprimentos concentrados ao redor de 1.
Vemos na versicolor que a maioria delas tem sépala com comprimento de pétala concentrado ao redor de 4,5. Vemos que 100% das versicolores são menores que 75% das virgínicas, e que 100% das versicolores são maiores que a setosa.
Já na virgínica, temos que ela tem 75% das nossas observações acima dos dois outros tipos e dados concetrados em torno de 5,5.
Em resumo, suspeitamos que os comprimentos das pétalas sigam a seguinte ordem em tamanho decrescente: virginica, versicolor, setosa.
Percebemos que 100% das setosas tem pétalas com larguras menores que os dois demais, ou seja, tem, de fato, pétalas com larguras menores, em geral. A maioria das setosas tem pétalas com comprimentos concentrados ao redor de 0,2.
Vemos na versicolor que a maioria delas tem sépala com comprimento de pétala concentrado ao redor de 1,25. Vemos que 100% das versicolores são menores que 75% das virgínicas, e que 100% das versicolores são maiores que a setosa.
Já na virgínica, temos que ela tem 75% das nossas observações acima dos dois outros tipos e dados concetrados em torno de 2.
Em resumo, suspeitamos que as larguras das pétalas sigam a seguinte ordem em tamanho decrescente: virginica, versicolor, setosa.
Temos nossas suspeitas, porém iremos atribuir as nossas decisões um valor estatístico a elas. Entre os mais variados métodos possíveis, selecionaremos dois, apenas.
Realizaremos um teste não-paramétrico chamado de Kruskal-Wallis, onde ele utiliza os postos para testa se eles são igualmente distribuídos em certas condições, como seria esperado sob a hipótese nula. Sendo mais claro, testaremos se:
\[ H_0: \ F_1(x_1 + \Delta_1) = F_2(x_2 + \Delta_2) = F_3(x_3 + \Delta_3) \rightarrow \Delta_i = 0 \ \forall \ i = 1,2, 3 \] \[ H_1: \ \Delta_i \neq 0 \ \text{para pelo menos um $i = 1,2,3$} \]
| statistic | p.value | parameter | method | Variável ~ Grupo |
|---|---|---|---|---|
| 96.93744 | 0 | 2 | Kruskal-Wallis rank sum test | sepal_length ~ species |
| 62.49463 | 0 | 2 | Kruskal-Wallis rank sum test | sepal_width ~ species |
| 130.41407 | 0 | 2 | Kruskal-Wallis rank sum test | petal_length ~ species |
| 131.09335 | 0 | 2 | Kruskal-Wallis rank sum test | petal_width ~ species |
Ao nível de significância de 1% rejeitamos a hipótese que as médias são todas iguais, em todas as variáveis, como já suspeitávamos e agora obtivemos uma confirmação estatística. Observação importante é notar que os p-valores não são, de fato, 0, porém bastante próximos de tal maneira que é arredondado para 0.
Também podemos nos valer de técnicas de análise multivariada, ou seja, usaremos o método chamado de ‘K-means’, um tipo de clusterização. Essa técnina procura particionar um conjunto de dados em um número específico de grupo, k grupos, minimizando um certo critério numérico.
| species | cluster | Contagem |
|---|---|---|
| setosa | setosa-modelo | 50 |
| versicolor | versicolor-modelo | 38 |
| versicolor | virginica-modelo | 12 |
| virginica | virginica-modelo | 50 |
Podemos ver no primeiro gráfico a relação entre os tamanhos das dimensões das pétalas e das sépalas. No segundo gráfico, vimos o resultado do nosso modelo, cada cor representa uma espécie de planta diferente.
Na tabela, vemos a relação da nossa amostra com o resultado do nosso modelo. Acertamos todas, menos 12 de 50 das versicolores pelo método K-means, ou seja, acertamos 138 de 150, 92%. Sendo assim, vemos que há de fato 3 tipos diferentes de espécies de irís, as suas dimensões são de fato diferentes.