Indice
Intodução
O obetivo deste trabalho é a análise estatística de 3 tipos de espécies de flores diferentes, sendo que se trata de um trabalho conjunto com disciplina de biologia, assim, iremos não só analisar as pétalas estatisticamente, mas também fornecer alguma informação sobre as plantas recolhidas. Sendo que o instrumento principal utilizado neste trabalho é a utilização do Programa R studio.
As três espécies analisadas, são flores recolhidas no jardim do campus da ESTB, sendo que são bastante comuns, e designam-se de Ranunculus sp..(uma flor de cor amarela), as Geranium sp.. (uma flor de cor roxa) e Crepis sp. (uma cor de flor amarela com um número de pétalas superior à Ranunculus sp sendo possível a sua identificação desse modo). Destas flores recolhidas foram retiradas as suas pétalas e foram analisadas a humidade, comprimento, largura e o número de petálas de cada uma.
Metodologia
A população em estudo, são as três espécies diferentes de flores recolhidas no jardim do campus da ESTB.
Desta população consegue-se retirar o comprimento, a largura e o número de pétalas e a humidade presente, que são todas variáveis quantitativas métricas, sendo que a cor e o tipo de espécie tratam-se de variáveis qualitativas nominais.(sendo que algumas das colunas tiveram que ser retiradas devido à falta de dados).
O objetivo de uma análise estatística, é o ajuntamento de dados de algo para qual queremos determinar padrões ou tendências.
A análise estatística univariada analisa a distribuição e dispersão dos dados: a análise da distribuição de frequências e a análise das medidas de localização, dispersão, assimetria e curtose dos dados. Neste estudo em questão utilizaremos esta análise para obter os parâmetros de Media, Desvio-padrão, quartis, entre outros. E utilizaremos o auxílio de histogramas e boxplots para visualização dos dados e dos parâmetros mencionados.
A análise estatística bivariada (duas variáveis) permite observar como duas variáveis se comportam na presença uma da outra. Esta análise tanto pode ser feita em termos de distribuição (para duas variáveis ordinais) como em termos de frequências para variáveis nominais. Neste estudo utilizámos as medidas de associação de “V Cramer” e “Ró de Spearman” para analisar a correlação entre variáveis.
```r
#upload dos dados
library(readxl)
EA_flores <- read_excel("C:/Users/Isael Santos/Desktop/EA_flores.xlsx")
View(EA_flores)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
#ordenaçao dos dados
EA_flores = arrange(EA_flores, Especie)
EA_flores = type.convert(EA_flores, as.is = TRUE)
View(EA_flores)
# mudar os valores nas variaveis de "Especie" e "Cor"
EA_flores$Especie[EA_flores$Especie == "1"] <- "Ranunculus_sp"
EA_flores$Especie[EA_flores$Especie == "2"] <- " Geranium_sp"
EA_flores$Especie[EA_flores$Especie == "3"] <- " Crepis_sp"
EA_flores$Cor[EA_flores$Cor == "1"] <- " Amarelo"
EA_flores$Cor[EA_flores$Cor == "2"] <- " Roxo"
#tabela com os dados ordenados
library(rmarkdown)
paged_table(EA_flores)
str(EA_flores)
## tibble [146 × 6] (S3: tbl_df/tbl/data.frame)
## $ Especie : chr [1:146] "Ranunculus_sp" "Ranunculus_sp" "Ranunculus_sp" "Ranunculus_sp" ...
## $ Nº petalas : int [1:146] 5 5 5 5 5 5 5 5 5 4 ...
## $ Comprimento petala (mm): num [1:146] 8 7.5 6 6 6 7 7 6 6 3 ...
## $ Largura petala (mm) : num [1:146] 5 5 4 4 3 3 4 1 4 2 ...
## $ Cor : chr [1:146] " Amarelo" " Amarelo" " Amarelo" " Amarelo" ...
## $ Humidade (%) : num [1:146] 99.4 99.6 86.5 88.3 85 ...
# tabela com a média, desvio padrão, min e max das variaveis aplicaveis
library(dplyr)
tabela = EA_flores %>% select(-Cor)%>% group_by(Especie)%>% dplyr::summarise_all(list(media = mean, Desvio_padrão = sd, minimo = min, maximo = max ))
tabela
Tabela das médias
Esta tabela apresenta os valores médios de cada espécie, quer seja o número de pétalas, o comprimento das pétalas, a largura das pétalas e a humidade. Apresenta também, os desvios padrões da largura, do comprimento e da humidade, e também os seus máximos e mínimos.
#grafico de dispersao com as variaveis "comprimento petala" e "largura petala"
plot(EA_flores$`Comprimento petala (mm)`, EA_flores$`Largura petala (mm)`, col='orange',main='Grafico de Dispersão',xlab='Comprimento',ylab='Largura', pch=19)
Gráfico de dispersão
No gráfico de dispersão acima representado, é possível termos uma noção da dispersão entre os comprimentos e larguras das pétalas, sendo que existe um outlier representado no (40,20).
#boxplot da largura,comprimento e humidade por especie
boxplot(`Comprimento petala (mm)`~Especie, data=EA_flores,main='Comprimento por Especie', xlab='Especie',ylab='Comprimento',col='pink', border='black')
boxplot(`Largura petala (mm)`~Especie, data=EA_flores,main='Largura por Especie', xlab='Especie',ylab='Largura',col='pink', border='black')
boxplot(`Humidade (%)`~Especie, data=EA_flores,main='Humidade por Especie', xlab='Especie',ylab='Humidade',col='pink', border='black')
Box plot-comprimentos
Este gráfico do boxplot mostra uma caixa onde estão inseridos os valores dos comprimentos de cada espécie sendo que as bolas no gráfico representam os outliers dessa espécie.
Box plot largura
Neste gráfico temos um boxplot que enquadra todos os valores das larguras das pétalas por cada espécie sendo as bolas os outliers de cada espécie.
Box plot humidade
O bloxlot representa os valores da humidade em cada espécie organizados em quadrados, sendo eu estes estão definidos por quartis e as bolas representam os outliers dos mesmos.
#histogramas com os todos os dados das variaveis comprimento,largura e humidade
hist(EA_flores$`Comprimento petala (mm)`,col='steelblue',main='Histograma Comprimento',xlab='Comprimento',ylab='Frequencia')
hist(EA_flores$`Humidade (%)`,col='red',main='Histograma Humidade',xlab='Humidade',ylab='Frequencia')
hist(EA_flores$`Largura petala (mm)`,col='pink',main='Histograma Largura',xlab='Largura',ylab='Frequencia')
Histograma comprimento
No histograma do comprimento consegue-se ver com que frequência é que as plantas apresentam um comprimento específico, sendo que o comprimento mais comum, é entre o 0 e o 10.
Histograma humidade
No histograma da humidade conseguimos ver qual é a humidade que surge com mais frequência, ou seja, a humidade que é mais comum. Esta aparece entre os 80 e os 100.
Histograma largura
O histograma apresenta qual é a largura que surge com mais frequência na população recolhida, sendo que esta é entre os 0 e os 5 mm de largura.
#histogramas da largura,comprimento e humidade por especie
library(ggplot2)
ggplot(EA_flores, aes(`Comprimento petala (mm)` , fill = Especie)) +geom_histogram(binwidth = 0.10) +facet_wrap(~ Especie)
ggplot(EA_flores, aes(`Largura petala (mm)` , fill = Especie)) +geom_histogram(binwidth = 0.10) +facet_wrap(~ Especie)
ggplot(EA_flores, aes(`Humidade (%)` , fill = Especie)) +geom_histogram(binwidth = 0.10) +facet_wrap(~ Especie)
Estes três gráficos apresentam os histogramas do comprimento, da largura e da humidade para cada uma das espécies. Isto permite uma comparação entre os valore obtidos, de onde conseguimos retira quais delas apresentam maior tamanho e a frequência do mesmo, a largura e a frequência correspondente e a humidade e a frequência desse fator.
#medição de RÓ spearman
cor.test(EA_flores$`Comprimento petala (mm)`, EA_flores$`Humidade (%)`, method = "spearman")
## Warning in cor.test.default(EA_flores$`Comprimento petala (mm)`,
## EA_flores$`Humidade (%)`, : Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: EA_flores$`Comprimento petala (mm)` and EA_flores$`Humidade (%)`
## S = 614292, p-value = 0.0259
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.1843713
Teste de spearman
No teste de spearman conseguimos retirar o valor da correlação entre os valores do comprimento da pétala e a humidade, sendo que este apresenta uma correlação desprezível visto que o seu valor é de -0,18.
#medição de V Cramer
library(rcompanion)
cramerV(EA_flores$Especie, EA_flores$`Humidade (%)`)
## Cramer V
## 0.9724
Coeficiente de Cramer
Para o coeficiente de Cramer realizou-se um teste entre a espécie a sua capacidade de manter humidade. Este resultou no valor de correlação de 0,9724, logo existe uma correlação forte entre ambas as variáveis. Isto significa que a capacidade de reter humidade esta diretamente relacionada com a espécie.
# teste de hipotese usando chisqr
y=tapply(EA_flores$`Nº petalas`, INDEX = EA_flores$Especie, FUN = mean)
y
## Crepis_sp Geranium_sp Ranunculus_sp
## 100.0652 5.7000 6.8400
chisq.test(y)
##
## Chi-squared test for given probabilities
##
## data: y
## X-squared = 156.27, df = 2, p-value < 2.2e-16
Teste Qui-quadrado
Avalia quantitativamente a relação entre o resultado de uma experiencia e a distribuição esperada para o fenômeno
Teste de hipótese – nº de pétalas é identificador de espécie??
H0 as variáveis são independentes, não existe relação entre as variáveis, saber o valor de uma variável não ajuda a prever a outra
H1 as variáveis são dependentes existe relação entre variáveis saber o valor de uma variável ajuda a prever o valor de outra
Como podemos ver p-value inferior a 0.05 por isso H0 foi rejeitado
Podemos assim aceitar a hipótese alternativa(H1). Isto significa que a variável “nº de pétalas” é um bom indicador para a terminação da espécie.
# teste de hipotese usando T.test
x = EA_flores$`Comprimento petala (mm)`
t.test(x, mu = 8.5)
##
## One Sample t-test
##
## data: x
## t = -1.3413, df = 145, p-value = 0.1819
## alternative hypothesis: true mean is not equal to 8.5
## 95 percent confidence interval:
## 7.444499 8.702076
## sample estimates:
## mean of x
## 8.073288
Teste t-student
É um teste estatístico para rejeitar ou não uma hipótese nula consequentemente uma hipótese alternativa, que calcula o valor t que aplica á função da densidade de probabilidade da distribuição t de Student. Quanto maior o t, maior é a confiança
Teste de hipótese - Média do comprimento das pétalas amostra vs população
H0: média do comprimento das pétalas amostra = média do comprimento das pétalas população
H1: média do comprimento das pétalas amostra ≠ média do comprimento das pétalas população
p-value superior a 0.05 por isso H0 foi aceite
Podemos assumir que a verdadeira media do comprimento da pétala da população apesar não ser exatamente 8.5 poderíamos assumir que o valor está próximo da realidade da população.
Discussão
No gráfico de dispersão, pode-se observar que os valores dispersão da largura x comprimento das pétalas das três espécies, se encontram muito próximos, tirando dois valores quês são outlier (20,40).
Nas boxplot, observa-se que a espécie Crepis_sp, é a que tem as pétalas mais compridas e menor largura. A espécie Geranium_sp, é a que tem as pétalas menos compridas e a segunda com maior largura enquanto a espécie Ranunculus_sp tem um comprimento semelhante que a Geranium_sp, mesmo assim apresenta algumas pétalas mais compridas, mas é a que tem as pétalas mais largas. Com isto, podemos relacionar com a percentagem de humidade presente nas espécies, em que, quanto maior for a área mais consegue reter humidade e a espécie Ranunculus_sp é que tem uma maior percentagem, pois tem entre 80%-100% com alguns valores mais distantes que são os outiliers. A espécie Geranium_sp tem também uma grande percentagem de humidade acima de 80%, mas a boxplot vai de 60%-100%. A espécie Crepis_sp, a sua percentagem de humidade é mais concentrada, com valores que variam entre 80%-90% com alguns outlier abaixo dos 80% e acima de 90%.
No histograma comprimento, o comprimento mais comum é de 0 a 10mm, no histograma a seguir, a percentagem mais comum de humidade presente nas pétalas é entre 80% a 100% e no último histograma, a largura mais comum é de 0 a 5mm e com isto podemos verificar que os histogramas confirmam os valores mais frequentes entre espécies nos boxplot anteriores. Nos últimos três gráficos, apresentam histogramas que permitem comparar as diferenças que existe entre espécies na largura, comprimento e humidade, quem tem maior ou menor comprimento ou percentagem de humidade.
Para observar se existe correlação entre valores do comprimento e humidade da pétala, fez-se o teste de spearmen, que apresenta uma correlação desprezível, pois o seu valor é de -0.18. Utilizou-se o teste de Cramer para testar a capacidade de reter humidade entre espécie, em que o resultado de correlação foi de 0.9724. É considerado uma correlação forte, logo, a capacidade de reter humidade está relacionada com a αespécie. Para testar da hipótese que o número de pétalas identifica a espécie utilizou-se o teste do Qui-quadrado, em que o p-value foi de 2.2x10-16, e como o alfa é igual a 0.05, logo p-value<α, assim o H0 é rejeitado, aceitando assim a hipótese H1, que a variável “número de pétalas “é um bom método para identificar as espécies.
Conclusão
Este trabalho foi realizado com sucesso visto que o objetivo do mesmo foi cumprido. Para o realizarmos usamos o rstudio como método para a organização dos nossos dados e para podermos compreender melhor o que eles representam, estatisticamente. Desta forma foi possível inferir algumas questões acerca de como as pétalas retém humidade. Para responder a estas questões usou-se os testes de hipóteses que permitem verificar a exatidão das hipóteses em questão. Concluindo, este trabalho permitiu uma compreensão melhor de como usar o programa R studio, das suas funcionalidades e de como o podemos usar para realizar um análise estatística a uma população(ôes).
Bibliografia
[canal de youtube - R Programming 101](https://www.youtube.com/c/RProgramming101)
[Cheatsheets / Learn R](https://www.codecademy.com/learn/paths/learn-r/tracks/learn-r/modules/learn-r-introduction/cheatsheet)