Os dados se referem-se a uma pesquisa sobre plantações de melões. As unidades amostrais são conjunto de meloeiros, para os quais foram tomadas medidas das seguintes variáveis: NFT (número total de melões por hectare), PT (peso médio dos melões, em kg), PROD (produção, em kg por hectare), NFP (número médio de melões por planta), IF (índice de formato, definido como o diâmetro dividido pelo diâmetro longitudinal ideal) e BRIX (teor de açúcar, em graus brix).
Utilizando o software R, determine:
## NFT PT PROD NFP IF BRIX
## 1 26250 1.2 28701 1.1 1.1 7.0
## 2 28750 0.5 16113 1.2 1.1 6.1
## 3 35000 1.5 47943 1.4 1.1 8.2
## 4 13750 0.8 19366 1.0 1.2 7.3
## 5 21250 1.2 24628 0.9 1.1 5.6
## 6 22500 1.1 23773 0.9 1.1 7.0
## 7 11250 1.4 13526 0.5 1.2 6.3
## 8 8750 1.5 11303 0.4 1.1 6.3
## 9 43750 1.3 51096 1.8 1.2 6.1
## 10 35000 1.1 38023 1.4 1.2 6.3
O número de componentes principais suficientes para análise. Justifique o método utilizado
## percentage of variance cumulative percentage of variance
## comp 1 48.4477201 48.44772
## comp 2 21.7304114 70.17813
## comp 3 16.6696602 86.84779
## comp 4 12.6309727 99.47876
## comp 5 0.4147796 99.89354
## comp 6 0.1064560 100.00000
##
## Numero de Componentes escolhido é: 4
O numero de componentes escolhidos é 4, pois o mesmo representa 99.47% da variancia
Faça o gráfico biplot e interprete-o
Realizou-se uma pesquisa para conhecer a opinião dos frequentadores de uma região de um município sobre as condições urbanas da região. A Tabela a seguir traz os resultados da aplicação de uma análise fatorial (após rotação varimax) feita a partir da matriz de correlações de avaliações realizadas sobre um conjunto de características (coluna Variável). As avaliações foram feitas a partir de notas e, quanto maior a nota, mais bem avaliada era a variável.
## Variavel F1 F2 F3
## 1 Presença de policial 0.803 0.035 0.227
## 2 Iluminação pública 0.651 0.387 -0.016
## 3 Conservação de calçada 0.476 0.517 -0.059
## 4 Coleta de lixo 0.484 0.550 -0.059
## 5 Qtde de vendedores ambulantes 0.218 -0.069 0.716
## 6 Qtde de moradores de rua -0.017 0.264 0.745
## 7 Conservação dos prédios -0.026 0.800 0.257
## 8 Conservação das praças 0.282 0.715 0.146
## 9 Serviços de ônibus 0.436 0.411 -0.159
## 10 Sensação de segurança nas ruas 0.720 0.139 0.266
Determine e interprete as comunalidades e as porcentagens de explicação dos fatores.
## Variavel F1 F2 F3 F1_Quadrado F2_Quadrado
## 1 Presença de policial 0.803 0.035 0.227 0.644809 0.001225
## 2 Iluminação pública 0.651 0.387 -0.016 0.423801 0.149769
## 3 Conservação de calçada 0.476 0.517 -0.059 0.226576 0.267289
## 4 Coleta de lixo 0.484 0.550 -0.059 0.234256 0.302500
## 5 Qtde de vendedores ambulantes 0.218 -0.069 0.716 0.047524 0.004761
## 6 Qtde de moradores de rua -0.017 0.264 0.745 0.000289 0.069696
## 7 Conservação dos prédios -0.026 0.800 0.257 0.000676 0.640000
## 8 Conservação das praças 0.282 0.715 0.146 0.079524 0.511225
## 9 Serviços de ônibus 0.436 0.411 -0.159 0.190096 0.168921
## 10 Sensação de segurança nas ruas 0.720 0.139 0.266 0.518400 0.019321
## F3_Quadrado Comunalidade Perce_F1 Perce_F2 Perce_F3
## 1 0.051529 0.697563 40.71863 36.73886 22.54251
## 2 0.000256 0.573826 40.71863 36.73886 22.54251
## 3 0.003481 0.497346 40.71863 36.73886 22.54251
## 4 0.003481 0.540237 40.71863 36.73886 22.54251
## 5 0.512656 0.564941 40.71863 36.73886 22.54251
## 6 0.555025 0.625010 40.71863 36.73886 22.54251
## 7 0.066049 0.706725 40.71863 36.73886 22.54251
## 8 0.021316 0.612065 40.71863 36.73886 22.54251
## 9 0.025281 0.384298 40.71863 36.73886 22.54251
## 10 0.070756 0.608477 40.71863 36.73886 22.54251
Comunalidades: A comunalidade indica a proporção da variância total de cada variável que é explicada pelos fatores extraídos. As comunalidades variam entre 0,384 (para “Serviços de ônibus”) e 0,706 (para “Conservação dos prédios”). Todas as variáveis têm comunalidades relativamente altas, indicando que uma porção substancial de sua variância é explicada pelos fatores extraídos. Percentuais de Explicação dos Fatores:
Os percentuais de explicação dos fatores indicam quanto da variância total é explicado por cada fator. Os percentuais variam entre 12,81% (para “Serviços de ônibus”) e 23,56% (para “Conservação dos prédios”). Cada fator contribui significativamente para explicar a variância total, mas “Conservação dos prédios” tem a maior contribuição percentual. Interpretação Global:
Os fatores extraídos parecem estar associados a diferentes aspectos da percepção urbana, como segurança, conservação e serviços públicos. “Conservação dos prédios” tem a maior comunalidade e o maior percentual de explicação, sugerindo que esse fator tem um papel central na explicação das variáveis analisadas. Os fatores oferecem uma abordagem abrangente para entender as diferentes dimensões consideradas pelos participantes na avaliação das condições urbanas.
Fator 1: Aspectos de Segurança e Conservação
“Presença de policial” (0,803) e “Sensação de segurança nas ruas” (0,720) têm cargas fatoriais significativas neste fator. Isso sugere que o Fator 1 pode ser interpretado como relacionado a aspectos de segurança na região urbana, incluindo a presença policial e a sensação de segurança percebida.
Fator 2: Conservação e Qualidade Urbana
“Conservação dos prédios” (0,800) e “Conservação das praças” (0,715) são fortemente associadas ao Fator 2. Esse fator parece estar relacionado à percepção dos participantes sobre a conservação de prédios e praças na região urbana.
Fator 3: Características Sociais e Quantidade de Ambulantes
“Qtde de moradores de rua” (0,745) e “Qtde de vendedores ambulantes” (0,716) estão mais associadas ao Fator 3. Esse fator pode ser interpretado como relacionado a características sociais, como a presença de moradores de rua, e à quantidade de vendedores ambulantes na área.
Certas características associadas a alguns presidentes recentes dos Estados Unidos estão listadas na tabela abaixo. Calcule a matriz de distâncias entre os indivíduos. Use a distância euclidiana.
## Naturalidade Partido Experiencia_Previa_Congresso Serviu_Como_Vice
## Reagan 1 1 0 0
## Carter 0 0 0 0
## Ford 1 1 1 1
## Nixon 0 1 1 1
## Johnson 1 0 1 1
## Reagan Carter Ford Nixon
## Carter 1.414214
## Ford 1.414214 2.000000
## Nixon 1.732051 1.732051 1.000000
## Johnson 1.732051 1.732051 1.000000 1.414214
Considerando os dados da questão anterior, utilizando o software R faça o heatmap a partir de matriz de distâncias euclidiana.
Considere a seguinte matriz de distância ### Dados Q5
## [,1] [,2] [,3] [,4] [,5]
## [1,] 0 4 6 1 6
## [2,] 4 0 9 7 3
## [3,] 6 9 0 10 5
## [4,] 1 7 10 0 8
## [5,] 6 3 5 8 0
Um dendrograma a partir do agrupamento hierárquico aglomerativo método vizinhos mais próximos
## [1] 1 3 4 5
## [1] 1 2 3 1 2
Um dendrograma a partir do agrupamento hierárquico aglomerativo método vizinhos mais distantes
## [1] 1 3 8 10
## [1] 1 2 3 1 2
Um dendrograma a partir do agrupamento hierárquico aglomerativo método distância média
## [1] 1.00 3.00 6.25 7.50
## [1] 1 2 3 1 2
Faça os cálculos de silhueta para o agrupamento baseado no método do vizinho mais distante
Refaça a questão anterior usando o software R. Faça o gráfico de silhueta.
Resolvido na Questão anterior.
Faça sem qualquer software estatítico execute o algoritmo k-médias para agrupar os indivíduos da tabela abaixo:
## x1 x2
## A 5 4
## B 1 -2
## C -1 1
## D 3 1
## K-means clustering with 2 clusters of sizes 2, 2
##
## Cluster means:
## x1 x2
## 1 0 -0.5
## 2 4 2.5
##
## Clustering vector:
## A B C D
## 2 1 1 2
##
## Within cluster sum of squares by cluster:
## [1] 6.5 6.5
## (between_SS / total_SS = 65.8 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
Refaça a questão anterior usando o software R.
Resolvido na Questão anterior.Utilizei k=3
Utilizando o software R e o conjunto de dados CapitaisDem.xlsx, faça uma análise de agrupamento usando o método do vizinho mais próximo. Faça um dendrograma e justifique o ponto de corte utilizado. Exclua a variável região da análise.
##
##
## Agrupamento método do vizinho mais próximo
## [1] "euclidean"
##
##
## Plotar o dendrograma
##
##
## Ponto de Corte igual a 3
## Aracaju Belém Belo Horizonte Boa Vista Brasília
## 1 1 1 1 2
## Campo Grande Cuiabá Curitiba Florianópolis Fortaleza
## 1 1 1 1 1
## Goiânia João Pessoa Macapá Maceió Manaus
## 1 1 3 1 1
## Natal Palmas Porto Alegre Porto Velho Recife
## 1 1 1 1 1
## Rio Branco Rio de janeiro Salvador São Luís São Paulo
## 1 1 1 1 1
## Teresina Vitória
## 1 1
## ponto_corte
## 1 2 3
## 25 1 1
Utilizando o software R e o conjunto de dados Ceramica.xlsx, faça uma análise de agrupamento usando o método k-médias. Defina o número de clusters baseado no maior valor de silhueta média. Exclua a variável sítio da análise
##
##
## Numero de clusters baseado no maior valor de silhueta
##
##
## Analise de agrupamento usando K-Medias e 4 clusters conforme a silhueta
## A01 A02 A03 A04 A05 A06 A07 A08 A09 A10 A11 A12 A13 A14 A15 A16 A17 A18 A19 A20
## 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
## A21 A22 A23 A24 A25 A26 A27 A28 A29 A30 A31 A32 A33 A34 B01 B02 B03 B04 B05 B06
## 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4
## B07 B08 B09 B10 B11 B12 B13 B14 B15 B16 B17 B18 B19 B20 B21 B22 B23 B24 B25 B26
## 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
## B27 B28 B29 B30 B31 B32 B33 B34 B35 B36 B37 B38 B39 B40 B41 B42 B43 B44 B45 B46
## 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
## B47 B48 B49 B50 B51 B52 B53 B54 B55 B56 B57 B58 B59 B60 B61 B62 B63 B64 B65 B66
## 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
## B67 B68 B69 B70 B71 B72 B73 B74 B75 B76 B77 B78 B79 B80 B81 C01 C02 C03 C04 C05
## 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 1 1 1 1 1
## C06 C07 C08 C09 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20 C21 C22 C23 C24 C25
## 1 1 1 2 1 2 2 1 1 1 1 1 2 2 2 1 1 2 1 2
## C26 C27 C28 C29 C30 C31
## 2 2 2 2 2 2