---
title: "Probabilidade e Estatistíca de Dados do Mercado Automotivo"
author: "Maria Eduarda de Souza Fontes"
date: "27-06-2024"
output: html_document
---
Neste estudo, aplicamos três técnicas de amostragem para explorar os dados do mercado automotivo, cada uma com suas características e aplicações específicas:
Amostragem Aleatória Simples: Selecionamos uma amostra aleatória dos dados, onde cada elemento tem a mesma probabilidade de ser escolhido. Essa técnica é útil para obter uma representação geral do conjunto de dados sem introduzir viés.
Amostragem Aleatória Estratificada: Dividimos o conjunto de dados em grupos homogêneos (estratos), como o tipo de veículo, e selecionamos aleatoriamente amostras de cada estrato. Essa abordagem melhora a precisão da amostra, garantindo que todas as categorias estejam representadas.
Amostragem Aleatória por Conglomerado: Selecionamos aleatoriamente alguns conglomerados, como a origem do veículo, e incluímos todos os elementos desses grupos na amostra. Essa técnica é eficiente quando os dados estão naturalmente agrupados, reduzindo custos e tempo de coleta.
Amostragem Aleatória Simples: Selecionamos uma amostra de 20 veículos do conjunto de dados, onde cada veículo teve igual probabilidade de ser escolhido. Essa técnica garante uma amostra representativa do conjunto de dados total, permitindo análises sem viés específico.
Amostragem Aleatória Estratificada: O conjunto de dados foi dividido em estratos baseados no tipo de veículo. Em seguida, uma amostra aleatória foi selecionada de cada estrato, garantindo que cada categoria de veículo estivesse representada na análise. Essa metodologia melhora a precisão estatística ao considerar as diferenças entre os grupos.
Amostragem Aleatória por Conglomerado: Selecionamos aleatoriamente conglomerados com base na origem dos veículos. Dentro desses conglomerados, uma amostra foi extraída, facilitando a análise de dados agrupados e reduzindo o esforço necessário para coletar dados de todo o conjunto.
# Definindo o tamanho da amostra
tamanho_amostra <- 20
# Amostragem aleatória simples
amostra_simples <- dados %>%
sample_n(tamanho_amostra)
# Exibindo a tabela formatada
amostra_simples %>%
kbl() %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"))
| Make | Model | Type | Origin | DriveTrain | MSRP | Invoice | EngineSize | Cylinders | Horsepower | MPG_City | MPG_Highway | Weight | Wheelbase | Length | Unnamed: 15 | Unnamed: 16 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Chrysler | 300M Special Edition 4dr | Sedan | USA | Front | 33295 | 30884 | 3.5 | 6 | 255 | 18 | 27 | 3650 | 113 | 198 | NA | NA |
| Chevrolet | Colorado Z85 | Truck | USA | All | 18760 | 17070 | 2.8 | 4 | 175 | 18 | 23 | 3623 | 111 | 192 | NA | NA |
| Honda | S2000 convertible 2dr | Sports | Asia | Rear | 33260 | 29965 | 2.2 | 4 | 240 | 20 | 25 | 2835 | 95 | 162 | NA | NA |
| Lincoln | LS V6 Luxury 4dr | Sedan | USA | Rear | 32495 | 29969 | 3.0 | 6 | 232 | 20 | 26 | 3681 | 115 | 194 | NA | NA |
| Mazda | Mazda6 i 4dr | Sedan | Asia | Front | 19270 | 17817 | 2.3 | 4 | 160 | 24 | 32 | 3042 | 105 | 187 | NA | NA |
| Mercury | Grand Marquis LS Premium 4dr | Sedan | USA | Rear | 29595 | 27148 | 4.6 | 8 | 224 | 17 | 25 | 4052 | 115 | 212 | NA | NA |
| Toyota | Sequoia SR5 | SUV | Asia | All | 35695 | 31827 | 4.7 | 8 | 240 | 14 | 17 | 5270 | 118 | 204 | NA | NA |
| Volkswagen | New Beetle GLS convertible 2dr | Sedan | Europe | Front | 23215 | 21689 | 2.0 | 4 | 115 | 24 | 30 | 3082 | 99 | 161 | NA | NA |
| Chrysler | Sebring Touring 4dr | Sedan | USA | Front | 21840 | 20284 | 2.7 | 6 | 200 | 21 | 28 | 3222 | 108 | 191 | NA | NA |
| Nissan | Quest S | Sedan | Asia | Front | 24780 | 22958 | 3.5 | 6 | 240 | 19 | 26 | 4012 | 124 | 204 | NA | NA |
| Mitsubishi | Eclipse Spyder GT convertible 2dr | Sports | Asia | Front | 26992 | 25218 | 3.0 | 6 | 210 | 21 | 28 | 3296 | 101 | 177 | NA | NA |
| Subaru | Legacy GT 4dr | Sedan | Asia | All | 25645 | 23336 | 2.5 | 4 | 165 | 21 | 28 | 3395 | 104 | 184 | NA | NA |
| Volkswagen | Passat W8 | Wagon | Europe | Front | 40235 | 36956 | 4.0 | 8 | 270 | 18 | 25 | 4067 | 106 | 184 | NA | NA |
| Audi | A6 3.0 Quattro 4dr | Sedan | Europe | All | 39640 | 35992 | 3.0 | 6 | 220 | 18 | 25 | 3880 | 109 | 192 | NA | NA |
| Dodge | Intrepid ES 4dr | Sedan | USA | Front | 24885 | 23058 | 3.5 | 6 | 232 | 18 | 27 | 3487 | 113 | 204 | NA | NA |
| Honda | Insight 2dr (gas/electric) | Hybrid | Asia | Front | 19110 | 17911 | 2.0 | 3 | 73 | 60 | 66 | 1850 | 95 | 155 | NA | NA |
| Chevrolet | Impala SS 4dr | Sedan | USA | Front | 27995 | 25672 | 3.8 | 6 | 240 | 18 | 28 | 3606 | 111 | 200 | NA | NA |
| Mercedes-Benz | C320 Sport 4dr | Sedan | Europe | Rear | 35920 | 33456 | 3.2 | 6 | 215 | 19 | 26 | 3430 | 107 | 178 | NA | NA |
| Ford | Expedition 4.6 XLT | SUV | USA | Front | 34560 | 30468 | 4.6 | 8 | 232 | 15 | 19 | 5000 | 119 | 206 | NA | NA |
| Mitsubishi | Eclipse GTS 2dr | Sports | Asia | Front | 25092 | 23456 | 3.0 | 6 | 210 | 21 | 28 | 3241 | 101 | 177 | NA | NA |
Resultado: A amostra forneceu uma visão geral dos dados, permitindo uma análise sem viés. Os resultados foram representativos do conjunto de dados total, refletindo uma diversidade de veículos em termos de preço, tipo e origem.
Essa abordagem é útil para obter uma perspectiva ampla e identificar tendências gerais no mercado automotivo, embora possa não capturar nuances específicas de subgrupos.
# Amostragem aleatória estratificada baseada no tipo de veículo
amostra_estratificada <- dados %>%
group_by(Type) %>%
sample_n(1, replace = TRUE) %>%
ungroup() %>%
sample_n(min(20, n()))
# Exibindo a tabela formatada
amostra_estratificada %>%
kbl() %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"))
| Make | Model | Type | Origin | DriveTrain | MSRP | Invoice | EngineSize | Cylinders | Horsepower | MPG_City | MPG_Highway | Weight | Wheelbase | Length | Unnamed: 15 | Unnamed: 16 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GMC | Canyon Z85 SL Regular Cab | Truck | USA | Rear | 16530 | 14877 | 2.8 | 4 | 175 | 18 | 25 | 3351 | 111 | 192 | NA | NA |
| Cadillac | XLR convertible 2dr | Sports | USA | Rear | 76200 | 70546 | 4.6 | 8 | 320 | 17 | 25 | 3647 | 106 | 178 | NA | NA |
| Toyota | Prius 4dr (gas/electric) | Hybrid | Asia | Front | 20510 | 18926 | 1.5 | 4 | 110 | 59 | 51 | 2890 | 106 | 175 | NA | NA |
| Nissan | Murano SL | Wagon | Asia | Rear | 28739 | 27300 | 3.5 | 6 | 245 | 20 | 25 | 3801 | 111 | 188 | NA | NA |
| Pontiac | Grand Prix GT2 4dr | Sedan | USA | Front | 24295 | 22284 | 3.8 | 6 | 200 | 20 | 30 | 3484 | 111 | 198 | NA | NA |
| Lincoln | Aviator Ultimate | SUV | USA | Front | 42915 | 39443 | 4.6 | 8 | 302 | 13 | 18 | 4834 | 114 | 193 | NA | NA |
Resultado: A amostragem por tipo de veículo garantiu que cada categoria estivesse bem representada, permitindo comparações precisas entre diferentes tipos de veículos.
Essa técnica melhorou a precisão da análise, especialmente em relação a variáveis que variam significativamente entre categorias, como o preço e a eficiência de combustível. É ideal para identificar diferenças específicas entre grupos.
# Selecionando conglomerados (neste caso, Origem)
conglomerados_selecionados <- dados %>%
distinct(Origin) %>%
sample_n(2)
# Amostragem por conglomerado
amostra_conglomerado <- dados %>%
filter(Origin %in% conglomerados_selecionados$Origin) %>%
sample_n(min(20, n()))
# Exibindo a tabela formatada
amostra_conglomerado %>%
kbl() %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"))
| Make | Model | Type | Origin | DriveTrain | MSRP | Invoice | EngineSize | Cylinders | Horsepower | MPG_City | MPG_Highway | Weight | Wheelbase | Length | Unnamed: 15 | Unnamed: 16 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Nissan | Sentra 1.8 S 4dr | Sedan | Asia | Front | 14740 | 13747 | 1.8 | 4 | 126 | 28 | 35 | 2581 | 100 | 178 | NA | NA |
| Chevrolet | Corvette 2dr | Sports | USA | Rear | 44535 | 39068 | 5.7 | 8 | 350 | 18 | 25 | 3246 | 105 | 180 | NA | NA |
| Mazda | Mazda3 s 4dr | Sedan | Asia | Front | 17200 | 15922 | 2.3 | 4 | 160 | 25 | 31 | 2762 | 104 | 179 | NA | NA |
| Toyota | Corolla S 4dr | Sedan | Asia | Front | 15030 | 13650 | 1.8 | 4 | 130 | 32 | 40 | 2524 | 102 | 178 | NA | NA |
| Buick | Regal LS 4dr | Sedan | USA | Front | 24895 | 22835 | 3.8 | 6 | 200 | 20 | 30 | 3461 | 109 | 196 | NA | NA |
| Chevrolet | SSR | Truck | USA | Rear | 41995 | 39306 | 5.3 | 8 | 300 | 16 | 19 | 4760 | 116 | 191 | NA | NA |
| Mitsubishi | Lancer Evolution 4dr | Sports | Asia | Front | 29562 | 27466 | 2.0 | 4 | 271 | 18 | 26 | 3263 | 103 | 179 | NA | NA |
| Dodge | Stratus SE 4dr | Sedan | USA | Front | 20220 | 18821 | 2.4 | 4 | 150 | 21 | 28 | 3175 | 108 | 191 | NA | NA |
| Mazda | Tribute DX 2.0 | SUV | Asia | All | 21087 | 19742 | 2.0 | 4 | 130 | 22 | 25 | 3091 | 103 | 173 | NA | NA |
| Suzuki | Verona LX 4dr | Sedan | Asia | Front | 17262 | 17053 | 2.5 | 6 | 155 | 20 | 27 | 3380 | 106 | 188 | NA | NA |
| Nissan | Quest SE | Sedan | Asia | Front | 32780 | 30019 | 3.5 | 6 | 240 | 18 | 25 | 4175 | 124 | 204 | NA | NA |
| Suzuki | Vitara LX | SUV | Asia | All | 17163 | 16949 | 2.5 | 6 | 165 | 19 | 22 | 3020 | 98 | 163 | NA | NA |
| Honda | Element LX | SUV | Asia | All | 18690 | 17334 | 2.4 | 4 | 160 | 21 | 24 | 3468 | 101 | 167 | NA | NA |
| Chevrolet | Impala LS 4dr | Sedan | USA | Front | 25000 | 22931 | 3.8 | 6 | 200 | 20 | 30 | 3476 | 111 | 200 | NA | NA |
| Lexus | GX 470 | SUV | Asia | All | 45700 | 39838 | 4.7 | 8 | 235 | 15 | 19 | 4740 | 110 | 188 | NA | NA |
| Dodge | Intrepid SE 4dr | Sedan | USA | Front | 22035 | 20502 | 2.7 | 6 | 200 | 21 | 29 | 3469 | 113 | 204 | NA | NA |
| Honda | Civic LX 4dr | Sedan | Asia | Front | 15850 | 14531 | 1.7 | 4 | 115 | 32 | 38 | 2513 | 103 | 175 | NA | NA |
| Oldsmobile | Alero GLS 2dr | Sedan | USA | Front | 23675 | 21485 | 3.4 | 6 | 170 | 20 | 29 | 3085 | 107 | 187 | NA | NA |
| Kia | Optima LX V6 4dr | Sedan | Asia | Front | 18435 | 16850 | 2.7 | 6 | 170 | 20 | 27 | 3279 | 106 | 186 | NA | NA |
| Jeep | Grand Cherokee Laredo | SUV | USA | Front | 27905 | 25686 | 4.0 | 6 | 195 | 16 | 21 | 3790 | 106 | 181 | NA | NA |
Resultado: A seleção de conglomerados baseados na origem dos veículos permitiu a análise de grupos distintos, destacando diferenças regionais no mercado automotivo.
Essa abordagem foi eficiente para entender características específicas de grupos, mas pode introduzir viés se os conglomerados selecionados não forem representativos do conjunto completo.
A aplicação das três técnicas de amostragem — aleatória simples, estratificada e por conglomerado — proporcionou uma análise abrangente do mercado automotivo. A amostragem aleatória simples ofereceu uma visão geral e equilibrada, enquanto a estratificada permitiu uma análise mais detalhada das diferenças entre os tipos de veículos. A amostragem por conglomerado destacou as variações regionais, fornecendo insights sobre características específicas dos grupos.
Essas abordagens combinadas revelaram tendências importantes no mercado, auxiliando na compreensão das preferências dos consumidores e na identificação de oportunidades para estratégias de marketing mais eficazes. A diversidade das técnicas utilizadas garantiu que a análise fosse robusta, permitindo conclusões precisas e informadas sobre o comportamento do mercado automotivo.