class: center, middle, inverse, title-slide # Probabilidade e Estatística ## Aula 02 - Análise Exploraória de Dados ### Prof. Dr. Hidelbrando F. Rodrigues ### ICET/UFAM ### 2021-08-13 --- ## EXPLORAÇÃO DE DADOS: > O que dizem os dados?” é a primeira pergunta que fazemos em qualquer estudo estatístico. A análise de dados responde a essa questão a partir de uma exploração ampla dos dados. -- > As ferramentas da análise de dados são os gráficos, como os histogramas e os diagramas de dispersão, e as medidas numéricas, como as médias e as correlações. -- > Mas os princípios que organizam nosso pensamento no exame dos dados são pelo menos tão importantes quanto as ferramentas. -- > Algumas vezes, desejamos tirar conclusões que se apliquem a um conjunto que extrapola os dados disponíveis. Isto é a inferência estatística. -- > A análise de dados é vital para que possamos confiar nos resultados da inferência, mas ela não se resume a apenas uma preparação para a inferência. -- > De modo geral, sempre podemos fazer análise de dados, enquanto a inferência requer condições bem especiais. -- > Um dos princípios organizadores da análise de dados consiste em se olhar, primeiro, uma coisa por vez e, depois, as relações entre elas. --- ### Tipos de Variáveis .left-column[
] .right-column[ O R possui um chamado pacote chamado [Dados](https://github.com/cienciadedatos/dados), que disponibiliza a tradução de conjuntos de dados em inglês originalmente disponíveis em outros pacotes de R. Dentre os vávios pacotes existentes, temos o **diamantes**, no qual constam dados Preço de 50 mil diamantes. A seguir, a relação de variáveis disponíveis para análise: ``` ## [1] "milhas_por_galao" "cilindros" "cilindrada" "cavalos_forca" ## [5] "eixo" "peso" "velocidade" "forma" ## [9] "transmissao" "marchas" "carburadores" ``` - milhas_por_galao: Milhas por galão (US) - cilindros: Número de cilindros - cilindrada: Volume de deslocamento do motor em polegadas cúbicas - cavalos_forca: Cavalos força bruto eixo: Relação de eixo traseiro - peso: Peso (1000 libras) - velocidade: Tempo em percorrer 1/4 de milha - forma: Forma do motor (V ou em linha) - transmissao: Tipo de transmissão (0 = automático, 1 = manual) - marchas: Número de marchas à frente - carburadores: Número de carburadores --- ] ---
--- ### - A Estatística possui uma série de ferramentas que nos auxiliarão a "explorar" os dados em questão -- ### - Mas antes disso, vamos voltar aos conceitos de Estatística ### A Estatística pode ser divida em duas grandes áreas interdependentes > #### Estatística Descritiva > -- #### Inferêcia Estatística -- - A **Estatística Descritiva** analisa a AMOSTRA, enquanto a **Inferência Estatística** tira conclusões para toda a POPULAÇÃO a partir da AMOSTRA [Wickham, 2019] -- Nesta primeira etapa do curso vamos nos dedicar ao estudo da AMOSTRA, ou seja, à Estatística Descritiva. --- # Estatística Descritiva -- ### Análise Exploratória de Dados > - dotplot, ramo-e-folhas - tabela de distribuição de frequência - histograma, ogiva -- ### Medidas de Tendência Central > - média, moda e mediana -- ### Medidas de Variabilidade > - amplitude, desvio médio, variância, desvio padrão -- ### Separatrizes > - quartil, decil e percentil -- ### Representação gráfica --- # Análise Exploraória de Dados -- ## Analisando as características das variáveis ```r str(carros) ``` ``` ## 'data.frame': 32 obs. of 11 variables: ## $ milhas_por_galao: num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ... ## $ cilindros : num 6 6 4 6 8 6 8 4 4 6 ... ## $ cilindrada : num 160 160 108 258 360 ... ## $ cavalos_forca : num 110 110 93 110 175 105 245 62 95 123 ... ## $ eixo : num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ... ## $ peso : num 2.62 2.88 2.32 3.21 3.44 ... ## $ velocidade : num 16.5 17 18.6 19.4 17 ... ## $ forma : num 0 0 1 1 0 1 0 1 1 1 ... ## $ transmissao : num 1 1 1 0 0 0 0 0 0 0 ... ## $ marchas : num 4 4 4 3 3 3 3 4 4 4 ... ## $ carburadores : num 4 4 1 1 2 1 4 2 2 4 ... ``` --- ## Diagrama (Gráfico) de Pontos (dotplot) ```r dotchart(carros$milhas_por_galao) ``` <img src="Aula02_files/figure-html/unnamed-chunk-6-1.png" width="100%" /> --- ## Diagrama de Ramos e Folhas ```r stem(carros$milhas_por_galao) ``` ``` ## ## The decimal point is at the | ## ## 10 | 44 ## 12 | 3 ## 14 | 3702258 ## 16 | 438 ## 18 | 17227 ## 20 | 00445 ## 22 | 88 ## 24 | 4 ## 26 | 03 ## 28 | ## 30 | 44 ## 32 | 49 ``` -- ## Gráfico de Barras ```r barplot(carros$milhas_por_galao) ``` <img src="Aula02_files/figure-html/unnamed-chunk-8-1.png" width="100%" />