Introdução a Estatística
Conteúdo programático
- Teoria:
- O que é Estatística e em que áreas ela se subdivide;
- O que é Ciência de dados e qual a importância da estatística;
- Etapas da Análise Estatística;
- Conceitos básicos;
- Dados Tabelados;
- O que são variáveis e quais são os seus tipos;
- Medidas de tendência central (Média e suas propriedades, Mediana, Moda e Medidas Separatrizes (Quartis e Percentis);
- Medidas de Assimetria e Curtose e seus respectivos coeficientes;
- O que é Box-plot ou Diagrama de Caixas e como utilizá-lo para detecção de outliers;
- Medidas de variação/Dispersão;
- Algoritmos facilitadores do processo de aprendizagem da Mediana e da Variância;
- Propriedades das medidas de tendência central e Dispersão;
- Prática:
- O que é R? Qual a sua história? Qual sua importância e o que é Rstudio e seus pacotes;
- Mão na massa com o R Studio;
- Como trabalhar com a Base do Enade – INEP (Exame nacional de desempenho de Estudantes;
- Como importar a base de dados do Enade para o R;
- Análise descritiva do banco e interpretação;
- Como fazer filtros, agregações e transformar variáveis, usando a biblioteca DPLYR;
- Como contabilizar informações faltantes no banco e como eliminá-las;
- Elaborar análises gráficas usando ggplot2 com código e sem código;
- Gráficos Estatísticos (Teoria e Prática);
- Projeto Final (Valendo 10)
Aulas em Vídeo
- Aulas em Vídeo no Estatidados
- Segure control e clique Site da Comunidade de Estatística do Prof. Thiago Marques
O que é Estatística e em que áreas ela se subdivide
- O que é Estatística?
A estatística é um conjunto de técnicas que permite de forma sistemática organizar, descrever, analisar e interpretar dados advindos de diversas origens, a fim de extrair deles conclusões.
- Pode ser subdivida em quatro grandes áreas:
Estatística Descritiva
É o ramo da estatística que se ocupa em organizar e descrever os dados, que podem ser expressos em tabelas e gráficos.
Pode ser dividida em dois Grupos:
Probabilidade
- Nos permite descrever os fenômenos aleatórios, ou seja, aqueles em que está presente a incerteza.
Amostragem
Conjunto de técnicas para selecionar uma amostra da população, com o objetivo de obter informações de uma ou mais características de interesse, as quais permitam chegar a conclusões a respeito dos parâmetros.
População : É a coleção de todos os indivíduos que possuem determinadas características, as quais estamos interessados em estudar.
- Representamos por: N = “Tamanho Populacional”.
Amostra: É um Subconjunto da população, uma parte dos indivíduos que possuem determinadas características.
- Representamos por: n = “Tamanho Amostral”.
Importante: Sempre que falarmos em Amostra, usaremos letras Minúsculas e População, por sua vez, Maiúsculas.
Inferência Estatística
- É o estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir da amostra.
O que é Data Science?
Etapas da análise estatística
Conceitos Básicos da Estatística
Censo: Exame de todos os Elementos da população.
Dados Brutos: São dados na sua forma mais primitiva, desprovidos de ordenação, assim que coletados.
Rol Estatístico: São os dados brutos já ordenados, em ordem crescente ou decrescente.
Dados tabelados
Os dados podem ser expressos em tabelas de frequência, tanto em Frequências Absolutas Simples (𝑓𝑖) ou Frequências Absolutas Acumuladas (𝑓𝑎𝑐), podendo ser subdividas em Frequências Relativas Simples (𝑓𝑟) e Frequências Relativas Acumuladas (𝑓𝑟𝑎𝑐).
Frequência Absoluta Simples (𝑓𝑖): É a contagem simples de Elementos.
- Frequências Absolutas Acumuladas (𝑓𝑎𝑐): É a contagem acumulada até a classe de interesse (Inclusive).
- Frequência Relativa Simples (𝑓𝑟): É a contagem simples de Elementos, divididos pela soma das frequências simples, ou seja, representa a proporção ou o percentual de observações.
- Frequência Relativa Acumuladas (𝑓𝑟𝑎𝑐) : É a contagem acumulada até a classe de interesse, divididos pela soma das frequências simples.
- Distribuições de Frequência em Classes : Quando possuímos um grande conjunto de dados, se agruparmos em classes, teremos uma boa ideia do comportamento dos dados.
O que são variáveis e quais são os seus Tipos?
Qualquer característica associada a uma população.
Podem ser classificadas em:
Variáveis Quantitativas: Podem ser divididas em dois grupos, discretas e contínuas, o primeiro, quando for finita e enumerável(contagem) e o último quando os resultados possíveis, pertencerem a um intervalo de números reais e resultados de mensuração.
Exemplos:
- Variáveis Quantitativas Discretas: Número de filhos, Número de carros e número de cigarros fumados por dia.
- Variáveis Quantitativas Contínuas: Peso, altura e salário.
Variáveis Qualitativas: Representam atributos, qualidades, que podem ser divididas em dois grupos, ordinais e nominais, o primeiro, quando existir uma ordem implícita e o último, quando não existir uma ordem implícita.
Exemplos:
Variáveis Qualitativas Nominais: Sexo, cor dos olhos, fumante/não fumante e doente/sadio.
Variáveis Qualitativas Ordinais: Classe social, grau de instrução e estágio da doença.
Algoritmo do tipo de variáveis
Onde estudar Ciência de dados e Estatística?
Comunidade de Estatística do Prof. Thiago Marques
O que é R e qual a sua importância?
R é uma linguagem open Source e ambiente computacional utilizada no mundo todo e nas mais diversas áreas do conhecimento 🌐
Serve para manipulação de Dados, Ferramenta Estatística e Feramenta Gráfica de alto nível. 🥧
É uma das linguagens mais utilizadas pelos cientistas de dados, Analistas de dados e os Estatísticos.🧪
Compila e funciona em sistemas operacionais Linux, Windows e Mac.
Qual a sua história?
Inspirado na linguagem S, que foi desenvolvida na Bell Lab, criada por Ross Lhaka e por Robert Gentleman,no departamento de Estatística da universidade de Auckland, Nova Zelândia.
Surgiu em 1995, como software livre.
Versão 1.0.0 foi lançada no ano de 2000.
Hoje estamos na versão 4.1.2
O que é Rstudio e Pacotes do R?
O Rstudio é a IDE (Ambiente de desenvolvimento integrado) mais utilizada para a compilação da linguagem R, também compila outras linguagens como c++, Python e Java.
Na prática, o objetivo de uma IDE é facilitar e potencializar a programação naquela linguagem, por meio de um console, gerenciando gráficos e facilitando o Debug dos erros.
Pacotes do R, o R vem com um pacote chamado “base”, onde encontram-se as funções mais basilares da linguagem.
Também existem os pacotes criados pelos usuários, que são basicamente funções que os usuários usaram reiteradas vezes e acharam melhor empacotar a solução para usar frequentemente, podem conter também dataframes (Uma das estruturas de dados no R)
hoje são mais de 25.000 só no CRAN (Comprehensive R Archive Network), fora o Github.
45 Anos de Existência
Aula prática 01 - Conceitos básicos e tipos de frequência
Video
Instalando e carregando Pacotes
#install.packages("remotes") # Caso seja necessário
#install.páckages("devtools")
#remotes::install_github("juba/rmdformats",force=TRUE)
#remotes::install_github("glin/reactable",force=TRUE)
=c(
vetor_pacotes"devtools",
"rmdformats",
"reactable",
"Hmisc",
"dplyr",
"kableExtra",
"emo",
"vembedr"
)#install.packages(vetor_pacotes)
lapply(vetor_pacotes,
require, character.only = TRUE)
## Carregando pacotes exigidos: devtools
## Carregando pacotes exigidos: usethis
## Carregando pacotes exigidos: rmdformats
## Carregando pacotes exigidos: reactable
## Carregando pacotes exigidos: Hmisc
## Carregando pacotes exigidos: lattice
## Carregando pacotes exigidos: survival
## Carregando pacotes exigidos: Formula
## Carregando pacotes exigidos: ggplot2
##
## Attaching package: 'Hmisc'
## The following objects are masked from 'package:base':
##
## format.pval, units
## Carregando pacotes exigidos: dplyr
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:Hmisc':
##
## src, summarize
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Carregando pacotes exigidos: kableExtra
##
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
##
## group_rows
## Carregando pacotes exigidos: emo
## [[1]]
## [1] TRUE
##
## [[2]]
## [1] TRUE
##
## [[3]]
## [1] TRUE
##
## [[4]]
## [1] TRUE
##
## [[5]]
## [1] TRUE
##
## [[6]]
## [1] TRUE
##
## [[7]]
## [1] TRUE
##
## [[8]]
## [1] TRUE
Primeira forma de criar o vetor
= c(10,
idade 10,
10,
10,
30,
30,
30,
30,
30,
30,
30,
30,
50,
50,
50,
50,
70,
70,
70,
90)
idade
## [1] 10 10 10 10 30 30 30 30 30 30 30 30 50 50 50 50 70 70 70 90
Segunda forma de criar o vetor
= c(rep(10, 4), rep(30, 8), rep(50, 4), rep(70, 3), 90)
idade2
idade2
## [1] 10 10 10 10 30 30 30 30 30 30 30 30 50 50 50 50 70 70 70 90
Achando as Frequências simples (fi)
= table(idade) frequencia_simples
Colocando no Visual excel
= data.frame(frequencia_simples) dados_simples
Ver o banco todo (Não recomendável para bancos gigantescos)
View(dados_simples)
Ver as n primeiras linhas do data.frame
head(dados_simples, 2)
## idade Freq
## 1 10 4
## 2 30 8
Frequência acumulada
= cumsum(frequencia_simples) frequencia_acumulada
Adicionando coluna com acumulada
$frequencia_acumulada = frequencia_acumulada dados_simples
Frequência relativa simples
= frequencia_simples / sum(frequencia_simples) frequencia_relativa_simples
segunda forma para obter frequencias relativa simples utilizando a função prop.table()
prop.table(frequencia_simples)
## idade
## 10 30 50 70 90
## 0.20 0.40 0.20 0.15 0.05
Adicionando a Frequência relativa simples
$frequencia_relativa_simples = frequencia_relativa_simples dados_simples
Frequência relativa acumulada
= frequencia_acumulada / sum(frequencia_simples) frequencia_relativa_acumulada
Frequência relativa acumulada(Segunda forma)
= cumsum(frequencia_relativa_simples) frequencia_relativa_acumulada
Criando a variavel frequencia_relativa_acumulada
$frequencia_relativa_acumulada = frequencia_relativa_acumulada dados_simples
Renomeando uma coluna do dataframe dados_simples
names(dados_simples)[5] = "frequencia_relativa_acumulada"
kable(dados_simples)
idade | Freq | frequencia_acumulada | frequencia_relativa_simples | frequencia_relativa_acumulada |
---|---|---|---|---|
10 | 4 | 4 | 0.20 | 0.20 |
30 | 8 | 12 | 0.40 | 0.60 |
50 | 4 | 16 | 0.20 | 0.80 |
70 | 3 | 19 | 0.15 | 0.95 |
90 | 1 | 20 | 0.05 | 1.00 |
Explicando as vantagens do pipe
base FOG
f(g(x))
funcao3(funcao2(funcao1(head(dados_simples))))
tidyverse GOF
g(f(x))
dados_simples %>% head() %>% funcao1() %>% funcao2() %>% funcao3()
Colocando na ótica tidyverse
= dados_simples %>%
dados_simples_tidy mutate(
frequencia_acumulada = cumsum(Freq),
frequencia_relativa_simples = Freq / sum(Freq),
frequencia_relativa_acumulada = cumsum(frequencia_relativa_simples)
)
kable(dados_simples_tidy)
idade | Freq | frequencia_acumulada | frequencia_relativa_simples | frequencia_relativa_acumulada |
---|---|---|---|---|
10 | 4 | 4 | 0.20 | 0.20 |
30 | 8 | 12 | 0.40 | 0.60 |
50 | 4 | 16 | 0.20 | 0.80 |
70 | 3 | 19 | 0.15 | 0.95 |
90 | 1 | 20 | 0.05 | 1.00 |
Ordenando de forma decrescente pela idade utilizando a função arrange()
= dados_simples_tidy %>% arrange(desc(Freq)) dados_simples_tidy_ordenado
Exportando como banco de dados csv
write.csv2(dados_simples_tidy, "coco1.csv", row.names = F)
Medidas de tendência central
- Possibilitam saber o grau de concentração dos dados, uma forma de resumir os seus dados por meio de valores, representa tivos do conjunto de dados.
Tipos de Médias
Média Aritmética (𝑴𝑨)
É a soma de todos os elementos do conjunto, divididos pelo número de elementos que compõe o conjunto, essa nós estamos acostumados, sempre usamos para auferir nossos resultados no colégio.
Sua fórmula é dada por:
Média Geométrica (MG)
É a raíz n-ésima do produto de todos os elementos que compõe o conjunto.
- Sua fórmula é dada por:
🎯: n é o número de elementos que compõe o conjunto.
Média Harmônica (MH)
É o número de elementos, divididos pela soma dos inversos dos elementos que compõe o conjunto.
- Sua fórmula é dada por:
Relação entre as médias: MA≥𝐌𝐆≥𝐌𝐇.
🎯 : Único caso em que a MA=MG=MH é o caso onde todos os elementos possuem o mesmo valor no conjunto de dados!
Exemplo didático para fixação do conteúdo:
Calcule a média aritmética, média geométrica e a média harmônica, para o seguinte conjunto de dados: {1,2,5,3,4)
Média Aritmética (𝑴𝑨)
Média Geométrica (MG)
Média Harmônica (MH)
Como já sabíamos: MA>MG>MH.
Mediana
- É o valor da variável que divide os dados ordenados em duas partes de igual frequência.
Mediana em dados não divididos em intervalo de Classe:
Primeiro Passo: Colocar os dados em rol (Ordenar os dados de forma crescente ou decrescente)
Segundo Passo: Observar a paridade do n, pois o cálculo da mediana difere para n par e n ímpar.
Se n é ímpar.: Temos uma posição central únicapar., dada por P.C (Posição Central)= (n+1)/𝟐
- Após calcularmos P.C , a Mediana será o valor que ocupa a posição central.
Se n é par: calcularemos duas posições centrais, quais sejam: P.C1 (Posição Central1)= n /𝟐 e P.C2(Posição Central2) = (n /𝟐) +1.
- Após calcularmos P.C1 e P.C2 , a mediana será a média aritmética de P.C1 E PC.2.
O processo do cálculo da mediana, pode ser visto em forma de algoritmo no Diagrama a seguir:
- Exemplo didático para fixação do conteúdo:
Calcule a mediana das observações: {1,2,1,1,4,5,3,6}**
Primeiro passo:
- Ordenar os dados: {1,1,1,2,3,4,5,6}
Segundo passo:
- Paridade do n: n = 8, portanto é par e teremos duas posições centrais
Terceiro passo:
Calcular P.C1 e P.C2 : P.C1= n /𝟐 = 8 /𝟐 = 4 e P.C2= (n /𝟐) + 1= 4+1 = 5.
Logo, a nossa processo do cálculo da mediana será a média aritmética da quarta observação e a quinta observação. Md= (2+3)/𝟐 = 2,5.
Exemplo didático para fixação do conteúdo:
Calcule a medianaediana das observações: {7,1,5,2,3,1,6}
Primeiro passo:
- Ordenar os dados: {1,1,2,3,5,6,7}
Segundo passo:
- Paridade do n: n = 7, portanto é ímpar e teremos uma única posição central
Terceiro passo:
Calcular P.C : P.C1= (n + 1) /𝟐 = 8 /𝟐 = 4
Logo, a nossa processo do cálculo da mediana será a quarta posição no nosso conjunto já ordenado e Md= 3.
Moda
É o valor que possui a maior frequência aboluta simples no conjunto de dados, consequentemente o de maior probabilidade de ocorrência em um conjunto de dados não agrupados em classes.
Exemplo didático para fixação do conteúdo:
Calcule a moda do conjunto {4,5,4,6,5,8,4}
Vamos realizar a tabela de frequências para facilitar a nossa visualização:
Percebemos pela tabela de frequências que a moda é 4, pois possui a maior frequência simples do conjunto, logo a oda é única e chamada de unimodal.
Calcule a moda do conjunto {4,5,4,6,5,8,4,4,5,5}
Percebemos pela tabela de frequências que a moda possui dois valores, pois duas observações do conjunto se repetem 4 vezes, portanto as maiores frequência simples do conjunto, logo a moda é 4 e 5 e é chamada de bimodal.
Calcule a moda do conjunto {1,2,3,4,5}:
Percebemos pela tabela de frequências que a moda não possui valor, pois todas as observações do conjunto se repetem nenhuma vez, portanto é chamada de amodal.
- 🎯 : Um conjunto de dados que possui duas modas é chamado bimodal, mais de duas, multimodal e se não possuir Moda, é um conjunto amodal.
Medidas Separatrizes
Tem como objetivo dividir o conjunto de dados em n partes de igual frequência, os mais utilizados são os quartis e os percentis.
Quartis: Dividem o conjunto em quatro partes Iguais.
Percentis: Dividem o conjunto em 100 partes iguais.
Percentil Vinte e Cinco (P25=Q1).
Percentil Cinquenta (P50=Q2=Md).
Percentil Setenta e Cinco (P75=Q3).
Medidas de Assimetria
- Possibilitam analisar uma distribuição em relação a sua moda, mediana e média.
Pense no conceito de simetria, fazendo a analogia a um espelho, se traçarmos um eixo vertical no meio da curva, e enxergarmos o mesmo de um lado, o que você vê do outro, significa que seus dados são simétricos.
Coeficiente de assimetria de Pearson
O desvio padrão é sempre positivo (>0).
Note que quando a média for igual a moda -> (AS=0), a distribuição será simétrica, terá ausência de assimetria.
Note que quando a média for menor que a moda -> (AS<0), a distribuição será assimétrica à esquerda ou negativa.
Note que quando a média for maior que a moda -> (AS>0), a distribuição será assimétrica à direita ou positiva.
Coeficiente de Curtose
- Q3 = Valor do terceiro quartil;
- Q1 = Valor do primeiro quartil;
- P90 = Valor do nonagésimo percentil;
- p10 = Valor do décimo percentil;
O coeficiente de curtose da distribuição normal é aproximadamente 3, e utilizamos como base de comparação:
Se k=3, então chamamos de Mesocúrtica (Grau de achatamento da curva normal).
- Se k>3, então chamamos de Leptocúrtica (Mais alongada (Pontiaguda) ).
- Se k<3, então chamamos de Platicúrtica (Mais achatada (platô).
- 🎯 : No R (Library e1071)
- K=0, Mesocúrtica.
- K<0, Platicúrtica.
- K>0, Leptocúrtica.
Aula prática 02 - Medidas de tendência central
Video
Evitando notação científica
options(scipen=999)
Instalando e carregando Biblioteca que calcula Moda, Assimetria e Curtose no R
#install.packages("e1071")
require(e1071)
## Carregando pacotes exigidos: e1071
##
## Attaching package: 'e1071'
## The following object is masked from 'package:Hmisc':
##
## impute
#install.packages("DescTools")
library(DescTools)
##
## Attaching package: 'DescTools'
## The following objects are masked from 'package:Hmisc':
##
## %nin%, Label, Mean, Quantile
library(Hmisc)
Amostra Empresa A
= c(2000, 3000, 4000, 9000)
a = 2000 - 4500
desvio1 = 3000 - 4500
desvio2 = 4000 - 4500
desvio3 = 9000 - 4500
desvio4 = sum(desvio1, desvio2, desvio3, desvio4)
soma_desvios_media soma_desvios_media
## [1] 0
Média, mediana, moda e Resumos empresa A
= mean(a)
media_a
= median(a)
mediana_a
= DescTools::Mode(a)
moda_a cbind(media_a,mediana_a,moda_a)
## media_a mediana_a moda_a
## [1,] 4500 3500 NA
Resumos gerais empresa A
summary(a)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2000 2750 3500 4500 5250 9000
::describe(a) Hmisc
## a
## n missing distinct Info Mean Gmd
## 4 0 4 1 4500 3667
##
## Value 2000 3000 4000 9000
## Frequency 1 1 1 1
## Proportion 0.25 0.25 0.25 0.25
Comparando Graficamente
#Divisão de janelas
par(mfrow = c(1, 2))
#Histograma com as frequências simples
hist(a)
#Histograma com as densidades
hist(a, probability = T)
#Curva de densidade
lines(density(a))
Assimetria e Curtose
#Coeficiente de assimetria de pearson
= skewness(a)
assimetria_a
#Coeficiente de curtose de pearson
=kurtosis(a)
curtose_a
cbind(assimetria_a,curtose_a)
## assimetria_a curtose_a
## [1,] 0.5989042 -1.784706
Consolidando as Estatísticas resumo
= data.frame(
dados_a_consolidados "moda" = moda_a,
"mediana" = mediana_a,
"media" = media_a,
"assimetria" = assimetria_a,
"curtose" = curtose_a
)
#Amostra Empresa B
=c(2000,3000,3000,3000,3000,3000,4000,7000,9000) b
Média, mediana, moda e Resumos empresa B
= mean(b)
media_b
= median(b)
mediana_b
= DescTools::Mode(b)
moda_b cbind(media_b,mediana_b,moda_b)
## media_b mediana_b moda_b
## [1,] 4111.111 3000 3000
Resumos gerais empresa B
summary(b)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2000 3000 3000 4111 4000 9000
::describe(b) Hmisc
## b
## n missing distinct Info Mean Gmd
## 9 0 5 0.833 4111 2333
##
## lowest : 2000 3000 4000 7000 9000, highest: 2000 3000 4000 7000 9000
##
## Value 2000 3000 4000 7000 9000
## Frequency 1 5 1 1 1
## Proportion 0.111 0.556 0.111 0.111 0.111
Comparando Graficamente
#Divisão de janelas
par(mfrow = c(1, 2))
#Histograma com as frequências simples
hist(b)
#Histograma com as densidades
hist(b, probability = T)
#Curva de densidade
lines(density(b))
Assimetria e Curtose
#Coeficiente de assimetria de pearson
= skewness(b)
assimetria_b
#Coeficiente de curtose de pearson
= kurtosis(b)
curtose_b cbind(assimetria_b,curtose_b)
## assimetria_b curtose_b
## [1,] 1.116122 -0.416036
Consolidando as Estatísticas resumo
= data.frame(
dados_b_consolidados "moda" = moda_b,
"mediana" = mediana_b,
"media" = media_b,
"assimetria" = assimetria_b,
"curtose" = curtose_b
)
#Amostra Empresa C
=c(2000,3000,4000,6000, 7000, 7000, 8000, 9000) c
Média, mediana, moda e Resumos empresa C
= mean(c)
media_c
= median(c)
mediana_c
= DescTools::Mode(c)
moda_c cbind(media_c,mediana_c,moda_c)
## media_c mediana_c moda_c
## [1,] 5750 6500 7000
Resumos gerais empresa C
summary(c)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2000 3750 6500 5750 7250 9000
::describe(c) Hmisc
## c
## n missing distinct Info Mean Gmd
## 8 0 7 0.988 5750 3000
##
## lowest : 2000 3000 4000 6000 7000, highest: 4000 6000 7000 8000 9000
##
## Value 2000 3000 4000 6000 7000 8000 9000
## Frequency 1 1 1 1 2 1 1
## Proportion 0.125 0.125 0.125 0.125 0.250 0.125 0.125
Comparando Graficamente
#Divisão de janelas
par(mfrow = c(1, 2))
#Histograma com as frequências simples
hist(c)
#Histograma com as densidades
hist(c, probability = T)
#Curva de densidade
lines(density(c))
Assimetria e Curtose
#Coeficiente de assimetria de pearson
= skewness(c)
assimetria_c
#Coeficiente de curtose de pearson
= kurtosis(c)
curtose_c cbind(assimetria_c,curtose_c)
## assimetria_c curtose_c
## [1,] -0.2360201 -1.684509
Consolidando as Estatísticas resumo
= data.frame(
dados_c_consolidados "moda" = moda_c,
"mediana" = mediana_c,
"media" = media_c,
"assimetria" = assimetria_c,
"curtose" = curtose_c
)
Medidas de tendência central, assimetria e curtose (Ótica tidyverse)
#ÓTICA TIDYVERSE
#install.packages("dplyr")
library(dplyr)
Dados empresa A (Ótica tidyverse)
#Empresa A
= data.frame(a)
a.df
= a.df %>% summarise(
a.df_resumo moda_a = Mode(a),
mediana_a = median(a),
media_a = mean(a),
assimetria_a = skewness(a),
curtose_a = kurtosis(a)
)
Dados empresa B (Ótica tidyverse)
= data.frame(b)
b.df
#Empresa B
= b.df %>% summarise(
b.df_resumo moda_b = Mode(b),
mediana_b = median(b),
media_b = mean(b),
assimetria_b = skewness(b),
curtose_b = kurtosis(b)
)
Dados empresa C (Ótica tidyverse)
= data.frame(c)
c.df = c.df %>% summarise(
c.df_resumo moda_c = Mode(c),
mediana_c = median(c),
media_c = mean(c),
assimetria_c = skewness(c),
curtose_c = kurtosis(c)
)
Concatenando
#Transpor para concatenar colunas
=data.frame(t(a.df_resumo),t(b.df_resumo),t(c.df_resumo))
consolidado_empresas
#Mudando nomes de linhas e colunas
colnames(consolidado_empresas)=c("resumo_empresa_a","resumo_empresa_b","resumo_empresa_c")
rownames(consolidado_empresas)=c("Moda","Mediana","Media","Assimetria","Curtose")
Exemplo JPMORGAN
=c(16,18,19,20,21,23,28,30,32,33,33,47)
mediana_jpmorgan_exemplo
#Quantidade de elementos
length(mediana_jpmorgan_exemplo)
## [1] 12
#média
mean(mediana_jpmorgan_exemplo)
## [1] 26.66667
#mediana
median(mediana_jpmorgan_exemplo)
## [1] 25.5
Medidas de Dispersão
Diagrama de Box-Plot ou Diagrama de Caixas
É uma representação gráfica da distribuição dos dados, nos dá informação da assimetria da distribuição, presença de outliers (Valores Atípicos) e da Variabilidade dos dados, por meio da amplitude (Máx-Min).
Nos permitem saber o grau de dispersão dos dados, em relação a uma medida de tendência central, geralmente a média.
Exemplos: Amplitude, Variância, Desvio Padrão, Coeficiente de Variação.
População
- Amplitude Populacional: É a diferença entre o maior e o menor valor da População:
- Variância Populacional:
- Desvio Padrão Populacional:
- Coeficiente de Variação Populacional:
Amostra
- Amplitude Amostral – É a diferença entre o maior e o menor valor da amostra.
- Variância Amostral:
- Desvio Padrão Amostral:
- Coeficiente de Variação Amostral:
- 🎯 : O cv é a única medida de variação adimensional (Não possui unidade de medida). Em geral, consideramos um coeficiente de variação < 25%, um bom indicador de homogeneidade dos dados!
O processo do cálculo da variância, pode ser visto em forma de algoritmo no Diagrama a seguir:
Exemplo didático para fixação do conteúdo:
Considere a amostra : {3,4,5,6,12}
Calcule: Amplitude, variância, desvio padrão e coeficiente de variação:
- Amplitude Amostral:
- Variância Amostral:
- Desvio Padrão Amostral :
- Coeficiente de Variação Amostral:
Aula prática 03 - Medidas de Dispersão
Video
Amostra0
#Selecionando a amostra das Sépalas
=iris$Sepal.Length
a0#Contando a quantidade de elementos
length(a0)
## [1] 150
#Ordenando os valores
sort(a0)
## [1] 4.3 4.4 4.4 4.4 4.5 4.6 4.6 4.6 4.6 4.7 4.7 4.8 4.8 4.8 4.8 4.8 4.9 4.9
## [19] 4.9 4.9 4.9 4.9 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.1 5.1 5.1 5.1
## [37] 5.1 5.1 5.1 5.1 5.1 5.2 5.2 5.2 5.2 5.3 5.4 5.4 5.4 5.4 5.4 5.4 5.5 5.5
## [55] 5.5 5.5 5.5 5.5 5.5 5.6 5.6 5.6 5.6 5.6 5.6 5.7 5.7 5.7 5.7 5.7 5.7 5.7
## [73] 5.7 5.8 5.8 5.8 5.8 5.8 5.8 5.8 5.9 5.9 5.9 6.0 6.0 6.0 6.0 6.0 6.0 6.1
## [91] 6.1 6.1 6.1 6.1 6.1 6.2 6.2 6.2 6.2 6.3 6.3 6.3 6.3 6.3 6.3 6.3 6.3 6.3
## [109] 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.7 6.7 6.7 6.7
## [127] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.9 6.9 6.9 6.9 7.0 7.1 7.2 7.2 7.2 7.3 7.4
## [145] 7.6 7.7 7.7 7.7 7.7 7.9
Amplitude amostral
= diff(range(a0)) h0
Variância amostral
=var(a0) var0
Desvio padrão amostral
=sd(a0)
sd0sqrt(var0)
## [1] 0.8280661
Média -2 desvios e +2 desvios
mean(a0)-2*sd0
## [1] 4.187201
mean(a0)+2*sd0
## [1] 7.499466
Coeficiente de variação amostral
=sd0/mean(a0)*100 cv0
Amostra1
=iris$Petal.Length
a1sort(a1)
## [1] 1.0 1.1 1.2 1.2 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.4 1.4 1.4 1.4 1.4 1.4 1.4
## [19] 1.4 1.4 1.4 1.4 1.4 1.4 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5
## [37] 1.5 1.6 1.6 1.6 1.6 1.6 1.6 1.6 1.7 1.7 1.7 1.7 1.9 1.9 3.0 3.3 3.3 3.5
## [55] 3.5 3.6 3.7 3.8 3.9 3.9 3.9 4.0 4.0 4.0 4.0 4.0 4.1 4.1 4.1 4.2 4.2 4.2
## [73] 4.2 4.3 4.3 4.4 4.4 4.4 4.4 4.5 4.5 4.5 4.5 4.5 4.5 4.5 4.5 4.6 4.6 4.6
## [91] 4.7 4.7 4.7 4.7 4.7 4.8 4.8 4.8 4.8 4.9 4.9 4.9 4.9 4.9 5.0 5.0 5.0 5.0
## [109] 5.1 5.1 5.1 5.1 5.1 5.1 5.1 5.1 5.2 5.2 5.3 5.3 5.4 5.4 5.5 5.5 5.5 5.6
## [127] 5.6 5.6 5.6 5.6 5.6 5.7 5.7 5.7 5.8 5.8 5.8 5.9 5.9 6.0 6.0 6.1 6.1 6.1
## [145] 6.3 6.4 6.6 6.7 6.7 6.9
Amplitude amostral
= diff(range(a1)) h1
Amplitude amostral(Ótica tidyverse)
library(dplyr)
%>% range() %>% diff() a1
## [1] 5.9
Variância amostral
=var(a1) var1
Desvio padrão amostral
=sd(a1) sd1
Média -2 desvios e +2desvios
mean(a1)-2*sd1
## [1] 0.2274035
mean(a1)+2*sd1
## [1] 7.288596
Coeficiente de variação amostral
=sd(a1)/mean(a1)*100 cv1
Consolidando e comparando
=data.frame("amplitude"=h0,"variancia"=var0,"desvio_padrao"=sd0,"media"=mean(a0),"coeficente_variacao"=cv0)
dados_a0_consolidados
=data.frame("amplitude"=h1,"variancia"=var1,"desvio_padrao"=sd1,"media"=mean(a1),"coeficente_variacao"=cv1)
dados_a1_consolidados
=data.frame(t(dados_a0_consolidados),t(dados_a1_consolidados))
consolidado_comparativo
colnames(consolidado_comparativo)=c("resumo_tamanhho_Sepala","resumo_tamanhho_Petala")
consolidado_comparativo
## resumo_tamanhho_Sepala resumo_tamanhho_Petala
## amplitude 3.6000000 5.900000
## variancia 0.6856935 3.116278
## desvio_padrao 0.8280661 1.765298
## media 5.8433333 3.758000
## coeficente_variacao 14.1711260 46.974407
Comparando graficamente
par(mfrow=c(1,2))
# Comparação
plot(a0,ylim =c(1,7),col=iris$Species)
abline(h=mean(a0))
abline(h=mean(a0)-2*sd0)
abline(h=mean(a0)+2*sd0)
plot(a1,col=iris$Species)
abline(h=mean(a1))
abline(h=mean(a1)-1.5*sd1)
abline(h=mean(a1)+1.5*sd1)
Ótica Tidyverse
Dados sepalas consolidado
library(dplyr)
= iris %>% summarise( media0=mean(Sepal.Length),
dados_sepala h0= diff(range(Sepal.Length)),
var0=var(Sepal.Length),
sd0=sd(Sepal.Length),
cv0=sd0/media0*100
) dados_sepala
## media0 h0 var0 sd0 cv0
## 1 5.843333 3.6 0.6856935 0.8280661 14.17113
Dados petalas consolidado
= iris %>% summarise( media1=mean(Petal.Length),
dados_petala h1= diff(range(Sepal.Length)),
var1=var(Petal.Length),
sd1=sd(Petal.Length),
cv1=sd1/media1*100
) dados_petala
## media1 h1 var1 sd1 cv1
## 1 3.758 3.6 3.116278 1.765298 46.97441
Exemplo desafio: Em qual carteira devo investir? Carteira de ações A ou B? Use tudo que foi aprendido até o momento.
#Retorno ações
=c(50,60,70)
a=c(-20,140)
b
mean(a)
## [1] 60
mean(b)
## [1] 60
median(a)
## [1] 60
median(b)
## [1] 60
sd(a)
## [1] 10
sd(b)
## [1] 113.1371
sd(a)/mean(a)*100
## [1] 16.66667
sd(b)/mean(b)*100
## [1] 188.5618
Projetos:
- Mba ciência de dados MBA DS CECID / Comunidade de Estatística
- Análise Exploratória de Acidentes Rodoviários - BASE PRF 2020 / Comunidade de Estatística
Precificação de Imóveis - Melbourne Austrália
Dashboards:
- ANÁLISE DO PERFIL LINKEDIN DO PROF. THIAGO MARQUES (USP/IBGE): 2013-2021
- ANÁLISE DO DADOS DO NEFLIX - PROF. THIAGO MARQUES (USP/IBGE): 2012-2021
- ANÁLISE DO DADOS DO APP IFOOD - PROF. THIAGO MARQUES (USP/IBGE): 2018-2020
- Análise Exploratória de Acidentes Rodoviários - BASE PRF 2020
- Dashboard Modelos preditivos - Pokémon
Indicação de livros:
- Segure control e clique Livros
Artigos para iniciantes na área de dados:
Minhas Redes e Portfólio:
Ecossistemas de aprendizagem em Estatística