Este trabalho é a parte 2/2 que está sendo realizado pelos discentes Bruno Augusto e Sergio Ademir do curso de Engenharia de Software, pela diciplina Probabilidade e Estatistica ministrada pelo docente Hidelbrando Rodrigues. Este estudo tem como objetivo de perceber como funciona a estatistica, acessando um volume de dados de uma base e trabalhando com eles para os mais variados tipos de análises.
Escolhemos o tema Energia e subtema Consumo de energia elétrica no Brasil onde os dados que usaremos foram extraídos da seguinte fonte: https://basedosdados.org/#home. Analisaremos de forma majoritaria dois tipos de dados, um com caracteristicas quantitativas e outro com caracteristicas qualitativas, este apresentará dados quantitativos.
Os resultados deste experimento foram adquiridos utilizando a ferramenta RMarkdown do RStudio que permite explorar de forma completa e detalhada informações de interesses sobre uma base de dados.
Como a base num_consumidorespossui um elevado numero de
registros, cerca de 22.575, em primeira análise trabalharemos com uma
amostra de 10 registros retiradas dessa base e vejamos o que
encontramos:
dados2$num_consum10
## [1] 258610 103396 480619 66138 1049108 102074 232464 979489 579441
## [10] 1724128
Como podemos observar acima, os dados estão representados em valores inteiros que apresentam a quantidade de consumidores de uma unica UF (Unidade Federativa), os valores são de 10 meses sequenciais (janeiro - outubro) ja pré escolhidos e ordenados!
Em uma analise descritiva a media, mediana, menor e maior valor da amostra estão listados abaixo.
Media:
dados1$num_cons10Med
## [1] 557546.7
Mediana:
dados1$num_cons10Medi
## [1] 369614.5
Menor valor:
dados1$num_cons10Min
## [1] 66138
Maior valor:
dados1$num_cons10Max
## [1] 1724128
Uma vez definido a media podemos observar o calculo da variancia, este calculo nos ajuda a entender o quão dispersos ou agrupados estão os valores em torno da média, o valor é obtido atravez da soma dos quadrados das diferença entre cada valor e a media aritmética, dividida pela quantidade de valores observados. Entre outras formulas, a variancia pode ser obtida utilizando a seguinte expressão: \[σ² = ( (Σ x²) / N ) - μ²\] A imagem/texto abaixo apresenta a variancia da amostra:
dados1$num_cons10Var
## [1] 293023293193
Analisando o grafico de ramo e folhas, isto é uma representação gráfica que nos ajuda a vizualizar a distribuição de um conjunto de dados, fornecendo informações sobre ordem e frequencia dos valores.
stem(dados2$num_consum10)
##
## The decimal point is 6 digit(s) to the right of the |
##
## 0 | 11123
## 0 | 56
## 1 | 00
## 1 | 7
Um gráfico em forma de histograma é importante para a identificação de tendências, comparação de dados, planejamento e análise por vizualização.
Vizualize a distribuição dos valores do conjunto com a ajuda do histograma abaixo:
hist(dados2$num_consum10, breaks = 4, col = "pink", xlab = "Consumidores", ylab = "Quantidade de Observações", main = "Histograma da Amostra")
O histograma da amostra informa que os valores se distribuem em 500.000 consumidores até atingir o seu total, a frenquencia maior indica onde mais os valores se repetem. A primeira coluna tem uma frequencia de pelo menos 3 vezes o tamanho da segunda, indica que 3.000.000 acusa de consumidores enquanto os outros 2.500.000 se distribuem em frequencias cada vez menores nas colunas posteriores.
Um gráfico tipo Box plot permite visualizar rapidamente a distribuição de valores em um conjunto de dados e ver onde estão localizadas as cinco estatísticas de resumo numéricos (máximo, terceiro, segundo e primeiro quartil e mínimo)! Observe:
estatisticas <- boxplot(dados2$num_consum10, col = "pink", main = 'Boxplot da Amostra', pch = 15, horizontal = TRUE)
Agora vejamos os dados estatisticos do nosso Boxplot que armazenamos
no objeto estatisticas:
estatisticas
## $stats
## [,1]
## [1,] 66138.0
## [2,] 103396.0
## [3,] 369614.5
## [4,] 979489.0
## [5,] 1724128.0
##
## $n
## [1] 10
##
## $conf
## [,1]
## [1,] -68116.49
## [2,] 807345.49
##
## $out
## numeric(0)
##
## $group
## numeric(0)
##
## $names
## [1] ""
Legenda:
[1,] = Limite inferior
[2,] = Primeiro quartil
[3,] = Mediana
[4,] = Terceiro quartil
[5,] = Limite superior
$n = 10 registros analisados
$out = O grafico não apresenta Outliers superiores e nem inferiores!
$group = Quantidade de grupos
$names = Nome da tabela
A análise utilizando funções do Rstudio atenderam as espectativas de
forma positiva, a experiência utilizando a plataforma com certeza veio
para acrescentar á nossa carreira profissional como um diferencial aos
demais, ainda que alguns experimentos ainda pecisem ser lapidados.
Bem, concluo este documento com satisfação de ter tido a oportunidade de
conhecer o sistema especializado em analise de dados, e com a certeza e
segurança de que no futuro com certeza irei contar com ela em algum
momento.
Ass: Bruno Augusto