Introdução

Este trabalho é a parte 2/2 que está sendo realizado pelos discentes Bruno Augusto e Sergio Ademir do curso de Engenharia de Software, pela diciplina Probabilidade e Estatistica ministrada pelo docente Hidelbrando Rodrigues. Este estudo tem como objetivo de perceber como funciona a estatistica, acessando um volume de dados de uma base e trabalhando com eles para os mais variados tipos de análises.

Escolhemos o tema Energia e subtema Consumo de energia elétrica no Brasil onde os dados que usaremos foram extraídos da seguinte fonte: https://basedosdados.org/#home. Analisaremos de forma majoritaria dois tipos de dados, um com caracteristicas quantitativas e outro com caracteristicas qualitativas, este apresentará dados quantitativos.

Os resultados deste experimento foram adquiridos utilizando a ferramenta RMarkdown do RStudio que permite explorar de forma completa e detalhada informações de interesses sobre uma base de dados.

Análise (numero de consumidores)

Como a base num_consumidorespossui um elevado numero de registros, cerca de 22.575, em primeira análise trabalharemos com uma amostra de 10 registros retiradas dessa base e vejamos o que encontramos:

  dados2$num_consum10

##  [1]  258610  103396  480619   66138 1049108  102074  232464  979489  579441
## [10] 1724128

Como podemos observar acima, os dados estão representados em valores inteiros que apresentam a quantidade de consumidores de uma unica UF (Unidade Federativa), os valores são de 10 meses sequenciais (janeiro - outubro) ja pré escolhidos e ordenados!

Em uma analise descritiva a media, mediana, menor e maior valor da amostra estão listados abaixo.

Media:

  dados1$num_cons10Med

## [1] 557546.7

Mediana:

  dados1$num_cons10Medi

## [1] 369614.5

Menor valor:

  dados1$num_cons10Min

## [1] 66138

Maior valor:

  dados1$num_cons10Max

## [1] 1724128

Uma vez definido a media podemos observar o calculo da variancia, este calculo nos ajuda a entender o quão dispersos ou agrupados estão os valores em torno da média, o valor é obtido atravez da soma dos quadrados das diferença entre cada valor e a media aritmética, dividida pela quantidade de valores observados. Entre outras formulas, a variancia pode ser obtida utilizando a seguinte expressão: \[σ² = ( (Σ x²) / N ) - μ²\] A imagem/texto abaixo apresenta a variancia da amostra:

  dados1$num_cons10Var

## [1] 293023293193

Analisando o grafico de ramo e folhas, isto é uma representação gráfica que nos ajuda a vizualizar a distribuição de um conjunto de dados, fornecendo informações sobre ordem e frequencia dos valores.

  stem(dados2$num_consum10)

## 
##   The decimal point is 6 digit(s) to the right of the |
## 
##   0 | 11123
##   0 | 56
##   1 | 00
##   1 | 7

Um gráfico em forma de histograma é importante para a identificação de tendências, comparação de dados, planejamento e análise por vizualização.

Vizualize a distribuição dos valores do conjunto com a ajuda do histograma abaixo:

  hist(dados2$num_consum10, breaks = 4, col = "pink", xlab = "Consumidores", ylab = "Quantidade de Observações", main = "Histograma da Amostra")

O histograma da amostra informa que os valores se distribuem em 500.000 consumidores até atingir o seu total, a frenquencia maior indica onde mais os valores se repetem. A primeira coluna tem uma frequencia de pelo menos 3 vezes o tamanho da segunda, indica que 3.000.000 acusa de consumidores enquanto os outros 2.500.000 se distribuem em frequencias cada vez menores nas colunas posteriores.

Um gráfico tipo Box plot permite visualizar rapidamente a distribuição de valores em um conjunto de dados e ver onde estão localizadas as cinco estatísticas de resumo numéricos (máximo, terceiro, segundo e primeiro quartil e mínimo)! Observe:

  estatisticas <- boxplot(dados2$num_consum10, col = "pink", main = 'Boxplot da Amostra', pch = 15, horizontal = TRUE)

Agora vejamos os dados estatisticos do nosso Boxplot que armazenamos no objeto estatisticas:

  estatisticas

## $stats
##           [,1]
## [1,]   66138.0
## [2,]  103396.0
## [3,]  369614.5
## [4,]  979489.0
## [5,] 1724128.0
## 
## $n
## [1] 10
## 
## $conf
##           [,1]
## [1,] -68116.49
## [2,] 807345.49
## 
## $out
## numeric(0)
## 
## $group
## numeric(0)
## 
## $names
## [1] ""

Legenda:
[1,] = Limite inferior
[2,] = Primeiro quartil
[3,] = Mediana
[4,] = Terceiro quartil
[5,] = Limite superior

$n = 10 registros analisados

$out = O grafico não apresenta Outliers superiores e nem inferiores!

$group = Quantidade de grupos

$names = Nome da tabela

Conclusão

A análise utilizando funções do Rstudio atenderam as espectativas de forma positiva, a experiência utilizando a plataforma com certeza veio para acrescentar á nossa carreira profissional como um diferencial aos demais, ainda que alguns experimentos ainda pecisem ser lapidados.
Bem, concluo este documento com satisfação de ter tido a oportunidade de conhecer o sistema especializado em analise de dados, e com a certeza e segurança de que no futuro com certeza irei contar com ela em algum momento.

Ass: Bruno Augusto

Consumo de energia elétrica no Brasil

Bruno Augusto e Sergio Ademir

2023-10-09

Introdução

Análise (numero de consumidores)

Conclusão