class: center, middle, inverse, title-slide .title[ # EstatĂstica Básica ] .author[ ### Pedro Victor Brasil Ribeiro ] .institute[ ### FAPEG ] .date[ ### 18/04/2023 (Alterado em: 12/05/2023 sexta-feira) ] --- Essa apresentação tem como objetivo apresentar e explicar conceitos básicos de estatĂstica. De forma a: - Obter melhor entendimento de conceitos; - Compreender e aplicar conceitos; - Treinar capacidade de pensamento crĂtico sobre os dados. --- class: inverse, center, middle # Natureza da EstatĂstica .footnote[ Agresti & Finlay (1997), Johnson & Bhattacharyya (1992), Weiss (1999), Anderson & Sclove (1974) and Freund (2001) ] --- class: middle EstatĂstica Ă© um assunto muito amplo e com aplicações em quantas areas se queira. Em geral, pode-se dizer que estatistica Ă© um conjunto de metodologias de **Coleta**, **Análise**, **Interpretação** e de retirar **Conclusões** de dados. -- Dizendo de outra forma estatĂstica Ă© um conjunto de mĂ©todos e ferramentas desenvolvidas por cientistas e matemáticos para possibilidar a nĂłs entendermos o mundo e o contexto de uma **Pergunta**, atravĂ©s de uma análise de dados. --- class: center, middle # Desenhando sua pergunta --- class: middle Uma pergunta bem criada e planeja já Ă© um grande passo para sua resolução. PorĂ©m para tal temos alguns passos importante e, em geral, bastante complexos. 1. Delineamento: É o planejanmento e a direção de um caso de estudo; 2. Descrição: Uma breve análise descritivas e exploratĂłria dos dados; 3. Inferencia: Generalizações sobre o fenĂ´meno ou predições sobre o fenĂ´meno representados pelos dados. --- class: middle, center # População x Amostra --- class: middle O conceito de **População** e **Amostra** sĂŁo dois conceitos básicos e extremamente importantes na estatĂstica. **Definição - População:** população Ă© o conjunto completo de indivĂduos, objetos, eventos ou medidas que possuem alguma caracterĂstica em comum. Por exemplo: -- - A população de interesse pode ser constituĂda por todos os alunos de uma escola; - Todos os habitantes de uma cidade; - Todas as notas de um exame. A população pode ser finita ou infinita, dependendo do tamanho do conjunto. --- class: middle **Definição - Amostra:** Uma amostra Ă© um subconjunto da população selecionada para ser estudado e analisado em uma pesquisa ou estudo estatĂstico. A amostra deve ser escolhida de forma representativa, de modo que as caracterĂsticas da amostra sejam semelhantes Ă s da população. A amostra pode ser aleatĂłria, estratificada, por conglomerados, entre outras tĂ©cnicas de seleção. A utilização de amostras Ă© uma forma de obter informações sobre uma população sem a necessidade de analisar todos os seus elementos. Caso seja utilizada toda a população isso Ă© chamado um Censo. --- class: center, middle <!-- --> --- class: middle A utilização da população, muitas vezes, Ă© impossĂvel ou extremamente cara de ser utilizada. Portanto Ă© utilizado mĂ©todos amostrais para retirar amostras da população desejada, de forma a reduzir gasto e tempo e minimizando o viĂ©s amostral. -- ViĂ©s amostral Ă© um erro sistemático que ocorre quando a amostra selecionada aleatoriamente nĂŁo Ă© representativa da população devido a falhas na seleção da amostra. Isso pode ocorrer por várias razões: - Amostragem nĂŁo aleatĂłria; - Tamanho inadequado da amostra; - Falhas na medição ou viĂ©s do respondente. --- class: middle Para minimizar o viĂ©s amostral, Ă© fundamental usar mĂ©todos de amostragem: - Amostragem aleatĂłria; - Amostragem estratificada; - Amostragem sistemática Definir critĂ©rios claros de inclusĂŁo na amostra e garantir uma alta taxa de resposta. AlĂ©m disso, o aumento do tamanho da amostra pode ajudar a garantir uma representatividade mais robusta da população. --- class: middle A escolha do mĂ©todo de amostragem a ser utilizado depende do objetivo da pesquisa e das caracterĂsticas da população em estudo. --- class: middle ## Amostragem aleatĂłria É a mais utilizada e geralmente Ă© apropriada quando a população Ă© homogĂŞnea e nĂŁo há nenhum conhecimento prĂ©vio que justifique a utilização de outro mĂ©todo. -- ## Amostragem Estratificada É usada quando a população apresenta estratos ou subgrupos bem definidos, que diferem uns dos outros em termos de caracterĂsticas importantes. Nesse caso, Ă© importante que a amostra seja representativa de cada estrato, entĂŁo Ă© feita uma seleção aleatĂłria dentro de cada estrato. -- ## Amostragem Sistemática É usada quando a população Ă© grande e nĂŁo Ă© possĂvel examinar todos os elementos da população. Nesse caso, a amostra Ă© selecionada a partir de um padrĂŁo sistemático, por exemplo, selecionando a cada k-Ă©simo elemento. --- class: middle ## Exemplo Amostragem AleatĂłria .pull-left[ <!-- --> ] .pull-right[ Um pesquisador quer investigar a quantidade de estudante que ao saĂrem da sua graduação entraram em um mestrado em menos de 2 anos. EntĂŁo a partir de um lista de n estudante o pesquisador vai amostrar aleatĂłriamente m estudantes (m < n). ] --- class: middle ## Exemplo Amostragem Estratificada .pull-left[ <!-- --> ] .pull-right[ Uma empresa quer realizar uma pesquisa de satisfação com seus clientes, mas sabe que eles estĂŁo divididos em diferentes faixas etárias. Para garantir que a amostra seja representativa, a empresa pode usar a amostragem estratificada, dividindo os clientes em grupos de faixas etárias e selecionando aleatoriamente uma quantidade proporcional de clientes de cada grupo. ] --- class: middle ## Exemplo Amostragem Sistemática .pull-left[ <!-- --> ] .pull-right[ Uma empresa quer avaliar o nĂvel de sastifação dos seus clientes, entĂŁo eles decidem fazer um breve questionário com o terceiro cliente a sair da loja. Assim, removendo possĂveis vies em relação a gĂŞnero, faixa etária, cor, etc.. ] --- class: middle ## Teste Piloto O teste piloto Ă© um experimento em pequena escala realizado antes do estudo principal, com o objetivo de avaliar a viabilidade do estudo, identificar possĂveis problemas e ajustar medidas, protocolos e procedimentos. -- É importante para reduzir riscos, aumentar eficiĂŞncia na coleta de dados e reduzir custos e tempo de pesquisa. O teste piloto tambĂ©m pode aumentar a credibilidade e a validade do estudo, garantindo que o protocolo seja adequado e que os dados coletados sejam de alta qualidade. -- - Exemplos: - Quanto tempo demora responder um questionário? - Qual percentual de recusa existe? - Alguma pergunta trouxe algum desconforto? --- class: middle <!-- --> --- class: center, middle, inverse # EstatĂstica Descrivias --- class: center, middle **Definição: ** Estatistica descritiva consiste de mĂ©todos para organizar e sumarizar informações. .footnote[ [1]. Weiss (1999) ] --- class: center, middle, inverse <!--- background-color: #e64626 ---> # Tipo de variáveis --- class: middle Uma variável Ă© uma caracterĂstica ou propriedade que pode ser medida ou observada em um conjunto de indivĂduos, objetos ou eventos. Ela pode ser qualitativa, referindo-se a caracterĂsticas nĂŁo mensuráveis numericamente, ou quantitativa, referindo-se a medidas numĂ©ricas. As variáveis sĂŁo essenciais em estatĂstica, permitindo a análise e interpretação dos dados coletados em uma pesquisa ou experimento. --- class: middle - Variáveis Quantitativas: SĂŁo variáveis que possuam mensuráveis. Como altura, temperatura, nĂşmero de filhos, nĂşmero de carros. -- - Variáveis Quantitativas Discretas: SĂŁo aquelas que pertencem ao conjunto dos inteiros, nĂŁo possuindo valores decimais. Como NĂşmero de filho ou carros. -- - Variáveis Quantitativas ContĂnuas: SĂŁo aquelas que pertencem ao conjunto dos Reais, podendo possuir valores decimais. Como altura, peso, temperatura. --- class: middle - Variáveis Quantitativas: SĂŁo variáveis com caracterĂsticas nĂŁo numericamente mensuráveis. Como satisfação, nĂvel de escolaridade , nome, Genero, cor dos olhos. -- - Variáveis Quantitativas Nominais: As variáveis quantitativas nominais sĂŁo aquelas que representam atributos ou caracterĂsticas que nĂŁo tĂŞm uma ordem natural ou sequĂŞncia. Isso significa que as categorias em que a variável Ă© dividida nĂŁo podem ser colocadas em uma ordem especĂfica. Alguns exemplos de variáveis quantitativas nominais sĂŁo: gĂŞnero (masculino/feminino), cor dos olhos (azul, verde, castanho), tipo sanguĂneo (A, B, AB, O) -- - Variáveis Quantitativas Ordinais: sĂŁo aquelas que possuem uma ordem natural ou sequĂŞncia. Isso significa que as categorias em que a variável Ă© dividida podem ser colocadas em uma ordem especĂfica. Alguns exemplos de variáveis quantitativas ordinais sĂŁo: nĂvel de escolaridade (ensino fundamental, ensino mĂ©dio, graduação, pĂłs-graduação), grau de satisfação (muito insatisfeito, insatisfeito, indiferente, satisfeito, muito satisfeito) --- class: middle, center, inverse # Medidas de tendĂŞncia central --- class: middle Medidas de tendĂŞncia central sĂŁo estatĂsticas descritivas utilizadas para resumir e descrever o comportamento de um conjunto de dados em relação ao seu centro. Elas representam valores que sĂŁo considerados tĂpicos ou centrais do conjunto de dados. As medidas de tendĂŞncia central mais comuns sĂŁo a mĂ©dia, a mediana e o modo. .footnote[ [1]. Zar (2010) [2]. Moretin & Bussab (2017) ] -- - MĂ©dia Ă© a soma de todos os valores divididos pelo nĂşmero de observações; - Mediana Ă© o valor que ocupa a posição central do conjunto de dados quando eles sĂŁo colocados em ordem crescente ou decrescente; - Moda Ă© o valor que ocorre com maior frequĂŞncia no conjunto de dados. -- Essas medidas sĂŁo usadas para resumir o conjunto de dados em um Ăşnico valor que representa o centro ou o ponto mĂ©dio do conjunto de dados. --- class: middle ## MĂ©dia AritmĂ©tica `\begin{equation} \bar{X} = \frac{1}{n} \times \sum^n_{i=1} X_i \end{equation}` --- class: middle - Mas porque ela Ă© tĂŁo amplamente utilizada? Pois a mĂ©dia aritmĂ©tica Ă© função da maioria dos estimadores de máxima verossimilhança da maioria das distribuições estatisticas amplamente utilizadas. Tais como: -- - Distribuição Normal; `\(\hat{\mu} = \bar{X}\)` -- - Distribuição Binomial; `\(\hat{p} = \bar{X}\)` -- - Distribuição GeomĂ©trica; `\(\hat{p} = \frac{1}{\bar{X}}\)` -- - Distribuição Exponencial; `\(\hat{\lambda} = \frac{1}{\bar{X}}\)` ou `\(\hat{\theta} = \bar{X}\)` -- - Entre outros. --- class: middle # Mediana A mediana Ă© uma medida de tendĂŞncia central que divide um conjunto de dados ordenados em duas partes iguais. -- Formalmente, a mediana Ă© definida como o valor que ocupa a posição central do conjunto de dados quando estes sĂŁo dispostos em ordem crescente ou decrescente. Se o conjunto de dados tiver um nĂşmero Ămpar de observações, a mediana Ă© o valor que ocupa a posição central. Se o conjunto de dados tiver um nĂşmero par de observações, a mediana Ă© a mĂ©dia dos dois valores centrais. -- A mediana Ă© uma medida de tendĂŞncia central robusta, que nĂŁo Ă© afetada por valores extremos ou outliers no conjunto de dados. PorĂ©m ela nĂŁo Ă© uma **Estatistica de máxima verssimilhança**, salvo para a distribuição uniforme. Por isso, nĂŁo Ă© comumente utilizada para estimações e modelos paramĂ©tricos. Tendo seu uso para modelos nĂŁo-paramĂ©tricos. --- class: middle # Generalização A mediana, se trata de um percentil. Mais especĂficamente o percentil 50 - `\(P_{50}\)`. Em ultima análise os percentis sĂŁo utilizados para realizar estatĂsticas de dispersĂŁo (como o **I**nter**Q**uatilic **R**ange [IQR] ). --- class: middle # Percentil O percentil Ă© uma medida estatĂstica que indica a posição relativa de um determinado valor em relação a um conjunto de dados ordenados. -- Formalmente, o percentil Ă© definido como o valor abaixo do qual uma determinada porcentagem dos dados se encontra.O cálculo do percentil envolve a ordenação dos dados em ordem crescente ou decrescente e a identificação da posição relativa do valor de interesse. -- É uma medida Ăştil para descrever a distribuição dos dados e comparar diferentes conjuntos de dados, por isso Ă© utilizada para realizar estatĂsticas de dispersĂŁo. --- class: middle Percentis usuais: - P<sup>0</sup> Ou o MĂnimo; - P<sup>25</sup> Ou o 1° quartil Q1; - P<sup>50</sup> Ou o 2° quartil Q2 ou Mediana; - P<sup>75</sup> Ou o 3° quartil Q3; - P<sup>100</sup> Ou o Máximo. --- class: middle Representa o valor ou valores que ocorrem com mais frequĂŞncia em um conjunto de dados. Formalmente, a moda Ă© definida como o valor ou valores com a maior frequĂŞncia absoluta, ou seja, o valor que aparece mais vezes no conjunto de dados. -- A moda pode ser usada para descrever a forma de uma distribuição de dados, especialmente em casos em que a distribuição nĂŁo Ă© simĂ©trica. A moda Ă© uma medida de tendĂŞncia central nĂŁo robusta, que pode ser afetada por valores extremos ou outliers no conjunto de dados. --- class: middle, center, inverse # Medidas de Variação --- class: middle Tem como intenção de desenvolver medidas numĂ©ricas capazes de representar a variação dos dados em relação a alguma medida de tendĂŞncia central. Sendo as mais comuns: amplitude, IQR, desvio padrĂŁo, coeficiente de variação --- class: middle ## Amplitude **Definição:** Amplitute Ă© definida como a diferença entre o maior valor de X e o menor valor de X. Amplitude = max{X} - min{X} A utilização da amplitude nĂŁo Ă© muito utilizada pois ela ignora grande parte da informação disponĂvel da amostra se resumindo somente nos dois elementos extremos. .footnote[ [1]. Manikandan (2011) ] --- class: middle # IQR **Definição:** IQR ou amplitude interquantĂlica Ă© a diferença entre o `\(3^{\circ}\)` e o `\(1^{\circ}\)` quartil. É mais utilizado quando se analiza um amostra muito assimĂ©trica e/ou com outliers muito representativos. .footnote[ [1]. Manikandan (2011) ] --- class: middle # Desvio PadrĂŁo Desvio padrĂŁo Ă© a medida de dispersĂŁo mais comum. Ele mede a variabilidade dos dados em relação Ă mĂ©dia. Quanto maior for o desvio padrĂŁo, maior será a variabilidade dos dados, indicando que os valores estĂŁo mais distantes da mĂ©dia. `\begin{equation} \sigma = \sqrt{ \frac{ \sum_{i = 1}^{n} (x_i - \bar{x})^2 }{n-1} } = \sqrt{ \frac{ \sum_{i = 1}^{n} d_i^2 }{n-1} } \end{equation}` O desvio padrĂŁo pode ser interpretado com a mĂ©dia das distâncias euclidianas entre os elementos e sua mĂ©dia. --- class: middle # IQR x Desvio PadrĂŁo Desvio padrĂŁo Ă© mais apropriado de usar para dados aproximadamente normais ou quando se deseja comparar grupos com amostras similares; IQR Ă© mais apropriado a se utilizar a dados assimetricos e quando se deseja comparar grupos com distribuições distintas. Adicionalmente, IQR Ă© menos sentĂvel a outlier. .footnote[ [1]. Manikandan (2011) ] --- class: middle O desvio pardĂŁo Ă© uma medida de dispersĂŁo largamente utilizada, devido a ser vacilmente calculável e interpretável. Util para casos onde a distribuição Ă© aproximadamento normal e nĂŁo há outliers significativos. É função da função de máxima verossimilhança e Ă© bem representativa. A amplitute interquantilica Ă© uma medida de variavilidade robusta menos sensĂvel aos outliers e apropriada para distribuições nĂŁo-normais. É menos informativa sobre a caudas da distribuição e menos apropriada para comparações entre populações com diferentes medianas. --- class: middle # Coeficiente de Variação O coeficiente de variação (CV) Ă© uma medida de variabilidade relativa de uma variável em relação Ă sua mĂ©dia. É calculado como o desvio padrĂŁo da variável dividido pela mĂ©dia da variável, e expresso em porcentagem. O CV Ă© usado para comparar a variabilidade entre diferentes conjuntos de dados, especialmente quando eles tĂŞm mĂ©dias diferentes. Ele permite avaliar a dispersĂŁo dos dados em relação Ă mĂ©dia de forma padronizada, independentemente da unidade de medida da variável. Quanto maior o valor do CV, maior a variabilidade relativa em relação Ă mĂ©dia, indicando que a dispersĂŁo dos dados Ă© maior. Já um valor baixo de CV indica que os dados estĂŁo relativamente prĂłximos da mĂ©dia, ou seja, há pouca variabilidade. -- No entanto, o uso do CV tem algumas limitações. Em particular, ele nĂŁo pode ser calculado para variáveis com mĂ©dia igual a zero ou muito prĂłxima a zero. AlĂ©m disso, o CV pode nĂŁo ser adequado para comparar variáveis que tĂŞm diferentes distribuições, já que ele pressupõe que a distribuição Ă© aproximadamente normal. --- # Bibliografia - <p><cite>Agresti, A., B. Finlay, and others (2009). <em>Statistical methods for the social sciences</em>. Vol. 207. Pearson Prentice Hall Upper Saddle River, NJ.</cite></p> - <p><cite>Johnson, R. A. and G. K. Bhattacharyya (2019). <em>Statistics: principles and methods</em>. John Wiley & Sons.</cite></p> - <p><cite>Weiss, N. A. and C. A. Weiss (2017). <em>Introductory statistics</em>. Pearson London.</cite></p> - <p><cite>Anderson, T. W., S. L. Sclove, and others (1978). <em>Introductory statistical analysis [by] TW Anderson [and] Stanley L. Sclove</em>.</cite></p> - <p><cite>H Zar, J. (2010). “Biostatistical analysis”. </p></cite></p> - <p><cite>Morettin, P. A. and W. O. Bussab (2017). <em>EstatĂstica básica</em>. Saraiva Educação SA.</cite></p> - <p><cite>Manikandan, S. (2011). “Measures of dispersion”. In: <em>Journal of Pharmacology and Pharmacotherapeutics</em> 2.4, p. 315.</cite></p>