1) Levante dados dos sorteios da quina (loteria) desde o primeiro sorteio. Considere que, por hipótese, os números sorteados em cada posição (o 1º, o 2º, …, o 5º) têm distribuição uniforme discreta com valores inteiros de 1 a 80.
a) Usando o R, faça o histograma para cada dígito e analise se esta expectativa se confirma. Analise a suposição de que esses dados são, de fato, oriundos uma variável aleatória uniformemente distribuída.
# Leitura dos dados no formato csv
# Obs:o professor usou outra forma: lot<- read.csv("clipboard",header = TRUE, sep="\t")
loteria <- read.csv(file="quina1.csv", header = TRUE, sep = ";", as.is=TRUE)
head(loteria) # para conferir as seis primeiras linhas e ver se deu certo## num data pri seg ter qua qui num_ganh num_quad num_ter acumu
## 1 1 13/03/1994 25 45 60 76 79 3 127 7030 0
## 2 2 17/03/1994 13 30 58 63 64 1 105 4861 0
## 3 3 20/03/1994 5 15 32 33 48 1 232 10196 0
## 4 4 24/03/1994 27 57 60 61 77 1 78 4033 0
## 5 5 27/03/1994 19 44 53 54 71 1 137 5338 0
## 6 6 03/04/1994 4 45 54 65 67 1 157 7286 0
attach(loteria)
#detach(loteria) # Desfaz o attach
# Criando os histogramas
par(mfrow=c(2,3))
hist(pri); hist(seg); hist(ter); hist(qua); hist(qui)A hipótese de que os dados de loteria segue um distribuição uniforme se confirma. Embora haja tendência de uniformidade, mas há uma pequena oscilação indicando concentração dos primeiros dígitos nos valores menores que 20 e os maiores dígitos ficando próximos do número 80.
b) Extraia a média e a variância de todo o conjunto de dados, e compare com os valores da esperança e da variância da variável aleatória X~Uniforme(80).
#Média Total: considera todo o conjunto de dados
numeros<- c(pri, seg, ter, qua, qui)
mediaTotal= round(mean(numeros), digits = 2)
mediaTotal## [1] 40.44
## [1] 533.1
#Média por números
mediaPri= round(mean(pri), digits = 2)
mediaSeg= round(mean(seg), digits = 2)
mediaTer= round(mean(ter), digits = 2)
mediaQua= round(mean(qua), digits = 2)
mediaQui= round(mean(qui), digits = 2)
#Variâncias por números
varPri = round(var(pri), digits = 2)
varSeg = round(var(seg), digits = 2)
varTer = round(var(ter), digits = 2)
varQua = round(var(qua), digits = 2)
varQui = round(var(qui), digits = 2)
#União dos valores na mesma tabela
ComparaMedias = data.frame(cbind(
"Variável" = c("Pri", "Seg","Ter","Qua","Qui", "Total" ),
"Médias" = c(mediaPri, mediaSeg, mediaTer,mediaQua,mediaQui, mediaTotal),
"Variâncias" = c(varPri, varSeg, varTer, varQua, varQui, varianciaTotal)))
ComparaMedias ## Variável Médias Variâncias
## 1 Pri 38.33 551.59
## 2 Seg 39.38 528.38
## 3 Ter 40.99 517.25
## 4 Qua 41.32 513
## 5 Qui 42.17 546.01
## 6 Total 40.44 533.1
As médias calculadas individualmente aproximam-se da média total.Em contrapartida, as variâncias apresentam divergência maior.
c) Em cada sorteio, extraia a média e a mediana dos valores sorteados, e chame essas novas variáveis de “média das amostras” e “mediana das amostras”. Em seguida, faça o histograma e extraia a média e a variância dessas novas variáveis e analise se as seguintes assertivas têm sentido:
#Média e Mediana amostral por sorteio
mediaAmostra=c()
medianaAmostra=c()
for (i in 1:nrow(loteria)){
mediaAmostra [i] = mean(c(pri[i], seg[i], ter[i], qua[i], qui[i]))
medianaAmostra [i] = median(c(pri[i], seg[i], ter[i], qua[i], qui[i]))
}
head(mediaAmostra); head(medianaAmostra)## [1] 57.0 45.6 26.6 56.4 48.2 47.0
## [1] 60 58 32 60 53 54
# Resumo dos resultados: média e variância das médias
resumoAmostra= data.frame (cbind(
"Medida" = c("Média", "Variância da Média", "Mediana", "Variância da Mediana"),
"Valor" =round(c(mean(mediaAmostra),var(mediaAmostra),
mean(medianaAmostra), var(medianaAmostra)), 2)))
resumoAmostra## Medida Valor
## 1 Média 40.44
## 2 Variância da Média 100.73
## 3 Mediana 40.52
## 4 Variância da Mediana 214.3
• As médias das amostras de tamanho 5 seguem distribuição aproximadamente normal, com média igual ao valor esperado da variável aleatória, e variância aproximadamente igual à variância da variável aleatória dividida pelo tamanho da amostra.
O histograma das médias amostrais de tamanho 5, apresentado anteriormente, revela que as médias amostras aproximam-se de um distribuição normal e o valor esperado dessa variável aleatória possui média de 40,44 que é justamente a média de todas as observações (40,44).
# Resumo dos resultados: Média Total e Amostral
c1 = data.frame(cbind("Medida" = c("Média Total", "Média Amostral",
"Variância Variável Aleatória",
"Variância Amostral"),
"Valor" =c(mediaTotal, round(mean(mediaAmostra), digits = 2),
round(var(mediaAmostra), digits = 2),
varianciaTotal/5)))
c1## Medida Valor
## 1 Média Total 40.44
## 2 Média Amostral 40.44
## 3 Variância Variável Aleatória 100.73
## 4 Variância Amostral 106.62
Ao calcular a variáncia das médias das amostrais de tamanho 5, temos que variância amostral (106,2) é aproximadamente igual à variância da variável aleatória dividida pelo tamanho da amostra (100,73).
• As medianas das amostras de tamanho 5 seguem distribuição aproximadamente uniforme, com média igual ao valor esperado da variável aleatória, e variância aproximadamente igual à variância da variável aleatória.
# Resumo dos resultados: Média Total
c2 = data.frame(cbind(
"Medida" = c("Média Total", "Mediana Amostral",
"Variância Variável Aleatória", "Variância Amostral"),
"Valor" = c(mediaTotal, round(mean(medianaAmostra), digits = 2),
varianciaTotal, round(var(medianaAmostra), digits = 2))))
c2## Medida Valor
## 1 Média Total 40.44
## 2 Mediana Amostral 40.52
## 3 Variância Variável Aleatória 533.1
## 4 Variância Amostral 214.3
Não, as medianas das amostras de tamanho 5 seguem distribuição aproximadamente Normal com média de (40,52), valor é aproximadamente igual ao da médida de todo o conjunto (40,44). Já as variâncias são bastantes diferentes, sendo a Variância Total de 513,10 e a Variância da variável aleatória: 214,3.
• A variância das medianas é maior que a variância das médias.
## Variância Média Variância Mediana
## 100.7295 214.2966
A variância das medianas (214.2966) é maior que a variância das médias (100.7295).
d) Em cada sorteio, extraia o mínimo e o máximo dos valores sorteados, e chame essas variáveis de “mínimos amostrais” e “máximos amostrais”, e extraia a média dessas variáveis. Em seguida, multiplique os mínimos por (n-1)/n, e os máximos por (n+1)/n, definindo as novas variáveis por “mínimos amostrais ajustados” e “máximos amostrais ajustados”, e novamente extraia a média (n é o tamanho das amostras). Analise as seguintes assertivas:
#Extração dos mínimos e máximos amostrais
minAmostral=c()
maxAmostral=c()
for (i in 1:nrow(loteria)){
minAmostral [i] = min(c(pri[i], seg[i], ter[i], qua[i], qui[i]))
maxAmostral [i] = max(c(pri[i], seg[i], ter[i], qua[i], qui[i]))
}
# Mínimos Amostrais #Máximos Amostrais
head(minAmostral); head(maxAmostral)## [1] 25 13 5 27 19 4
## [1] 79 64 48 77 71 67
#Cálculo da média dos mínimos e máximos amostrais
mediaMin = mean(minAmostral); mediaMax = mean(maxAmostral)
#Minimos ajustado
minAmostralAjustado = minAmostral*((nrow(loteria)-1)/nrow(loteria))
head(minAmostralAjustado)## [1] 24.995262 12.997536 4.999052 26.994883 18.996399 3.999242
#Máximos ajustados
maxAmostralAjustado = maxAmostral* ((nrow(loteria)+1)/nrow(loteria))
head(maxAmostralAjustado)## [1] 79.01497 64.01213 48.00910 77.01459 71.01345 67.01270
#Nova Média após os ajustes
mediaMinAjus = mean(minAmostralAjustado)
mediaMaxAjus = mean(maxAmostralAjustado)
#Resumo dos Máximos e Mínimos
resumoTotal = data.frame(cbind("Média" = c("Mínimo Amostral", "Mínimo Ajustados",
"Máximos Amostral","Máximo Ajustados"),
"Valor"=round(c(mediaMin, mediaMinAjus, mediaMax,
mediaMaxAjus),3)))
#Resultado
resumoTotal ## Média Valor
## 1 Mínimo Amostral 13.436
## 2 Mínimo Ajustados 13.433
## 3 Máximos Amostral 67.508
## 4 Máximo Ajustados 67.521
• Em média, o mínimo amostral e o máximo amostral são bastante distintos dos valores de mínimo e máximo da variável aleatória (lembre-se que a distribuição varia de 1 a 80).
Verifica-se que, em média, o mínimo amostral (13,436) é bastante diferente do valor mínimo da variável aleatória (1,000). Do mesmo modo, o valor máximo amostral (67,508) é bem inferior ao valor máximo da variável aleatória (80).
• Em média, os valores ajustados de mínimos e máximos amostrais ajustados aproxima-se dos valores de mínimo e máximo da variável aleatória.
Verifica-se, pela tabela anterior, que, em média, o mínimo amostral ajustado (13,433) é bastante diferente do valor mínimo da variável aleatória (1,000). Do mesmo modo, o valor máximo amostral ajustado (67.521) é bem inferior ao valor máximo da variável aleatória (80).
e) Em cada sorteio, extraia o média, multiplique por 2, subtraia o mínimo e use o valor para ‘estimar’ o máximo. Em seguida, extraia a média dos valores gerados ao longo de todos os sorteios e compare com o máximo real (que é 80). Defina um procedimento na mesma lógica para o mínimo e analise os resultados.
#Estimando os valores máximos
media1E=c()
min1E = c()
max1E=c()
for (i in 1:nrow(loteria)){
media1E [i] = mean(c(pri[i], seg[i], ter[i], qua[i], qui[i]))
min1E [i] = min(c(pri[i], seg[i], ter[i], qua[i], qui[i]))
max1E [i] = (media1E [i] * 2) - min1E [i]
}
#Estimando os valores mínimos
media2E=c()
min2E = c()
max2E=c()
for (i in 1:nrow(loteria)){
media2E [i] = mean(c(pri[i], seg[i], ter[i], qua[i], qui[i]))
max2E [i] = max(c(pri[i], seg[i], ter[i], qua[i], qui[i]))
min2E [i] = (media2E [i] * 2) - max2E [i]
}
#Comparando o Valor Estimado com o Valor Real
comparaMaxMIn = data.frame(cbind(
"Máximo" = c("Estimado" = mean(max1E), "Real" = 80, "Erro (%)" = ((80 - mean(max1E))/80)*100),
"Mínimo" = c("Estimado" = mean(min2E), "Real" = 1, "Erro (%)" = ((80 - mean(min2E))/80)*100)))
comparaMaxMIn## Máximo Mínimo
## Estimado 67.44218 13.37017
## Real 80.00000 1.00000
## Erro (%) 15.69727 83.28728
Os valores estimados diferem significativamente dos valores reais. O erro do máximo ficou em 15,69%, enquanto do erro valor mínimo estimado foi de 83.29%.
f) Considere a seguinte situação hipotética: “Os taxis de uma determinada cidade foram numerados na sequência do números naturais, com registros na prefeitura. A regra de distribuição de taxis sempre foi de 1 para 1000 habitantes, e a cidade tem 98 mil habitantes. Novos empreendedores defendiam que o número real estava aquém da regra; já na justiça havia desconfiança de fraude na distribuição, com mais concessões que o previsto na regra. A decisão foi procurar saber o total de taxis licenciados, mas, em um incêndio recente, todos os registros foram perdidos.” Defina uma regra de estimação desse valor máximo e opine sobre quem parece ter razão.
# Distribuição Univorme: X ~ Uniforme (1, 98)
# Cálculo da Média: E(X) = (min + max)/2 = (1 + 98)/2 = 49.5
minimo = 1
maximo = 98
media = ((minimo+maximo)/2)
maxEst = ((2*media) - minimo)
maxEst## [1] 98
1) Considere o lançamento de uma moeda três vezes. Apresente uma visão do espaço amostral para este experimento aleatório, com todos os eventos elementares (C para caras e K para coroa), e indique uma tabela de probabilidades considerando:
a) Que a moeda é não viciada.
#Definindo o Espaço Amostral
EspAmostral = c("CCC", "CCK", "CKK", "CKC", "KKK", "KKC", "KCC", "KCK")
EspAmostral## [1] "CCC" "CCK" "CKK" "CKC" "KKK" "KKC" "KCC" "KCK"
#Cálculo da distribuição de probabilidade
n=3; p=0.5; k=3;
moeda = dbinom(0:3, 3, 0.5); round(moeda, 2)## [1] 0.13 0.38 0.38 0.13
## [1] 0.125 0.375 0.375 0.125
## X P(X)
## [1,] 0 0.125
## [2,] 1 0.375
## [3,] 2 0.375
## [4,] 3 0.125
b) Que, no lançamento desta moeda 500 vezes, observaram-se 305 caras (C). Calcule então as probabilidades associadas ao mesmo experimento considerando este resultado empírico.
##Cálculo da distribuição de probabilidade
n=3
p= 0.6 # 305/500 = 0.61
k=3
moeda2 = round(dbinom(0:3, 3, 0.6), 3)
Resumo2 = cbind("X" = c(0:3, "Total"), "P(X)" = c(moeda2, sum(moeda2)))
Resumo2## X P(X)
## [1,] "0" "0.064"
## [2,] "1" "0.288"
## [3,] "2" "0.432"
## [4,] "3" "0.216"
## [5,] "Total" "1"
c) Para os dois casos acima, apresente a distribuição de probabilidades das seguintes variáveis aleatórias:
• X1: Número de faces iguais
• X2: Número de caras
#Definindo o Espaço Amostral
EspAmostral = c("CCC", "CCK", "CKK", "CKC", "KKK", "KKC", "KCC", "KCK")
#Cálculo da distribuição de probabilidade com p=0.5
n=3; p=0.5; k=3;
nCaras1 = dbinom(0:3, 3, 0.5); round(moeda, 2)## [1] 0.13 0.38 0.38 0.13
#Cálculo da distribuição de probabilidade com p=0.6
n=3; p=0.6; k=3;
nCaras2 = dbinom(0:3, 3, 0.6); round(moeda, 2)## [1] 0.13 0.38 0.38 0.13
ResumaCaras<- data.frame(cbind("X" = c(0:3, "Total"),
"Prob05" = c(nCaras1, sum(nCaras1)),
"Prob06" = c(nCaras2, sum(nCaras2))))
ResumaCaras## X Prob05 Prob06
## 1 0 0.125 0.064
## 2 1 0.375 0.288
## 3 2 0.375 0.432
## 4 3 0.125 0.216
## 5 Total 1 1
2) Apresente os resultados do item c da questão acima considerando a distribuição de probabilidades binomial para a variável aleatória X2, utilizando o R
#Para n = 3
caras1 <- 0:3
probabilidade1 <- dbinom(x=caras1, # Quantidade de sucessos
size = 3, # Quantidade de lançamentos
prob=0.5) # Probabilidade a priori de sucesso
probabilidade1## [1] 0.125 0.375 0.375 0.125
#Para n = 500
caras2 <- 0:3
probabilidade2 <- dbinom(x=caras2, # Quantidade de sucessos
size = 3, # Quantidade de lançamentos
prob=0.6) # Probabilidade a priori de sucesso
probabilidade2## [1] 0.064 0.288 0.432 0.216
3)Estima-se que 8% das pessoas que reservam passeios turísticos faltam, e por isto uma operadora passou a vender pacotes a mais para garantir o transporte completo. Considere um transporte de médio porte de 75 lugares, para o qual uma operadora costuma vender 80 passagens. Determine a probabilidade de que alguém deixe de fazer o passeio por conta de falta de lugar (considere que o número de pessoas segue uma distribuição binomial com n=80 e p=0,92, com o sucesso sendo ‘a pessoa não falta’).
# NPessoas ~ dbin(80, 0.92), consideremos os valores maior do que 75
pFalta = sum(dbinom(76:80, 80, 0.92))
pFalta## [1] 0.2234999
4) Considerando os dados da questão 3, supondo que o governo aplica uma multa de R$ 10000,00 se ao menos um cliente for prejudicado, e que a empresa opera cerca de 90 passeios por mês, estime o valor esperado do total decorrente de multas que a empresa deve pagar.
# Valor Esperado é E(x) = n*p por passageiro que não viajar
esperadoPas = 90 * sum(dbinom(76:80, 80, 0.92))
esperadoPas## [1] 20.11499
## [1] 201149.9
5) Ainda com base nos dados da questão 3, o novo gerente decidiu que somente há sentido em vender mais pacotes que a capacidade se o risco de ser multado for menor que 2,5%. Nesse sentido, simule no R os valores e indique qual deve ser o máximo de passagens a mais que a empresa pode vender. Para esse valor máximo, indique o valor esperado a pagar em multas, nos 90 passeios mensais.
# Risco menor do que 2,5%
a=sum(dbinom(76:77, 77, 0.92))
b=sum(dbinom(76:78, 78, 0.92))#Já ultrapassou 2,5%
c=sum(dbinom(76:79, 79, 0.92))
d=sum(dbinom(76:80, 80, 0.92))
#Logo, só é possível vender 2 pacotes a mais
#Simulador para
pro<-c()
for(i in 1:5){
pro[i]<-sum(dbinom(75:(76+i), (75+i), 0.92))
}
cbind(75:80, round(pro, 3))## [,1] [,2]
## [1,] 75 0.013
## [2,] 76 0.049
## [3,] 77 0.121
## [4,] 78 0.233
## [5,] 79 0.375
## [6,] 80 0.013
#Valor Esperado das multas que é permitido
esperadoPerm = 90 * sum(dbinom(76:77, 77, 0.92))
esperadoPerm## [1] 1.127589
## [1] 11275.89
6)Considerando que a empresa vende cada pacote por R$ 4000,00 e lucra em torno de 9%, supondo que o cliente que falta não gera custo, faça o que se pede:
a) calcule o lucro esperado, e o defina como o lucro de referência para as 75 vagas disponíveis.
## [1] 27000
b) calcule a perda média esperada em relação ao lucro de referência caso venda somente o limite de pacotes possíveis ou caso venda os 80 pacotes.
# Vendendo o limite possível
#Perda Esperada = lucroRef - (LucroMaximo - ValorPermitido)
PerdaEsperada = lucroRef - ((77*4000)*0.09 - ValorPerm)
PerdaEsperada## [1] 10555.89
#Logo, a perda esperada será de 10555.89
# Vendendo os 80 bilhetes
#Perda Esperada = lucroRef - (LucroMaximo - ValorPermitido)
PerdaEsperada2 = (lucroRef - ((0.92*80*4000)*0.09 - esperadoMulta))
#Logo, a perda esperada será de:
PerdaEsperada2## [1] 201653.9
c) supondo que a empresa quer manter o lucro de referência, e considerando agora a situação de venda de 75 ou 80 pacotes e o valor de multa associado (ver questão 4),indique qual seria o valor a ser cobrado de multa dos clientes que se espera que não comparecerão, nas duas formas de venda.
# Para venda de 75 pacotes e considerando que 8% sejam faltosos
ValorMulta = PerdaEsperada/(0.08 *75)
#Portanto, o valor da multa para cada cliente será de:
round(ValorMulta, 2)## [1] 1759.31
# Para venda de 80 pacotes e considerando que 8% sejam faltosos
ValorMulta2 = PerdaEsperada2/(0.08 *80)
#Portanto, o valor da multa será de:
round(ValorMulta2, 2)## [1] 31508.43
d) considerando que multas maiores desestimulam mais clientes, analise o que é mais vantajoso: vender o limite ou vender 80 lugares.
Pela enorme diferença entre o valor das multas ao vender do limite e do valor máximo, é mais vantajoso vender apenas o limite pois causaria maior estímulo aos clientes.
7) Na véspera de uma eleição, um candidato decidiu colocar 5000 panfletos nas caixas de correios das pessoas de sua área de interesse. A empresa que produz os panfletos alega que a probabilidade de um sujeito votar no candidato influenciado pelo panfleto é 0,04. Considerando que são necessários 220 votos para o candidato ser eleito, apresente.
a) O número esperado de pessoas que votarão no candidato influenciado pelos panfletos.
n = 5000
k = 220
p = 0.04
#X ~ binom(500, 0.04)
#Valor esperado: E(X) = n*p
ValEsp = n*p
#Portanto, o número esperado de pessoas que votarão no candidato influenciado pelos panfletos será de:
ValEsp## [1] 200
b) A probabilidade de o candidato ser eleito (ou seja, conseguir os 220 votos ou mais) com base nos panfletos distribuídos.
n1 = 5000
k1 = 220
p1 = 0.04
#X ~ binom(500, 0.04)
#Probabilidade de ser eleito
probEleito = sum(dbinom(0:220, 5000, 0.04))
#Portanto, a probabilidade de o candidato ser eleito com base nos panfletos será de:
probEleito## [1] 0.928826
c) O candidato conseguiu, ao final, 160 votos. Levando em conta este resultado, avalie, com base na probabilidade de ocorrência deste resultado, se a empresa de panfletos estimou corretamente o impacto deste meio de comunicação na votação (considere a probabilidade de ele ter 160 ou menos; tome por regra que um valor é ‘plausível’ se tem chance até 1% de ocorrer, e menor que isso seria indicativo de fraude).
n2 = 5000
k2 = 160
p2 = 0.04
#X ~ binom(500, 0.04)
#Probabilidade de ser eleito
probEleito2 = sum(dbinom(0:160, 5000, 0.04))
#Portanto, considerando a probabilidade de ele ter 160 ou menos, há indícios de que a quantidade de votos obtidos trata-se de uma fraude visto que a probabilidade de foi menor de que 1%:
probEleito2## [1] 0.001654363
8) Pesquise a definição, a formulação, e descreva o valor esperado e a variância das distribuições discretas hipergeométrica e de Poisson. Faça um exemplo (apenas 1 de cada distribuição) no R com simulação e apresentação do gráfico.
Distribuição Hipergeométrica é adequada quando consideramos extrações casuais feitas sem reposição de uma população dividida segundo dois atributos. Dessa forma, considere uma população com N objetos nos quais M são classificados como do tipo A e N-M são classificados como do tipo B.
Definição: Uma variável aleatória X tem distribuição hipergeométrica [X ~ Hgep(M, N, n)] de parâmetros M, N e n se sua função de probabilidade for dada por:
\[P(X=k)= {{M \choose k} {N - M \choose n - k}\over {N \choose n}}\]
\[ E(x) = n {M \over N} \]
Em que \[ {M \over N} \] é a probabilidade de ocorrência de um evento numa única extração.
\[{\sigma^2 = n{M \over N}{(N-M) \over N}{N-n \over N-1}}\]
O Departamento de Estatística é formado por 35 professores, sendo 21 homens e 14 mulheres. Uma comissão de 3 professores será constituída sorteando, ao acaso, três membros do departamento. Pede-se:
a) Qual a probabilidade da comissão ser formada por duas mulheres?
#Probabilidade da comissão ser formada por duas mulheres
N = 35 #Num de professores
M = 21 #Homens (n)
N_M = 35 - 21 # Num mulheres (m)
n = 3 # Escolhdos para a comissões (k)
k = 2 # Mulheres na comissão (x)
#Usando a Hipergeométrica no R:
#dhyper(x, m, n, k), em que:
h1 = dhyper(2,14,21,3)
h1## [1] 0.2919786
b) Qual a probabilidade de a comissão ser formada por pelo menos duas mulheres?
## [1] 0.3475936
Na teoria da probabilidade e na estatística, a distribuição de Poisson é uma distribuição de probabilidade de variável aleatória discreta que expressa a probabilidade de uma série de eventos ocorrer num certo período de tempo se estes eventos ocorrem independentemente de quando ocorreu o último evento.
Uma variável aleatória discreta \(X\) segue a distribuição de Poisson com parâmetro \(\lambda\), com \(\lambda>0\), se sua função de probabilidade for dada por:
\[ \mathbb{P}(X=k)=\frac{e^{-\lambda}\lambda^k}{k!} \]
Utilizamos a notação \(X\sim\ \text{Poisson}(\lambda)\) ou \(X\sim\ \text{Po}(\lambda)\). O parâmetro \(\lambda\) indica a taxa de ocorrência por unidade medida.
O valor esperado de uma distribuição de Poisson é igual a \(\lambda\), ou seja, \[ E(x) =\lambda \]
A variância de uma distribuição de Poisson também é igual a \(\lambda\).
\[ E(x) =\lambda \]
Suponha que uma aplicação de tinta em um automóvel é feita de forma mecânica, e pode produzir defeitos de fabricação, como bolhas ou áreas mal pintadas, de acordo com uma variável aleatória \(X\) que segue uma distribuição de Poisson de parâmetro \(\lambda=1\). Suponha que sorteamos um carro ao acaso para que sua pintura seja inspecionada.
a) qual a probabilidade de encontrarmos, pelo menos, \(1\) defeito?
## [1] 0.6321206
b) qual a probabilidade de encontrarmos de \(2\) a \(4\) defeitos?
## [1] 0.2605813
Obs: os conteúdos destes tópicos foram retirados de: http://www.portalaction.com.br/probabilidades/52-distribuicao-de-poisson
1) Simule no R a geração de uma amostra aleatória de tamanhos 10, 1000, 10.000, e 100.000 elementos de uma distribuição de probabilidade uniforme, de 0 a 10. Em cada caso, calcule a média e a variância de duas formas:.
a) Solicitando no R pelos comandos mean() e var() b) Pela fórmula de cálculo: (max()+min())/2 – para a média; ((max()-min())^2)/12 – para a variância.
#DISTRIBUIÇÃO UNIFORME - TAM 10, 1000, 10.000 e 100.000
# Função para Cálculo da média e variância da distribuição uniforme
#n número de elementos, a é limite inferior e b o limite superior
fUnif<- function(n, a, b){
v1 = c()
for (i in 1:n) {
v1<-runif(n, a, b)
mu<- mean(v1)
sig2<- var(v1)
Mediaformula<- (max(v1)+min(v1))/2
Varformula<- ((max(v1)-min(v1))^2)/12
MediaTeorica<- (a+b)/2
VarTeorica<-((a-b)^2)/12
}
result<- expand.grid(mu,Mediaformula, MediaTeorica,
sig2,Varformula, VarTeorica,
KEEP.OUT.ATTRS = FALSE)
names(result)<- c("Média Simulada", "Média Fórmula", "Média Teórica",
"Variância Simulada", "Variância Fórmula", "Variância Teórica" )
return(result)
}c) Compare os valores obtidos nos itens a e b e compare com a média e a variância teórica da distribuição uniforme entre 0 e 10. Analise a seguinte afirmação: ‘quando a amostra cresce, qualquer das formulações leva a valores próximos do valor de referência na distribuição de origem da amostra’.
# Amostra aleatória de tamanhos 10
aDez<-fUnif(10,0,10)
## Amostra aleatória de tamanhos 1000
aMil<- fUnif(1000,0,10)
## Amostra aleatória de tamanhos 10.000
aDezMil<- fUnif(10000,0,10)
## Amostra aleatória de tamanhos 10.000
# aCemMil<- fUnif(100000,0,10) notebook não consegue calcular.
#ResumoUnif2) Considere que o tempo de início efetivo de uma aula é uniformemente distribuído entre 14:00 e 14:09. O professor, uma vez que entra na sala, coloca falta nos estudantes que não estão em sala.
a) Calcule o horário médio de início das aulas.
#redefinicao: 14:00 será 0 e 14:09 será 9.
# a= 0 e b= 9; t ~ uniforme (0, 9)
mediaA<- (9+0)/2;mediaA## [1] 4.5
b) Usando o R, calcule a probabilidade de um estudante ficar com falta se chegar depois de 14:05. E de chegar depois de 14:08.
## [1] 0.5555556
## [1] 0.8888889
c) Qual a probabilidade de o professor chegar entre 14:05 e 14:07?
## [1] 0.2222222
d) Gere uma amostra aleatória de tamanhos 500, 5000 e 50000 de uma variável com distribuição uniforme de 0 a 9. Em seguida, calcule o percentual de valores entre 2 e 7. Compare os resultados com o que você encontrou no item c e comente.
## [1] 0.216
#Comentário: Resultado muito próximo do encontrado no item C, porém maior que ele.;
# Amostra aleatória de tamanhos 5000
dCin<-runif(5000, 0,9);
hist(dCin)## [1] 0.2316
#Comentário: Resultado mais próximo do encontrado no item C, porém menor;
# Amostra aleatória de tamanhos 50000
dCMil<-runif(50000, 0,9);
hist(dCMil)## [1] 0.22144
Comentário: Resultado igual, com precisão de duas casas decimais, ao encontrado no item C. Ou seja, a medida que o tamanho da amostra aumenta, tende-se a chegar ao valor teórico;
e) Um estudante quer estar 90% certo de que não se atrasará na aula. Qual então o horário máximo que deve chegar?
## [1] 0.9
3) Um estudo mostrou que o Coeficiente de rendimento acadêmico (CRA) possui distribuição aproximadamente normal com média 7,35 e desvio padrão de 1,49. Utilizando o R, faça o que se pede:
a) Calcule a probabilidade de encontrarmos estudantes com CRA menor que 6.
## [1] 0.1824573
b) Se a instituição possui 30.000 estudantes, indique quantos são esperados ter um CRE menor que 6.
## [1] 5473.718
c) Gere uma amostra aleatória de tamanho 30.000 de uma variável com distribuição normal com média 7,35 e desvio padrão de 1,49, faça o histograma da distribuição gerada (não precisa mostrar os dados), e calcule as principais medidas de posição, dispersão e formato. Analise os valores levando em conta a discussão feita sobre medidas descritivas e esses valores na distribuição normal teórica.
## [1] 7.349171
## [1] 2.229785
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4572 6.3419 7.3431 7.3492 8.3553 14.6748
## [1] 0.4571525 6.3418146 7.3430811 8.3552701 14.6748330
d) Na distribuição gerada no item c, calcule a percentagem de valores que são menores que 6 compare com os resultados do item a. Comente a diferença, se houver, em relação à probabilidade calculada em a.
## [1] 0.1828
e) A universidade está debatendo qual deve ser a nota mínima de CRA para que os alunos possam disputar bolsas de extensão, monitoria e iniciação científica. Foi sugerido que a nota deveria ser tal que deixasse aptos não mais que 30% dos alunos. Porém um grupo de professores defende que a nota mínima para concorrer a bolsa deve ser 8,0, independente do percentual de alunos que possa concorrer. Considerando os dados apresentados, indique qual deve ser a nota de corte fixada pela universidade que seja mais favorável aos alunos.
## [1] 8.131357
## [1] 0.3313307
4) Simule no R amostras de tamanho 30, 300, 3000 e 30000 de uma distribuição binomial \(X \sim Bin(49;0.5)\).
a) Faça o histograma e extraia as medidas descritivas de média, mediana, desvio padrão, assimetria e curtose.
## [1] 24.53333
## [1] 12.46437
## [1] 24.5
## [1] 3.530491
## [1] 24.34
## [1] 11.80375
## [1] 24
## [1] 3.435658
## [1] 24.33233
## [1] 12.36001
## [1] 24
## [1] 3.51568
## [1] 24.51473
## [1] 12.07572
## [1] 25
## [1] 3.475013
b) Analise a afirmação de que há aproximação de medidas descritivas entre as distribuições, o que se verifica mais claramente em grandes amostras.
c) Calcule no R, para essa distribuição, a probabilidade de encontrar valores entre 20 e 40.
## [1] 0.9243333
## [1] 0.8735642
d) Para cada amostra extraída, compare os resultados de uma amostra aleatória de mesmo tamanho de uma distribuição normal com média 24,5 e desvio padrão 3,5. Também aqui, encontre a probabilidade de a probabilidade de encontrar valores entre 20 e 40. Compare os resultados com o item c.
5) Seja \(X \sim Bin(n;p)\):
a) Simule a geração de amostras de tamanho 10000 com as seguintes especificações, e em cada caso faça um histograma: (1) n=10, p=0,5; (2) n=100, p=0,5; (3) n=1000, p=0,5; (4) n=10, p=0,8 (2) n=100, p=0,8; (3) n=1000, p=0,8.
#DISTRIBUIÇÃO BINOMIAL
# Função para Cálculo da média e variância da distribuição Binomial
#t número de elementos; n é tamanho da amostra; p é a probabilidade
fBinom<- function(t, n, p){
v1 = c()
for (i in 1:t) {
v1<-rbinom(t, n, p)
mu<- mean(v1)
sig2<- var(v1)
}
hist(v1)
result<- expand.grid(mu, sig2,
KEEP.OUT.ATTRS = FALSE)
names(result)<- c("Média Simulada", "Variância Simulada")
return(result)
hist(v1)
}
# Usando a função fBinom para (1) n=10, p=0,5 e t=10000;
q6a1<- fBinom(10000, 10, 0.5); q6a1## Média Simulada Variância Simulada
## 1 4.9954 2.456224
## Média Simulada Variância Simulada
## 1 49.9862 25.27154
## Média Simulada Variância Simulada
## 1 500.1203 250.4709
## Média Simulada Variância Simulada
## 1 8.027 1.59163
## Média Simulada Variância Simulada
## 1 80.0629 15.68011
## Média Simulada Variância Simulada
## 1 799.7311 161.5395
b) Pesquise sobre a ‘aproximação a binomial pela normal’ em análise de probabilidades e verifique, nos histogramas, se há algum condicionamento a ‘aproximação’ relativo ao tamanho de n e de p (em particular, verifique o efeito da assimetria gerada por valores de p que se distanciam de 0,5).
A distribuição normal fornece uma boa aproximação muito boa da distribuição binomial quando n, o número de observações, for satisfatoriamente grande e p, a probabilidade de sucesso de cada realização está próxima de 1/2.
Uma boa aproximação normal da distribuição binomial ocorre somente quando np e n(1 − p) forem ambos maiores do que 5, ou seja, \(np > 5\) e \(n(1 − p) > 5\). Então: \(Y ∼ Bin(n; p)\) e
\(Y \sim^a N(np; \sqrt{(np(1 − p)})\)
6) Pesquise a definição, a formulação, e descreva o valor esperado e a variância das distribuições contínuas: exponencial, t e qui-quadrada. Faça um exemplo (apenas 1 de cada distribuição) no R com simulação e apresentação do gráfico (use no máximo 200 palavras no total)
A distribuição exponencial é um tipo de distribuição contínua de probabilidade, representada por um parâmetro \(\lambda\). É caracterizada por ter uma função de taxa de falha constante (única com esta propriedade). Tem sido usada extensivamente como um modelo para o tempo de vida de certos produtos e materiais. A variável aleatória \(X\) tem distribuição Exponencial com parâmetro \(\lambda\), com \(\lambda > 0\), se tiver função densidade de probabilidade dada por:
\[ f(x;\lambda) = \left \{ \begin{matrix} \lambda e^{-\lambda x}, & \mbox{se }x \ge \mbox{0} \\ 0, & \mbox{se }x < \mbox{ 0} \end{matrix} \right. \]
Valor Esperado: \(E(X) = \frac{1}{\lambda}\).
Variância: \(Var(X) = \frac{1}{\lambda^2}\).
Falta de Memória: probabilidade de que seja necessário esperar, por exemplo, mais que 30 segundos até que o evento aconteça, dado que esse evento não aconteceu antes de 20 segundos, é a mesma de que esse evento ocorra depois dos 10 segundos iniciais.
Uma variável aleatória contínua \(X\) tem distribuição \(t\) de Student com \(\nu\) graus de liberdade se sua função densidade de probabilidade é dada por:
\(f(x)=\frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi}\Gamma\left(\frac{\nu}{2}\right)}\left(1+\frac{x^2}{\nu}\right)^{-\left(\frac{\nu+1}{2}\right)}\qquad x \in(-\infty,\infty).\)
Propriedades da distribuição t de Student: + A função densidade da distribuição t de Student tem a mesma forma em sino da distribuição Normal, mas reflete a maior variabilidade (com curvas mais alargadas) que é de se esperar em amostras pequenas. + Quanto maior o grau de liberdade, mais a distribuição t de Student se aproxima da distribuição Normal. Abaixo temos um gráfico da função densidade de um t de Student com 10 graus de liberdade.
Uma variável aleatória contínua \(X\) tem distribuição qui-quadrado com \(\nu\) graus de liberdade se sua função densidade for dada por:
\(f(x)=\frac{1}{2^{\nu/2}\Gamma(\nu/2)}x^{(v/2)-1}\exp\left(-\frac{x}{2}\right); \ \nu > 0, \ x>0\)
Valor de Esperado: \(E(x)=\nu\)
Variância: \(Var(X)=2\nu\)