Projekt 2, efterårssemestret 2020.

Opgave 1

Vi kan benytte binomial koefficentien \[\binom{n}{k} = \frac{n!}{k!(n-k)!},\] til og beregne antallet af skåle med forskelligt indhold en studerende kan vælge, når hun vælger 5 forskellige grøntsager fra salatbaren. Mere specifikt skal vi beregne:

\[\binom{12}{5} = \frac{12!}{5!(12-5)!}\]

choose(n = 12, k = 5) ## choose funktionen er bimomialkoefficenten

## [1] 792

Altså kan vi sammensætte 792 forskelllige skåle bestående af 5 grøntsager fra en salatbar med 12 grøntsager.

Hvis den studerende undgår rosenkål når han/hun skal vælge en skål med 5 grøntsager, har vi altså nu kun en mængde med 11 grøntsager og vælge i mellem. Vi beregner \[\binom{11}{5}\]

choose(11, 5)

## [1] 462

# nb: vi behøver ikke og specifcerer n og k i funktionsinputtet, 
# R ved godt at det første input svare til n og input 2 svare til k.

I alt kan en studerende som undgår rosenkål sammensætte 462 skåle med 5 grøntsager.

Hvis en anden studerende altid vælger rosenkål, skal vi nu beregne alle mulige sammensætninger bestående af 4 grøntsager, hvor vi ser bort fra rosenkål i salatbaren, svarende til og beregne \[\binom{11}{4}\]

choose(11, 4)

## [1] 330

i alt 330 forskellige skåle med 5 grøntsager hvor i altid 1 af de 5 er rosenkål.

Hvis vi helt tifældigt sammensætter en skål med 5 forskellige grøntsgaer, må chancen for at vælge en skål som indeholder rosenkål være \[\frac{\binom{11}{4}}{\binom{12}{5}}, \]

svarende til alle de sammensætninger af skåle der indeholder rosenkål, divideret med alle mulige sammensætninger (vi bruger ssh funktionen \(p(x) = \frac{\# \ gunstige \ udfald}{\# \ antal \ mulige }\), idet alle udfald er lige sandsynlige obs obs uniform fordeling).

choose(11,4)/choose(12, 5) * 100

## [1] 41.66667

chancen for at udvælge en tilfældig skål med 5 salater som indeholder rosenkål er altså 41.67 %.

opgave 2

For at beregne hvor mange forskellige udvalg af beskaffenhed der kan sammensættes fra en klasse bestående af 12 piger og 8 drenge, skal vi benytte multiplikationspricippet - Altså.

Hvis ordstyren skal være en pige har vi 12 forskellige muligheder
Hvis pizzahenteren skal være en dreng har vi 8 forskellige muligheder
når vi så har valgt en ordstyrer og en pizzahenter har vi nu kun 18 elever ( 11 piger og 7 drenge, hvor kønnet ingen rolle spiller) til at vælge en altmulig person.

Alle disse kombinationer skal ganges sammen for at finde de mulige udvalg.

12*8*18

## [1] 1728

# jeg bruger igen binomialkoefficienterne, men jeg ved at (n / 1) = n:

#choose(12,1)*choose(8,1)*choose(18,1) = 12*8*18

Altså kan vi i alt sammensætte 1728 udvalg.

Vi benytter binomialkoefficienten \(\binom{20}{5}\) til og beregne antallet af 5 personers udvalg fra en mængde på 20 elever.

choose(20, 5)

## [1] 15504

i alt 15504 forskellige 5 personers udvalg.

Hvis et 5 personers udvalg skal bestå af 3 piger og 2 drenge, skal vi finde ud af på hvor mange måder vi kan udvælge 3 piger af en mængde på 12 (\(\binom{12}{3}\)), samt på hvor mange måder vi kan udvælge 2 drenge fra en mængde på 8 (\(\binom{8}{2}\)). Antallet af måder hvorpå vi kan udvælge et 5 personers udvalg med 3 piger og 2 drenge må så være (multiplikationsprincippet) \[\binom{12}{3} \cdot \binom{8}{2}\]

choose(12, 3)*choose(8,2)

## [1] 6160

altså i alt 6160 forskellige kombinationer af 5 personersudvalg bestående af 3 piger og 2 drenge.

Vi har lige renget ud hvor mange 5 personersudvalg bestående af 3 piger og 2 drenge vi kan sammensætte. Antallet af 5 personersudvalg der kan sammensættes uanset køn og andre etiketter beregnede vi i opgave b. Sandsynligheden for at et tilfældigt 5-personersudvalg indeholder præcis 3 piger og 2 drenge må derfor være (hvis vi udvælger 5 tilfældige - uniform fordeling)

choose(12, 3)*choose(8,2)/choose(20, 5)*100

## [1] 39.73168

altså 39.73168 %

e) Lad:

\(A\) definierer hændelsen at en person spiser pizza
\(B\) definierer hændelsen at vi vælger en dreng
\(C\) definierer hændelsen at vi vælger en pige

Ssh for at vi vælger en person der spiser pizza må være chancen for at vi udtrækker en pige som spiser pizza, plus chancen for at vi udtrækker en dreng som spiser pizza (vi har ikke andre muligheder - obs obs hvad er udfaldsrummet? Skriv det op så i ikke bliver i tvivl). Med andre ord: \[P(A) = P(A \cap B) + P(A \cap C)\] Vi bruger de betingede ssh til at regne denne ssh, altså: \[P(A) = P(A | B) \cdot P(B) + P(A | C) \cdot P(C)\]

Vi ved jo hvad fordelingen af drenge af piger og drenge i klassen er, og vi ved også hvor mange % der spiser pizza af pigerne og drengene. Vi indsætter i ovenstående og får at:

\(P(A|B) = 0.35, \ P(A|C) = 0.15\)
\(P(B) = \frac{8}{20}, \ P(C) = \frac{12}{20}\)

matrix( (0.35*8/20 + 0.15*12/20)*100 ,ncol = 1,
       dimnames = list('', 'P(A) %'))

##  P(A) %
##      23

Altså er chancen for at vi tilfældigt udvælger en person som spiser pizza 23 %

Vi skal regne \[P(B | A) = \frac{P(B \cap A)}{P(A)}\] Vi kan benytte bayes’s theorem som siger at:

\[P(B | A) = \frac{P(A|B) \cdot P(B)}{P(A)}\] Husk tælleren i ovenstående brøk bare er en alternativ måde at skrive ssh \(P(B \cap A) = P(A \cap B)\). Vi har fra foregående opgave regnet alle de nødvendige sandsynligheder. Vi indsætter derfor og regner:

matrix( ( (0.35*8/20)/0.23 )*100 ,ncol = 1,
       dimnames = list('', 'P(B|A) %'))

##  P(B|A) %
##  60.86957

Hvis det oplyses at en person spiser pizza er chancen for at det er en dreng altså 60.87 %

Vi gør helt det samme her bare for en pige istedet:

\[P(C|A) = \frac{P(A|C) \cdot P(C)}{P(A)}\]

matrix( ( (0.15*12/20)/0.23 )*100 ,ncol = 1,
       dimnames = list('', 'P(C|A) %'))

##  P(C|A) %
##  39.13043

opgave 3

Hvis ét fjernsyn har 10 hovedkomponenter som alle kan være defekte med lige stor ssh, må defektsandsynligheden være \(p = \frac{1}{10}\).

Hvis en ladning på 250 fjernsyn sendes afsted til tyskland, og man forventer givet de 10 hovedkomponenter vil foresage defekte fjernsyn på op til 2 %, må antallet af defekte fjernysn \(X\) blandt 250 fjernsyn være binomialfordelte, altså: \[X \sim binom(250, 0.02)\].

Det forventede antal defekte fjernsyn må derfor være:

\[E[X] = n \cdot p = 250 \cdot 0.02\]

250*0.02

## [1] 5

altså forventer vi at 5 af de 250 fjernsyn må være defekte.

sandsynligheden for at højst 3 fjernsyn er defekte svare til og regne

\[P(X \leq 3)\]

Vi bruger pbiom funktionen i R som er fordelingsfunktionen for binomialfordelingen (husk en fordelingsfunktion pr def er : \(P(X \leq x, \ x \in \{0,..,250\})\))

matrix( pbinom(3, size = 250, prob = 0.02)*100 ,ncol = 1,
       dimnames = list('', 'P(X <= 3) %'))

##  P(X <= 3) %
##     26.21919

 # nb: vi behøver ikke og skrive size og prob.
# Igen ved R godt at de første 3 input svare til en fraktil, en antalsparameter n og en ssh
# parameter p

altså er der 26.23 % chance for at højst 3 fjernsyn er defekte.

Vi skal regne \(P(X \geq 10)\), som også kan regnes ud fra komplimentærhændelsen \[1 - P(X<10) = 1 - (P(X \leq 10) - P(X = 10))\]. Her bruger vi en kombination af fordelingsfunktionen og ssh funktionen for binomialfordelingen (dbinom er ssh funktionen for en binomialfordeling):

matrix( (1 - (pbinom(10, 250, 0.02) - dbinom(10, 250, 0.02))) *100 ,ncol = 1,
       dimnames = list('', 'P(X >= 10) %'))

##  P(X >= 10) %
##      3.037498

Vi får at chancen for at mindst 10 fjernsyn er defekte er 3.04 %

opgave 4

Det gennemsnitlige antal motorfejl er erfaret til og være 4 pr 1000 timers drift. Med andre ord må vi i snit forvente \[\lambda_{7} = \frac{4}{1000} \cdot 7\] motorfejl pr 7 time. Nu kan vi indføre en stokastisk variabel \(X \sim pois(\lambda_7)\) som repræsentere antallet af spontane fejl på en flyvetur over atlanten (svarende til en flyvetyr på 7 timer).

Vi beregner ssh \[P(X = 0)\] og bruger dpois funktionen i R som er ssh funktionen i en poissonfordeling

matrix( dpois(x = 0, lambda = 4/1000*7, log = FALSE)*100 ,ncol = 1,
       dimnames = list('', 'P(X = 0) %'))

##  P(X = 0) %
##    97.23884

Efter 10 timers drift må vi forvente i snit \(\lambda_{10} = \frac{4}{1000} \cdot 10\) driftsfejl. Lad nu \(X \sim pois(\lambda_{10})\). Vi skal nu regne \[P(X \geq 1) = 1 - P(X = 0)\]

matrix( (1 - dpois(x = 0, lambda = 0.04, log = FALSE))*100 ,ncol = 1,
       dimnames = list('', 'P(X >= 1) %'))

##  P(X >= 1) %
##     3.921056

altså er chancen for vi for mindst en motorfejl på 10 timer ca 4 %

Ja, det må være en rimelig antagelse at fejl i motorerne på et 4-motorers jetfly er uafhængige fra motor til motor når motorerne sidder på det samme fly. Ellers ville det godt nok være et dårligt fremstillet fly, hvis en af motorene fik en fejl, som så øjeblikkeligt skulle foresage fejl på de andre motorer. På den anden side vil de resterende moterer nok forøge deres chancer for at få fejl over tid, idet hvis en motor slår fjel, vil de andre blive mere belastet - så helt uafhængige kan vi ikke kalde dem, men for fremtidige formål nøjes vi med at kalde dem uafhængige.

ifht de argumenter vi brugte i opgave c), siger vi at det er en rimelig antagelse, idet en motor enten kan slippe helskindet igennem en tur over atlanten eller ej, svarende til et udfald fra en bernoullifordelt stokast variabel \[X \sim bernouli(p)\].

Vi husker at binomialfordelingen blot er en sum af uafhængige bernouli variable, sådan at antallet af motorer på et 4-motor fly som klarer turen over atlanten uden fejl må følge en binomialfordeling:

Vi husker at vi kan approximerer en poissonfordeling med en binomialfordeling sådan at \(\lambda_7 = n \cdot p\) (vi bruger \(\lambda_7\) idet den angiver fejl i snit på en tur over atlanten for en motor). Vi kan tilnærme os chancen for at en motor ikke klare turen :

\[\lambda_7 = 0.028 = 4 \cdot p \iff \] \[p = \frac{0.028}{4} = 0.007\]

Vi mp nu have at \[X \sim binom(n = 4, \ p = 0.007)\] som angiver antallet af motorer med fejl blandt 4 motorer på en tur over atlanten.

Vi skal regne:

P(X = 0)
P(X = 1)
P(X = 2)
P(X = 3)
P(X = 4)

Vi beytter igen dbinom til og regne alle ssherne.

matrix(c(dbinom(0,4, 0.007 ), dbinom(1, 4, 0.07),
        dbinom(2,4, 0.007 ), dbinom(3,4, 0.007 ),
        dbinom(4,4, 0.007 )),
       nrow = 1,
       dimnames = list( c('') , c('P(X = 0)', 'P(X = 1)',
                                  'P(X = 2)', 'P(X = 3)', 'P(X = 4)'))
       )

##   P(X = 0) P(X = 1)     P(X = 2)     P(X = 3)  P(X = 4)
##  0.9722926  0.22522 0.0002898984 1.362396e-06 2.401e-09

Note: Læg mærke til \(P(X = 0)\) som vi regnede ud i poissonmodellen i opgave a) og se hvor godt binomialmodellen approximerer denne ssh (er den god?).

opgave 5

Det oplyses at funktionen \[f(x) = \begin{cases} a x^3 \cdot e^{-2x} & x \in [0, \infty) \\ 0 & \textrm{ellers} \end{cases} \]

opfylder betingelserne for en ssh tæthed, for en specifik værdi af \(a \in \mathbb{R}\). Vi husker at hvis \(f\) skal være en tæthed på \(\mathbb{R}\) skal der gælde at:

1. \(f(x) \geq 0, \ \forall \ x \in \mathbb{R}\)
1. \(\int_{\mathbb{R}} f(x) \ dx = 1\)

: Oplagt for \(a > 0\) må \(f(x) \geq 0\) idet \(x^3 \geq 0 \ \forall \ x \in [0,\infty)\) og eksponentialfunktionene er også en positiv funktion. Et produkt af positive funktioner er igen positivt, så (1) må være opfyldt for sådan et \(a\).
: Vi integrerer \(f\) over sin definitionsmængde of finder passende positi værdi for \(a\) så integrations betingelsen bliver opfydt:

\[\int_{-\infty}^{\infty} f(x) \ dx = \int_{-\infty}^0 0 \ dx \ + \ \int_0^{\infty} ax^3 \cdot e^{-2x} \ dx = 1 \iff\]

\[\int_0^{\infty} ax^3 \cdot e^{-2x} \ dx = 1\]

Vi integrerer og løser for \(a\) og finder (brug en solver evt - det er mange år siden jeg har siddet og integreret i hånden (; )):

\[a = \frac{8}{3}\]

Vi kan eftervise at f integrere til 1 for \(a= \frac{8}{3}\)

f = function(x, a = 8/3) {
  ifelse(0 <= x && x < Inf, a*x^3*exp(-2*x), 0 )
}

f = Vectorize(f)

integrate(f, lower = 0, upper = Inf)

## 1 with absolute error < 5.4e-05

Vi kan nu lave et plot af f, for at få en ide om hvordan den ser ud (i skal ikke lære og bruge ggplot - jeg lære jer at bruge plot funktionen).

library(ggplot2)

x_grid =  seq(-0.5, 6, length.out = 200)

ggplot(data.frame(x = x_grid, y = f(x_grid)), aes(x, y)) +
  geom_area(stat = "function", fun = f, fill = "red ", alpha = 0.6) + 
  ylab("f(x)") + ggtitle("Tæthedsplot af f")

For at bestemme \(P(1 < X \leq 2)\) integrere vi f over mængden.

integrate(f, lower = 1, upper = 2)$value*100

## [1] 42.36533

Altså er chancen for at \(X\) ligger mellem 1 og 2 er 42.4 % .

Fordelingsfunktionen husker vi er definieret som \(P(X \leq x)\). Givet den struktur \(f\) har, “opdeler” vi også fordelingsfunktionen for hhv \(x < 0\) og \(x \geq 0\).

\[x < 0\] :

\[F(x) = \int_{-\infty}^x f(x) \ dx = \int_{-\infty}^x 0 \ dx = 0, \forall \ x<0\]

\[x \geq 0\]

\[F(x) = \int_{0}^x \frac{8}{3} x^3 e^{-2x} \ dx = e^{-2x} (-\frac{4}{3}x^3 -2x^2 -2x -1) + 1, \ \forall \ x \geq 0\]

Vi kan nu tegne implementere og tegne \(F\).

F = function(x) {
  ifelse( 0 <= x && x <= Inf,
          exp(-2*x)*(-4/3*x^3 -2*x^2 -2*x -1) + 1,
          0)
}


F = Vectorize(F)

x_grid = seq(-3, 8, length.out = 100)

ggplot(data.frame(x = x_grid, y = F(x_grid)), aes(x = x, y = y) ) +
  stat_function(fun = F, colour = "blue")

d) Medianen \(M\) svare til 50 % fraktilen i fordelingen svarende til det tal hvor halvdelen af ssh massen ligger til hhv højre og venstre for dette tal. Vi kan finde denne fraktil ved og løse ligningen:

\[0.5 = F(x)\] for \(x\) (brug en solver).

library(nleqslv)

## Warning: package 'nleqslv' was built under R version 4.0.3

nleq = function(x) {
  F(x) - 0.5
}

M = nleqslv(x = 0.5, fn = nleq)$x 

M

## [1] 1.83603

# nleqslv er en funktion som løser ligninger af formen g(x) = 0

# for x numerisk. I det vi skal løse F(x) = 0.5 som er ækvivalent til at løse

# F(x) - 0.5 = 0, implementere jeg F(x) - 0.5 i en funktion jeg kalder nleq.

# tilsidst løser jeg så nleq = 0 for x numerisk.

Vi får at medianen \(M = 1.83603\)

Middelværdien af \(X\) er bestemt ved \[\mu = E[X] = \int_{\mathbb{R}} x \cdot f(x) \ dx = \int_0^{\infty} \frac{8}{3} x^4 e^{-2x} \ dx \]

mu = integrate(function(x) {x*f(x)}, lower = 0, upper = Inf)$value # jeg løser integralet

mu

## [1] 2

Vi får altså fra integralet at middelværdien er bestemt til \(\mu = 2\).

Vi tegner \(\mu\) og \(M\) ind i plottet for fordelingsfunktionen \(F\), illustreret ved vertikale stipliede linjer.

ggplot(data.frame(x = x_grid, y = F(x_grid)), aes(x = x) ) +
  stat_function(fun = F, colour = 'blue') + 
  geom_vline(aes(xintercept = M, colour = 'median'), linetype = 'dashed') +
  geom_vline(aes(xintercept = mu, colour = 'middelværdi'), linetype = 'dashed') +
  scale_color_manual('Legend titel', values = c('red', 'green'))

vi bruger igen integrate funktionen til og beregne ssh \[P(0 < X < \mu)\]

integrate(f, lower = 0, upper = mu)$value*100

## [1] 56.65299

chancen for at \(X\) ligger til venstre for \(\mu\) er større end chancen for at \(X\) ligger til højre for \(\mu\).

Variansen af \(X\) er bestemt ved \[\sigma^2 = E[X^2] - E[X]^2\], og spredningen er blot kvadratroden af variansen. Vi bestemmer andet momentet \[E[X^2] = \int_{\mathbb{R}} x^2 \cdot f(x) \ dx = \int_0^{\infty} \frac{8}{3} x^5 e^{-2x} \ dx\]

mu2 = integrate(function(x) {x^2*f(x)}, lower = 0, upper = Inf)$value

var_x = mu2 - mu^2

matrix(c(var_x, sqrt(var_x)), nrow = 1,
       dimnames = list(c(''), c('Var[X]', 'sd[X]')))

##  Var[X] sd[X]
##       1     1

Vi bruger ugentlige integraler i sps a), e) og g) - der findes forskellige typer af uegntlige integraler. mest kendte form

\[F(b) = \int_a^b f(x) \ dx \] vi siger det ugentlige integral er konvagent (“i.e går mod et fast tal som ikke er +/- \(\infty\)”) hvis \[ lim_{\ b \ \rightarrow \ \infty} \ F(b) = lim_{\ b \ \rightarrow \ \infty} \ \int_a^bf(x) \ dx\] har en endelig grænseværdi (i.e integralet går mod et endeligt tal for b gående mod uendelig.) Læs selv lidt op på det.

Projekt 2, efterårssemestret 2020.

Mathias Svendsen

10/23/2020

Opgave 1

opgave 2

opgave 3

opgave 4

opgave 5

opgave 6

opgave 7

opgave 8