Opgave 1

a)

1)

Hvis maskine A & B producerer produktionsfejl med intensitet hhv. \(\lambda_{A,60} = 3\) og \(\lambda_{B,60} = 2\) i timen (her beskriver \(\lambda_{A,60}, \lambda_{B,60}\) intensiteten efter 60 minutter), må vi have at maskine A & B producerer produktionsfejl med intensitet hhv. \[\lambda_{A,40} = \frac{3}{60}\cdot40 = 2\] og \[\lambda_{B,40} = \frac{2}{60}\cdot40 = \frac{4}{3}\] indenfor et tidsrum på 40 minutter.

Hvis vi lader den stokastiske variabel \(X\) beskrive det samlede antal funktionsfejl på de to maskiner indenfor et tidsrum på 40 minutter, må \[X \sim pois(\lambda_{A,40} + \lambda_{B,40}) \iff X \sim pois(\frac{10}{3})\]

2)

lam = 10/3

matrix(c(dpois(0, lambda = lam), 1 - dpois(0, lambda = lam)), ncol = 2,
       dimnames = list('', c('P(X = 0)', 'P(X >= 1)' ) ))
##    P(X = 0) P(X >= 1)
##  0.03567399  0.964326

b)

1)

Vi skal beregne chancen for at en tilfældigt udvalgt kopi blandt 900 kopier er behæftet med skønhedsfejl - kald denne hennelse for \(F\).

Lad os foruden dette også definerer hændelserne at en tilfældigt udvalgt kopi kommer fra maskine A og B som hændelserne \(A\) & \(B\). Sandsynlighedderne for disse hændleser må være: \[P(A) = \frac{500}{900} = \frac{5}{9}\] og \[P(B) = \frac{400}{900} = \frac{4}{9}.\]

Det oplyses desuden også at chancen for at en kopi fra maskine A & B er behæftede skønhedsfejl er hhv 0.04 og 0.02. Med andre ord har vi at: \[P(F|A) = 0.04\] og \[P(F|B) = 0.02\].

Vi husker regnereglen for betingede sandsynligheder: \[P(F|A) = \frac{P(F \cap A)}{P(A)} \iff P(F \cap A) = P(F|A) \cdot P(A) \].

Vi kan nu nemt regne \(P(F)\) som chancen for vi trækker en kopi fra maskine A og den er behæfted med skønhedsfejl, plus chancen for vi trækker en kopi fra maskine B og den er behæfted med skønhedsfejl (disse er de eneste to mulige udfald for at få en kopi med skønhedsfejl) givet ved:

\[P(F) = P( (F \cap A) \ \cup \ (F \cap B) ) = P(F \cap A ) + P(F \cap B) = P(F|A) \cdot P(A) + P(F|B) \cdot P(B)\]

matrix((0.04*5/9 + 0.02*4/9)*100 ,ncol = 1,
       dimnames = list('', 'P(F) %'))
##    P(F) %
##  3.111111

2)

Vi skal nu regne \(P(B|F)\) givet ved:

\[P(B|F) = \frac{P(B \cap F) = P(F \cap B)}{P(F)}\]

matrix((0.02*4/9)/(0.04*5/9 + 0.02*4/9)*100 ,ncol = 1,
       dimnames = list('', 'P(B|F) %'))
##  P(B|F) %
##  28.57143

c)

..

Opgave 2

f = function(x, k = 2) {
  if (x<0) {
    0
  }
  else if (0<=x && x<=k ) {
    3/4 -1/4*x
  }
  else{
    0
  }
}

f = Vectorize(f)

a)

1)

hvis \(f\) skal være en skal være en ssh tæthed på \(\mathbb{R}\), må vi have at

Hvis \(k = 2\) har vi oplagt at \(f(x)\) er positiv på sin definitionsmængde samt, at

integrate(f, lower = 0, upper = 2)$value
## [1] 1

2)

library(ggplot2)


ggplot(data.frame(x = seq(0,2,length.out = 100)),
       aes(x)) + stat_function(fun = f,
                               colour = 'blue') + 
  ggtitle('f') +
  ylab("f(x)")

b)

1)

Fordelingsfunktionen er pr definition givet ved:

\[F(x) = P(X \leq x).\]

Hvis X er en s.v trukket fra sandsynlighedsmået \(P\) med tæthed \(f\) mhs til lebesgue målet på \(\mathbb{R}\) , da må vi have at fordelingsfunktionen \(F\) er givet ved \[F(x) = \int_{-\infty}^x f(y) \ dy\]

Som også kan skrives som \[F(x) = \begin{cases} 0 & x < 0 \\ \frac{3}{4}x -\frac{1}{8}x^2 & 0\leq x\leq 2 \\ 1 & 2<x \end{cases} \]

F = function(x, k=2) {
  if (x<0) {
    0
  }
  else if (0<=x && x<=k) {
    3/4*x -1/8*x^2
  }
  else {
    1
  }
}  

F = Vectorize(F)  
x_grid = seq(-2, 4, length.out = 100)
ggplot(data.frame(x = x_grid), aes(x_grid)) + stat_function(fun = F, colour = "red") + 
  ylab('F(x)') + ggtitle('F')

c

Lad \[\mu = E[X]\]. Hvis \(X\) har middelværdi, skal der gælde at:

\[\int_{\mathbb{R}} |x| \cdot f(x) \ dx < \infty\]

Dette er integral er også endeligt idet \[\int_{\mathbb{R}} |x| \cdot f(x) \ dx = \int 1_{[0,2]} \cdot x \cdot (\frac{3}{4} - \frac{1}{4} \cdot x) \ dx = \int 1_{[0,2]} \cdot (\frac{3}{4}x - \frac{1}{4} x^2) \ dx < \infty \] idet \[\frac{3}{4}x - \frac{1}{4} x^2 < \infty \ , \forall \ x \in [0,2]\]

I såfald er middelværdien af \(X\) bestemt ved :

\[\mu = \int_{\mathbb{R}} x \cdot f(x) \ dx = \int_{[0,2]} \frac{3}{4}x - \frac{1}{4} x^2 \ dx \]

mu = function(x){
  f(x)*x
}


integrate(mu, lower = 0, upper = 2)$value
## [1] 0.8333333

2)

Lad \[\sigma^2 = Var[X]\]. Hvis \(X\) har varians, skal der gælde at:

\[\int_{\mathbb{R}} x^2 \cdot f(x) \ dx < \infty\]

På samme måde som da vi viste at \(X\) havde middelværdi, ser vi at også dette integral er endeligt ved brug af samme argumentation:

\[\int_{\mathbb{R}} x^2 \cdot f(x) \ dx = \int 1_{[0,2]} \cdot x^2 \cdot (\frac{3}{4} - \frac{1}{4} \cdot x) \ dx = \int 1_{[0,2]} \cdot (\frac{3}{4}x^2 - \frac{1}{4} x^3) \ dx < \infty \] idet \[\frac{3}{4}x^2 - \frac{1}{4} x^3 < \infty \ , \forall \ x \in [0,2]\]

I såfald er variansen af \(X\) bestemt ved :

\[Var[X] = E[X^2] - (E[X])^2 \] Derved får vi at:

\[E[X^2] = \int_{\mathbb{R}} x^2 \cdot f(x) \ dx = \int_{[0,2]} \frac{3}{4}x^2 - \frac{1}{4} x^3 \ dx \]

Vi kan nu beregne variansen:

mu2 = function(x) {
  x^2*f(x)
}


integrate(mu2, lower= 0, upper = 2)$value - (integrate(mu, lower = 0, upper = 2)$value)^2
## [1] 0.3055556

3)

Medianen af \(X\) svare til den midterste ovserbation, sådan at 50% af sandynlighedsmassen ligger til hhv venstre og højre fra dette tal.

Medianen kan findes ved of løse ligningen \[F(x) = 0.5\] for \(x\) svarende til og løse en andengradsligning. Vi løser:

\[\frac{3}{4}x - \frac{1}{8}x^2 = \frac{1}{2}\]

for \(x\) og ser at det giver løsningerne: $x = 3 $. Derved har vi at medianen er fundet til \(x = 3 - \sqrt{5} \approx 0.764\).

d)

1)

Vi benytter blot definitionen af fraktiler til nemt of renge de følgende ssh’er:

\[P(X \geq x_{0.75}) = 1- P(X < x_{0.75}) = 1 - F(x_{0.75}) = 25 \%\]

2)

Vi benytter de samme argumenter som i 1) samt def af betingede ssh og får at :

\[P(X \geq 0.75 | X \geq x_0.25)= \frac{P(X \geq x_{0.75}, \ X \geq X_{0.25})}{P(X \geq X_{0.25})} = \frac{P(X \geq x_{0.75})}{P(X \geq x_{0.25})} = \frac{\frac{1}{4}}{\frac{3}{4}} = \frac{1}{3} = 33.33 \%\]

3

Hvis vi trækker 4 tilfældige uafhængige observationer fra fordelingen af \(X\), må vi have at

\[P(A) = P(x_{0.25} \leq X_1 \leq x_{0.75}, \ x_{0.25} \leq X_2 \leq x_{0.75}, \ x_{0.25} \leq X_3 \leq x_{0.75}, \ x_{0.25} \leq X_4 \leq x_{0.75}, \ ) = P(x_{0.25} \leq X_1 \leq x_{0.75})^4\]

regnet til

cat(0.5^4*100, '%')
## 6.25 %

e)

1)

Vi benytter igen def af fraktiler og fordelingsfunktionen samt def af uafhængighed.

\[P(X_1 \in I_1, \ X_2 \in I_2, \ X_3 \in I_3, \ X_4 \in I_4) = P(X_1 \in I_1) \cdot P(X_2 \in I_2) \cdot P(X_3 \in I_3) \cdot P(X_4 \in I_4) = \frac{1}{4}^4\]

cat(1/4^4*100, '%')
## 0.390625 %

2

Lad \(S\) betegne hændelsen at 4 uafhængige observationer lander seperat i de 4 intervaller.

Vi har chancen for at en tilfældig trukket observation \(x\) fra fordelingen af \(X\) ligger inden i et specifikt interval er \(\frac{1}{4}\), m.a.o \[P(X \in I_k) = \frac{1}{4}, \ k = 1,2,3,4\].

Uanset hvordan vi fordeler 4 uafhænige observationer i de 4 intervaller, vil chancen for at 4 observationer lander i en specifik orden af de 4 intervaller altid være \(\frac{1}{4}^4\) som regnet i opgave 1), m.a.o \[P(X_i \in I_1, \ X_j \in I_2, \ X_k \in I_3, \ X_m \in I_4) = \frac{1}{4}^4\]

hvor \(i, j, k, \& \ m\) alle er forskellige indeks, og tager værdierne mellem 1 og 4.

For at regne chancen for \(S\), skal vi derfor finde ale kombinationer hvor på vi kan fordele 4 uafhængige observationer seperat i 4 intervaller.

Vi benytter fakultetsfunktionen og får at det samlede antal måder vi kan fordele 4 uafhænge observationer seperat i 4 intervaller på til og være

\(4! = 24\) måder.

Vi kan nu nemt regne \(P(S)\) givet ved:

cat(24*(1/4)^4*100, '%')
## 9.375 %

Opgave 3

a)

1)

Lad os definerer tre s.v \(S\), \(M\) og \(L\). De angiver vægtfordling af de forskellige størrelser af juletrærer i small, medium og large. Vi har da under normalfordelingsantagelsen følgende fordelinger:

Hvis Camilla skal transportere et lad på 45 juletærer (hvor vægtene mellem hvert af juletræerne må være uafhængige) hvor af 8 er af størrelse large, 12 i medium og 25 i small, må vi have at totalvægten \(T\) også er normalfordelt. m.a.o

\[T = L \cdot 8 + M \cdot 12 + S \cdot 25\]

NOTE : Det er underforstået at hver af L’erne, M’erne og S’erne er forskellige stokastiske variable hvor der er uafhængighed i mellem dem alle.

Vi benytter regneregler for middelværdi og varians til og finde de passende parametre i normalfordelingen af totalvægten \(T\):

\[E[T] = 8 \cdot E[L] + 12 \cdot E[M] + 25 \cdot E[S] = 8 \cdot 15 + 12 \cdot 12 + 25 \cdot 8 = 464\]

og

\[V[T] = 8 \cdot V[L] + 12 \cdot V[M] + 25 \cdot V[S] = 8 \cdot 9 + 12 \cdot 4 + 25 \cdot 4 = 220\]

Vi har altså at: \[T \sim N(464, 220)\]

2)

Vi benytter den indbyggede fordelings funktion pnorm for normalfordelinger til og beregne ssh \[P(T \leq 500)\]

matrix(pnorm(500, mean = 464, sd = sqrt(220)) * 100, ncol = 1,
       dimnames = list('', 'P(T <= 500)'))
##  P(T <= 500)
##     99.23904

b)

1)

Definer \[Y = \sum_{i=1}^n S_i\]

Da må \(Y\) have fordeling:

\[Y \sim N(\mu = n \cdot 8, \ \ \sigma^2 = n \cdot 4)\]

Vi skal nu finde \(n\) sådan at:

\[P(Y \leq 250) = 0.99\]

Vi kan standardiserer \(Y\) sådan at $ N(0,1) $. På den måde kan vi omskrive ssh’en til:

\[P(Y \leq 250) = 0.99 \iff P(\frac{Y - \mu}{\sigma} \leq \frac{250 - \mu}{\sigma}) = 0.99\]

Idet vi ved at højre siden er standard normalfodelt, skal vi altså finde \(n\) sådan at vi præcis får 99 % fraktilen i standard normalfordelingen. Vi kan nemt finde 99 % fraktilen i standard normalfordelingen:

qnorm(0.99, mean = 0, sd =1)
## [1] 2.326348

For at finde \(n\) sådan at \(P(Y \leq 250) = 0.99\) er altså det samme som finde det \(n\) som opfylder at: \[\frac{250 - \mu}{\sigma} = 2.326348 \iff \frac{250 - n \cdot 8}{ \sqrt{n} \cdot 2} = 2.326348\]

Vi løser for \(n = 28.16355 \approx 28\).

Tjek efter:

pnorm(250,mean = 8*28.16355, sd = sqrt( 4* 28.16355))
## [1] 0.9900001

Det stemmer.

c)

1)

Vi opstiller passende teststørrelse og udregner p værdi samt konfidensinterval.

Hvis hvert af de 25 small træer antages og være normalfordelte med middelværdi \(\mu_0 = 8\) og standard afviglese \(\sigma_0 = 2\).

Vi observerer nu at 25 trærer har en totalvægt på 215 kg, dvs et gennemsnit på

\[\hat{\mu} = \frac{215}{25} = 8.6\]

Under \(H_0\) må vi have at teststørrelsen \[T_{obs} = \frac{\hat{\mu} - \mu_0}{\frac{\sigma_0}{n}} \sim N(0, 1) \] er en realisation af noget som er standard normalfordelt.

Vi regner \[T_{obs} = \frac{8.6 - 8}{\frac{2}{\sqrt{25}}} = 1.5\]

Vi må have at både store og små tal er kritiske for hypotesen, det \(H_a : \mu_0 \neq 8\).

2)

Vi regner p værdien:

2*(1 - pnorm(1.5, mean = 0, sd = 1))
## [1] 0.1336144

Hvis vi ligger et signifikans niveau på \(\alpha = 10 \%\), forkaster vi ikke hypotesen - data indikerer ikke at hypotesen skulle være forkert (på engelsk siger vi at : on a 10 % significans level, we fail to reject the null hypothesis). Note: Det er MEGET forkert og sige at man accepterer en hypotese - så har man ikke forstået essensen af et hypotesetest. Forklaring følger.

3)

Vi bruger formlen for konfidensinterval:

\[\hat{\mu} \pm z_{0.05} \cdot \frac{\sigma_0}{\sqrt{n}}\]

Vi indsætter passende størrelser og regner

8.6 + c(1,-1)*qnorm(0.05)*(2/5)
## [1] 7.942059 9.257941

Vi har en 1-1 korrespondance imellem p-værdier og konfidensintervaller - på samme måde ser vi at 8 ligger inde i konfidensintervallet.

Opgave 4

Vi laver den sammen!

df = data.frame(d = c(4.26, -2.08, 2.76, 0.94, 1.11, 3.21, 7.31, 13.74,
                      0.52, -2.45, -0.68, -0.16, 68.03, 26.55, 24.66))

Relevante plots af forskellene i androgenniveauet.

library(gridExtra)

p1 = ggplot(df, aes(d)) + geom_histogram(colour = 'black', fill = 'white')
p2 = ggplot(df, aes(d)) + geom_boxplot(fill = 'orange', alpha = 0.7) 

grid.arrange(p1, p2, nrow = 2)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Fra observerede data, ser androgenniveauet bestemt ud til og være steget efter behandlingen. Vi har enkelte ekstrem observationer hvor androgennivauet er steget ekstremt meget ifht resten af data (højst ssh er androgennivauet også blevet påvirket af andre ting ikke taget højde for i studiet, måske er der endda inteaktion imellem disse, som gør at vi ser så drastisk en stigning for nogle af forsøgspersonerne).