CLASE 6

DISTRIBUCIÓN DE PROBABILIDAD

1. OBJETIVO

En el capítulo anterior explicamos sobre la distribución de las probabilidades discretas, en este capítulo hablaremos de la distribución de probabilidades continuas, y nos centraremos en las distribuciones normales.

2. PUNTOS CLAVE

Distribución normal es una distribución que cumple tres requisitos: Forma de campana, tiene una media igual a 0 y una desviación estandar igual a 1.
Distribución de probabilidad es la descripción de la probabilidad de que suceda cada una de las variables aleatorias.

3. TEMARIO

Distribución normal estandar
- Distribuciones uniformes
- Distribución normal estandar
Aplicaciones realeas de la distribución normal
Distribución de muestreo y estimadores
Teorema del límite central
Evaluación de la normalidad
Distribución normal como una aproximación a una distribución binomial

4. DISTRIBUCIÓN NORMAL ESTANDAR

4.1 Definición

La distribución normal es aquella distribución simétrica que presenta una una variable aleatroia continua cuya gráfica tiene forma de campana y puede ser descrita mediante la siguiente fórmula: $$ \[\begin{equation} y= \frac{e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}}{\sigma \sqrt{2\pi}} \end{equation}\] $$

4.2 Distribuciones uniformes

a) Definición

La distribución uniforme de una variable continua es aquella que presenta una probabilidad de ocurrencia homogénea a lo largo del rango de valores que puede adoptar la variable continuca. Su gráfica es un rectángulo.

b) Ejemplo

En la base de datos de ejemplo

db <- read.delim(paste0(dirname(getwd()),"/chp4/data/curva de crecimiento final.txt"))
knitr::kable(
  db,
  caption = "Crecimiento bactriano"
)

Crecimiento bactriano
tiempo1	reactor	tiempo2	sp	Medio.BBM	Medio.BG.11	Medio.F.2
T:0	reactor 1	12h	Chloridium	819.222	554.778	554.778
T:1	reactor 1	12h	Chloridium	1567.000	1248.222	1393.667
T:2	reactor 1	12h	Chloridium	2093.667	3505.889	2392.556
T:3	reactor 1	12h	Chloridium	2585.889	1912.556	1965.889
T:4	reactor 1	12h	Chloridium	4985.111	5916.222	17935.000
T:5	reactor 1	12h	Chloridium	5217.667	1925.889	11873.889
T:6	reactor 1	12h	Chloridium	6271.000	8968.333	25992.222
T:0	reactor 2	12h	Chloridium	819.222	554.778	554.778
T:1	reactor 2	12h	Chloridium	1830.333	3220.333	2024.778
T:2	reactor 2	12h	Chloridium	2089.222	5934.000	3612.556
T:3	reactor 2	12h	Chloridium	2997.000	5834.333	3595.889
T:4	reactor 2	12h	Chloridium	6151.778	17168.667	8285.000
T:5	reactor 2	12h	Chloridium	8496.111	7051.667	15636.667
T:6	reactor 2	12h	Chloridium	10528.667	8602.000	25936.667
T:0	reactor 3	12h	Chloridium	283.589	2232.556	5375.556
T:1	reactor 3	12h	Chloridium	306.811	1661.444	6417.778
T:2	reactor 3	12h	Chloridium	496.289	1584.778	5273.333
T:3	reactor 3	12h	Chloridium	576.100	1681.444	9908.889
T:4	reactor 3	12h	Chloridium	323.144	2172.556	5824.444
T:5	reactor 3	12h	Chloridium	450.733	2953.667	5552.222
T:6	reactor 3	12h	Chloridium	595.889	11412.778	56622.222
T:0	reactor 1	24h	Chloridium	819.222	554.778	554.778
T:1	reactor 1	24h	Chloridium	1875.667	1353.667	2635.889
T:2	reactor 1	24h	Chloridium	3109.222	1749.222	5422.889
T:3	reactor 1	24h	Chloridium	4505.111	2479.222	3489.222
T:4	reactor 1	24h	Chloridium	9464.333	2300.333	33858.889
T:5	reactor 1	24h	Chloridium	3453.667	7341.000	9794.333
T:6	reactor 1	24h	Chloridium	7474.333	10235.333	23092.222
T:0	reactor 2	24h	Chloridium	819.222	554.778	554.778
T:1	reactor 2	24h	Chloridium	1327.000	2405.889	2437.000
T:2	reactor 2	24h	Chloridium	2463.667	2137.000	3448.111
T:3	reactor 2	24h	Chloridium	6618.444	5020.667	8435.000
T:4	reactor 2	24h	Chloridium	14973.889	8794.333	9551.667
T:5	reactor 2	24h	Chloridium	14846.111	8601.667	12146.111
T:6	reactor 2	24h	Chloridium	28303.333	12158.889	11981.111
T:0	reactor 3	24h	Chloridium	819.222	554.778	554.778
T:1	reactor 3	24h	Chloridium	3709.556	3951.778	4911.778
T:2	reactor 3	24h	Chloridium	6254.000	2577.000	8635.000
T:3	reactor 3	24h	Chloridium	2853.667	3151.444	11729.444
T:4	reactor 3	24h	Chloridium	2693.667	3391.444	14818.333
T:5	reactor 3	24h	Chloridium	2381.444	3512.556	24025.556
T:6	reactor 3	24h	Chloridium	4635.000	5757.667	29858.889
T:0	reactor 1	12h	Chlorella	594.667	251.333	396.333
T:1	reactor 1	12h	Chlorella	1313.000	1226.333	986.333
T:2	reactor 1	12h	Chlorella	1624.667	2821.333	2593.000
T:3	reactor 1	12h	Chlorella	2181.333	3606.333	4936.333
T:4	reactor 1	12h	Chlorella	7664.000	6992.667	13039.000
T:5	reactor 1	12h	Chlorella	4961.333	5392.667	11631.667
T:6	reactor 1	12h	Chlorella	5909.333	18148.333	17948.000
T:0	reactor 2	12h	Chlorella	594.667	251.333	396.333
T:1	reactor 2	12h	Chlorella	1184.667	1156.333	1019.667
T:2	reactor 2	12h	Chlorella	1489.667	1484.667	2738.000
T:3	reactor 2	12h	Chlorella	9332.667	6936.000	11165.000
T:4	reactor 2	12h	Chlorella	4451.333	12549.000	12399.000
T:5	reactor 2	12h	Chlorella	3738.000	7684.000	11344.000
T:6	reactor 2	12h	Chlorella	4534.667	15980.000	34163.333
T:0	reactor 3	12h	Chlorella	594.667	251.333	396.333
T:1	reactor 3	12h	Chlorella	7516.000	8336.000	11614.000
T:2	reactor 3	12h	Chlorella	7886.000	11898.333	13540.000
T:3	reactor 3	12h	Chlorella	3983.000	4429.667	16106.667
T:4	reactor 3	12h	Chlorella	11899.000	20506.667	19681.667
T:5	reactor 3	12h	Chlorella	12538.000	21598.000	31230.000
T:6	reactor 3	12h	Chlorella	10330.000	16598.000	3898.000
T:0	reactor 1	24h	Chlorella	594.667	298.000	401.333
T:1	reactor 1	24h	Chlorella	1148.000	1069.667	1246.333
T:2	reactor 1	24h	Chlorella	2514.667	2296.333	2026.333
T:3	reactor 1	24h	Chlorella	5084.667	2736.333	3376.333
T:4	reactor 1	24h	Chlorella	3311.333	17278.667	4916.333
T:5	reactor 1	24h	Chlorella	4399.667	11669.000	5762.667
T:6	reactor 1	24h	Chlorella	3686.333	30030.000	13130.000
T:0	reactor 2	24h	Chlorella	594.667	298.000	401.333
T:1	reactor 2	24h	Chlorella	981.333	953.000	2134.667
T:2	reactor 2	24h	Chlorella	2371.333	4861.333	3949.667
T:3	reactor 2	24h	Chlorella	3133.000	15640.000	13290.000
T:4	reactor 2	24h	Chlorella	7944.000	19765.000	42913.333
T:5	reactor 2	24h	Chlorella	4439.667	18481.667	28948.000
T:6	reactor 2	24h	Chlorella	11589.000	20790.000	16198.333
T:0	reactor 3	24h	Chlorella	594.667	298.000	401.333
T:1	reactor 3	24h	Chlorella	12754.000	22856.667	8804.000
T:2	reactor 3	24h	Chlorella	17006.667	27178.000	8956.667
T:3	reactor 3	24h	Chlorella	20306.667	21206.667	15465.000
T:4	reactor 3	24h	Chlorella	36896.667	27288.000	22630.000
T:5	reactor 3	24h	Chlorella	35463.333	34796.667	19630.000
T:6	reactor 3	24h	Chlorella	29558.000	85326.667	17093.333

Podemos observar que la distribución de la variables aleatoria “tiempo1” presenta una distribución uniforme. Sabiendo que T0 = 0 minutos, T1 = 10 minutos, T2 = 20 minutos, y así susecivamente; y considerando que el tiempo es una variable continua, entonces la probilidad que sucedan estos eventos es la misma.

data1 <- table(db$tiempo1)/nrow(db)
data1

## 
##       T:0       T:1       T:2       T:3       T:4       T:5       T:6 
## 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571

plot(data1, type = "l", las = 1, main = "Distribución uniforme del tiempo de cultivo", ylab = "P(x)", xlab = "x (tiempo de espera en minutos)", ylim = c(0, 0.18))

Podemos calcular la probabilidad de ocurrencia de los eventos que tengan un tiempo de T4 o mas, multipliacando la base por la altura.

plot(data1, type = "l", las = 1, main = "Distribución uniforme del tiempo de cultivo", ylab = "P(x)", xlab = "x (tiempo de espera en minutos)", ylim = c(0, 0.18))
abline(v = c(5,7), lty = 2)
polygon(x = c(5,5,7,7), y = c(0,data1[1],data1[1],0), col = colores2)
text(x = 4.8,y = 0.07,labels = paste0("h = ", round(data1[1],3)),srt = 90)
text(x = 6,y = 0.15,labels = 2 ,srt = 0)

Entonces la probibilidad de tener al menos un tiempo de cultivo de T4 es igual al área del rectangulo de la gráfica: \[\begin{equation} Área = b.h \\ Área = (2)(0.143) \\ Área = 0.286 \end{equation}\]

La importancia prácitca de esta distribución es que nos muestra que podemos obtener la probabilidad de la ocurrencia de un evento a partir del área bajo la curva

4.2 Distribución normal estandar

a) Definición

La distribución normal estandar es aquella distribución de una variable aleatoria continua cuya gráfica describe una campana, tiene una media de 0 y una desviación estandar de 1.

b) Ejemplo

Para obtener una gráfica de una distribución normal teórica podemos utilizar la función rnorm() que permite generar números aleatoreos que presentan una distribución normal. Esta función tiene 3 parámetros: + n= que define la “n” de la muestra, es decir la cantidad de datos. + mean= que define al media de los datos. + sd= que define la desviación estandar de los datos.

data2 <- rnorm(n = 10000, mean = 0, sd = 1)
par(mfrow = c(2,2))
plot(y = 1:10000, x = data2, main = "Gráfico de dispersión de los datos", xlab = "valor", ylab = "muestra" )
hist(data2,main = "Histograma", col = colores1)
plot(density(data2), type = "l", main = "Distribución normal estandar")
boxplot(data2, col = colores1)

Para definir la frecuencia acumulada a la derecha de “x” podemos usar la fucnión pnorm(), que tiene 3 parámetros: + q= que define el valor de “x” del cual deseamos hallar la probabilidad. + mean= que define al media de los datos. + sd= que define la desviación estandar de los datos.

pnorm(q = -2,mean = 0, sd = 1 )

## [1] 0.02275013

Para hallar el valor de “x” cuando se conoce la frecuencia acumulada a la izquierda del valor de “x” podemos usar la función qnorm(), que tiene 3 parámetros: + p= que define la frecuencia acumulada a la izquierda de “x”. + mean= que define al media de los datos. + sd= que define la desviación estandar de los datos.

qnorm(p = 0.02275013 , mean = 0,sd = 1)

## [1] -2

Para hallar la densidad de la distribución en un valor de “x” podemos usar la función dnorm(), que tiene tres parámetros: + x= que define el valor de “x” del cual deseamos hallar la probabilidad. + mean= que define al media de los datos. + sd= que define la desviación estandar de los datos.

dnorm(x = -2,mean = 0,sd = 1)

## [1] 0.05399097

Con esta última función podemos generar el gráfico de densidad

p <- numeric()
cnt <- 1
for(i in seq(-4,4,by = .1)){
  p[cnt] <- dnorm(x = i, mean = 0, sd = 1)
  cnt <- cnt + 1
}
plot(p, type = "l", xaxt = "n")
axis(side = 1,at = 1:length(p),labels = seq(-4,4,by = .1))

### 4.3 Ejercicios

a) Grafique la distribución de probabilidad de seleccionar aleatoriamente un número de un dígito

b) ¿Cual es la probabilidad acumulada a la izquierda de seleccionar -5 o menos en una distribución normal estandar?

c) ¿Cuál es la densidad de la probabilidad de 0 en una distribución normal estandar?

d) ¿Cuál es el valor de “x” cuando la probabilidad acumulada a la izquierda es de 0.256 en una distribución normal estandar?

qnorm(p = 0.5, mean = 0, sd = 1)

## [1] 0

pnorm(q = -1.281552)

## [1] 0.09999992

pnorm(q = 1.281552)

## [1] 0.9000001

pnorm(q = 0)

## [1] 0.5

5. APLICACIONES REALES DE LA DISTRIBUCIÓN NORMAL

En la practica, la distribución normal estandar no ocurre. Cada conjunto de datos tiene una media y una desviación estandar diferente a 0 y 1, respectivamente. Sin embargo, podemos usar escalar los datos para que se ajusten a una distribución normal estandar. Para ello usamos la siguiente fórmula: $$ \[\begin{equation} z=\frac{x-\mu}{\sigma} \\ Donde: \\ z = es\space el\space valor\space escalado \\ x = valor\space del\space número \\ \mu = media\space muestral \\ \sigma = desiviación\space estandar\space muestral \\ \end{equation}\]$$

En vez de usar la tabla de z score (clásica en los libros de estadistica), podemos usar R para encontrar el área bajo la curva (frecuencia acumulada) de valores reales escalados a un z-score. Determinaremos el área bajo la curva, es decir la probabilidad acumulada a la izquierda del primer valor del “Medio.BBM”, para ello extraeremos primero el primer valor

dato <- db$Medio.BBM[1]
dato

## [1] 819.222

Luego escalaremos el valor restandole media muestral y dividiendolo entre su desviación estandar muestral.

zscore <- (dato - mean(db$Medio.BBM))/sd(db$Medio.BBM)
zscore

## [1] -0.6807537

Para calcular el valor a la derecha del valor de z, usaremos la función pnorm (recuerde que ya escalamos los datos a una distribución normal estandar)

pnorm(q = zscore)

## [1] 0.2480137

En R tenemos otra función que nos permite escalar los valores automáticamente sin estar haciendo estos calculos, con la función scale(). La ventaja de esta función es que podemos aplicarla a toda la pila de datos y calculará el valor de z uno por uno, veámoslo

scale(db$Medio.BBM)

##               [,1]
##  [1,] -0.680753678
##  [2,] -0.579608443
##  [3,] -0.508370912
##  [4,] -0.441792449
##  [5,] -0.117271167
##  [6,] -0.085815399
##  [7,]  0.056659526
##  [8,] -0.680753678
##  [9,] -0.543989745
## [10,] -0.508972148
## [11,] -0.386185144
## [12,]  0.040533433
## [13,]  0.357630371
## [14,]  0.632556026
## [15,] -0.753203959
## [16,] -0.750062927
## [17,] -0.724433934
## [18,] -0.713638615
## [19,] -0.747853708
## [20,] -0.730595887
## [21,] -0.710961934
## [22,] -0.680753678
## [23,] -0.537857821
## [24,] -0.371005879
## [25,] -0.182196470
## [26,]  0.488593094
## [27,] -0.324415887
## [28,]  0.219423608
## [29,] -0.680753678
## [30,] -0.612071094
## [31,] -0.458324325
## [32,]  0.103655166
## [33,]  1.233821411
## [34,]  1.216538025
## [35,]  3.036775973
## [36,] -0.680753678
## [37,] -0.289804073
## [38,]  0.054360088
## [39,] -0.405572516
## [40,] -0.427214284
## [41,] -0.469445894
## [42,] -0.164627548
## [43,] -0.711127223
## [44,] -0.613964749
## [45,] -0.571808344
## [46,] -0.496513117
## [47,]  0.245078166
## [48,] -0.120487405
## [49,]  0.007740069
## [50,] -0.711127223
## [51,] -0.631323205
## [52,] -0.590068585
## [53,]  0.470783812
## [54,] -0.189470539
## [55,] -0.285956708
## [56,] -0.178198695
## [57,] -0.711127223
## [58,]  0.225059531
## [59,]  0.275106118
## [60,] -0.252817751
## [61,]  0.817908703
## [62,]  0.904340512
## [63,]  0.605684119
## [64,] -0.711127223
## [65,] -0.636282822
## [66,] -0.451426011
## [67,] -0.103805119
## [68,] -0.343668133
## [69,] -0.196458936
## [70,] -0.292945240
## [71,] -0.711127223
## [72,] -0.658826375
## [73,] -0.470813518
## [74,] -0.367789642
## [75,]  0.282951259
## [76,] -0.191048494
## [77,]  0.775977778
## [78,] -0.711127223
## [79,]  0.933556899
## [80,]  1.508777093
## [81,]  1.955138551
## [82,]  4.199119333
## [83,]  4.005245075
## [84,]  3.206483546
## attr(,"scaled:center")
## [1] 5852.11
## attr(,"scaled:scale")
## [1] 7393.111

scale(db$Medio.BBM)[1]

## [1] -0.6807537

zscore

## [1] -0.6807537

scale(db$Medio.BBM)[1] == zscore

## [1] TRUE

5.1 Ejercicios

a) Cree vectores escalados en z-score para cada uno de los valores del medio de cultivo

b) Para cada uno de los medios haga un gráfico de densidad e histograma, tanto de los datos en bruto como los escalados ¿Qué diferencias encuentra?

c) Haga un gráfico de dispersión con la función plot()* y un gráfico de caja y bigotes con la función boxplot() agregandole los datos con la función stripchart()*

d) Luego de ver los datos, Ud podría decir que se asemejan a una distribución normal

6. DISTRIBUCIÓN DE MUESTREO Y ESTIMADORES

En esta sección analizaremos como se comporta la media, la desviación estandar y la varianza; en muestras distintas de una misma población. Para ello generemos una población hipotética de forma virtual, que presente una distribución aleatoria normal

pob <- rnorm(n = 1000000, mean = 0, sd = 1)
plot(density(pob), type = "l")

Ahora vamos a generar 1000 muestras aleatorias de 100 elementos cada una, a partir de nuestra población hipotética

muestras <- list()
for (i in 1:1000){
  m <- sample(x = pob, size = 100, replace = T)
  muestras[[i]] <- m
}
names(muestras) <-paste0("muestra_", 1:1000)
head(summary(muestras))

##           Length Class  Mode   
## muestra_1 100    -none- numeric
## muestra_2 100    -none- numeric
## muestra_3 100    -none- numeric
## muestra_4 100    -none- numeric
## muestra_5 100    -none- numeric
## muestra_6 100    -none- numeric

6.1 Distribución de medias muestrales

Una vez que ya tenemos nuestras muestras generadas, determinemos cuales son las medias para cada una de ellas con la función lapply()

head(lapply(X = muestras, FUN = mean))

## $muestra_1
## [1] 0.03069766
## 
## $muestra_2
## [1] 0.02436875
## 
## $muestra_3
## [1] -0.02056755
## 
## $muestra_4
## [1] -0.03335293
## 
## $muestra_5
## [1] 0.2175652
## 
## $muestra_6
## [1] 0.07887014

Ahora determinemos como se comporta al distribución de las medias muestrales

medias <- unlist(lapply(X = muestras, FUN = mean))
par(mfrow = c(1,2))
plot(density(medias), type = "l")
hist(medias, col = colores1)

Como vemos la distribución de las medias muestrales se asemeja mucho a la media distribución normal estandar y su media tiende a ser parecida a a la media poblacional

6.2 Distribución de varianzas muestrales

Ahora hagamos el mismo cálculo pero para las varianzas muestrales. Primero calculemos las varianzas con la función lapply()

varianzas <- lapply(X = muestras, FUN = var )

Y ahora grafiquemos la distribución de las varianzas muestrales

varianzas <- unlist(varianzas)
par(mfrow = c(1,2))
plot(density(varianzas), type = "l")
hist(varianzas, col = colores1)

Aparentemente la distribución de las varianzas muestrales tiende a tener un sesgo a la derecha

6.3 Distribución de la desviación estandar muestral

Ahora veamos si pasa lo mismo que lo anterior con la distribución de la desviación estandar muestral. Primero generemos un vector de las desviaciones estandar muestrales

desvi <- unlist(lapply(X = muestras,FUN = sd))

Ya que tenemos el vector, ahora genermos las gráficas

par(mfrow = c(1,2))
plot(density(desvi), type = "l")
hist(desvi, col = colores1)

Aparentemente la distribución de la desviación estandar tambien a tener una distribución normal

6.4 Ejercicios

a) Con la base de datos de crecimiento bacteriano, seleccione todos los datos de la especie “Clhorella” y genere 100 muestras aleatorias de n = 30 para cada uno de los medios de cultivo

b) Ahora grafique la distribución de las medias para cada medio

c) Ahora grafique la distribución de la desviación estandar para cada medio

7. TEOREMA DEL LÍMITE CENTRAL

7.1 Definición

Para todo grupo de muestras, cuya n sea mayor o igual a 30, la distribución de las medias muetrales puede aproximarse a una distribución normal co una media $\mu$ y una desviación estandar $\frac{\sigma}{\sqrt{n}}$

7.2 Z score para el teorema de límite central

Para escalar los datos de las medias muestrales al valor de z-score se usa la siguiente fórmula: \[z = \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}\] Donde: + $\bar{x}$ es la media muestral de la iésima muestra + $\mu$ es la media de todas las medias muestrales + $\sigma$ es la desviación estandar de todas las medias muestrales + $n$ es el número de eventos en cada muestra (n siempre debe ser mayor de 30)

8. EVALUACIÓN DE LA NORMALIDAD

8.1 Definición

En estádistica es muy importante definir o establecer si la población o muestra tiene una distribución normal, para poder elegir entre las pruebas paramétricas o no paramétricas.

Para evaluar si una población o muestra tiene una distribución normal, debemos efectuar tres análisis: + Histograma observar si el histograma tiene forma de campana. + Valores atípicos identificar valores atípicos en la distribución de nuestra muestra. + Gráfica cuantilar que se grafica tomando como “x” el valor numérico de la muestra y como “y” el valor del z-score correspondiente para esa muestra. Cuando la población/muestra tiene una distribución normal, los puntos no se alejan de la linea recta.

8.2 Ejercicio

Usaremos los datos del medio de cultivo BBM para observar si tienen una distribución normal.

a) Generación de histograma

Generaremos un histograma de los valores de cultivo en medio BBM para cada especie, para ello usaremos la función hist()

par(mfrow = c(2,2))
hist(db$Medio.BBM[db$sp=="Chlorella"], col = colores1, main = "distribución de Chlorella")
plot(density(db$Medio.BBM[db$sp=="Chlorella"]), lwd = 2,  main = "distribución de Chlorella")
hist(db$Medio.BBM[db$sp=="Chloridium"], col = colores1, main = "distribución de Chloridium")
plot(density(db$Medio.BBM[db$sp=="Chloridium"]), lwd = 2,  main = "distribución de Chloridium")

b) Identificar valores atípicos

Para encontrar los valores atípicos podemos utiliazar la función boxplot

p <- boxplot(db$Medio.BBM~db$sp, col = colores1)

boxplot(db$Medio.BBM[db$sp=="Chlorella"], plot = F)$out

## [1] 36896.67 35463.33 29558.00

boxplot(db$Medio.BBM[db$sp=="Chloridium"], plot = F)$out

## [1] 14973.89 14846.11 28303.33

c) Gráfica cuantilar

Para esta gráfica podemos usar la librería de ggplot y la función stat_qq() y stat_qq_line()

library(ggplot2)
p <- ggplot(db, aes(sample = Medio.BBM, color = factor(sp))) +
  stat_qq() +
  stat_qq_line()
p

8.3 Pruebas de normalidad en R

R nos permite hacer pruebas de normalidad como la de Shapiro-Wilk, con la función shapiro.test()

shapiro.test(db$Medio.BBM[db$sp=="Chlorella"])

## 
##  Shapiro-Wilk normality test
## 
## data:  db$Medio.BBM[db$sp == "Chlorella"]
## W = 0.71988, p-value = 1.272e-07

shapiro.test(db$Medio.BBM[db$sp=="Chloridium"])

## 
##  Shapiro-Wilk normality test
## 
## data:  db$Medio.BBM[db$sp == "Chloridium"]
## W = 0.70475, p-value = 6.993e-08

Para esta prueba la hipótesis nula asume que la población está distribuida de forma normal, por tanto cuando p > 0.05 se asume que la población/muestra tiene una distribución normal. En nuestro caso, ambos grupos tienen una distribución por debajo de la 0.05, por lo tanto se rechaza la hipótesis nula y se acpeta la alterntiva, entonces ninguna de las dos poblaciones tiene una distribución normal.

chapter_6

Alfredo Cárdenas-Rivera

30/9/2020

CLASE 6

DISTRIBUCIÓN DE PROBABILIDAD

1. OBJETIVO

2. PUNTOS CLAVE

3. TEMARIO

4. DISTRIBUCIÓN NORMAL ESTANDAR

4.1 Definición

4.2 Distribuciones uniformes

a) Definición

b) Ejemplo

4.2 Distribución normal estandar

a) Definición

b) Ejemplo

a) Grafique la distribución de probabilidad de seleccionar aleatoriamente un número de un dígito

b) ¿Cual es la probabilidad acumulada a la izquierda de seleccionar -5 o menos en una distribución normal estandar?

c) ¿Cuál es la densidad de la probabilidad de 0 en una distribución normal estandar?

d) ¿Cuál es el valor de “x” cuando la probabilidad acumulada a la izquierda es de 0.256 en una distribución normal estandar?

5. APLICACIONES REALES DE LA DISTRIBUCIÓN NORMAL

5.1 Ejercicios

a) Cree vectores escalados en z-score para cada uno de los valores del medio de cultivo

b) Para cada uno de los medios haga un gráfico de densidad e histograma, tanto de los datos en bruto como los escalados ¿Qué diferencias encuentra?

c) Haga un gráfico de dispersión con la función plot() y un gráfico de caja y bigotes con la función boxplot() agregandole los datos con la función stripchart()

d) Luego de ver los datos, Ud podría decir que se asemejan a una distribución normal

6. DISTRIBUCIÓN DE MUESTREO Y ESTIMADORES

6.1 Distribución de medias muestrales

6.2 Distribución de varianzas muestrales

6.3 Distribución de la desviación estandar muestral

6.4 Ejercicios

a) Con la base de datos de crecimiento bacteriano, seleccione todos los datos de la especie “Clhorella” y genere 100 muestras aleatorias de n = 30 para cada uno de los medios de cultivo

b) Ahora grafique la distribución de las medias para cada medio

c) Ahora grafique la distribución de la desviación estandar para cada medio

7. TEOREMA DEL LÍMITE CENTRAL

7.1 Definición

7.2 Z score para el teorema de límite central

8. EVALUACIÓN DE LA NORMALIDAD

8.1 Definición

8.2 Ejercicio

a) Generación de histograma

b) Identificar valores atípicos

c) Gráfica cuantilar

8.3 Pruebas de normalidad en R

8.4 Ejercicios

a) Elimine los valores atípicos y repita todas las pruebas de normalidad ¿Algún grupo se acerca a la distribución normal?

b) De las nuevas bases generadas, ¿Ud podría identificar nuevos valores atípicos?

9. DISTRIBUCIÓN NORMAL COMO UNA APROXIMACIÓN A UNA DISTRIBUCIÓN BINOMIAL

c) Haga un gráfico de dispersión con la función plot()* y un gráfico de caja y bigotes con la función boxplot() agregandole los datos con la función stripchart()*