PROBABILIDA ES EL LENGUAJE MATEMATICA PARA CUANTIFICAR LA INCERTIDUMBRE. -WASSERMAN
TERMINOLOGIA DE PROBABILIDAD: ESPACIO DE RESULTADOS, EVENTOS, FUNCIONES DE PROBABILIDAD, ETC.
INTERPRETACION FRECUENTISTA DE LA PROBABILIDAD.
PROBABILIDAD CONDICIONAL Y SU RELACION CON LA INDEPENDENCIA.
El espacio de resultados \(\omega\) es el conjunto de resultados de un experimentos aleatorio.
e.g. si lanzammos una moneda dos veces entonces:
\[\omega =\{AA, AS, SA, SS\} \] Un eventos es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayusculas.
e.g. Que la primer lanzamiento resulte aguila.
\[A=\{AA, AS\} \] ## eventos equiprobables
La probabilidad se puede ver como una extension de la idea de proporcion, o cociente de una parte con respecto a un todo.
e.g. En la carrera de ingenieria quimica hay 300 hombres y 700 mujeres, la proporcion de hombres es:
\[ \frac{300}{700+300} =0.3 \]
Eventos equiprobables si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del eventos A es el numero de resultados en A dividido entre el numero total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\omega)} \] por lo que solo hace falta contar.
e.g. combinaciones
un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres,si la seleccion es aleatoria, ¿cual es la probabilidad de que el comite este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comites, cada uno tiene la misma posibilidad de ser seleccionado. por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posiles comites que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la funcion para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15,5)
## [1] 0.2397602
una frecuencia relativa es una proporcion que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesion de observaciones.
lanzamientos_10 <- sample(c("A","S"),10, replace= TRUE )
lanzamientos_10
## [1] "S" "A" "A" "A" "A" "A" "A" "A" "A" "A"
podemos calcular las secuencias de frecuencia relativas de aguila:
cumsum(lanzamientos_10 =="A") # suma acumulada de aguilas
## [1] 0 1 2 3 4 5 6 7 8 9
dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
## [1] 0.00 0.50 0.67 0.75 0.80 0.83 0.86 0.88 0.89 0.90
##distribucion de probabilidad
**Funciones en R
En R cada distribucion de probabilidad se nombra mediante una palabra clave o alias. las palabras claves para las distribuciones mas importantes son:
$$
\[\begin{array}{l|l|l|c} \text{Funcion} & \text{Significado} & \text{uso}& \text{observacion}\\ \hline p & \text{probability} & \text{calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{calcula probabilidades puntuales} & \text{solo uso grafico en el caso continuo}\\ r & \text{random} & \text{genera datos alcatorios segun una distribucion especifica} & \text{---}\\ \hline \end{array}\]$$ Distribucion Exponencial
curve(dexp(x), from=0, to=10)
#representa la densidad de una exponencial de media 1 entre 0 y 10
Distribucion binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 1 1 1 0 1 1 1 1 0 1 0 1 1 0 0 0 1 0 1 0
#genera 20 observaciones con distribucion B(1,0,0.5)
contando exitos vs fracasos
table(x)
## x
## 0 1
## 8 12
e.g. Distribucion normal si \(x\) es una variable aleatori con distribucion normal de media 3 y su desviacion tipica es de 0.5 la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(\( z_\alpha \)\) que aparece en muchas de las formulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1)
x
## [1] 8.492567 9.316317 9.898797 8.754715 12.538284 8.630266 11.200318
## [8] 10.396635 9.694534 9.375658 10.147990 7.728092 9.845394 10.189044
## [15] 10.810832 9.626221 9.004103 10.754919 7.840709 10.987764 9.250645
## [22] 8.350501 10.898926 9.231963 11.189247 11.255068 10.541157 8.426403
## [29] 12.111594 11.598450 8.436093 9.975541 10.309942 11.580963 9.718764
## [36] 9.278588 12.432261 9.494938 11.422175 9.087043 9.710330 10.350387
## [43] 9.296209 10.815427 10.458428 11.949819 8.963222 8.247522 9.280601
## [50] 10.990659 9.764777 11.349146 9.728643 10.906245 9.410400 9.122750
## [57] 10.194455 11.400036 12.308743 11.094088 10.611001 9.332124 9.744042
## [64] 10.066383 8.263636 9.870619 9.054699 11.615980 8.185987 9.298269
## [71] 11.187654 9.455443 12.049733 8.969760 10.275669 12.765407 9.256323
## [78] 8.292039 8.295389 8.714792 10.429896 10.893446 11.199124 8.269512
## [85] 9.279933 10.284676 11.439041 11.058270 10.523821 9.580114 9.067534
## [92] 10.975669 9.259910 11.413675 11.645290 9.453686 10.513237 8.686040
## [99] 9.086424 10.198510
mean(x)
## [1] 10.03728
hist(x)
boxplot(x)
hist(x, freq=FALSE) # Freq=FALSE, para que el area del histograma sea 1
curve(dnorm(x, mean=10, sd=1), form=7, to=13, add=TRUE)
## Warning in plot.xy(xy.coords(x, y), type = type, ...): "form" is not a graphical
## parameter
Ejercicios
*1. si \(z\) es una variable con distribucion noraml estandar, calcula \(\mathbb{p}(-2,34 < z < 4.78)\).
*2. calcula el rango intercuartilico de una poblacion estandar.
*3. genera una muestra de tamaño 10 de una poblacion normal estandar, ¿cual es la diferencia entre la media muestral y la poblacional? repite el ejercicio 3 veces y anota las 3 diferencuas.
*4. genera 1000 numero con distrubucion de poission de parametro \(\lambda = 1\). representa el grafico de barras de los numero obtenidos. calcula la media y la varianza de los numeros obtenidos. ¿se parecen a los valores teoricos?
*5. calcula con R los siguientes valores: \(t_{3,\alpha}\), \(\chi^2_{alpha}\), para \(\alpha = 0.05\) y \(\alpha=0.01\). compra los valores obtenidos con los que aparecen en las correspondientes tablas.
You can also embed plots, for example:
Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.