Introduccion a la probabilidad
La probabilidad es el lenguaje matematico para cuantificar la incertidumbre. - Wasserman La probabilidad es un método por el cual se obtiene la frecuencia de un acontecimiento determinado mediante la realización de un experimento aleatoreo, del que se conocen todos los resultados posibles, bajo condiciones suficientement estables.
- Terminologia de probabilidad.
- Interpretacion frecuentista de la probabilidad.
- Probabilidad condicional y su relación con la independencia.
Espacio de resultados y eventos
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
Por ejemplo si se lanza una moneda 2 veces entoces: A = Aguila S = Sello \[\Omega = \{AA,AS,SA,SS\}\]
Un evento es un subconjunto del espacion muestral, estos usualmente se denotan por mayúsculas.
Por ejemplo, que el 1ª lanzamiento resulte aguila.
\[ A = \{AA,AS\}\] ## Eventos equiprobables
La probabilidad se puede ver como una extención de la idea de proporción, o cociente de una parte con respecto a un todo.
Como ejemplo, si en la carrera de Ing.Quimica hay 300 hombres y 700 mujeres, la proporción es : \[\frac{300}{700+300} = 0.3\] Eventos equiprobables Son aquellos eventos en los cuales no existe ninguna probabilidad mayor de que algo resulte con respecto a otra.Si todos los elementos en el espacio de resutados tienen la misma oportunidad de ser elegido,entonces la probabilidad del evento A es el número de resultados en A dividido entre el números total de resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)}\] Por lo que solo hace falta contar.
Conbinaciones
Son las maneras en que se pueden combinar objetos independientemente de su orden.
Por ejemplo, Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoría, ¿Cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, entonces cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay\(\dbinom{6}{3} \dbinom{2}{9}\)las cuales son los posibles cómites que incluyen 3 hombres y 2 mujeres. Por lo tanto, la probabilidad que buscamos es :
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}}\] Y la función para calcular la combinacion es : choose(n,r) donde n es el numero total de cosas y r es la manera de tomar esas cosas.
choose(6,3) * choose(9,2) / choose(15,5)## [1] 0.2397602
Interpretacion Frecuentista
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A","S"),10,replace =TRUE)
lanzamientos_10## [1] "A" "A" "A" "S" "S" "A" "A" "A" "A" "S"
Ahora vamos a calcular las secuencias de frecuencias relativas de águila
cumsum(lanzamientos_10 == "A") # suma acumulada de águila## [1] 1 2 3 3 3 4 5 6 7 7
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)## [1] 1.00 1.00 1.00 0.75 0.60 0.67 0.71 0.75 0.78 0.70
Distribucion de probabilidad
Nos dice de que manera(si hablamos de clases o frecuencias) se comportan los eventos. Funciones en R En R, cada distribución de probabilidad se nombra mediante una palabra clave o alías. Las palabras clave para las distribuciones más importantes son:
- Distribución Alias
- Distribución binomial -> bínom
- Distribución de Poisson -> pois
- Distribución normal -> norm
- Distribución exponencial -> exp
- Distribución t de Student -> t
- Distribución Chi2 -> chisq
- Distribución F -> f
\[ \begin{array}{l|l|l|c} \text{Funcion} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas(cdf)} & \text{-------}\\ q & \text{quantle} & \text{Calcula cuantiles(percentiles)} & \text{-------}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución especifica} & \text{-------}\\ \hline \end{array} \] Distribución Expencial
curve(dexp(x), from = 0, to =10 )# Representa la densidad de una exponencial de media 1 entre 0 y 10Distribucion Binomial
x<- rbinom(20,1,0.5)
x## [1] 0 0 1 0 0 1 1 1 1 1 0 0 1 1 1 1 1 0 0 0
#Genera 20 observaciones condistribucion(1,0.5)Contando éxitos vs fracasos
table(x)## x
## 0 1
## 9 11
Ejemplo de Distribución Normal Si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) ea menor que 3.5 se calcula en R de la siguiente manera:
pnorm(3.5,mean =3,sd=0.5)## [1] 0.8413447
- Para calcular el cuantil 0.7 de una variable aleatoria normal estándar Z, es decir, un valor x tal que:
qnorm(0.7)## [1] 0.5244005
- Para calcular el cuantil 0.7 para una variable aleatoria normal de media 0 y DT 0.5:
qnorm(0.7,sd=0.5)## [1] 0.2622003
El valor \(z_\alpha\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos son:
qnorm(0.975)## [1] 1.959964
- Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100,mean =10, sd=1)
x## [1] 11.005762 9.636659 10.874502 8.915915 9.870242 9.252444 9.489461
## [8] 11.113207 9.935068 11.157549 10.057760 9.274117 9.170012 10.642796
## [15] 9.047777 11.412834 10.525355 11.500544 10.456936 8.246627 9.979469
## [22] 9.141205 10.110649 9.639186 8.959895 9.803410 9.613480 9.539962
## [29] 10.255298 9.547522 11.500843 8.782589 8.948600 12.064449 11.308157
## [36] 9.877116 10.907232 12.341096 10.506266 9.507648 10.142551 10.603383
## [43] 9.709732 9.666917 9.926696 9.958634 10.704926 11.467711 9.958053
## [50] 11.016860 7.130196 10.695886 10.122323 10.281096 8.620489 11.592553
## [57] 9.631640 11.106824 9.239549 9.655039 11.628956 10.146694 9.905035
## [64] 10.501433 10.493291 11.638916 10.869905 10.348496 10.459349 9.796230
## [71] 12.287521 9.830917 10.922255 10.524569 9.443927 9.856418 8.771402
## [78] 10.151163 10.023153 9.872785 9.536420 8.830331 10.207123 8.879196
## [85] 8.535373 9.032041 8.785874 10.431305 9.991370 8.209970 9.968485
## [92] 10.411664 9.858865 11.817443 11.314555 10.265427 11.433860 8.684537
## [99] 8.767130 11.707359
Para estimar el promedio de X :
mean(x)## [1] 10.09291
- Histogramas de frecuencias
hist(x) * Gráfico de caja y bigote
boxplot(x) * Histograma de la muestra(normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población
hist(x,freq=FALSE) #Freq:FALSE, para que el area del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE) Ejercicios
- Si \(z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34)<z<4.789)\):
p =pnorm(4.78,mean =0,sd=1) - (pnorm(-2.34,mean=0,sd=1))
p## [1] 0.9903573
\(\mathbb{P}\) = 0.9903573 2. Calcula el rango intercuartílico de una poblacion normal estándar:
x =rnorm(12)
x## [1] -0.70397573 -0.03801857 1.49008244 -0.10668949 0.02453579 -0.19546983
## [7] 0.20256091 1.15265137 1.21445926 -0.55179086 -0.23822415 -1.02587555
IQR(x)## [1] 0.7566994
IQR= 1.443271
- Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias:
x= rnorm(10,mean = 6,sd = 0.2)
x## [1] 5.653353 5.909015 6.119262 5.836781 6.083045 5.828241 6.092228 5.880913
## [9] 5.819520 5.606803
x= rnorm(10,mean = 6,sd = 0.2)
x## [1] 5.820297 6.009191 6.136372 6.058401 5.826483 5.844390 5.985902 5.804111
## [9] 5.836003 5.908052
x= rnorm(10,mean = 6,sd = 0.2)
x## [1] 6.206966 6.152888 5.864942 6.032736 5.833987 5.748633 6.131590 6.026332
## [9] 6.363932 6.205815
Aqui se considera una muestra de una poblacion, por lo que todos tienen la misma media y desviacion estandar, y se puede ver que varian en todas las muestra. La media poblacional es la totalidad de los datos para estimar y la media muestra solo se basa en una muestra de la poblacion.
- Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\) Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
pssn <- rpois(1000,1)
pssn## [1] 0 2 0 0 1 1 1 1 1 0 2 1 1 3 0 0 1 0 3 1 1 1 3 0 1 0 1 5 1 4 2 5 1 0 0 1 2
## [38] 0 0 1 1 1 4 3 0 2 4 0 0 1 2 1 3 3 2 1 0 2 2 0 1 0 0 0 1 1 2 0 1 1 3 1 2 1
## [75] 0 1 0 1 2 3 2 0 2 2 2 0 0 0 1 1 0 2 0 4 1 3 0 0 0 1 2 2 1 0 1 0 0 0 2 1 1
## [112] 0 1 1 1 0 0 1 0 0 0 0 0 1 0 0 2 3 0 2 2 1 0 1 0 1 1 0 1 0 3 1 0 1 1 1 0 1
## [149] 1 3 1 1 2 0 0 2 2 0 2 1 0 3 0 0 0 1 1 1 2 1 1 0 1 1 0 1 0 1 2 2 0 1 1 0 0
## [186] 3 2 0 1 3 0 0 2 0 0 2 1 1 1 3 0 0 0 1 1 0 0 0 0 0 2 0 0 1 1 1 1 0 2 1 2 1
## [223] 0 2 2 2 2 0 1 0 0 1 2 0 1 0 1 3 1 0 0 0 1 4 2 2 0 1 2 3 1 1 2 0 0 3 1 3 3
## [260] 2 1 1 2 3 0 1 1 3 0 1 1 2 1 0 2 3 1 1 0 2 0 0 0 0 0 1 2 1 0 0 1 0 0 0 1 1
## [297] 2 2 0 1 0 0 1 0 0 0 0 1 2 0 0 0 2 1 0 0 1 0 1 3 0 2 4 1 2 1 0 0 2 0 0 1 0
## [334] 2 1 0 1 1 3 0 1 0 1 1 1 3 1 1 1 0 2 4 2 2 0 0 1 0 0 0 2 0 2 1 1 0 1 0 2 1
## [371] 2 0 0 1 2 0 2 0 0 2 1 2 1 1 0 1 0 1 1 1 2 3 0 0 1 2 1 1 1 3 0 0 1 0 2 0 1
## [408] 0 0 1 1 3 0 0 5 0 3 0 1 1 1 0 0 2 2 3 1 1 0 0 1 2 0 0 1 0 3 0 2 2 1 1 3 1
## [445] 2 1 0 0 0 1 0 1 0 2 1 0 1 2 1 0 1 2 0 1 0 0 2 1 1 1 5 0 0 1 2 0 0 0 2 1 1
## [482] 1 1 0 3 2 0 0 0 4 2 0 1 1 2 0 0 0 3 1 1 1 0 0 2 0 2 3 0 1 1 0 3 3 1 0 0 2
## [519] 1 0 1 2 0 0 2 4 1 1 1 1 1 1 1 1 1 0 1 0 0 1 1 2 1 1 2 1 2 0 0 0 0 1 2 2 3
## [556] 0 2 0 0 2 3 0 1 0 4 0 0 0 0 1 0 1 0 1 1 2 0 1 0 0 0 0 2 1 1 2 0 1 0 0 1 2
## [593] 0 1 1 5 0 0 0 2 1 1 0 0 0 3 0 1 0 2 1 1 4 0 1 1 3 2 0 1 2 1 0 1 2 2 1 1 1
## [630] 1 0 0 1 0 1 2 2 1 0 0 0 1 2 0 0 1 2 1 1 2 2 1 1 0 1 2 2 1 3 0 2 0 3 2 1 0
## [667] 1 2 1 2 0 2 1 1 0 0 1 2 1 2 1 1 0 1 1 0 2 1 1 2 2 0 0 1 3 0 1 2 0 0 0 1 0
## [704] 1 1 2 0 1 2 1 0 0 0 0 1 1 4 2 2 1 1 0 2 0 1 1 1 0 0 1 2 0 1 0 4 0 1 3 1 3
## [741] 3 1 2 0 1 0 1 1 0 0 2 1 0 1 0 0 2 2 0 1 1 1 3 0 2 2 0 3 3 0 1 0 0 1 1 2 0
## [778] 2 0 2 3 1 2 1 0 0 1 2 2 1 1 0 1 1 0 0 2 0 0 0 2 0 2 0 2 0 0 0 0 1 0 0 3 2
## [815] 1 0 1 2 3 1 2 1 2 0 0 1 0 0 1 0 0 2 0 1 0 1 0 2 4 2 1 0 0 1 2 0 3 0 0 0 0
## [852] 1 0 0 0 2 1 0 1 1 0 0 4 1 1 0 0 1 0 1 1 0 0 2 2 0 0 1 2 0 4 2 0 1 1 1 0 3
## [889] 0 2 0 0 2 1 1 1 0 0 1 4 0 3 3 1 1 2 1 1 0 3 1 2 0 0 1 2 1 5 1 3 3 4 2 1 0
## [926] 1 1 2 1 0 2 0 1 0 2 2 1 0 1 1 2 1 1 1 2 6 1 1 0 0 0 1 0 0 2 2 0 0 0 2 1 3
## [963] 1 2 1 2 0 0 0 2 1 1 0 2 1 0 1 1 0 2 0 0 0 2 1 1 2 3 4 0 2 1 2 1 0 1 1 1 0
## [1000] 0
hist(pssn, main="Grafico de los números obtenidos",xlab = "Distribución Poisson",ylab = "Frecuencia")mean(pssn)## [1] 1.029
var(pssn)## [1] 1.109268