¿Como puedo conocer cosas en un contexto de incertidumbre?
Puedo establecer hipotesis sobre lo que puede pasar.
A puedo contrastar las hipotesis y dependiendo del resultado tomar determinadas decisiones.
¿Mañana hara frio o calor?
Dos hipotesis se plantean aqui, dependiendo de cual considere como cierta tomare una decision u otra (preparar ropa de abrigo, etc.)
Estas hipotesis dependen de informacion que no conocemos, o que no se puede predecir con exactitud.
Estas hipotesis dependen de eventos aleatorios
En un contexto mas riguroso, para contrastar hipotesis hay que estar familiarizado con los conceptos de probabilidad y variable aleatoria
Poblacion y muestra: muestreo aleatorio simple
Distribuciones muestrales: estimacion de una muestra y de una proporcion
Contraste de hipotesis de una media y una proporcion
Comparacion de dos medias
Bibliografia: Analisis cuantitativo de la actividad turistica. Capitulos 2.2 y 7
Cuando trabajamos con datos, muchas veces solo tenemos acceso a una muestra.
Pero normalmente estamos interesados en conocer informacion sobre toda la poblacion.
Poblacion: conjunto de todos los individuos sobre los que queremos obtener alguna informacion.
Muestra: parte de la poblacion que debe ser representativa de ella.
Parametro: Valor numerico que describe una caracteristica de l poblacion
Ejemplo: queremos conocer el grado de satisfaccion de los usuarios de un aeropuerto en temporada alta. la poblacion esta compuesta por todos los usuarios que durante la temporada alta pasan por el aeropuerto. El parametro elegido, puede ser, por ejemplo la media aritmetica del grado de satisfaccion de los usuarios. Normalmente, no se dispone de recursos para acceder a todos los usuarios, sino que solamente se entrevista muestra representativa de ellos.
El coste es que de esta manera, no obtenemos el parametro que nos interesa, sino una estimacion de este. Una aproximacion.
En cualquier caso, nuestro objetivo es sacar conclusiones sobre la poblacion, a partir de la informacion obtenida en la muestra, esto lo conseguimos aplicando metodos de inferencia estadistica
Una manera de intentar asegurar la representatividad es mediante el muestreo aleatorio simple. Consiste en una muestra de un tamaño determinado, en la que cada individuo de la poblacion es elegido con la misma probabilidad.
Asi, si en la poblacion hay muchos individuos con un grado de satisfaccion alto, esperamos tener tambien en la muestra, muchos individuos con un grado de satisfaccion alto.
Experimento aleatorio: aquel experimento que puede dar lugar a varios resultados y no es posible predecir a priori cual de ellos va a producirse, debido a que el resultado obtenido depende del azar.
Ejemplos
Ejemplo
Experimento “tirar un dado de seis caras y observar su valor”
¿Que es la probabilidad?
Con la probabilidad se trata de ofrecer una medida numerica a las posibilidades de que ocurra un determinado suceso al realizar un experimento aleatorio.
Ejemplo: probabilidad de que al lanzar un dado salga un numero par
Se mide en una escala de 0 a 1 (cuanto mas cerca de 1, mas probable es el evento)
Suceso imposible: Suceso que tiene una probabilidad 0 de ocurrir (Ejemplo: que al lanzar un dado no salga par ni impar)
Suceso seguro: aquel que tiene una probabilidad de ocurrir 1: (Ejemplo: que al lanzar un dado salga bien un numero par, o bien uno impar).
Suceso complemetario: se denomina suceso complementario de A, a aquel que ocurre si no ocurre A.
Ejercicio
Estamos interesados en saber de que Comunidad Autonoma son los españoles que lleban a las Baleares durante el año.
¿Cual es el espacio muestral?
Pon un ejemplo de suceso elemental.
Pon un ejemplo de un suceso aleatorio que no sea un suceso elemental ¿Cual es el suceso complementario?
¿Seria una buena idea realizar nuestras estimaciones basandonos en los datos de una muestra recogida un mismo dia?
Definicion clasica de probabilidad: Cociente entre el numero de casos favorables y el numero de casos posibles.
Si tenemos un suceso aleatorio A, la probabilidad de que ocurra A es
\[ P(A) = \frac{\text{Numero de casos favorables de A}}{\text{Numero de casos posibles}} \]
Ejemplo:
La probabilidad de que al lanzar un dado se obtenga un numero par es la siguiente
\[ P(\text{par}) = \frac{\text{Numero de casos favorables a "par"}}{\text{Numero de casos posibles}} = \frac{3}{6} = 0,5 \]
Probabilidad y frecuencia relativa
Si A es un suceso aleatorio que ocurre un total de \( n_A \) veces sobre \( n \) intentos, la frecuencia relativa de A es \( \frac{n_A}{n} \)
Si el numero de repeticines es elevado, se espera que a medida que \( n \) aument, el cociente \( \frac{n_A}{n} \) tienda a estabilizarse alrededor de un valor entre 0 y 1.
La Probabilidad de ocurrencia del suceso A sera el limite del cociente \( \frac{n_A}{n} \) cuando el numero de intentos tiende a infinito.
pr2<-rep(NA, 1000) for (idx in 1:1000){ pr2[idx]<-sum(sample(dado, 1) %in% par)!=0 }
Ejemplo
Se ha seleccionado una muestra de 500 viajeros y s pregunta a cada uno de ellos si pinsan volver a elegir esa compañia para futuros viajes.
De los 500, contestan que si 390
La frecuencia relativa es \( \frac{390}{500} = 0,78 \)
La muestra es elevada -> podemos utilizar la frecuencia relativa como una aproximacion a la probabilidad de qu un viajero que ha volado con esa compañia dcida elegirla para el futuro.
Podemos decir que se espera que aproximadamente el 78% de los viajeros de la compañia volveran a elegirla para viajar en el futuro.
Ejercicio
¿Cual es la probabilidad de que en el lanzamiento de dos dados de seis caras cada uno, obtengamos un 7?
Variable aleatoria: es una variable que puede tomar un conjunto de valores, cada uno de ellos con una determinada probabilidad de ocurrir.
Ejemplo
No sabemos la puntuacion que obtendremos al lanzar un dado. El resultado es incierto. Pero sabemos que sera con certeza uno entre seis posibles valores. Y ademas sabemos la probabilidad de obtener cada uno de estos valores. En este caso la probabilidad es la misma para cada uno: \( \frac{1}{6} \)
Variable aleatoria discreta: puede tomar un numero finito de valores (como la puntuacion obtenida al lanzar un dado).
Variable aleatoria continua: puede tomar infinitos valores contenidos en un intervalo (como el gasto efectuado por un turista. Teoricamente puede tomar valores de 0 en adelante).
Analoga a la distribucion de frecuencias de las variables cuantitativas discretas que vimos en el tema 2.
Funcion de probabilidad: los valores que puede tomar una variable discrita junto con las probabilidades de que ocurra cada uno de estos valores.
Supongamos que tenemos una variable \( X \) que toma lo valores \( x_1, x_2, ..., x_n \) cada uno de ellos con una probabilidad \( p_i = P(X = x_i) \)
\[ P(X = x_i) \text{Probabilidad de que la variable X tome el valor } x_i \]
\[ \text{Funcion de probabilidad de }X \]
\[ p(x_i) = P(X = x_i) \]
\[ \text{Valor de } X \text{ -> Probabilidad del valor de } X \]
Ejemplo
Funcion de probabilidad del lanzamiento de un dado de seis caras
Todos los valores tienen la misma probabilidad de darse. Por lo tanto, para cualquier valor de \( x_i \)
\[ p(x_i) = P(X = x_i) = \frac{1}{6} \>\>\>\>\> x_i = 1, 2,..., 6 \]
\[ F(x) = P(X\leq{x}) \]
Ejemplo
Si tomamos el ejemplo anterior del lanzamiento del dado
\[ \begin{align*} & F(1) = P(X\leq{1}) =\frac{1}{6} = 0,166 \>\>\>\>\>\>\>\>\> & F(4) = P(X\leq{4}) =\frac{4}{6} = 0,666\\ \\ & F(2) = P(X\leq{2}) =\frac{2}{6} = 0,333 \>\>\>\>\>\>\>\>\> & F(5) = P(X\leq{5}) =\frac{5}{6} = 0,833\\ \\ & F(3) = P(X\leq{3}) =\frac{3}{6} = 0,5 \>\>\>\>\>\>\>\>\> & F(6) = P(X\leq{6}) =\frac{6}{6} = 1 \end{align*} \]
Como una variable continua puede tomar infinitos valores en un intervalo, la probabilidad de que tome un valor concreto es 0 (si tomamos la deficion clasisa de probabilidad, esto es, numero de casos favorables entre numero de casos posibles, el denominador seria infinito)
Funcion de densidad: funcion que representa la distribucion de probabilidad de los infinitos posiblies valores que puede tomar la variable.
Una funcion de desidad \( f(x) \) verifica las siguientes propiedades:
La probabilidad de que la variable tome un valor contenido en un determinado intervalo \( (a, b) \) es igual al area contenida bajo la funcion \( f(x) \) entre los valores \( a \) y \( b \).
\[ F(X) = P(X \leq(x)) \]
El area coloreada en la siguiente figura ilustra la probabilidad de que la variable \( X \) tome valores iguales o menores a \( x_0 \)
Resumen las caracteristicas de la distribucion de probabilidad de una variable aleatoria.
La esperanza matematica
Varianza
Desviacion estandar
La esperanza matematica
Vimos que la media aritmetica se puede expresar como
\[ \bar{x} = \frac{n_1x_1 + n_2x_2 + ... + n_kx_k}{n} \]
siendo \( k \) el numero de valores diferentes que toma la variable \( X \) y \( n_k \) es el numero de observaciones que tomasn el valor \( x_k \)
La expresion anterior puede reordenarse y expresarse de la siguiente manera
\[ \bar{x} = x_1\frac{n_1}{n} + x_2\frac{n_2}{n} +... + x_k\frac{n_k}{n} \]
Multiplicamos cada valor de \( X \) por su frecuencia relativa. Pero como vimos estas frecuencias relativas se pueden interpretar como probabilidades cuando trabajamos con variables aleatorias. Asi, la esperanza matematica queda definida como
\[ E[x] = \mu = \sum_{i}x_ip_i \]
Ejemplo
| \( x_i \) | \( p_i \) |
|---|---|
| 0 | 0,1 |
| 1 | 0,2 |
| 2 | 0,4 |
| 3 | 0,2 |
| 4 | 0,1 |
\[ E[X] = 0\cdot0,1 + 1\cdot0,2 + 2\cdot0,4 + 3\cdot0,2 + 4 \cdot0,1 = 2 \]
Ejercicio
Se mide la valoracion que un turista realiza de un determinado servicio en una escala que puede tomar valores de 0 a 5, en numeros enteros. Calcula la esperanza matematica de esta variable, basandote en su distribucion de probabilidad, que se representa a continuacion.
| \( x_i \) | \( p_i \) |
|---|---|
| 0 | 0,001 |
| 1 | 0,006 |
| 2 | 0,050 |
| 3 | 0,200 |
| 4 | 0,400 |
| 5 | 0,343 |
Varianza y desviacion tipica
La varianza es una medida de la dispersion de los valores de una variable aleatoria respecto a su esperanza
La varianza de una variable aleatoria discreta \( X \) se describe como
\[ \sigma^2 = E[(X - \mu)^2] = \sum_{i}(x_i - \mu)^2p(x_i) \]
La desviacion estandar es la raiz cuadrada de la varianza
\[ \sigma = \sqrt{\sum_{i}(x_i - \mu)^2p(x_i)} \]
Dos variables con la misma esperanza matematica pero diferente varianza
\[ \mu = 0 \]
Ejemplo
En el ejemplo anterior se ha calculado la esperanza de una variable aleatoria \( X \) que representa la puntuacion obtenida al extraer una bola al azar de una urna. A partir de la distribucion de probabilidades de la variable \( X \) se puede obtener su varianza.
Recordemos, que en el ejemplo anterior calculamos \( E(X) = 2 \)
| \( X_i \) | \( p_i \) | \( (x_i - E[X]) \) | \( (x_i - E[X])^2 \) | \( (x_i - E[X])^2\cdot p_i \) |
|---|---|---|---|---|
| 0 | 0,1 | -2 | 4 | 0,4 |
| 1 | 0,2 | -1 | 1 | 0,2 |
| 2 | 0,4 | 0 | 0 | 0 |
| 3 | 0,2 | 1 | 1 | 0,2 |
| 4 | 0,1 | 2 | 4 | 0,4 |
\[ \sigma^2 = 0,4 + 0,2 + 0 + 0,2 + 0,4 = 1,2 \]
Ejercicio
En la terminal de salida de un aeropuerto se ha preguntado a 60 turistas de las Illes Balears, sobre el numero de visitas turisticas que ha realizado a las islas (contando estas). A continuacion se detalla la distribucion de probabilidad. Las probabilidades estan basadas en las frecuencias relativas.
| \( X_i \) | \( p_i \) |
|---|---|
| 1 | 0,25 |
| 2 | 0,33 |
| 3 | 0,20 |
| 4 | 0,15 |
| 5 | 0,05 |
| 6 | 0,02 |
Calcula la varianza y la desviacion estandar
Sabemos que, en lo que concierne a distribuciones de probabilidad, hay ciertos comportamientos que se repiten con frecuencias.
Esto es, hay distribuciones de probabilidad que se repiten con frecuencia*
Estas distribuciones de probabilidad han estudiado. Se conoce su expresion matematica.
De esta manera, al estudiar una variable con una distribucion de probabilidad conocida, no es necesario analiar el comportamiento de esa variable completa, sino que se pueden aplicar las propiedades de la distribucion conocida.
La distribucion de probabilidad mas conocida es la distribucion normal, tambien conocida como campana de Gauss.
La “distribucion normal” se corresponde con un comportamiento de variables aleatorias continuas para las posibilidades de que tomen valores intermedios son eleadas pero s mas extraño que tomen valores extremos.
\[ f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x - \mu}{\sigma})^2} \]
\[ X\sim{N}(\mu, \sigma^2) \]
A partir de aqui, podemos calcular las probabilidades de los valores de \( X \), conociendo la media y la varianza.
Para calcular las probabilidades de un intervalo de valores, tendremos que usar la funcion de probabilidad cada vez, para cada variable que tenga una media y una varianza diferente.
Pero hay una forma de automatizar parte de este proceso: estandarizar la variable
Variable normal estandar
Si a una variable normal cualquiera \( X \) se le resta su media y se divide por su desviacion estandar, se obtine una variable normal con media 0 y desviacion estandar 1 (recordar las propiedades de la media y la desviacion estandar del tema 2).
A esta variable estandarizada la llamaremos \( Z \)
\[ \frac{X - \mu}{\sigma} = Z \]
\[ Z\sim{N}(0,1) \]
Ejemplo
Tenemos una variable \( X \) que toma los valores {1, 1, 2, 5, 5, 6, 8}
La media \( \mu = 4 \)
La desviacion estandar es \( \sigma = 2,7 \)
El valor estandarizado de la primera observacion es \( z_1 = \frac{1-4}{2,7} = -1,11 \)
El valor estandarizado de la tercera observacion es \( z_3 = \frac{2-4}{2,7} = -0,74 \)
Si hacemos lo mismo para el resto de observaciones, los valores de la variable estandarizada quedaran de la siguiente manera.
\[ Z = \{-1,11; -1,11; -0,74; 0,37; 0,74; 1,48\} \]
Si calculais la media y la desviacion estandar de \( Z \) vereis que os dan 0 y 1 respectivamente.
Ejercicio
La variable \( X \) esta formada por los siguientes valores: {1, 3, 4, 5, 7}
La media de esta variable es 4 y la desviacion estandar es 2.2
Estandariza esta variable: calcula los valores estandarizados de \( X \)
\[ P(Z\leq{z}) \]
Si conocemos \( P(Z\leq{z}) \) automaticamente conocemos \( P(Z>z) = 1 - P(Z\leq{z}) \)
Tambien podemos conocer \( P(z_0\leq{Z}\leq{z_1}) \)
\[ P(z_0\leq{Z}\leq{z_1}) = P(Z\leq{z_1})- P(Z\leq{z_0}) \]
Tabla estadistica de la distribucion normal estandar
Las filas representan el valor de \( Z \) redondeando hasta las decimas. Las columnas representan las centesimas adicionales
Las cedas interiores representan la probabilidad de que la variable \( Z \) tome un valor igual o menor al valor contenido en estas.
Ejemplo
\( P(Z\leq{0,11}) = 0,5438\simeq54 \% \). La probabilidad de que la variable \( Z \) tome valores menores o igual a 0,11 es del 54%
En la tabla solo se presentan los valores positivos a partir de 0 (la media de Z). Para los valores negativos, teneis que tomar el opuesto: \( P(Z\leq{-0,11}) = 1-0,5438 \simeq 46 \% \)
Pero a mi no me interesa conocer las probabilidades asociadas a los valores de la variable \( Z \), yo quiero conocer las probabilidades asociadas a los valores de la variable original, antes de ser estandarizada!!
Partiendo de las probabilidades de \( Z \) podemos conocer las probabilidades asociadas a los valores de la variable original \( X \)
Supongamos que tenemos una variable \( X \) que se distribuye siguiendo una distribucion normal con media \( \mu_x \) = 10 y desviacion estandar \( \sigma_x = 3 \), es decir, \( X\sim{N}(10, 9) \) ¿Cual es la probabilidad que la variable \( X \) pueda tomar valores iguales inferiores a 8?
\[ P(X\leq{8}) = P(X - \mu_x \leq8 - \mu_x) = P\left(\frac{X - \mu_x}{\sigma_x} \leq\frac{8 - \mu_x}{\sigma_x}\right)= P\left(Z\leq\frac{8 - 10}{3}\right) = P(Z\leq-0,67) \]
\[ P(X\leq{8}) = P(Z\leq-0,67) \]
Miramos en la tabla
\[ P(Z\leq-0,67) = 1 - P(Z\leq0,67) = 1 - 0,7486 = 0,2514 \simeq25 \% \]
\[ P(X\leq{8}) \simeq25 \% \]
Ejemplo
La variable \( X \) sigue la siguiente distribucion: \( X\sim{N}(5, 16) \)
Calcula la probabilidad de que la variable X tome un valor superior a 7
\[ P(X>7) = P\left(\frac{X -\mu_x}{\sigma_x} >\frac{7 - \mu_x}{\sigma_x}\right) = P\left(Z>\frac{7 - 5}{12}\right) = P(Z>0,5) \]
\[ P(Z>0,5) = 1 - P(Z\leq0,5) = 1 - 0,6915 \simeq0,30 \]
Ejercicio
Dada la variable del anterior ejemplo, con distribucion \( X\sim{N}(5, 16) \), calcula la probabilidad de que observando un valor al azar este sea menor o igual que 6.
Si se tienen \( n \) variables aleatorias \( X_1, X_2,..., X_n \) independientes y con identica distribucion de media \( \mu \) y varianza \( \sigma^2 \), a medida que crece \( n \), la suma (y a media) de estas variables tiende a seguir una distribucion normal.
Idependientemente, la suma y la media de un numero suficiente de varibles aleatorias independientes, se distribuira siguiendo una normal, sea cual sea la distribucion de estas variables tomadas de forma idepndiente.
Este teorema es crucial para las estimaciones de una media y de una proporcion de una poblacion, que veremos a continuacion, asi como para los contrastes de hipotesis.
Queremos estudiar las caracteristicas de una poblacion: unos parametros (media, desviacion estandar, proporcion…)
Pero no podemos acceder a toda la poblacion (costes, tiempo, etc.)
Solucion: se analiza solo un subconjunto de estos elementos, una muestra
A partir de la informacion de la muestra, calculamos una estimacion de estos parametros.
El objetivo es generalizar a toda la poblacion las conclusiones obtenidas del analisis de las obervaciones muestrales.
Concepto importante: un estimador es una variable aleatoria
Un estimador de un parametro de la poblacion es una variable aleatoria: si pudieramos extraer 50 muestras de una variable continua de una poblacion y calcularamos 50 medias muestrales, obtendriamos (con bastante probabilidad) 50 medias diferentes.
Al ser una varible aleatoria, tendra que ser tratada como tal. Asi, un estimador tiene una funcion de probabilidad
Procedimientos de estimacion:
Estimacion de la media poblacional
Se puede utilizar la media muestral como estimador de la media poblacional
Dada la ariable \( X \), con una distribucion cuaquiera, cuya media poblacional es \( \mu \) y cuya varianza poblacional es \( \sigma^2 \) definimos la media muestral como
\[ \bar{x} = \frac{\sum_{i = 1}^{n} x_i}{n} \]
Donde \( n \) es el numero de observaciones muestrales, \( x_1, x_2,...,x_n \)
Sea cual sea la distribucion de la variable \( X \), la esperanza y la varianza de \( \bar{x} \) son
\[ E(\bar{x}) = \mu \>\>\>\>\>\> var(\bar{x}) = \frac{\sigma^2}{n} \]
Sea cual sea la forma de la distribucion de \( X \), ppor el teorema central del limite la distribucion del estimador \bar{x} se puede aproximar a una normal.
\[ \bar{x}\sim{N}(\mu, \frac{\sigma^2}{n}) \]
Ejemplo
Se considera una variable \( X \) con una media \( \mu \) y una varianza \( \sigma^2 \). Se quiere estimar el valor de la media de la variable \( X \) para esta poblacion y para ello se extrae una muestra de 10 elementos para los que los alores de la variable \( X \) son los siguientes:
31, 12, 8, 32, 10, 4, 81, 52, 91, 23
La media muestral seria
\[ \bar{x} = \frac{\sum_{i=1}^{n}x_i}{n} = \frac{31 + 12 +8 + 32 + 10 + 4+ 81 + 52 + 91 + 23}{10} = 34,4 \]
Estimacion de la proporcion poblacional
A veces es interesante estimar la proporcion de elementos que representan una determinada caracteristica en una poblacion, por ejemplo, ela proporcion de turistas de una determinada nacionalidad.
Se define la proporcion poblacional como el numero de elementos que toman una determinada caracteristica en un poblacion entre el numero de elementos totales.
Un estimador de la proporcion poblacional es la proporcion muestral
\[ \hat{p} = \frac{n_1}{n} \]
Donde \( n_1 \) es el numero de elementos en la muestra que toman la caracteristica de interes y \( n \) es el numero de elementos totales o observaciones de la muestra.
Por el teorema central del limite, para un tamaño de muestra lo suficientemente grande, sabemos que la proporcion muestral se distribuira de la siguiente manera
\[ \hat{p}\sim{N}\left(p, \frac{p(1-p)}{n}\right) \]
Ejemplo
Se pretende estimar la proporcion de turistas que contratan un paquete turistico para viajar a una determinada region. Se ha seleccionado una muestra aleatoria de 1.000 turistas, a los quw se les pregunta si contrataron un paquete turistico par viajar al destino. 800 turistas respondieron que si y 200 respondieron que no. La proporcion muestral sera
\[ \hat{p} = \frac{n_1}{n} = \frac{800}{1.000} = 0,8 \]
Las estimaciones son solo aproximaciones del verdadero valor del parametro poblacional.
Una estimacion puntual puede quedarse lejos del verdadero valore del parametro.
Con la estimacion puntual no tenemos informacion sobre la fiabilidad de los resultados.
Con la estimacion por intervalos utilizamos los datos de la muestra para construir un intervalo de valores que se espera que contenga el valor del parametro poblacional un determinado porzantaje de las muestras. Este porcentaje se denomina nivel de confianza
Nivel de confianza: probabilidad de extraer una muestra que de lugar a un intervalo de confianza que contenga el valor poblacional.
En el caso de extraer multiples muestras, esperamos que el parametro de la poblacion (en este caso \( \mu \)) este contenido la mayoria de las veces en estos intervalos.
Cuanto mayor es el intervalo, mayor es la probabilidad de que contenga el parametro poblacional, pero es mas impreciso
Notacion
\[ IC(\theta)_{(1-\alpha)\cdot100} \]
Esta expresion se corresponde con el intealo de confianza al \( (1 - \alpha) \cdot100 \% \) de nivel de confianza para el parametro \( \theta \).
\( alpha \) es la probabilidad de obtener un intervalo que no contenga el valor poblacional.
Intervalo de confianza para la media de una poblacion (varianza conocida)
Supongamos una variable \( X\sim{N}(\mu, \sigma^2) \)
Pasos para construir el intervalo de confianza:
Sabemos que la media muestral se distribuye de la siguiente manera \( \bar{x}\sim{N}(\mu, \frac{\sigma^2}{n}) \)
Podemos estandarizar esta varialble
\[ Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\sim{N}(0,1) \]
\[ P \left(-Z_{0,025}\leq\frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\leq{Z}_{0,025}\right) = 0,95 \]
Donde \( Z_{0,025} \) es el valor para el que se verifica que \( P(Z>Z_{0,025}) = 0,025 \). Si miramos las tablas estadisticas, veremos que este valor es 1,96 aproximadamente.
\[ P \left(-Z_{0,025}\leq\frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\leq{Z}_{0,025}\right) = 0,95 \]
\[ P\left(-Z_{0,025}\leq{Z}\leq{Z}_{0,025}\right) = 0,95 \]
La probabilidad de que la variable estandarizada \( Z \) este entre -1,96 y 1,96 es del 95%
Pero nosotros no estamos interesados en el intervalo de confianza de la variable estandarizada \( Z \), sino del paramtero media poblacional \( \mu \). Para obtenerla podemos despejar \( \mu \) de la expresion obtenida del intervalo de confianza para \( Z \)
\[ P\left(-Z_{0,025}\leq\frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\leq{Z}_{0,025}\right) = 0,95 \]
\[ P \left(-Z_{0,025}\frac{\sigma}{\sqrt{n}}\leq\bar{x} - \mu\leq{Z}_{0,025}\frac{\sigma}{\sqrt{n}}\right) = 0,95 \]
\[ P \left(\bar{x}-Z_{0,025}\frac{\sigma}{\sqrt{n}}\leq\mu\leq\bar{x} + {Z}_{0,025}\frac{\sigma}{\sqrt{n}}\right) = 0,95 \]
Ya tenemos el intervalo de confianza: el intervalo en el que estara contenida \( \mu \) con un 95% de probabilidad. Lo podemos escribir de la siguiente manera
\[ IC(\mu_{95\%}) = [\bar{x}-Z_{0,025}\sigma/{\sqrt{n}}, \bar{x}+Z_{0,025}\sigma/{\sqrt{n}}] \]
Generalizando para cualquier amplitud, el intervalo de confianza para la media de una poblacion normal se expresaria de la siguiente maner
\[ IC(\mu_{(1-\alpha)\cdot{100\%}}) = [\bar{x}-Z_{\alpha/2}\sigma/{\sqrt{n}}, \bar{x}+Z_{\alpha/2}\sigma/{\sqrt{n}}] \]
Ejemplo
Considerese una poblacion en la que una variable \( X \) sigue una distribucion normal de media \( \mu \) y varianza \( \sigma^2 \). Se ha extraio una muestra de 50 observaciones con las que se ha calculado la media muestral obteniendo que \( \bar{x} \) es igual a 35. A partir de esta informacion el intervalo de confianza del 95% para la media poblacional seria
\[ IC(\mu)_{95\%} = \big[35 - 1,96\frac{10}{\sqrt{50}}, 35 + 1,96\frac{10}{\sqrt{50}}\big] = [32,23; 37,77] \]
Con un 95% de probabilidad, la media poblacional estara contenida entre 32,23 y 37,77.
Ejemplo
Se considera una variable \( X \) con distribucion normal de media \( \mu \) desconocida y varianza conocida \( \sigma^2 \) = 16. para estimar el valor de la media poblacional se ha extraido una muestra de 20 observaciones y se ha calculado el valorde la media muestral, obteniendo que esta es igual a 10. El intervalo de confianza seria
\[ IC(\mu)_{90\%} = \big[10 - 1,64\frac{4}{\sqrt{20}}, 10 + 1,64\frac{4}{\sqrt{20}}\big] = [8,53; 11,47] \]
Con un 90% de probabilidad, la media poblacional estara contenida entre 8,53 y 11,47.
Observad aqui que los valores de \( Z_{-\alpha/2} \) y \( Z_{\alpha/2} \) son -1,64 y 1,64 respectivamente, eso es porque al ser el intervalo del 90%, el valor de \( \alpha \) es 0,05. Recordemos que \( \alpha \) es la probabilidad de que la media no este contenida en el intervalo. Es decir 0,10 (o 10%). Tenemos que contar que hay dos extremos del intervalo. La probabilidad de que le media poblacional no este contenida en el intervalo es la probabilidad de que este por debajo, mas la probabilidad de que este por encima, de ahi 0,05 + 0,05 = 0,10.
Ejercicio
Una variable \( X \) se distribuye siguiendo una normal. Estamos interesados en estimar su media \( \mu \). Conocemos la varianza de esta variable, \( \sigma^2 \) = 2. Hemos calculado una media a partir de una muestra de 50 observaciones, obteniendo un valor de \( \bar{x} = 11 \)
Escribe el intervalo de confianza para esta estimacion con un nivel de confianza del 95%.
Amplitud del intervalo
A partir de la expresion del intervalo de confianza
\[ IC(\mu_{(1-\alpha)\cdot{100\%}}) = [\bar{x}-Z_{\alpha/2}\sigma/{\sqrt{n}}, \bar{x}+Z_{\alpha/2}\sigma/{\sqrt{n}}] \]
Podemos deducir cual sera la amplitud del intervalo
\[ A = 2\cdot{Z_{0,025}}\sigma/\sqrt{n} \]
Vemos que la amplitud depende de diferentes componentes
El nivel de confianza: especificado aqui por \( Z_0,025 \). Cuanto mas grande mas amplio es el intervalo.
La varianza de la poblacion, \( \sigma^2 \): cuanto mas alta mas amplio sera el intervalo.
El tamaño de la muestra: cuanto mas grande menor sera el intervalo.
Reduciendo el nivel de confianza del intervalo, nuestra estimacion sera mas precisa pero la probabilidad de que el intervalo contenga el verdadero valor de la media poblacional sera menor. La varianza poblacional es un elemento que no podemos controlar. El unico elemento sobre el que podemos tener cierto control, por lo menos hasta cierto limite, es el tama&ntile;o de la muestra. Incrementando el tamaño de la muestra nuestro intervalo es mas preciso (se reduce) sin tener que modificar el nivel de confianza (no modificamos \( Z_{0,025} \)).
Intervalo de confianza para proporcion. Muestras grandes.
Vimos anteriormente, el estimador de la proporcion poblacional: la proporcion muestral \( \hat{p} \). Tambien vimos como se distribuye este estimador cuando el tamaĩo de la muestra es lo suficientemente grante.
\[ \hat{p}\sim{N}\left(p,\frac{p(1-p)}{n}\right) \]
Siguiendo el mismo procedimiento que utilizamos para construir el intervalo de la media poblacional, podemos especificar aqui el intervalo de confianza para la proporcion poblacional
\[ IC(p)_{(1-\alpha)\cdot100\%} = \Big[\hat{p} - Z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p} + Z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\Big] \]
Ejemplo
En una muestra de 100 observaciones se ha obtendo que la proporcion de elementos que presentan una determinada caracteristica es igual a 0,75. A partir de esta estimacion puntual se calcula un intervalo de confianza del 99% para la proporcion de individuos que preentan la caracteristica de interes en la poblacion
\[ IC(p)_{99\%} = \Big[0,75 - Z_{0,005}\sqrt{\frac{0,75(1-0,75)}{100}}, 0,75 + Z_{0,005}\sqrt{\frac{0,75(1-0,75)}{100}}\Big] \]
En las tablas de la distribucion normal estandar se puede comprobar que \( Z_{0,005} = 2,58 \).
\[ IC(p)_{99\%} = \Big[0,75 - 2,58\sqrt{\frac{0,75(1-0,75)}{100}}, 0,75 + 2,58\sqrt{\frac{0,75(1-0,75)}{100}}\Big] \]
\[ IC(p)_{99\%} = [0,64; 0,86] \]
El objetivo es contrastar la validez de una afirmacion sobre un parametro poblacional a traves de la informacion que tenemos.
En esta muestra la media obtenida es 6 ¿Es posible que la media de la poblacion sea 10 o mayor?
La contrastacion de hipotesis consiste en contrastar la hipotesis con la realidad observada, con los datos de los que disponemos. Si los datos observados contradicen la hipotesis se sustituira con otra que sea coherente con lo observado en la realidad.
La afirmacion que se formula sobre el parametro poblacional y se mantiene mientrs no haya evidencia de lo contrario se denomina hipotesis nula, representada como \( H_0 \)
La hipotesis que sera aceptada en caso de que los datos nos hagan concluir que la hipotesis nula es falsa se denomina hipotesis alternativa, representada com \( H_A \).
Hay que tener en cuenta de que los datos provienen de una muestra, y que una diferencia minima de la hipotesis nula respecto a los datos obtenidos de la muestra, puede deberse al azar, al hecho de que hayamos escogido esta muestra y no otra.
Hay que establecer un limite a partir del cual, no podemos aceptar la hipotesis nula a partir de los datos observados, un limite que a pertir del cual establecemos que es demasiado improbable observar los datos que estamos observando en caso de que la hipotesis nula sea cierta.
Consideraremos que mas alla de ese limite la diferencia que observamos entre los datos y la hipotesis establecida no puede deberse al azar, al hecho de trabajar con una muestra especifica, sino que las diferencias son reales.
Tenemos una variable \( X \), que se distribuye siguiendo una normal, con media \( \mu \) desconocia, y varianza \( \sigma^2 \) conocida.
Se dispone de una muestra de \( n \) observaciones. Se calcula la media muestral, \( \bar{x} \)
Se quiere contrastar la siguiente hipotesis sobre el valor de la media poblacional: \( \mu \) es igual a un valor concreto \( \mu_0 \). La hipotesis nula seria
\[ H_0: \mu = \mu_0 \]
Si se conlcuye que esta hipotesis es falsa, se sustituye por la alternativa. Solo hay una hipotesis alternativa posible: \( \mu \) es diferente de \( \mu_0 \)
\[ H_A:\mu \neq \mu_0 \]
Consideraremos como limite, un valor que sea poco probable observar si la hipotesis nula es cierta. Uno que e suele usar es el 5% (0,05): si \( \mu_0 \) ocurre con una probabilidad igual o menor al 5% en caso de que la hipotesis nula sea cierta, consideraremos que es cierta la hipotesis alternativa. A esta probabilidad se le llama nivel de significacion y se suele representar con el simbolo \( \alpha \).
Asi, el rechazar o aceptar la hipotesis nula depende del nivel de significacion \( \alpha \) que asignemos al contaste
Otra forma de ver el nivel de significacion es como la probabilidad de rechazar la hipotesis nula, en caso de que esta sea cierta. Hemos dicho que rechazamos la hipotesis nula cuando observar un valor de \( \mu_0 \) es demasiado improbable o raro. Pero eso no quiere decir que sea imposible. Simplemente podemos estar ante un ese caso raro en el que siendo la hipotesis nula cierta, observamos \( \mu_0 \). En ese caso estariamos rechazando la hipotesis nula cuando es cierta.
Contrastando la hipotesis
Podemos contrastar si la hipotesis nula es cierta o no basandonos en el intervalo de confianza para una media poblacional visto anteriormente, con un nivel de confianza del 95%.
\[ P\left(-Z_{0,025}\leq\frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\leq{Z}_{0,025}\right) = 0,95 \]
Si la hipotesis nula es cierta, se cumple que
\[ P\left(-Z_{0,025}\leq\frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}\leq{Z}_{0,025}\right) = 0,95 \]
Esto significa que si la hipotesis nula es cierta \( \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}} \) estara entre \( -Z_{0,025} \) y \( Z_{0,025} \) con una probabilidad del 0,95. Valores fuera de este intervalo son considerados demasiado improbable y nos hacen rechazar la hipotesis nula.
De esta manera, se rechaza la hipotesis nula si
\[ \Big|\frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}\Big| > Z_{0,025} \]
En el desarrollo anterior, hemos trabajado con un nivel de significacion \( \alpha \) especifico igual a 0,05.
Generalizando para cualquier nivel de especificacion \( \alpha \), si \( \mu \) es la media de una poblacion normal con varianza conocida, la hipotesis \( H_0: \mu = \mu_0 \) se rechaza y sustituye por la hipotesis \( H_A:\mu \neq\mu_0 \), si:
\[ \Big|\frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}\Big| > Z_{\alpha/2} \]
Si N no se distribuye siguiendo una normal pero la muestra es grande, por el teorema central del limite, podemos usar el mismo contraste.
El cociente en la parte derecha de esta inecuacion se denomina estadistico de contraste.
Entonces, decimos que rechazamos la hipotesis nula si el estadistico de contraste es superior, en valor absoluto al nivel de significacion.
Ejemplo
De una poblacion normal con media \( \mu \) y varianza 100 se extrae la siguiente muestra:
13, 21, 4, 13, 5, 2, 18, 25, 19, 32
¿Puede afirmarse, con un nivel de significacion del 5%, que la media poblacional es igual a 7?
\[ H_0: \mu = 7 \]
\[ H:_A: \mu \neq 7 \]
\[ \frac{\bar{x} - \mu_0}{\sqrt{\sigma^2/n}} = \frac{15,2 - 7}{\sqrt{100/10}} = 2,59 \]
Pueto que el valor de estadistico, 2,59, es mayor que \( Z_0,025 = 1,96 \), se rechaza la hipotesis nula \( H_0:\mu=7 \)
Aqui, queremos contrastar la hipotesis de que la proporcion poblacional, pueda ser igual a un valor especifico \( p_0 \).
\[ H_0: p = p_0 \]
\[ H_A: p \neq p_0 \]
Siguiendo el mismo proceso logico que hemos utilizado para el contraste de hipotesis de la media poblacional, podemos obtener el criterio que nos lleva a rechazar la hipotesis nula para la proporcion poblacional.
La hipotesis nula se rechaza si
\[ \Big|\frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}\Big|>Z_{\alpha/2} \]
Ejemplo
Para constarstar la hipotesis de que el 50% de los elementos d euna problacion presentn una detoerminada caracteristica, se h extraido una muestra de 100 observaciones y se ha calculado el valore de l aproporcion muestra, obteniendo que el valor de la misma es igual a 0,55
\[ H_0: p = 0,50 \]
\[ H_A: p \neq 0,50 \]
\[ \frac{\hat{p} - p}{\sqrt{\frac{p_0(1-p_0)}{n}}}= \frac{0,55 - 0,50}{\sqrt{\frac{0,50\cdot{0,50}}{100}}} = 1 \]
Si se supone que el nivel de significacion es del 0,05, \( Z_{\alpha/2} \) es \( Z_{0,025} \), que es igual a 1,96. Entonces, dado que 1 es menor que 1,96 no se puede rechazar la hipotesis nula \( H_0: p = 0,50 \)
Tenemos dos poblaciones
Queremos comparar sus medias: saber si la media de una de las poblaciones es la misma que la de la otra.
Suponemos que la variable de interes tiene una distribucion normal en ambas poblaciones, con una media igual a \( \mu_1 \) en la primera y \( \mu_2 \) en la segunda. Las varianzas son \( \sigma^2_1 \) y \( \sigma^2_2 \) respectivamente.
La hipotesis nula sera
\[ H_0: \mu_1 = \mu_2 \]
O lo que es lo mismo
\[ H_0:\mu_1 - \mu_2 = 0 \]
y la hipotesis alternativa
\[ H_A:\mu_1 - \mu_2 \neq 0 \]
\[ H_0:\mu_1 - \mu_2 = 0 \]
\[ H_A:\mu_1 - \mu_2 \neq 0 \]
Utilizamos la diferencia de medias muestrales \( \bar{x}_1 - \bar{x}_2 \) como estimador de la diferencia de las medias poblacionales \( \mu_1 - \mu_2 \)
El estadistico de contraste para evaluar si hay diferencia de medias es
\[ \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{\sigma^2_1}{n_1} + \frac{\sigma^2_2}{n_2}}} \]
Se rechazara la hipotesis nula si el valor absoluto de este estadixico es superior a \( Z_{\alpha/2} \)
Ejemplo
Se puede considerar que en un determinado destino turistico, del total de turistas que llegan cada año , un elevado porcentaje son turistas que ya lo habian visitado con anterioridad. Se quiere conocer si el gasto per capita que hacen lo turistas repetidores es el mismo que hacen los que visitan el destino por vez primera. Es decir, se quiere contrastar la hipotesis
\[ H_0:\mu_R = \mu_{NR} \]
\[ H_A:\mu_R \neq \mu_{NR} \]
Se dispone de una muestra de 2.629 turistas repetidores y otra de 1.198 no repetidores. Se ha calculado el valor de la media muestral para estos dos grupos: \( \bar{x}_R = 67,17 \); \( \bar{x}_{NR} = 69,47 \). El casto per captita de los dos grupos se distribuye normalmente. Se sabe que la varianza es 839,51 para los turistas repetidores y 927,01 para los no repetidores.
El estadistico de contraste es
\[ \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{\sigma^2_1}{n_1} + \frac{\sigma^2_2}{n_2}}} = \frac{67,17- 69,47}{\sqrt{\frac{839,51}{2.628} + \frac{927,01}{1.198}}} = -2,20 \]
Si realizamos este contraste para un nivel de significacion del 0,05 rechazamos la hipotesis de igualdad de medias ya que \( Z_0,025 = 1,96 \) es menor en valor absoluto que el valor calculado del estadistico: \( 1,96<|-2,20| \)