TEMA 3: INTRODUCCION A LA INFERENCIA ESTADISTICA

Introduccion


  • ¿Como puedo conocer cosas en un contexto de incertidumbre?

  • Puedo establecer hipotesis sobre lo que puede pasar.

  • A puedo contrastar las hipotesis y dependiendo del resultado tomar determinadas decisiones.

  • ¿Mañana hara frio o calor?

  • Dos hipotesis se plantean aqui, dependiendo de cual considere como cierta tomare una decision u otra (preparar ropa de abrigo, etc.)

Introduccion


  • Estas hipotesis dependen de informacion que no conocemos, o que no se puede predecir con exactitud.

  • Estas hipotesis dependen de eventos aleatorios

  • En un contexto mas riguroso, para contrastar hipotesis hay que estar familiarizado con los conceptos de probabilidad y variable aleatoria

Indice del tema


  1. Poblacion y muestra: muestreo aleatorio simple

  2. Distribuciones muestrales: estimacion de una muestra y de una proporcion

  3. Contraste de hipotesis de una media y una proporcion

  4. Comparacion de dos medias


Bibliografia: Analisis cuantitativo de la actividad turistica. Capitulos 2.2 y 7

Poblacion y muestra: muestreo aleatorio simple

  • Cuando trabajamos con datos, muchas veces solo tenemos acceso a una muestra.

  • Pero normalmente estamos interesados en conocer informacion sobre toda la poblacion.

  • Poblacion: conjunto de todos los individuos sobre los que queremos obtener alguna informacion.

  • Muestra: parte de la poblacion que debe ser representativa de ella.

  • Parametro: Valor numerico que describe una caracteristica de l poblacion

  • Ejemplo: queremos conocer el grado de satisfaccion de los usuarios de un aeropuerto en temporada alta. la poblacion esta compuesta por todos los usuarios que durante la temporada alta pasan por el aeropuerto. El parametro elegido, puede ser, por ejemplo la media aritmetica del grado de satisfaccion de los usuarios. Normalmente, no se dispone de recursos para acceder a todos los usuarios, sino que solamente se entrevista muestra representativa de ellos.

  • El coste es que de esta manera, no obtenemos el parametro que nos interesa, sino una estimacion de este. Una aproximacion.

  • En cualquier caso, nuestro objetivo es sacar conclusiones sobre la poblacion, a partir de la informacion obtenida en la muestra, esto lo conseguimos aplicando metodos de inferencia estadistica

Poblacion y muestra: muestreo aleatorio simple


Muestreo aleatorio simple

  • Una manera de intentar asegurar la representatividad es mediante el muestreo aleatorio simple. Consiste en una muestra de un tamaño determinado, en la que cada individuo de la poblacion es elegido con la misma probabilidad.

  • Asi, si en la poblacion hay muchos individuos con un grado de satisfaccion alto, esperamos tener tambien en la muestra, muchos individuos con un grado de satisfaccion alto.

Distribuciones muestrales: estimacion de una media y de una proporcion


Introduccion a la probabilidad

Experimento aleatorio: aquel experimento que puede dar lugar a varios resultados y no es posible predecir a priori cual de ellos va a producirse, debido a que el resultado obtenido depende del azar.

Ejemplos

  • Lanzamiento de un dado
  • Jugar a la ruleta de un casino
  • Entrevistar a un turista para conocer su grado de satisfaccion tras su estancia en un hotel
    • Hay un conjunto de respuestas cerradas
    • Pero a priori no conocemos cual va a ser la respuesta de entre todas las opciones (Muy buena, Buena, Normal, Mala, Muy mala). Estas opciones componen el espacio muestral


  • Espacio muestral: el conjunto de todos los posibles resultado diferentes a los que puede dar lugar un determinado experimento aleatorio.
  • Suceso elemental: cada uno de los elementos del espacio muestral (por ejemplo: Buena, es un suceso elemental)
  • Suceso aleatorio: Un subconjunto del espacio muestral

Distribuciones muestrales: estimacion de una media y de una proporcion


Introduccion a la probabilidad


Ejemplo

Experimento “tirar un dado de seis caras y observar su valor”

  • Espacio muestral: \( \{1, 2, 3, 4, 5, 6\} \)


  • Suceso elemental: por ejemplo, 4


  • Suceso aleatorio: por ejemplo, obtener un numero par. Concretamente \( \{2, 4, 6\} \)

Distribuciones muestrales: estimacion de una media y de una proporcion


Introduccion a la probabilidad

¿Que es la probabilidad?

  • Con la probabilidad se trata de ofrecer una medida numerica a las posibilidades de que ocurra un determinado suceso al realizar un experimento aleatorio.

  • Ejemplo: probabilidad de que al lanzar un dado salga un numero par

  • Se mide en una escala de 0 a 1 (cuanto mas cerca de 1, mas probable es el evento)

  • Suceso imposible: Suceso que tiene una probabilidad 0 de ocurrir (Ejemplo: que al lanzar un dado no salga par ni impar)

  • Suceso seguro: aquel que tiene una probabilidad de ocurrir 1: (Ejemplo: que al lanzar un dado salga bien un numero par, o bien uno impar).

  • Suceso complemetario: se denomina suceso complementario de A, a aquel que ocurre si no ocurre A.

Distribuciones muestrales: estimacion de una media y de una proporcion


Introduccion a la probabilidad

Ejercicio

Estamos interesados en saber de que Comunidad Autonoma son los españoles que lleban a las Baleares durante el año.

  • ¿Cual es el espacio muestral?

  • Pon un ejemplo de suceso elemental.

  • Pon un ejemplo de un suceso aleatorio que no sea un suceso elemental ¿Cual es el suceso complementario?

  • ¿Seria una buena idea realizar nuestras estimaciones basandonos en los datos de una muestra recogida un mismo dia?

Distribuciones muestrales: estimacion de una media y de una proporcion


Introduccion a la probabilidad

Definicion clasica de probabilidad: Cociente entre el numero de casos favorables y el numero de casos posibles.


Si tenemos un suceso aleatorio A, la probabilidad de que ocurra A es


\[ P(A) = \frac{\text{Numero de casos favorables de A}}{\text{Numero de casos posibles}} \]

Ejemplo:

La probabilidad de que al lanzar un dado se obtenga un numero par es la siguiente

\[ P(\text{par}) = \frac{\text{Numero de casos favorables a "par"}}{\text{Numero de casos posibles}} = \frac{3}{6} = 0,5 \]

Distribuciones muestrales: estimacion de una media y de una proporcion


Introduccion a la probabilidad


Probabilidad y frecuencia relativa

  • Si A es un suceso aleatorio que ocurre un total de \( n_A \) veces sobre \( n \) intentos, la frecuencia relativa de A es \( \frac{n_A}{n} \)

  • Si el numero de repeticines es elevado, se espera que a medida que \( n \) aument, el cociente \( \frac{n_A}{n} \) tienda a estabilizarse alrededor de un valor entre 0 y 1.

  • La Probabilidad de ocurrencia del suceso A sera el limite del cociente \( \frac{n_A}{n} \) cuando el numero de intentos tiende a infinito. plot of chunk unnamed-chunk-1

pr2<-rep(NA, 1000) for (idx in 1:1000){ pr2[idx]<-sum(sample(dado, 1) %in% par)!=0 }

Distribuciones muestrales: estimacion de una media y de una proporcion


Introduccion a la probabilidad

Ejemplo

  • Se ha seleccionado una muestra de 500 viajeros y s pregunta a cada uno de ellos si pinsan volver a elegir esa compañia para futuros viajes.

  • De los 500, contestan que si 390

  • La frecuencia relativa es \( \frac{390}{500} = 0,78 \)

  • La muestra es elevada -> podemos utilizar la frecuencia relativa como una aproximacion a la probabilidad de qu un viajero que ha volado con esa compañia dcida elegirla para el futuro.

  • Podemos decir que se espera que aproximadamente el 78% de los viajeros de la compañia volveran a elegirla para viajar en el futuro.

Distribuciones muestrales: estimacion de una media y de una proporcion


Introduccion a la probabilidad

Ejercicio

¿Cual es la probabilidad de que en el lanzamiento de dos dados de seis caras cada uno, obtengamos un 7?

Distribuciones muestrales: estimacion de una media y de una proporcion


Variables aleatorias y distribucion de probabilidad

Variable aleatoria: es una variable que puede tomar un conjunto de valores, cada uno de ellos con una determinada probabilidad de ocurrir.

Ejemplo

No sabemos la puntuacion que obtendremos al lanzar un dado. El resultado es incierto. Pero sabemos que sera con certeza uno entre seis posibles valores. Y ademas sabemos la probabilidad de obtener cada uno de estos valores. En este caso la probabilidad es la misma para cada uno: \( \frac{1}{6} \)

Variable aleatoria discreta: puede tomar un numero finito de valores (como la puntuacion obtenida al lanzar un dado).

Variable aleatoria continua: puede tomar infinitos valores contenidos en un intervalo (como el gasto efectuado por un turista. Teoricamente puede tomar valores de 0 en adelante).

Distribuciones muestrales: estimacion de una media y de una proporcion


Distribucion de probabilidad de variables aleatorias discretas

  • Analoga a la distribucion de frecuencias de las variables cuantitativas discretas que vimos en el tema 2.

  • Funcion de probabilidad: los valores que puede tomar una variable discrita junto con las probabilidades de que ocurra cada uno de estos valores.

  • Supongamos que tenemos una variable \( X \) que toma lo valores \( x_1, x_2, ..., x_n \) cada uno de ellos con una probabilidad \( p_i = P(X = x_i) \)

\[ P(X = x_i) \text{Probabilidad de que la variable X tome el valor } x_i \]

  • Las probabilidades \( p_i \) de una variable aleatoria discrita son valores numericos no negativos cuya suma es uno.

\[ \text{Funcion de probabilidad de }X \]

\[ p(x_i) = P(X = x_i) \]

\[ \text{Valor de } X \text{ -> Probabilidad del valor de } X \]

Distribuciones muestrales: estimacion de una media y de una proporcion


Distribucion de probabilidad de variables aleatorias discretas

Ejemplo

  • Funcion de probabilidad del lanzamiento de un dado de seis caras

  • Todos los valores tienen la misma probabilidad de darse. Por lo tanto, para cualquier valor de \( x_i \)

\[ p(x_i) = P(X = x_i) = \frac{1}{6} \>\>\>\>\> x_i = 1, 2,..., 6 \]

Distribuciones muestrales: estimacion de una media y de una proporcion


Distribucion de probabilidad de variables aleatorias discretas

  • Funcion de probabilidad acumulada: probabilidad de que la variable tome un valor menor o igual al que se esta considerando

\[ F(x) = P(X\leq{x}) \]

Ejemplo

Si tomamos el ejemplo anterior del lanzamiento del dado

\[ \begin{align*} & F(1) = P(X\leq{1}) =\frac{1}{6} = 0,166 \>\>\>\>\>\>\>\>\> & F(4) = P(X\leq{4}) =\frac{4}{6} = 0,666\\ \\ & F(2) = P(X\leq{2}) =\frac{2}{6} = 0,333 \>\>\>\>\>\>\>\>\> & F(5) = P(X\leq{5}) =\frac{5}{6} = 0,833\\ \\ & F(3) = P(X\leq{3}) =\frac{3}{6} = 0,5 \>\>\>\>\>\>\>\>\> & F(6) = P(X\leq{6}) =\frac{6}{6} = 1 \end{align*} \]

Distribuciones muestrales: estimacion de una media y de una proporcion


Distribucion de probabilidad de variables aleatorias continuas

  • Como una variable continua puede tomar infinitos valores en un intervalo, la probabilidad de que tome un valor concreto es 0 (si tomamos la deficion clasisa de probabilidad, esto es, numero de casos favorables entre numero de casos posibles, el denominador seria infinito)

  • Funcion de densidad: funcion que representa la distribucion de probabilidad de los infinitos posiblies valores que puede tomar la variable.

  • Una funcion de desidad \( f(x) \) verifica las siguientes propiedades:

    • La funcion \( f(x) \) toma valores no neativos: \( f(x) \geq{0} \).
    • El area total que se encuentra debajo de la funcion \( f(x) \) es igual a 1.
    • La probabilidad de que la variable tome un valor contenido en un determinado intervalo \( (a, b) \) es igual al area contenida bajo la funcion \( f(x) \) entre los valores \( a \) y \( b \).

Distribuciones muestrales: estimacion de una media y de una proporcion


Distribucion de probabilidad de variables aleatorias continuas

La probabilidad de que la variable tome un valor contenido en un determinado intervalo \( (a, b) \) es igual al area contenida bajo la funcion \( f(x) \) entre los valores \( a \) y \( b \).

plot of chunk unnamed-chunk-2

Distribuciones muestrales: estimacion de una media y de una proporcion


Distribucion de probabilidad de variables aleatorias continuas

  • Funcion de distribucion o de probabilidad acumulara para una variable continua se define como

\[ F(X) = P(X \leq(x)) \]

El area coloreada en la siguiente figura ilustra la probabilidad de que la variable \( X \) tome valores iguales o menores a \( x_0 \)

plot of chunk unnamed-chunk-3

Distribuciones muestrales: estimacion de una media y de una proporcion

Medidas caracteristicas de una variable aleatoria

Resumen las caracteristicas de la distribucion de probabilidad de una variable aleatoria.

  • La esperanza matematica

  • Varianza

  • Desviacion estandar

Distribuciones muestrales: estimacion de una media y de una proporcion

Medidas caracteristicas de una variable aleatoria

La esperanza matematica

Vimos que la media aritmetica se puede expresar como

\[ \bar{x} = \frac{n_1x_1 + n_2x_2 + ... + n_kx_k}{n} \]

siendo \( k \) el numero de valores diferentes que toma la variable \( X \) y \( n_k \) es el numero de observaciones que tomasn el valor \( x_k \)

La expresion anterior puede reordenarse y expresarse de la siguiente manera

\[ \bar{x} = x_1\frac{n_1}{n} + x_2\frac{n_2}{n} +... + x_k\frac{n_k}{n} \]

Multiplicamos cada valor de \( X \) por su frecuencia relativa. Pero como vimos estas frecuencias relativas se pueden interpretar como probabilidades cuando trabajamos con variables aleatorias. Asi, la esperanza matematica queda definida como

\[ E[x] = \mu = \sum_{i}x_ip_i \]

Distribuciones muestrales: estimacion de una media y de una proporcion

Medidas caracteristicas de una variable aleatoria

Ejemplo




\( x_i \) \( p_i \)
0 0,1
1 0,2
2 0,4
3 0,2
4 0,1

\[ E[X] = 0\cdot0,1 + 1\cdot0,2 + 2\cdot0,4 + 3\cdot0,2 + 4 \cdot0,1 = 2 \]








plot of chunk fig

Distribuciones muestrales: estimacion de una media y de una proporcion

Medidas caracteristicas de una variable aleatoria

Ejercicio

Se mide la valoracion que un turista realiza de un determinado servicio en una escala que puede tomar valores de 0 a 5, en numeros enteros. Calcula la esperanza matematica de esta variable, basandote en su distribucion de probabilidad, que se representa a continuacion.

\( x_i \) \( p_i \)
0 0,001
1 0,006
2 0,050
3 0,200
4 0,400
5 0,343

Distribuciones muestrales: estimacion de una media y de una proporcion

Medidas caracteristicas de una variable aleatoria

Varianza y desviacion tipica

La varianza es una medida de la dispersion de los valores de una variable aleatoria respecto a su esperanza

La varianza de una variable aleatoria discreta \( X \) se describe como


\[ \sigma^2 = E[(X - \mu)^2] = \sum_{i}(x_i - \mu)^2p(x_i) \]


La desviacion estandar es la raiz cuadrada de la varianza


\[ \sigma = \sqrt{\sum_{i}(x_i - \mu)^2p(x_i)} \]

Distribuciones muestrales: estimacion de una media y de una proporcion

Medidas caracteristicas de una variable aleatoria

Dos variables con la misma esperanza matematica pero diferente varianza

plot of chunk unnamed-chunk-4

\[ \mu = 0 \]

Distribuciones muestrales: estimacion de una media y de una proporcion

Medidas caracteristicas de una variable aleatoria

Ejemplo

En el ejemplo anterior se ha calculado la esperanza de una variable aleatoria \( X \) que representa la puntuacion obtenida al extraer una bola al azar de una urna. A partir de la distribucion de probabilidades de la variable \( X \) se puede obtener su varianza.

Recordemos, que en el ejemplo anterior calculamos \( E(X) = 2 \)

\( X_i \) \( p_i \) \( (x_i - E[X]) \) \( (x_i - E[X])^2 \) \( (x_i - E[X])^2\cdot p_i \)
0 0,1 -2 4 0,4
1 0,2 -1 1 0,2
2 0,4 0 0 0
3 0,2 1 1 0,2
4 0,1 2 4 0,4

\[ \sigma^2 = 0,4 + 0,2 + 0 + 0,2 + 0,4 = 1,2 \]

Distribuciones muestrales: estimacion de una media y de una proporcion

Medidas caracteristicas de una variable aleatoria

Ejercicio

En la terminal de salida de un aeropuerto se ha preguntado a 60 turistas de las Illes Balears, sobre el numero de visitas turisticas que ha realizado a las islas (contando estas). A continuacion se detalla la distribucion de probabilidad. Las probabilidades estan basadas en las frecuencias relativas.

\( X_i \) \( p_i \)
1 0,25
2 0,33
3 0,20
4 0,15
5 0,05
6 0,02

Calcula la varianza y la desviacion estandar

Distribuciones muestrales: estimacion de una media y de una proporcion

La distribucion de probabilidad normal

  • Sabemos que, en lo que concierne a distribuciones de probabilidad, hay ciertos comportamientos que se repiten con frecuencias.

  • Esto es, hay distribuciones de probabilidad que se repiten con frecuencia*

  • Estas distribuciones de probabilidad han estudiado. Se conoce su expresion matematica.

  • De esta manera, al estudiar una variable con una distribucion de probabilidad conocida, no es necesario analiar el comportamiento de esa variable completa, sino que se pueden aplicar las propiedades de la distribucion conocida.

  • La distribucion de probabilidad mas conocida es la distribucion normal, tambien conocida como campana de Gauss.

Distribuciones muestrales: estimacion de una media y de una proporcion

La distribucion de probabilidad normal

La “distribucion normal” se corresponde con un comportamiento de variables aleatorias continuas para las posibilidades de que tomen valores intermedios son eleadas pero s mas extraño que tomen valores extremos.

plot of chunk unnamed-chunk-5

Distribuciones muestrales: estimacion de una media y de una proporcion

La distribucion de probabilidad normal







\[ f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x - \mu}{\sigma})^2} \]






plot of chunk unnamed-chunk-6

Distribuciones muestrales: estimacion de una media y de una proporcion

La distribucion de probabilidad normal

  • Si una variable sigue una distribucion normal con media \( \mu \) y varianza \( \sigma^2 \), lo escribimos de esta manera

\[ X\sim{N}(\mu, \sigma^2) \]

  • A partir de aqui, podemos calcular las probabilidades de los valores de \( X \), conociendo la media y la varianza.

  • Para calcular las probabilidades de un intervalo de valores, tendremos que usar la funcion de probabilidad cada vez, para cada variable que tenga una media y una varianza diferente.

  • Pero hay una forma de automatizar parte de este proceso: estandarizar la variable

Distribuciones muestrales: estimacion de una media y de una proporcion

La distribucion de probabilidad normal

Variable normal estandar

  • Si a una variable normal cualquiera \( X \) se le resta su media y se divide por su desviacion estandar, se obtine una variable normal con media 0 y desviacion estandar 1 (recordar las propiedades de la media y la desviacion estandar del tema 2).

  • A esta variable estandarizada la llamaremos \( Z \)

\[ \frac{X - \mu}{\sigma} = Z \]

  • La distribucion de la variable \( Z \) sera

\[ Z\sim{N}(0,1) \]

  • A este proceso se le llama estandarizar o tipificar una variable.

Distribuciones muestrales: estimacion de una media y de una proporcion

Ejemplo

Tenemos una variable \( X \) que toma los valores {1, 1, 2, 5, 5, 6, 8}

La media \( \mu = 4 \)

La desviacion estandar es \( \sigma = 2,7 \)

El valor estandarizado de la primera observacion es \( z_1 = \frac{1-4}{2,7} = -1,11 \)

El valor estandarizado de la tercera observacion es \( z_3 = \frac{2-4}{2,7} = -0,74 \)

Si hacemos lo mismo para el resto de observaciones, los valores de la variable estandarizada quedaran de la siguiente manera.

\[ Z = \{-1,11; -1,11; -0,74; 0,37; 0,74; 1,48\} \]

Si calculais la media y la desviacion estandar de \( Z \) vereis que os dan 0 y 1 respectivamente.

Distribuciones muestrales: estimacion de una media y de una proporcion

Ejercicio

La variable \( X \) esta formada por los siguientes valores: {1, 3, 4, 5, 7}

La media de esta variable es 4 y la desviacion estandar es 2.2

Estandariza esta variable: calcula los valores estandarizados de \( X \)

Distribuciones muestrales: estimacion de una media y de una proporcion

La distribucion de probabilidad normal

  • Podemos conocer las probabilidades acumuladas de esta variable \( Z \) (esto es, las probabilidades de que \( Z \) tome un valor igual o inferior a un valor determinado)

\[ P(Z\leq{z}) \]

plot of chunk unnamed-chunk-8

Si conocemos \( P(Z\leq{z}) \) automaticamente conocemos \( P(Z>z) = 1 - P(Z\leq{z}) \)

Distribuciones muestrales: estimacion de una media y de una proporcion

La distribucion de probabilidad normal

Tambien podemos conocer \( P(z_0\leq{Z}\leq{z_1}) \)

plot of chunk unnamed-chunk-9

\[ P(z_0\leq{Z}\leq{z_1}) = P(Z\leq{z_1})- P(Z\leq{z_0}) \]

Distribuciones muestrales: estimacion de una media y de una proporcion

Distribuciones muestrales: estimacion de una media y de una proporcion

  • Pero a mi no me interesa conocer las probabilidades asociadas a los valores de la variable \( Z \), yo quiero conocer las probabilidades asociadas a los valores de la variable original, antes de ser estandarizada!!

  • Partiendo de las probabilidades de \( Z \) podemos conocer las probabilidades asociadas a los valores de la variable original \( X \)

Supongamos que tenemos una variable \( X \) que se distribuye siguiendo una distribucion normal con media \( \mu_x \) = 10 y desviacion estandar \( \sigma_x = 3 \), es decir, \( X\sim{N}(10, 9) \) ¿Cual es la probabilidad que la variable \( X \) pueda tomar valores iguales inferiores a 8?

\[ P(X\leq{8}) = P(X - \mu_x \leq8 - \mu_x) = P\left(\frac{X - \mu_x}{\sigma_x} \leq\frac{8 - \mu_x}{\sigma_x}\right)= P\left(Z\leq\frac{8 - 10}{3}\right) = P(Z\leq-0,67) \]

\[ P(X\leq{8}) = P(Z\leq-0,67) \]

Miramos en la tabla

\[ P(Z\leq-0,67) = 1 - P(Z\leq0,67) = 1 - 0,7486 = 0,2514 \simeq25 \% \]

\[ P(X\leq{8}) \simeq25 \% \]

Distribuciones muestrales: estimacion de una media y de una proporcion

Ejemplo

La variable \( X \) sigue la siguiente distribucion: \( X\sim{N}(5, 16) \)

Calcula la probabilidad de que la variable X tome un valor superior a 7

\[ P(X>7) = P\left(\frac{X -\mu_x}{\sigma_x} >\frac{7 - \mu_x}{\sigma_x}\right) = P\left(Z>\frac{7 - 5}{12}\right) = P(Z>0,5) \]

\[ P(Z>0,5) = 1 - P(Z\leq0,5) = 1 - 0,6915 \simeq0,30 \]

plot of chunk unnamed-chunk-10

Distribuciones muestrales: estimacion de una media y de una proporcion

Ejercicio

Dada la variable del anterior ejemplo, con distribucion \( X\sim{N}(5, 16) \), calcula la probabilidad de que observando un valor al azar este sea menor o igual que 6.

Distribuciones muestrales: estimacion de una media y de una proporcion

Teorema central del limite


  • Si se tienen \( n \) variables aleatorias \( X_1, X_2,..., X_n \) independientes y con identica distribucion de media \( \mu \) y varianza \( \sigma^2 \), a medida que crece \( n \), la suma (y a media) de estas variables tiende a seguir una distribucion normal.

  • Idependientemente, la suma y la media de un numero suficiente de varibles aleatorias independientes, se distribuira siguiendo una normal, sea cual sea la distribucion de estas variables tomadas de forma idepndiente.

  • Este teorema es crucial para las estimaciones de una media y de una proporcion de una poblacion, que veremos a continuacion, asi como para los contrastes de hipotesis.

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion de parametros poblacionales


  • Queremos estudiar las caracteristicas de una poblacion: unos parametros (media, desviacion estandar, proporcion…)

  • Pero no podemos acceder a toda la poblacion (costes, tiempo, etc.)

  • Solucion: se analiza solo un subconjunto de estos elementos, una muestra

  • A partir de la informacion de la muestra, calculamos una estimacion de estos parametros.

  • El objetivo es generalizar a toda la poblacion las conclusiones obtenidas del analisis de las obervaciones muestrales.

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion de parametros poblacionales

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion de parametros poblacionales


  • Parametro: una medida de la caracteristica a estudiar en la poblacion


  • Estimador: una funcion de las observaciones muestrales que permite obtener estimaciones de un determinado parametro poblacional


  • Estimacion: un calculo realizado sobre los elementos de una muestra para inferir el valor del parametro poblacional.

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion de parametros poblacionales

Concepto importante: un estimador es una variable aleatoria

  • Un estimador de un parametro de la poblacion es una variable aleatoria: si pudieramos extraer 50 muestras de una variable continua de una poblacion y calcularamos 50 medias muestrales, obtendriamos (con bastante probabilidad) 50 medias diferentes.

  • Al ser una varible aleatoria, tendra que ser tratada como tal. Asi, un estimador tiene una funcion de probabilidad

  • Procedimientos de estimacion:

    • Estimacion puntual: se da un unico valor como estimacion del parametro poblacional (ejemplo: dar una media muestral del gasto turistico como estimador de la media el gasto de la poblacion)
    • Estimacion por intervalo: se da un rango de valores. Se espera que el parametro poblacional este contenido en ese rango de valores con una cierta probabilidad. (Ejemplo: “Se estima que, con una probabilidad del 95%, en media, cada turista gasto durante su estancia entre 200 y 300 euros”)

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion puntual

Estimacion de la media poblacional

Se puede utilizar la media muestral como estimador de la media poblacional

Dada la ariable \( X \), con una distribucion cuaquiera, cuya media poblacional es \( \mu \) y cuya varianza poblacional es \( \sigma^2 \) definimos la media muestral como

\[ \bar{x} = \frac{\sum_{i = 1}^{n} x_i}{n} \]

Donde \( n \) es el numero de observaciones muestrales, \( x_1, x_2,...,x_n \)

Sea cual sea la distribucion de la variable \( X \), la esperanza y la varianza de \( \bar{x} \) son

\[ E(\bar{x}) = \mu \>\>\>\>\>\> var(\bar{x}) = \frac{\sigma^2}{n} \]

Sea cual sea la forma de la distribucion de \( X \), ppor el teorema central del limite la distribucion del estimador \bar{x} se puede aproximar a una normal.

\[ \bar{x}\sim{N}(\mu, \frac{\sigma^2}{n}) \]

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion puntual

Ejemplo

Se considera una variable \( X \) con una media \( \mu \) y una varianza \( \sigma^2 \). Se quiere estimar el valor de la media de la variable \( X \) para esta poblacion y para ello se extrae una muestra de 10 elementos para los que los alores de la variable \( X \) son los siguientes:

31, 12, 8, 32, 10, 4, 81, 52, 91, 23

La media muestral seria

\[ \bar{x} = \frac{\sum_{i=1}^{n}x_i}{n} = \frac{31 + 12 +8 + 32 + 10 + 4+ 81 + 52 + 91 + 23}{10} = 34,4 \]

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion puntual

Estimacion de la proporcion poblacional

A veces es interesante estimar la proporcion de elementos que representan una determinada caracteristica en una poblacion, por ejemplo, ela proporcion de turistas de una determinada nacionalidad.

Se define la proporcion poblacional como el numero de elementos que toman una determinada caracteristica en un poblacion entre el numero de elementos totales.

Un estimador de la proporcion poblacional es la proporcion muestral

\[ \hat{p} = \frac{n_1}{n} \]

Donde \( n_1 \) es el numero de elementos en la muestra que toman la caracteristica de interes y \( n \) es el numero de elementos totales o observaciones de la muestra.

Por el teorema central del limite, para un tamaño de muestra lo suficientemente grande, sabemos que la proporcion muestral se distribuira de la siguiente manera

\[ \hat{p}\sim{N}\left(p, \frac{p(1-p)}{n}\right) \]

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion puntual

Ejemplo

Se pretende estimar la proporcion de turistas que contratan un paquete turistico para viajar a una determinada region. Se ha seleccionado una muestra aleatoria de 1.000 turistas, a los quw se les pregunta si contrataron un paquete turistico par viajar al destino. 800 turistas respondieron que si y 200 respondieron que no. La proporcion muestral sera

\[ \hat{p} = \frac{n_1}{n} = \frac{800}{1.000} = 0,8 \]

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion por intervalos

  • Las estimaciones son solo aproximaciones del verdadero valor del parametro poblacional.

  • Una estimacion puntual puede quedarse lejos del verdadero valore del parametro.

  • Con la estimacion puntual no tenemos informacion sobre la fiabilidad de los resultados.

  • Con la estimacion por intervalos utilizamos los datos de la muestra para construir un intervalo de valores que se espera que contenga el valor del parametro poblacional un determinado porzantaje de las muestras. Este porcentaje se denomina nivel de confianza

  • Nivel de confianza: probabilidad de extraer una muestra que de lugar a un intervalo de confianza que contenga el valor poblacional.

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion por intervalos

En el caso de extraer multiples muestras, esperamos que el parametro de la poblacion (en este caso \( \mu \)) este contenido la mayoria de las veces en estos intervalos. plot of chunk unnamed-chunk-11

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion por intervalos

Cuanto mayor es el intervalo, mayor es la probabilidad de que contenga el parametro poblacional, pero es mas impreciso

plot of chunk unnamed-chunk-12

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion por intervalos

Notacion

\[ IC(\theta)_{(1-\alpha)\cdot100} \]

  • Esta expresion se corresponde con el intealo de confianza al \( (1 - \alpha) \cdot100 \% \) de nivel de confianza para el parametro \( \theta \).

  • \( alpha \) es la probabilidad de obtener un intervalo que no contenga el valor poblacional.

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion por intervalos

Intervalo de confianza para la media de una poblacion (varianza conocida)

Supongamos una variable \( X\sim{N}(\mu, \sigma^2) \)

Pasos para construir el intervalo de confianza:

  • Sabemos que la media muestral se distribuye de la siguiente manera \( \bar{x}\sim{N}(\mu, \frac{\sigma^2}{n}) \)

  • Podemos estandarizar esta varialble

\[ Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\sim{N}(0,1) \]

  • Podemos establecer la probabilidad de que esta variable \( Z \) este en un intervalo con una cierta probabilidad

\[ P \left(-Z_{0,025}\leq\frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\leq{Z}_{0,025}\right) = 0,95 \]

Donde \( Z_{0,025} \) es el valor para el que se verifica que \( P(Z>Z_{0,025}) = 0,025 \). Si miramos las tablas estadisticas, veremos que este valor es 1,96 aproximadamente.

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion por intervalos

\[ P \left(-Z_{0,025}\leq\frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\leq{Z}_{0,025}\right) = 0,95 \]

\[ P\left(-Z_{0,025}\leq{Z}\leq{Z}_{0,025}\right) = 0,95 \]

La probabilidad de que la variable estandarizada \( Z \) este entre -1,96 y 1,96 es del 95%

plot of chunk unnamed-chunk-13

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion por intervalos

Pero nosotros no estamos interesados en el intervalo de confianza de la variable estandarizada \( Z \), sino del paramtero media poblacional \( \mu \). Para obtenerla podemos despejar \( \mu \) de la expresion obtenida del intervalo de confianza para \( Z \)

\[ P\left(-Z_{0,025}\leq\frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\leq{Z}_{0,025}\right) = 0,95 \]

\[ P \left(-Z_{0,025}\frac{\sigma}{\sqrt{n}}\leq\bar{x} - \mu\leq{Z}_{0,025}\frac{\sigma}{\sqrt{n}}\right) = 0,95 \]

\[ P \left(\bar{x}-Z_{0,025}\frac{\sigma}{\sqrt{n}}\leq\mu\leq\bar{x} + {Z}_{0,025}\frac{\sigma}{\sqrt{n}}\right) = 0,95 \]

Ya tenemos el intervalo de confianza: el intervalo en el que estara contenida \( \mu \) con un 95% de probabilidad. Lo podemos escribir de la siguiente manera

\[ IC(\mu_{95\%}) = [\bar{x}-Z_{0,025}\sigma/{\sqrt{n}}, \bar{x}+Z_{0,025}\sigma/{\sqrt{n}}] \]

Generalizando para cualquier amplitud, el intervalo de confianza para la media de una poblacion normal se expresaria de la siguiente maner

\[ IC(\mu_{(1-\alpha)\cdot{100\%}}) = [\bar{x}-Z_{\alpha/2}\sigma/{\sqrt{n}}, \bar{x}+Z_{\alpha/2}\sigma/{\sqrt{n}}] \]

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion por intervalos

Ejemplo

Considerese una poblacion en la que una variable \( X \) sigue una distribucion normal de media \( \mu \) y varianza \( \sigma^2 \). Se ha extraio una muestra de 50 observaciones con las que se ha calculado la media muestral obteniendo que \( \bar{x} \) es igual a 35. A partir de esta informacion el intervalo de confianza del 95% para la media poblacional seria

\[ IC(\mu)_{95\%} = \big[35 - 1,96\frac{10}{\sqrt{50}}, 35 + 1,96\frac{10}{\sqrt{50}}\big] = [32,23; 37,77] \]

Con un 95% de probabilidad, la media poblacional estara contenida entre 32,23 y 37,77.

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion por intervalos

Ejemplo

Se considera una variable \( X \) con distribucion normal de media \( \mu \) desconocida y varianza conocida \( \sigma^2 \) = 16. para estimar el valor de la media poblacional se ha extraido una muestra de 20 observaciones y se ha calculado el valorde la media muestral, obteniendo que esta es igual a 10. El intervalo de confianza seria

\[ IC(\mu)_{90\%} = \big[10 - 1,64\frac{4}{\sqrt{20}}, 10 + 1,64\frac{4}{\sqrt{20}}\big] = [8,53; 11,47] \]

Con un 90% de probabilidad, la media poblacional estara contenida entre 8,53 y 11,47.

Observad aqui que los valores de \( Z_{-\alpha/2} \) y \( Z_{\alpha/2} \) son -1,64 y 1,64 respectivamente, eso es porque al ser el intervalo del 90%, el valor de \( \alpha \) es 0,05. Recordemos que \( \alpha \) es la probabilidad de que la media no este contenida en el intervalo. Es decir 0,10 (o 10%). Tenemos que contar que hay dos extremos del intervalo. La probabilidad de que le media poblacional no este contenida en el intervalo es la probabilidad de que este por debajo, mas la probabilidad de que este por encima, de ahi 0,05 + 0,05 = 0,10.

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion por intervalos

Ejercicio

Una variable \( X \) se distribuye siguiendo una normal. Estamos interesados en estimar su media \( \mu \). Conocemos la varianza de esta variable, \( \sigma^2 \) = 2. Hemos calculado una media a partir de una muestra de 50 observaciones, obteniendo un valor de \( \bar{x} = 11 \)

Escribe el intervalo de confianza para esta estimacion con un nivel de confianza del 95%.

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion por intervalos

Amplitud del intervalo

A partir de la expresion del intervalo de confianza

\[ IC(\mu_{(1-\alpha)\cdot{100\%}}) = [\bar{x}-Z_{\alpha/2}\sigma/{\sqrt{n}}, \bar{x}+Z_{\alpha/2}\sigma/{\sqrt{n}}] \]

Podemos deducir cual sera la amplitud del intervalo

\[ A = 2\cdot{Z_{0,025}}\sigma/\sqrt{n} \]

Vemos que la amplitud depende de diferentes componentes

  • El nivel de confianza: especificado aqui por \( Z_0,025 \). Cuanto mas grande mas amplio es el intervalo.

  • La varianza de la poblacion, \( \sigma^2 \): cuanto mas alta mas amplio sera el intervalo.

  • El tamaño de la muestra: cuanto mas grande menor sera el intervalo.

Reduciendo el nivel de confianza del intervalo, nuestra estimacion sera mas precisa pero la probabilidad de que el intervalo contenga el verdadero valor de la media poblacional sera menor. La varianza poblacional es un elemento que no podemos controlar. El unico elemento sobre el que podemos tener cierto control, por lo menos hasta cierto limite, es el tama&ntile;o de la muestra. Incrementando el tamaño de la muestra nuestro intervalo es mas preciso (se reduce) sin tener que modificar el nivel de confianza (no modificamos \( Z_{0,025} \)).

Distribuciones muestrales: estimacion de una media y de una proporcion

Estimacion por intervalos

Intervalo de confianza para proporcion. Muestras grandes.

Vimos anteriormente, el estimador de la proporcion poblacional: la proporcion muestral \( \hat{p} \). Tambien vimos como se distribuye este estimador cuando el tamaĩo de la muestra es lo suficientemente grante.

\[ \hat{p}\sim{N}\left(p,\frac{p(1-p)}{n}\right) \]

Siguiendo el mismo procedimiento que utilizamos para construir el intervalo de la media poblacional, podemos especificar aqui el intervalo de confianza para la proporcion poblacional

\[ IC(p)_{(1-\alpha)\cdot100\%} = \Big[\hat{p} - Z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p} + Z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\Big] \]

Distribuciones muestrales: estimacion de una media y de una proporcion

Ejemplo

En una muestra de 100 observaciones se ha obtendo que la proporcion de elementos que presentan una determinada caracteristica es igual a 0,75. A partir de esta estimacion puntual se calcula un intervalo de confianza del 99% para la proporcion de individuos que preentan la caracteristica de interes en la poblacion


\[ IC(p)_{99\%} = \Big[0,75 - Z_{0,005}\sqrt{\frac{0,75(1-0,75)}{100}}, 0,75 + Z_{0,005}\sqrt{\frac{0,75(1-0,75)}{100}}\Big] \]


En las tablas de la distribucion normal estandar se puede comprobar que \( Z_{0,005} = 2,58 \).


\[ IC(p)_{99\%} = \Big[0,75 - 2,58\sqrt{\frac{0,75(1-0,75)}{100}}, 0,75 + 2,58\sqrt{\frac{0,75(1-0,75)}{100}}\Big] \]

\[ IC(p)_{99\%} = [0,64; 0,86] \]

Contraste de hipotesis de una media y una proporcion

Contrastacion de hipotesis

  • El objetivo es contrastar la validez de una afirmacion sobre un parametro poblacional a traves de la informacion que tenemos.

  • En esta muestra la media obtenida es 6 ¿Es posible que la media de la poblacion sea 10 o mayor?

  • La contrastacion de hipotesis consiste en contrastar la hipotesis con la realidad observada, con los datos de los que disponemos. Si los datos observados contradicen la hipotesis se sustituira con otra que sea coherente con lo observado en la realidad.

  • La afirmacion que se formula sobre el parametro poblacional y se mantiene mientrs no haya evidencia de lo contrario se denomina hipotesis nula, representada como \( H_0 \)

  • La hipotesis que sera aceptada en caso de que los datos nos hagan concluir que la hipotesis nula es falsa se denomina hipotesis alternativa, representada com \( H_A \).

Contraste de hipotesis de una media y una proporcion

Contrastacion de hipotesis

  • Hay que tener en cuenta de que los datos provienen de una muestra, y que una diferencia minima de la hipotesis nula respecto a los datos obtenidos de la muestra, puede deberse al azar, al hecho de que hayamos escogido esta muestra y no otra.

  • Hay que establecer un limite a partir del cual, no podemos aceptar la hipotesis nula a partir de los datos observados, un limite que a pertir del cual establecemos que es demasiado improbable observar los datos que estamos observando en caso de que la hipotesis nula sea cierta.

  • Consideraremos que mas alla de ese limite la diferencia que observamos entre los datos y la hipotesis establecida no puede deberse al azar, al hecho de trabajar con una muestra especifica, sino que las diferencias son reales.

Contraste de hipotesis de una media y una proporcion

Contraste de la media de una poblacion con varianza conocida

  • Tenemos una variable \( X \), que se distribuye siguiendo una normal, con media \( \mu \) desconocia, y varianza \( \sigma^2 \) conocida.

  • Se dispone de una muestra de \( n \) observaciones. Se calcula la media muestral, \( \bar{x} \)

  • Se quiere contrastar la siguiente hipotesis sobre el valor de la media poblacional: \( \mu \) es igual a un valor concreto \( \mu_0 \). La hipotesis nula seria

\[ H_0: \mu = \mu_0 \]

Si se conlcuye que esta hipotesis es falsa, se sustituye por la alternativa. Solo hay una hipotesis alternativa posible: \( \mu \) es diferente de \( \mu_0 \)

\[ H_A:\mu \neq \mu_0 \]

  • La clave aqui es que habra un punto a partir del cual el cual \( \mu_0 \) estara demasiado alejado de \( \mu \) para considerar que la hipotesis nula es cierta. En otras palabras, si la hipotesis nula fuera seria demasiado “raro” (o improbable) observar el valor de \( \mu \) que hemos observado. Es aqui cuando consideramos que la hipotesis cierta es la alternativa.

Contraste de hipotesis de una media y una proporcion

Contraste de la media de una poblacion con varianza conocida

  • Consideraremos como limite, un valor que sea poco probable observar si la hipotesis nula es cierta. Uno que e suele usar es el 5% (0,05): si \( \mu_0 \) ocurre con una probabilidad igual o menor al 5% en caso de que la hipotesis nula sea cierta, consideraremos que es cierta la hipotesis alternativa. A esta probabilidad se le llama nivel de significacion y se suele representar con el simbolo \( \alpha \).

  • Asi, el rechazar o aceptar la hipotesis nula depende del nivel de significacion \( \alpha \) que asignemos al contaste

  • Otra forma de ver el nivel de significacion es como la probabilidad de rechazar la hipotesis nula, en caso de que esta sea cierta. Hemos dicho que rechazamos la hipotesis nula cuando observar un valor de \( \mu_0 \) es demasiado improbable o raro. Pero eso no quiere decir que sea imposible. Simplemente podemos estar ante un ese caso raro en el que siendo la hipotesis nula cierta, observamos \( \mu_0 \). En ese caso estariamos rechazando la hipotesis nula cuando es cierta.

Contraste de hipotesis de una media y una proporcion

Contraste de la media de una poblacion con varianza conocida

Contrastando la hipotesis

Podemos contrastar si la hipotesis nula es cierta o no basandonos en el intervalo de confianza para una media poblacional visto anteriormente, con un nivel de confianza del 95%.

\[ P\left(-Z_{0,025}\leq\frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\leq{Z}_{0,025}\right) = 0,95 \]

Si la hipotesis nula es cierta, se cumple que

\[ P\left(-Z_{0,025}\leq\frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}\leq{Z}_{0,025}\right) = 0,95 \]

Esto significa que si la hipotesis nula es cierta \( \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}} \) estara entre \( -Z_{0,025} \) y \( Z_{0,025} \) con una probabilidad del 0,95. Valores fuera de este intervalo son considerados demasiado improbable y nos hacen rechazar la hipotesis nula.

De esta manera, se rechaza la hipotesis nula si

\[ \Big|\frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}\Big| > Z_{0,025} \]

Contraste de hipotesis de una media y una proporcion

Contraste de la media de una poblacion con varianza conocida


En el desarrollo anterior, hemos trabajado con un nivel de significacion \( \alpha \) especifico igual a 0,05.


Generalizando para cualquier nivel de especificacion \( \alpha \), si \( \mu \) es la media de una poblacion normal con varianza conocida, la hipotesis \( H_0: \mu = \mu_0 \) se rechaza y sustituye por la hipotesis \( H_A:\mu \neq\mu_0 \), si:


\[ \Big|\frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}\Big| > Z_{\alpha/2} \]

Si N no se distribuye siguiendo una normal pero la muestra es grande, por el teorema central del limite, podemos usar el mismo contraste.

El cociente en la parte derecha de esta inecuacion se denomina estadistico de contraste.

Entonces, decimos que rechazamos la hipotesis nula si el estadistico de contraste es superior, en valor absoluto al nivel de significacion.

Contraste de hipotesis de una media y una proporcion

Contraste de la media de una poblacion con varianza conocida

Ejemplo

De una poblacion normal con media \( \mu \) y varianza 100 se extrae la siguiente muestra:

13, 21, 4, 13, 5, 2, 18, 25, 19, 32

¿Puede afirmarse, con un nivel de significacion del 5%, que la media poblacional es igual a 7?

\[ H_0: \mu = 7 \]

\[ H:_A: \mu \neq 7 \]

\[ \frac{\bar{x} - \mu_0}{\sqrt{\sigma^2/n}} = \frac{15,2 - 7}{\sqrt{100/10}} = 2,59 \]

Pueto que el valor de estadistico, 2,59, es mayor que \( Z_0,025 = 1,96 \), se rechaza la hipotesis nula \( H_0:\mu=7 \)

Contraste de hipotesis de una media y una proporcion

Contraste para la proporcion poblacional. Muestras grandes.

Aqui, queremos contrastar la hipotesis de que la proporcion poblacional, pueda ser igual a un valor especifico \( p_0 \).

\[ H_0: p = p_0 \]

\[ H_A: p \neq p_0 \]

Siguiendo el mismo proceso logico que hemos utilizado para el contraste de hipotesis de la media poblacional, podemos obtener el criterio que nos lleva a rechazar la hipotesis nula para la proporcion poblacional.

La hipotesis nula se rechaza si

\[ \Big|\frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}\Big|>Z_{\alpha/2} \]

Contraste de hipotesis de una media y una proporcion

Contraste para la proporcion poblacional. Muestras grandes.

Ejemplo

Para constarstar la hipotesis de que el 50% de los elementos d euna problacion presentn una detoerminada caracteristica, se h extraido una muestra de 100 observaciones y se ha calculado el valore de l aproporcion muestra, obteniendo que el valor de la misma es igual a 0,55

\[ H_0: p = 0,50 \]

\[ H_A: p \neq 0,50 \]

\[ \frac{\hat{p} - p}{\sqrt{\frac{p_0(1-p_0)}{n}}}= \frac{0,55 - 0,50}{\sqrt{\frac{0,50\cdot{0,50}}{100}}} = 1 \]

Si se supone que el nivel de significacion es del 0,05, \( Z_{\alpha/2} \) es \( Z_{0,025} \), que es igual a 1,96. Entonces, dado que 1 es menor que 1,96 no se puede rechazar la hipotesis nula \( H_0: p = 0,50 \)

Comparacion de dos medias

Contraste de igualdad de medias con varianzas conocidas

  • Tenemos dos poblaciones

  • Queremos comparar sus medias: saber si la media de una de las poblaciones es la misma que la de la otra.

  • Suponemos que la variable de interes tiene una distribucion normal en ambas poblaciones, con una media igual a \( \mu_1 \) en la primera y \( \mu_2 \) en la segunda. Las varianzas son \( \sigma^2_1 \) y \( \sigma^2_2 \) respectivamente.

  • La hipotesis nula sera

\[ H_0: \mu_1 = \mu_2 \]

O lo que es lo mismo

\[ H_0:\mu_1 - \mu_2 = 0 \]

y la hipotesis alternativa

\[ H_A:\mu_1 - \mu_2 \neq 0 \]

Comparacion de dos medias

Contraste de igualdad de medias con varianzas conocidas

  • Resumiento, las hipotesis de contraste son

\[ H_0:\mu_1 - \mu_2 = 0 \]

\[ H_A:\mu_1 - \mu_2 \neq 0 \]

  • Utilizamos la diferencia de medias muestrales \( \bar{x}_1 - \bar{x}_2 \) como estimador de la diferencia de las medias poblacionales \( \mu_1 - \mu_2 \)

  • El estadistico de contraste para evaluar si hay diferencia de medias es

\[ \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{\sigma^2_1}{n_1} + \frac{\sigma^2_2}{n_2}}} \]

Se rechazara la hipotesis nula si el valor absoluto de este estadixico es superior a \( Z_{\alpha/2} \)

Comparacion de dos medias

Contraste de igualdad de medias con varianzas conocidas

Ejemplo

Se puede considerar que en un determinado destino turistico, del total de turistas que llegan cada año , un elevado porcentaje son turistas que ya lo habian visitado con anterioridad. Se quiere conocer si el gasto per capita que hacen lo turistas repetidores es el mismo que hacen los que visitan el destino por vez primera. Es decir, se quiere contrastar la hipotesis

\[ H_0:\mu_R = \mu_{NR} \]

\[ H_A:\mu_R \neq \mu_{NR} \]

Se dispone de una muestra de 2.629 turistas repetidores y otra de 1.198 no repetidores. Se ha calculado el valor de la media muestral para estos dos grupos: \( \bar{x}_R = 67,17 \); \( \bar{x}_{NR} = 69,47 \). El casto per captita de los dos grupos se distribuye normalmente. Se sabe que la varianza es 839,51 para los turistas repetidores y 927,01 para los no repetidores.

El estadistico de contraste es

\[ \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{\sigma^2_1}{n_1} + \frac{\sigma^2_2}{n_2}}} = \frac{67,17- 69,47}{\sqrt{\frac{839,51}{2.628} + \frac{927,01}{1.198}}} = -2,20 \]

Si realizamos este contraste para un nivel de significacion del 0,05 rechazamos la hipotesis de igualdad de medias ya que \( Z_0,025 = 1,96 \) es menor en valor absoluto que el valor calculado del estadistico: \( 1,96<|-2,20| \)