El proceso de hacer afirmaciones acerca de una población basándose en información muestral.

Introducción

La inferencia es la rama de la estadística que permite sacar conclusiones de una población a través de los resultados obtenidos con una muestra. Es decir, el objetivo de la inferencia es estimar o probar hipótesis sobre parámetros poblacionales, teniendo en cuenta la distribución o modelo de probabilidad de la población, a partir de los valores observados de la muestra. La inferencia estadística se puede dividir en dos partes: estimación (puntual o por intervalo) y pruebas de hipótesis. En esta sección veremos algunos conceptos fundamentales para su desarrollo.%

Investigación Cuantitativa

Se basa en un tipo de pensamiento deductivo, que va desde lo general a lo particular, utilizando la recolección y análisis de datos para contestar preguntas de investigación y probar hipótesis establecidas previamente.Además, confía en la medición numérica, el conteo y frecuentemente en el uso de estadísticas para establecer con exactitud, patrones de comportamiento en una población. - asume una postura objetiva - estudia conductas y otros fenómenos observables, - genera datos numéricos para representar el ambiente social - emplea métodos estadísticos para analizar los datos e infiere más allá de los datos - emplea procedimientos de inferencia estadística para generalizar las conclusiones de una muestra a una población definida - es confirmatoria, inferencial y deductiva.

INVESTIGACIÓN CUALITATIVA INVESTIGACIÓN CUANTITATIVA
Objetivo Lograr un entendimiento cualitativo de las razones y motivaciones subyacentes Cuantificar los datos y generalizar los resultados de la muestra a la población de interés
Muestra Número pequeño de casos no representativos Número “grande” de casos representativos
Recolección de datos No estructurada Estructurada
Análisis de datos No estadístico Estadístico
Resultado Establecer una comprensión inicial Recomendar un curso de acción final

Diferencias entre la investigación exploratoria y la concluyente

EXPLORATORIA CONCLUYENTE
Objetivo: Proporcionar información y comprensión Probar hipótesis específicas y examinar relaciones
Características: La información necesaria sólo se define vagamente La información necesaria se define con claridad
El proceso de investigación es flexible y no estructurado El proceso de investigación es formal y estructurado
La muestra es pequeña y no representativa La muestra es grande y representativa
El análisis de los datos primarios es cualitativo El análisis de datos es cuantitativo
Hallazgoso resultados: Tentativos Concluyentes
Consecuencias: Por lo general, va seguida de mayor investigación exploratoria o concluyente Los hallazgos se usan como información para la toma de decisiones

Fuentes de datos

Primarios: Datos originados por el investigador con el propósito específico de abordar el problema de investigación Secundarios: Son reunidos con otros fines, ayudan a: -Delimitar el problema -Elaborar el diseño de una investigación adecuada -Responder ciertas preguntas de investigación y poner a prueba algunas hipótesis

DATOS PRIMARIOS DATOS SECUNDARIOS
Propósito de la recolección Para el problema en cuestión Para otros problemas
Proceso de recolección Muy complejo Rápido y fácil
Costo de la recolección Alto Relativamente bajo
Tiempo de la recolección Largo Corto

Recolección primaria de información

  • La definición de los parámetros de interés permite clarificar el mejor mecanismo de recolección, del instrumento de recolección y de la estimación estadística.
  • Un error frecuente al momento de realizar diseños muestrales en pretender que una estrategia de muestreo se reduce al tamaño de muestra y peor aún que es independiente del parámetro de interés y los dominios de estudio.
  • Es en virtud del parámetro de interés que se diseña una estrategia de muestreo que sea eficiente estadísticamente y en costos
  • Armonizando la triada: – Confiabilidad – Precisión – Costos

Muestra

“Se llama muestra a una parte de la población a estudiar que sirve para representarla”. Murria R. Spiegel (1991).

“Una muestra debe ser definida en base de la población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia”, Cadenas (1974).

Una muestra es una muestra probabilística si todo elemento del universo de estudio (población objetivo) tiene una probabilidad mayor que cero de ser seleccionado y dicha probabilidad es conocida

¿A que sabe la sopa (de letras)?
  • Cuántas cucharadas necesito probar para saber si le falta sal a la sopa?
  • Cuántas cucharadas necesito probar para saber el sabor de la sopa?
  • Cuántas cucharadas necesito probar para saber de que es la sopa?
  • Cuántas cucharadas necesito probar para saber que letras tiene la sopa?

https://sevilla.abc.es/gurme/recetas/sopa-de-letras/

¿A que sabe el pastel?

No necesito comerme todo el pastel para describirlo, viendolo puedo describir parte de sus carácteristicas, no la consistencia ni el sabor, si solo pruebo la parte blanca solo podría hablar de ella, y tendría que aclarar y especificar en mi investigación de que mis conclusiones son solo de la primera capa del paster.

Ponerle el apellido al estadístico. El sabor de la capa blanca del pastel es… De las 1000 personas entrevistadas que respondieron a la encuesta telefónica realizada entre el ____ y el ____ en horas de la mañana… de lo contrarío es un FRAUDE ESTADÍSTICO

https://www.quinceanera.com/es/comida/el-top-10-de-sabores-para-tu-pastel-de-quince/

Muestra “Representativa”

La literatura estadística no define la representatividad como una propiedad de la muestra ni de los parámetros. Las propiedades son sobre los parámetros que ésta produzca y no sobre ella pues la muestra es una de muchas posibles, por lo cual los parámetros estimados a partir de ella son una variable aleatoria En algunos diseños multi etapicos el mismo tamaño de muestra es una variable Aleatoria

Conceptos preliminares

-Población: Conjunto de individuos o elementos que son diferentes entre si, pero que tienen ciertas caracterí?sticas en común, que los hace ser de interés para el investigador.

-Unidades estadísticas: Son aquellas que conforman la población.

-Parámetro (\(\theta\)): Son valores poblacionales desconocidos, tales como el valor esperado, la varianza poblacional o alguna función de ellos.Ej: En una población \(X\sim N(\mu, \sigma^2)\), donde \(\mu\) y \(\sigma\) son desconocidas, \(\theta=(\mu, \sigma^2)\). Si \(X\sim N(\mu, \sigma^2)\) y \(\sigma\) es conocida, \(\theta=\mu\).

-Muestra: Subconjunto de la población sobre el cual se hace la medición de interés.

-Muestra aleatoria (m.a.): Es una sucesión finita de v.a.s., \(X_1,...,X_n\) independientes e idénticamente distribuidas (\(X_i\sim f_X(x,\theta)\))

-Estadística: Dada una muestra aleatoria \(X_1,....,X_n\), tal que \(X_i\sim f_X(x,\theta)\), sea \(t\) una función tal que \(t(X_1,...,X_n)\) no depende de \(\theta\) ni de constantes desconocidas, \(t(X_1,...,X_n)\) es una estadística. Ejemplo: \(\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\) es una estadística, pues es una función de las variables de la muestra aleatoria y no depende de parámetros.

-Estimador: Es una estadística con igual dimensión al vector de parámetros (\(\theta\)), cuyas realizaciones son usadas para estimar a \(\theta\). Ejemplo: Supongamos \(X_1,...,X_n\) una m.a. con distribución \(N(\mu, \sigma^2)\), el vector \((\bar{X},S_n^2)\) puede ser utilizado como estimador de \((\mu, \sigma^2)\), donde: \[S_n^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\] **Nota:} Un estimador es también una v.a., una vez el valor es observado en la muestra (\(x_1,...,x_n\)), es decir, cuando ya toma una valor, \(t(x_1,...,x_n)\) se llama estimación.

-Distribución muestral: Es el modelo probabilístico que rige el comportamiento de una estadística o de un estimador.

Ejercicios:

Determine los parámetros de las siguientes poblaciones:

-\(X\sim Ber(p)\)

-\(X\sim Poisson(\lambda)\)

-\(X\sim N(\mu, \sigma^2)\), con \(\sigma^2\) conocida

-\(X\sim N(\mu, \sigma^2)\), con \(\mu\) conocida

Algunas distribuciones muestrales

Como se discutió en la sección de variables aleatorias, la función generadora de momentos es como una huella digital de la de la distribución de dicha variable. Por lo anterior, una de las formas de determinar las distribuciones muestrales de una estadística o de un estimador es calculando su función generadora de momentos e identificando a partir de ella su distribución.

A continuación, se mostrarán algunas distribuciones muestrales suponiendo que la m.a. \(X_1,...,X_n\) tiene distribución $ N(, ^2)$.

Para la media

En general, para \(X_i\sim N(\mu, \sigma^2)\), la función generadora de momentos está dada por:

\[m_{X_i}(t)=E(e^{tX_i})=\exp\left\lbrace \mu t+\frac{\sigma^2 t^2}{2}\right\rbrace \] Ahora, con base en lo anterior, vamos a encontrar la distribución de \(\bar{X}\). Su función generadora de momentos está dada por: \[\begin{align*} m_{\bar{X}}(t)&=E(e^{t\bar{X}})\\ &=E\left(\exp\left\lbrace t\frac{1}{n}\sum_{i=1}^{n}X_i \right\rbrace \right) \\ &=E\left(\prod_{i=1}^{n}e^{\frac{t}{n}X_i} \right)\text{ por propiedades de la función exponencial}\\ &=\prod_{i=1}^{n} E\left(e^{\frac{t}{n}X_i} \right)\text{por independencia}\\ &=\prod_{i=1}^{n}m_{X_i}\left( \frac{t}{n}\right)\text{por definición de la f.g.m.} \\ &=\prod_{i=1}^{n}\exp\left( \mu\frac{t}{n}+ \frac{\sigma^2 t^2}{2n^2}\right) \text{reemplazando la f.g.m de la normal}\\ &=\exp\left( \mu t+ \frac{\sigma^2 t^2}{2n}\right) \end{align*}\]

Por lo que \(\bar{X}\sim N(\mu,\sigma^2/n)\) y \(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\). En este caso para determinar la distribución de \(\bar{X}\) es necesario conocer \(\sigma^2\).

Ejercicio:

La variable gastos diarios en atención de un paciente en urgencias tiene distribución normal con media \(450\) miles de pesos y desviación estándar \(75\) miles de pesos. Calcular la probabilidad de que en una muestra de \(49\) pacientes, el promedio de los gastos diarios: -Sea mayor a \(530\) miles de pesos -Sea menor a \(350\) miles de pesos -Esté entre \(350\) y \(530\) miles de pesos

Para la varianza muestral

Es posible demostrar que: \[\begin{align*} \frac{nS^2}{\sigma^2}&=\frac{(n-1)S_n^2}{\sigma^2}\\ &=\frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{\sigma^2}\sim\chi^2_{(n-1)} \end{align*}\]

Ejercicio:

Para el ejercicio anterior, calcule la probabilidad de que la varianza muestral: -Sea mayor a \(6000\) miles de pesos\(^2\) -Sea menor a \(4500\) miles de pesos\(^2\) -Esté entre \(4500\) y \(6000\) miles de pesos\(^2\)

Otros resultados

Resultado 1: Si \(X_1\sim N(\mu_1,\sigma_1^2)\) y \(X_2\sim N(\mu_2,\sigma_2^2)\) son independientes, entonces \(X_1+X_2\sim N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)\).

Resultado 2: Si \(Z\sim N(0,1)\), entonces \(Z^2\sim\chi^2_{(1)}\).

Resultado 3: Si \(X_1\sim\chi^2_{(m_1)}\) y \(X_2\sim\chi^2_{(m_2)}\) son independientes, entonces \(X_1+X_2\sim\chi^2_{(m_1+m_2)}\).

Resultado 4: Si \(Z\sim N(0,1)\) y \(Y\sim\chi^2_{(m)}\) independientes, entonces: \[\frac{Z}{\sqrt{Y/m}}\sim t_{(m)}\]

Resultado 5: Si \(X_1,...X_n\) es una m.a. de una población con distribución \(N(\mu,\sigma^2)\),\(\bar{X}\) y \(S_n^2\) son v.a.s independientes.

Ejemplo:

Si \(X_1,...X_n\) es una m.a. de una población con distribución \(N(\mu,\sigma^2)\), veamos que \(\frac{\bar{X}-\mu}{S_n/\sqrt{n}}\sim t_{(n-1)}\): Por la sección 3.1: \(Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\) y por la 3.2: \(Y=\frac{(n-1)S_n^2}{\sigma^2}\sim\chi^2_{(n-1)}\), entonces:

\[\begin{align*} \frac{Z}{\sqrt{Y/m}}&=\frac{\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S_n^2}{(n-1)\sigma^2}}}\\ &=\frac{\bar{X}-\mu}{S_n/\sqrt{n}}\sim t_{(n-1)} \end{align*}\]

Bibliografía