El proceso de hacer afirmaciones acerca de una población basándose en información muestral.
La inferencia es la rama de la estadística que permite sacar conclusiones de una población a través de los resultados obtenidos con una muestra. Es decir, el objetivo de la inferencia es estimar o probar hipótesis sobre parámetros poblacionales, teniendo en cuenta la distribución o modelo de probabilidad de la población, a partir de los valores observados de la muestra. La inferencia estadística se puede dividir en dos partes: estimación (puntual o por intervalo) y pruebas de hipótesis. En esta sección veremos algunos conceptos fundamentales para su desarrollo.%
Se basa en un tipo de pensamiento deductivo, que va desde lo general a lo particular, utilizando la recolección y análisis de datos para contestar preguntas de investigación y probar hipótesis establecidas previamente.Además, confía en la medición numérica, el conteo y frecuentemente en el uso de estadísticas para establecer con exactitud, patrones de comportamiento en una población. - asume una postura objetiva - estudia conductas y otros fenómenos observables, - genera datos numéricos para representar el ambiente social - emplea métodos estadísticos para analizar los datos e infiere más allá de los datos - emplea procedimientos de inferencia estadística para generalizar las conclusiones de una muestra a una población definida - es confirmatoria, inferencial y deductiva.
| INVESTIGACIÓN CUALITATIVA | INVESTIGACIÓN CUANTITATIVA | |
|---|---|---|
| Objetivo | Lograr un entendimiento cualitativo de las razones y motivaciones subyacentes | Cuantificar los datos y generalizar los resultados de la muestra a la población de interés |
| Muestra | Número pequeño de casos no representativos | Número “grande” de casos representativos |
| Recolección de datos | No estructurada | Estructurada |
| Análisis de datos | No estadístico | Estadístico |
| Resultado | Establecer una comprensión inicial | Recomendar un curso de acción final |
Diferencias entre la investigación exploratoria y la concluyente
| EXPLORATORIA | CONCLUYENTE | |
|---|---|---|
| Objetivo: | Proporcionar información y comprensión | Probar hipótesis específicas y examinar relaciones |
| Características: | La información necesaria sólo se define vagamente | La información necesaria se define con claridad |
| El proceso de investigación es flexible y no estructurado | El proceso de investigación es formal y estructurado | |
| La muestra es pequeña y no representativa | La muestra es grande y representativa | |
| El análisis de los datos primarios es cualitativo | El análisis de datos es cuantitativo | |
| Hallazgoso resultados: | Tentativos | Concluyentes |
| Consecuencias: | Por lo general, va seguida de mayor investigación exploratoria o concluyente | Los hallazgos se usan como información para la toma de decisiones |
Primarios: Datos originados por el investigador con el propósito específico de abordar el problema de investigación Secundarios: Son reunidos con otros fines, ayudan a: -Delimitar el problema -Elaborar el diseño de una investigación adecuada -Responder ciertas preguntas de investigación y poner a prueba algunas hipótesis
| DATOS PRIMARIOS | DATOS SECUNDARIOS | |
|---|---|---|
| Propósito de la recolección | Para el problema en cuestión | Para otros problemas |
| Proceso de recolección | Muy complejo | Rápido y fácil |
| Costo de la recolección | Alto | Relativamente bajo |
| Tiempo de la recolección | Largo | Corto |
“Se llama muestra a una parte de la población a estudiar que sirve para representarla”. Murria R. Spiegel (1991).
“Una muestra debe ser definida en base de la población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia”, Cadenas (1974).
Una muestra es una muestra probabilística si todo elemento del universo de estudio (población objetivo) tiene una probabilidad mayor que cero de ser seleccionado y dicha probabilidad es conocida
No necesito comerme todo el pastel para describirlo, viendolo puedo describir parte de sus carácteristicas, no la consistencia ni el sabor, si solo pruebo la parte blanca solo podría hablar de ella, y tendría que aclarar y especificar en mi investigación de que mis conclusiones son solo de la primera capa del paster.
Ponerle el apellido al estadístico. El sabor de la capa blanca del pastel es… De las 1000 personas entrevistadas que respondieron a la encuesta telefónica realizada entre el ____ y el ____ en horas de la mañana… de lo contrarío es un FRAUDE ESTADÍSTICO
https://www.quinceanera.com/es/comida/el-top-10-de-sabores-para-tu-pastel-de-quince/
La literatura estadística no define la representatividad como una propiedad de la muestra ni de los parámetros. Las propiedades son sobre los parámetros que ésta produzca y no sobre ella pues la muestra es una de muchas posibles, por lo cual los parámetros estimados a partir de ella son una variable aleatoria En algunos diseños multi etapicos el mismo tamaño de muestra es una variable Aleatoria
-Población: Conjunto de individuos o elementos que son diferentes entre si, pero que tienen ciertas caracterí?sticas en común, que los hace ser de interés para el investigador.
-Unidades estadísticas: Son aquellas que conforman la población.
-Parámetro (\(\theta\)): Son valores poblacionales desconocidos, tales como el valor esperado, la varianza poblacional o alguna función de ellos.Ej: En una población \(X\sim N(\mu, \sigma^2)\), donde \(\mu\) y \(\sigma\) son desconocidas, \(\theta=(\mu, \sigma^2)\). Si \(X\sim N(\mu, \sigma^2)\) y \(\sigma\) es conocida, \(\theta=\mu\).
-Muestra: Subconjunto de la población sobre el cual se hace la medición de interés.
-Muestra aleatoria (m.a.): Es una sucesión finita de v.a.s., \(X_1,...,X_n\) independientes e idénticamente distribuidas (\(X_i\sim f_X(x,\theta)\))
-Estadística: Dada una muestra aleatoria \(X_1,....,X_n\), tal que \(X_i\sim f_X(x,\theta)\), sea \(t\) una función tal que \(t(X_1,...,X_n)\) no depende de \(\theta\) ni de constantes desconocidas, \(t(X_1,...,X_n)\) es una estadística. Ejemplo: \(\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\) es una estadística, pues es una función de las variables de la muestra aleatoria y no depende de parámetros.
-Estimador: Es una estadística con igual dimensión al vector de parámetros (\(\theta\)), cuyas realizaciones son usadas para estimar a \(\theta\). Ejemplo: Supongamos \(X_1,...,X_n\) una m.a. con distribución \(N(\mu, \sigma^2)\), el vector \((\bar{X},S_n^2)\) puede ser utilizado como estimador de \((\mu, \sigma^2)\), donde: \[S_n^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\] **Nota:} Un estimador es también una v.a., una vez el valor es observado en la muestra (\(x_1,...,x_n\)), es decir, cuando ya toma una valor, \(t(x_1,...,x_n)\) se llama estimación.
-Distribución muestral: Es el modelo probabilístico que rige el comportamiento de una estadística o de un estimador.
Determine los parámetros de las siguientes poblaciones:
-\(X\sim Ber(p)\)
-\(X\sim Poisson(\lambda)\)
-\(X\sim N(\mu, \sigma^2)\), con \(\sigma^2\) conocida
-\(X\sim N(\mu, \sigma^2)\), con \(\mu\) conocida
Como se discutió en la sección de variables aleatorias, la función generadora de momentos es como una huella digital de la de la distribución de dicha variable. Por lo anterior, una de las formas de determinar las distribuciones muestrales de una estadística o de un estimador es calculando su función generadora de momentos e identificando a partir de ella su distribución.
A continuación, se mostrarán algunas distribuciones muestrales suponiendo que la m.a. \(X_1,...,X_n\) tiene distribución $ N(, ^2)$.
En general, para \(X_i\sim N(\mu, \sigma^2)\), la función generadora de momentos está dada por:
\[m_{X_i}(t)=E(e^{tX_i})=\exp\left\lbrace \mu t+\frac{\sigma^2 t^2}{2}\right\rbrace \] Ahora, con base en lo anterior, vamos a encontrar la distribución de \(\bar{X}\). Su función generadora de momentos está dada por: \[\begin{align*} m_{\bar{X}}(t)&=E(e^{t\bar{X}})\\ &=E\left(\exp\left\lbrace t\frac{1}{n}\sum_{i=1}^{n}X_i \right\rbrace \right) \\ &=E\left(\prod_{i=1}^{n}e^{\frac{t}{n}X_i} \right)\text{ por propiedades de la función exponencial}\\ &=\prod_{i=1}^{n} E\left(e^{\frac{t}{n}X_i} \right)\text{por independencia}\\ &=\prod_{i=1}^{n}m_{X_i}\left( \frac{t}{n}\right)\text{por definición de la f.g.m.} \\ &=\prod_{i=1}^{n}\exp\left( \mu\frac{t}{n}+ \frac{\sigma^2 t^2}{2n^2}\right) \text{reemplazando la f.g.m de la normal}\\ &=\exp\left( \mu t+ \frac{\sigma^2 t^2}{2n}\right) \end{align*}\]
Por lo que \(\bar{X}\sim N(\mu,\sigma^2/n)\) y \(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\). En este caso para determinar la distribución de \(\bar{X}\) es necesario conocer \(\sigma^2\).
La variable gastos diarios en atención de un paciente en urgencias tiene distribución normal con media \(450\) miles de pesos y desviación estándar \(75\) miles de pesos. Calcular la probabilidad de que en una muestra de \(49\) pacientes, el promedio de los gastos diarios: -Sea mayor a \(530\) miles de pesos -Sea menor a \(350\) miles de pesos -Esté entre \(350\) y \(530\) miles de pesos
Es posible demostrar que: \[\begin{align*} \frac{nS^2}{\sigma^2}&=\frac{(n-1)S_n^2}{\sigma^2}\\ &=\frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{\sigma^2}\sim\chi^2_{(n-1)} \end{align*}\]
Para el ejercicio anterior, calcule la probabilidad de que la varianza muestral: -Sea mayor a \(6000\) miles de pesos\(^2\) -Sea menor a \(4500\) miles de pesos\(^2\) -Esté entre \(4500\) y \(6000\) miles de pesos\(^2\)
Resultado 1: Si \(X_1\sim N(\mu_1,\sigma_1^2)\) y \(X_2\sim N(\mu_2,\sigma_2^2)\) son independientes, entonces \(X_1+X_2\sim N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)\).
Resultado 2: Si \(Z\sim N(0,1)\), entonces \(Z^2\sim\chi^2_{(1)}\).
Resultado 3: Si \(X_1\sim\chi^2_{(m_1)}\) y \(X_2\sim\chi^2_{(m_2)}\) son independientes, entonces \(X_1+X_2\sim\chi^2_{(m_1+m_2)}\).
Resultado 4: Si \(Z\sim N(0,1)\) y \(Y\sim\chi^2_{(m)}\) independientes, entonces: \[\frac{Z}{\sqrt{Y/m}}\sim t_{(m)}\]
Resultado 5: Si \(X_1,...X_n\) es una m.a. de una población con distribución \(N(\mu,\sigma^2)\),\(\bar{X}\) y \(S_n^2\) son v.a.s independientes.
Si \(X_1,...X_n\) es una m.a. de una población con distribución \(N(\mu,\sigma^2)\), veamos que \(\frac{\bar{X}-\mu}{S_n/\sqrt{n}}\sim t_{(n-1)}\): Por la sección 3.1: \(Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\) y por la 3.2: \(Y=\frac{(n-1)S_n^2}{\sigma^2}\sim\chi^2_{(n-1)}\), entonces:
\[\begin{align*} \frac{Z}{\sqrt{Y/m}}&=\frac{\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S_n^2}{(n-1)\sigma^2}}}\\ &=\frac{\bar{X}-\mu}{S_n/\sqrt{n}}\sim t_{(n-1)} \end{align*}\]