La inferencia estadística estudia los diversos métodos y técnicas que permiten obtener conclusiones generales de toda una población estadística a partir del estudio de una muestra. Básicamente, el objetivo de la inferencia estadística es responder preguntas concretas sobre la población, planteadas antes de obtener los datos. Aquí, se desarrollarán las principales herramientas y técnica para explicar la inferencia estadística, principalmente la estimación estadística, usando 𝑅.

Estimación Estadística

La estimación estadística tiene por objetivo aproximar o predecir el valor de un parámetro de una población a partir de datos proporcionados por una muestra (estadísticos). Por ejemplo, la media muestral 𝑥̅ (estadístico) es usada para estimar la media poblacional 𝜇 (parámetro).

Propiedades de los estimadores

  • Insesgado: un estimado \(\hat{\theta}\) es insesgado para un parámetro \(\theta\) si \(\mathbb{E}(\hat{\theta}) = \theta\).
  • Eficiente: es el estimador que contiene la varianza más pequeña.
  • Consistente: si aumenta el tamaño de la muestra, se aproxima mejor al valor del parámetro.
  • Suficiente: puede proporcionar más información sobre el parámetro.

Diferencias entre un estimador y la estimación

  • Estimador: es una función de una muestra.
  • Estimación: es el resultado o valor obtenido al aplicar dicho estimador a la muestra.

Tipos de Estimación

  • Estimación puntual.
  • Estimación por intervalos.
Característica Muestra (Estadístico) Población (Parámetro)
Media \(\hat{x}\) \(\mu\)
Desviación Típica \(s\) \(\sigma\).
Varianza \(s^2\) \(\sigma^2\)
Proporción \(P\) \(\pi\)

Estimación puntual

Según Bianco y Martínez (2011) el estimador puntual de un parámetro 𝜃 es un valor que puede ser considerado representativo de 𝜃, por lo que se indicará \(\hat{\theta}\). En general, se obtiene a partir de alguna función de la muestra. (p. 161)

Método de los momentos

Momentos poblacionales

Sea 𝑥 una variable aleatoria y 𝑘 ≥ 1, un entero. El k-ésimo momento poblacional de 𝑥, si existiese, es 𝜇𝑘 = 𝔼(𝑥𝑘).

  • Variable discreta: \(\mu_k=\mathbb{E}(x^k) = \sum_{i=1}^{n}x^ip_x(x)\)
  • Variable continua: \(\mu_k=\mathbb{E}(x^k) = \int_{-\infty}^{\infty}x^kf_x(x)dx\)

Donde:

  • \(p_x\) es la función de la probabilidad puntual.
  • \(f_x\) es la función de densidad.

Momentos muestrales

Sea 𝑥1, ⋯ , 𝑥𝑛 una muestra aleatoria de tamaño 𝑛 y 𝑘 ≥ 1, un entero. El késimo momento muestral es 𝜇̂𝑘 =1𝑛Σ 𝑥𝑖 𝑘 .El método de momentos establece que los momentos muestrales deben dar buenas estimaciones de los momentos poblacionales correspondientes. Para ello, igualar los momentos poblaciones con los momentos muestrales y resolver el sistema de ecuaciones. \[ \mu_k = \hat{\mu_k} \] Ello quiere decir que:

Momentos poblacionales Momentos muestrales
1° momento poblacional \(\mathbb{E}(x)=\frac{1}{n}\sum_{i=1}^{n}x_i\) 1° momento muestral
2° momento poblacional \(\mathbb{E}(x^2)=\frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}\) 2° momento muestral
3° momento poblacional \(\mathbb{E}(x^3)=\frac{1}{n}\sum_{i=1}^{n}x_{i}^{3}\) 3° momento muestral
\(\dots\) \(\dots\) \(\dots\)
k-ésimo momento poblacional \(\mathbb{E}(x^k)=\frac{1}{n}\sum_{i=1}^{n}x_{i}^{k}\) k-ésimo momento muestral

Método de la Máxima Verosimilitud

Sea 𝑋 = (𝑥1, ⋯ , 𝑥𝑛) un vector aleatorio cuya distribución depende de un parámetro 𝜃. La función de verosimilitud 𝐿 del vector 𝑋 es: \[ L(\theta)= f_X (X|\theta) \] Si 𝑥1, ⋯ , 𝑥𝑛 son independientes e idénticamente distribuidos: \[ L(\theta)=\prod_{i=1}^{n}f(x_i|\theta) \] Entonces, el método de máxima verosimilitud consistirá en obtener el valor de 𝜃 que maximice la función de verosimilitud 𝐿(𝜃).

Estimación por Intervalos

Consiste en atribuir al parámetro que se desee estimar un rango de valores entre los que se espera encontrar el verdadero valor de dicho parámetro con una probabilidad alta. (Nolberto y Ponce, 2008, p. 77).

Intervalo de Confianza

Se llama intervalo de confianza al rango de valores en que se encuentra el parámetro, cuyos límites confidenciales son los valores LI (Límite inferior) y LS (Límite superior).

Nivel de confianza

Se denomina nivel de confianza (1 − 𝛼) a la probabilidad de que el intervalo de confianza incluya el verdadero valor del parámetro, es decir, que refleje la confianza en la construcción del intervalo.

Intervalo para media con desviación conocida

Media muestral

Se utiliza la siguiente fórmula para calcularla: \[ \hat{x}=\frac{\sum_{i=1}^{n}x_i}{n} \] Donde: * \(n\) es el tamaño de la muestra.

Desviación estándar muestral:

Se usa la siguiente fórmula para hallarla: \[ S=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\hat{x})^2 \] Donde: * \(n\) es el tamaño de la muestra. * \(\hat{x}\) es la media muestra.

El intervalo de confianza para una población con distribución normal es: \[ \overline{x}-z_{(1-\frac{\alpha}{2})}*\frac{\sigma}{\sqrt{n}}\leq\mu\leq\overline{x}+z_{(1-\frac{\alpha}{2})}*\frac{\sigma}{\sqrt{n}} \\ IC = \overline{x}\pm z_{(1-\frac{\alpha}{2})}*\frac{\sigma}{\sqrt{n}} \] Donde: * \(\mu\) es la media poblacional estándar. * \(\sigma\) es la desviación estándar. * \(\overline{x}\) es la media muestral. * \(1-\alpha\) es el nivel de confianza.

Invervalo para media de una población \((\leq 30)\) con desviación desconocida

El intervalo de confianza: \[ \overline{x}-t_{(1-\frac{\alpha}{2},n-1)}*\frac{s}{\sqrt{n}}\leq\mu\leq\overline{x}+t_{(1-\frac{\alpha}{2},n-1)}*\frac{s}{\sqrt{n}} \] Donde:

  • \(\mu\) es la media poblacional.
  • \(t\) es la abscisa de la distribución t-student con n-1 grados de libertad.
  • \(s=\sqrt{\frac{\sum(x_i-\overline{x}^2)}{n-1}}\)
  • \(\overline{x}\) es la media muestral.
  • \(1-\alpha\) es el nivel de confianza.

Invervalo para media de una población (> 30) con desviación desconocida

El intervalo de confianza: \[ \overline{x}-z_{(1-\frac{\alpha}{2})}*\frac{s}{\sqrt{n}}\leq\mu\leq\overline{x}+z_{(1-\frac{\alpha}{2})}*\frac{s}{\sqrt{n}} \] Donde:

  • \(1-\alpha\) es el nivel de confianza.
  • \(\mu\) es la media poblacional.
  • \(s=\sqrt{\frac{\sum(x_i-\overline{x}^2)}{n-1}}\)
  • \(\sigma\) es desconocido.
  • \(\overline{x}\) es la media muestral.

Ejemplo:

De una población normal se toma una muestra de 50 observaciones. La media muestral es 55 y la desviación estándar muestral es 10. Determinar un intervalo de confianza al 99 % para la media poblacional.

La solución, datos:

  • n = 50
  • \(\overline{x}\) = 55
  • s = 10
  • \(1-\alpha\) = 0.99 \(\rightarrow\) \(\alpha\) = 0.01
  • \(1-\frac{\alpha}{2}=1-\frac{0.01}{2}=0.9950\)

El cálculo del intervalo de confianza: \[ 55-Z_{0.9950}*\frac{10}{\sqrt{50}}\leq\mu\leq55+Z_{0.9950}*\frac{10}{\sqrt{50}} \\ 55-P(X\leq0.995)*\frac{10}{\sqrt{50}}\leq\mu\leq55+Z_{0.9950}+\frac{10}{\sqrt{50}} \] Como \(P(Z\leq2.57)=0.9945\rightarrow0.995\) entonces, \(Z_{0.995}=2.57\) \[ \rightarrow Z_{0.995} = 2.57 \\ 55-2.57*\frac{10}{\sqrt{50}}\leq\mu\leq55-2.57*\frac{10}{\sqrt{50}} \\ 51.3655\leq\mu\leq58.6345 \\ \mu \in [51.3655,58.6345] \] Por lo tanto, 𝐼𝐶 = [51.3655 , 58.6345] es el intervalo de confianza de la media poblacional con nivel de confianza de 99 %.

Distribución T Student

Distribución T Student

Código en R:

## [1] "El intervalo de confianza es: [ 51.3572272645631 , 58.6427727354369 ] con Z= 2.5758293035489  y 1-alpha= 99 %."

Por lo tanto, con una muestra de 50 observaciones y una media muestral de 10, se puede decir con certeza de 99 % que la media poblacional se encuentra entre 51.3655 y 58.6345.

Ejemplos

Ejemplo 1: Función binom.test

Se ha contabilizado el porcentaje de hombres y mujeres en una reunión de 60 personas. Se requiere hallar el intervalo de confianza si se sabe que hay 21 mujeres y 39 hombres. Según los datos, el porcentaje de mujeres es 35 % y el de hombres, 65 %.

Para las mujeres:

Se multiplica por 100 para expresar el resultado en %, ya que el resultado devuelto es la proporción sobre 1.

## [1] 23.13264 48.40280
## attr(,"conf.level")
## [1] 0.95

Para los hombres:

## [1] 51.59720 76.86736
## attr(,"conf.level")
## [1] 0.95

El nivel de confianza es del 𝟗𝟓 %. Para modificar, se usa el parámetro 𝒄𝒐𝒏𝒇. 𝒍𝒆𝒗𝒆𝒍. Entonces, con un nivel de 𝟗𝟗 % se obtendrá:

## [1] 20.05877 52.38539
## attr(,"conf.level")
## [1] 0.99
## [1] 47.61461 79.94123
## attr(,"conf.level")
## [1] 0.99

Ejemplo 2: Intervalo de confianza con una población grande

Se hallará un intervalo de confianza para el parámetro poblacional μ. Para esto, el nivel de confianza será del 95 % y corresponderá a una estimación de 𝑥̅ = 1.22 litros, calculada a partir de la muestra de tamaño 𝑛 = 100. Asimismo, se considerará que se conoce la desviación estándar de la población 𝜎 = 0.2 litros.

\[ \overline{X}-Z_{(1-\frac{\alpha}{2})}*\frac{\sigma}{\sqrt{n}}\leq\mu\leq\overline{X}+Z_{(1-\frac{\alpha}{2})}*\frac{\sigma}{\sqrt{n}} \\ \sigma = 0.2 \\ 1-\alpha = 0.95 \rightarrow \alpha=0.05 \\ Z_{(1-\frac{0.05}{2})}=Z_{0.975}=1.96 \\ \overline{X}=1.22 \\ n=100 \] Reemplazando: \[ 1.22-1.96*\frac{0.2}{\sqrt{100}}\leq\mu\leq1.22+1.96*\frac{0.2}{\sqrt{100}} \\ 1.1808\leq\mu\leq1.2592 \\ IC_{95\%} = [1.1808,1.2592] \] Distribución Normal

En R:

## [1] "El intervalo de confianza es [ 1.1808 , 1.2592 ] con Z= 1.95996  y 1-alpha= 95 %."

Ejemplo 3: Intervalo de confianza con población pequeña

Se seleccionó aleatoriamente a 20 estudiantes, a quienes se entregó una prueba de inteligencia espacial. Luego de que la resolvieran, se obtuvo una media de 70 y una desviación típica de 1. En función de lo planteado, ¿entre qué límites se hallará la verdadera inteligencia espacial media de los estudiantes, si se sabe que el nivel de confianza es del 95 % y que los puntajes medios de la prueba se distribuyen normalmente?

Los datos:

  • \(1-\alpha=0.95\)
  • \(\alpha=0.05\)
  • \(\overline{X}=70\)
  • \(S=1\)
  • \(n=20\)
  • \(t_{1-\frac{0.05}{2},19}=t_{0.975,19}=2.093\)

El intervalo de confianza: \[ \overline{X}-t_{(1-\frac{\alpha}{2},n-1)}*\frac{S}{\sqrt{n}}\leq\mu\leq\overline{X}+t_{(1-\frac{\alpha}{2},n-1)}*\frac{S}{\sqrt{n}} \\ 70-2.093*\frac{1}{\sqrt{20}}\leq\mu\leq70+20.93*\frac{1}{\sqrt{20}} \\ 69.532\leq\mu\leq70.468 \] En R:

## [1] "El intervalo de confianza es [ 69.532 , 70.468 ] con t= 2.093  y 1-alpha= 95 %"

Por lo tanto, la verdadera inteligencia espacial media de los estudiantes se encuentran en [69.532,70.468] con nivel de confianza del 95%. Distribución t-student

Bibliografía

  • Bianco, A. M. y Martínez, E. J. (2011). Inferencia estadística - Estimación puntual. Recuperado de http://www.dm.uba.ar/materias/probabilidades_estadistica_C/2011/1/, el 23 de noviembre de 2018.
  • Cervantes, E. Estadística inferencial. Aguascalientes, México: INEGI.
  • Gómez, D.; Condado, J.; Adrianzola, Y. y Solano, O. (2005). Introducción a la inferencia estadística: Soporte del SPSS y MATLAB. Lima, Perú: Fondo Editorial UNMSM.
  • Nolberto, V. y Ponce, M. (2008). Estadística inferencial aplicada. Lima, Perú: Unidad de Post Grado de la Facultad de Educación de la UNMSM.