Qué es:
\(f(y;\theta)\) es la función de masa
de probabilidad (PMF) o de densidad de probabilidad (PDF) que describe
cómo se distribuye una variable aleatoria individual \(Y\).
Qué representa \(y\):
Un valor posible (una realización) que la variable aleatoria \(Y\) podría tomar.
Qué representa \(\theta\):
Los parámetros del modelo: se consideran fijos en la naturaleza
pero desconocidos para nosotros (ej.: \(p\) en Bernoulli, \(\lambda\) en Poisson, \(\mu,\sigma\) en Normal).
Interpretación:
\(f(y;\theta)\) nos da la probabilidad
(o densidad) de observar el valor \(y\)
si los parámetros de la distribución fueran \(\theta\).
Ejemplo (Bernoulli):
\[
f(y;p)=p^{y}(1-p)^{1-y},\quad y\in\{0,1\}.
\]
Si \(p=0.4\), entonces \(f(1;0.4)=0.4\).
Es decir: “Si el parámetro real fuera 0.4, la probabilidad de que \(Y=1\) es 0.4”.
Qué es:
Se toma la distribución conjunta de la muestra y se reinterpreta como
función de los parámetros.
Se recomienda notarla como: \[
L(\theta; y)=f(y;\theta).
\]
Qué representa \(y\):
Ahora \(y\) es un conjunto de datos
observados y fijos (por ejemplo: \([0,1,1,0,0]\)).
Qué representa \(\theta\):
Los parámetros que queremos estimar; en la verosimilitud los tratamos
como variables de la función.
Interpretación:
\(L(\theta; y)\) no es una probabilidad
sobre \(\theta\) (salvo en Bayes, con
una prior).
Es una medida relativa de plausibilidad:
“Dado el conjunto de datos fijo \(y\),
¿qué valores de \(\theta\) hacen esos
datos más probables?”.
Ejemplo (misma muestra):
Para \(y=[0,1,1,0,0]\): \[
L(p; y)=p^{2}(1-p)^{3}.
\]
Si \(p=0.4\), entonces \[ L(0.4; y)=0.4^{2}\cdot 0.6^{3}\approx 0.0346. \]
Qué es:
\[
f(y_1,\dots,y_n;\theta)=\prod_{i=1}^n f(y_i;\theta),
\]
asumiendo observaciones i.i.d.
Qué representa \(y\):
Un vector de variables aleatorias \((Y_1,\dots,Y_n)\), cada una con la misma
distribución.
Qué representa \(\theta\):
Los parámetros fijos (aunque desconocidos) que gobiernan la distribución
de cada \(Y_i\).
Interpretación:
Nos da la probabilidad (o densidad) de que todas las \(Y_i\) tomen simultáneamente los valores
\((y_1,\dots,y_n)\).
Relación con la verosimilitud:
Numéricamente la distribución conjunta y la verosimilitud son la
misma expresión; la diferencia es interpretativa:
- Distribución conjunta: \(y\) es variable, \(\theta\) es fijo.
- Verosimilitud: \(y\)
es fijo (datos), \(\theta\) es
variable.
Cada \(Y_i\) se distribuye: \[ f(y_i;p)=p^{y_i}(1-p)^{1-y_i},\quad y_i\in\{0,1\}. \]
Por independencia: \[ f(y_1,\dots,y_n;p)=\prod_{i=1}^n f(y_i;p). \]
Para tus datos \(y=[0,1,1,0,0]\): \[ L(p)=f(y;p)=(1-p)\cdot p \cdot p \cdot (1-p)\cdot(1-p)=p^{2}(1-p)^{3}. \]
Maximizamos \(L(p)\) (o su logaritmo): \[ \log L(p)=2\log p + 3\log(1-p). \]
Derivada: \[ \frac{d}{dp}\log L(p)=\frac{2}{p}-\frac{3}{1-p}=0. \]
Resolviendo: \[ 2(1-p)=3p \quad\Rightarrow\quad 2=5p \quad\Rightarrow\quad p=\tfrac{2}{5}=0.4. \]
✅ Resumen breve:
- \(f(y;\theta)\) define la
distribución de una observación.
- La productoria de las \(f(y_i;\theta)\) da la conjunta de la
muestra.
- Esa conjunta, vista como función de \(\theta\), es la verosimilitud \(L(\theta; y)=f(y;\theta)\).
- Maximizándola se obtiene el estimador de máxima verosimilitud.