Notación que estamos estudiando


1. Como Modelo Probabilístico (Distribución de la variable target)

Qué es:
\(f(y;\theta)\) es la función de masa de probabilidad (PMF) o de densidad de probabilidad (PDF) que describe cómo se distribuye una variable aleatoria individual \(Y\).

Qué representa \(y\):
Un valor posible (una realización) que la variable aleatoria \(Y\) podría tomar.

Qué representa \(\theta\):
Los parámetros del modelo: se consideran fijos en la naturaleza pero desconocidos para nosotros (ej.: \(p\) en Bernoulli, \(\lambda\) en Poisson, \(\mu,\sigma\) en Normal).

Interpretación:
\(f(y;\theta)\) nos da la probabilidad (o densidad) de observar el valor \(y\) si los parámetros de la distribución fueran \(\theta\).

Ejemplo (Bernoulli):
\[ f(y;p)=p^{y}(1-p)^{1-y},\quad y\in\{0,1\}. \]

Si \(p=0.4\), entonces \(f(1;0.4)=0.4\).
Es decir: “Si el parámetro real fuera 0.4, la probabilidad de que \(Y=1\) es 0.4”.


2. Como Función de Verosimilitud (muestra observada)

Qué es:
Se toma la distribución conjunta de la muestra y se reinterpreta como función de los parámetros.
Se recomienda notarla como: \[ L(\theta; y)=f(y;\theta). \]

Qué representa \(y\):
Ahora \(y\) es un conjunto de datos observados y fijos (por ejemplo: \([0,1,1,0,0]\)).

Qué representa \(\theta\):
Los parámetros que queremos estimar; en la verosimilitud los tratamos como variables de la función.

Interpretación:
\(L(\theta; y)\) no es una probabilidad sobre \(\theta\) (salvo en Bayes, con una prior).
Es una medida relativa de plausibilidad:
“Dado el conjunto de datos fijo \(y\), ¿qué valores de \(\theta\) hacen esos datos más probables?”.

Ejemplo (misma muestra):
Para \(y=[0,1,1,0,0]\): \[ L(p; y)=p^{2}(1-p)^{3}. \]

Si \(p=0.4\), entonces \[ L(0.4; y)=0.4^{2}\cdot 0.6^{3}\approx 0.0346. \]


3. Como Distribución Conjunta de la Muestra

Qué es:
\[ f(y_1,\dots,y_n;\theta)=\prod_{i=1}^n f(y_i;\theta), \]
asumiendo observaciones i.i.d.

Qué representa \(y\):
Un vector de variables aleatorias \((Y_1,\dots,Y_n)\), cada una con la misma distribución.

Qué representa \(\theta\):
Los parámetros fijos (aunque desconocidos) que gobiernan la distribución de cada \(Y_i\).

Interpretación:
Nos da la probabilidad (o densidad) de que todas las \(Y_i\) tomen simultáneamente los valores \((y_1,\dots,y_n)\).

Relación con la verosimilitud:
Numéricamente la distribución conjunta y la verosimilitud son la misma expresión; la diferencia es interpretativa:
- Distribución conjunta: \(y\) es variable, \(\theta\) es fijo.
- Verosimilitud: \(y\) es fijo (datos), \(\theta\) es variable.


Ejemplo completo: Bernoulli y máxima verosimilitud

1. Modelo individual

Cada \(Y_i\) se distribuye: \[ f(y_i;p)=p^{y_i}(1-p)^{1-y_i},\quad y_i\in\{0,1\}. \]

2. Distribución conjunta de la muestra

Por independencia: \[ f(y_1,\dots,y_n;p)=\prod_{i=1}^n f(y_i;p). \]

Para tus datos \(y=[0,1,1,0,0]\): \[ L(p)=f(y;p)=(1-p)\cdot p \cdot p \cdot (1-p)\cdot(1-p)=p^{2}(1-p)^{3}. \]

3. Estimación de \(p\) (máxima verosimilitud)

Maximizamos \(L(p)\) (o su logaritmo): \[ \log L(p)=2\log p + 3\log(1-p). \]

Derivada: \[ \frac{d}{dp}\log L(p)=\frac{2}{p}-\frac{3}{1-p}=0. \]

Resolviendo: \[ 2(1-p)=3p \quad\Rightarrow\quad 2=5p \quad\Rightarrow\quad p=\tfrac{2}{5}=0.4. \]


Resumen breve:
- \(f(y;\theta)\) define la distribución de una observación.
- La productoria de las \(f(y_i;\theta)\) da la conjunta de la muestra.
- Esa conjunta, vista como función de \(\theta\), es la verosimilitud \(L(\theta; y)=f(y;\theta)\).
- Maximizándola se obtiene el estimador de máxima verosimilitud.