Javier García Rodríguez
Introducción
Frontera estocástica de producción
Método del área común
Detección y eliminación de valores anómalos
Conclusiones
Librería stfa en R
Futuros pasos
El análisis de frontera estocástica es uno de los métodos más utilizados para analizar y medir la eficiencia.
Surgen en 1977, como una sofisticación de los modelos más tradicionales de frontera de producción.
Son ampliamente utilizados en los campos de la economía y la cienciometría.
El modelo de frontera de producción estocástica se puede expresar como: \[ y_{i} = f(\vec x_{i},\vec \beta) \cdot e^{v_{i}} \cdot E_{i} \] donde
\( y_{i} \) y \( ~\vec x_{i} \) es el valor de los inputs y el output para el productor \( i \).
La función de producción es una Cobb-Douglas cuya expresión \( f(\vec x_{i},\vec \beta)=\prod_{k=1}^{K} x_{ki}^{\beta_{k}} \).
\( \vec \beta \) es el vector con los parámetros del modelo que deseamos estimar.
\( v_i \) representa la componente aleatoria para el productor i-ésimo y \( ~E_{i} \) representa el término de la eficiencia técnica para el productor i-ésimo.
Sea \( ~E_i = e^{-u_i} \), teniendo en cuenta las expresiones anteriores y tomando logaritmos, podemos expresar el modelo con la siguiente expresión:
\[ \ln{y_i} = \overbrace{\beta_0 + \sum_n \beta_n \ln{x_{ni}}+v_i }^{\mbox{Frontera Estocástica}} -u_i \] \[ \ln{y_i} = \beta_0 + \sum_n \beta_n \ln{x_{ni}}+\underbrace {v_i -u_i}_{\epsilon_i} \]
donde \( v_i \equiv \mathfrak{N}(0,\sigma^2_v) \) y \( u_i \equiv | \mathfrak{N}(0,\sigma^2_u) | \)
La función de densidad de \( \epsilon \) a partir de los supuestos anteriores es:
\[ f(\epsilon)=\int_0^\infty f(\epsilon,u)=\frac{2}{\sigma} \cdot \phi\left(\frac{\epsilon}{\sigma}\right) \cdot \Phi\left(-\frac{\epsilon\lambda}{\sigma}\right) \]
donde
\( \sigma = \sqrt{\sigma_{u}^{2}+\sigma_{v}^{2}} \)
\( \lambda = \frac{\sigma_u}{\sigma_v} \), nos ofrece una estimación del peso de cada componente del error.
\( \phi(\cdot) \) y \( \Phi(\cdot) \) son la función de densidad y distribución de una normal típica.
Bajo los supuestos del modelo, el coeficiente de asimetría de Fisher ha de ser negativo:
\[ \mathcal{A}=\frac{\sqrt{2}(\pi-4)\lambda^3}{(\pi+(\pi-2)\lambda^2)^{3/2}} < 0 \]
Este problema está presente cuando las muestras son pequeñas o \( \lambda \) es pequeño. A medida que va aumentando el tamaño de muestra se va corrigiendo lentamente el problema.
El logaritmo de la función de verosimilitud de \( \epsilon \) es:
\[ \ln{L}=-\frac{N}{2}\cdot \ln{\frac{\pi}{2}} -N\cdot \ln{\sigma}+\sum_{i=1}^{N}\ln{\Phi\left(-\frac{\epsilon_i\lambda}{\sigma}\right)}-\frac{1}{2\sigma^2}\cdot \sum_{i=1}^{N}\epsilon^2_i \]
Derivando respecto de los parámetros de interés obtendríamos donde se hace máxima la verosimilitud.
Para realizar las estimaciones existen distintas bibliotecas en R donde está ya implementado este método. En este caso se utilizará la biblioteca frontier.
Para simular los datos se propone un modelo de un único input con las siguientes especificaciones:
\[ y_i=100+5x_i+\epsilon_i ~~ \mbox{donde} ~~i=1,...,K~~~;~~~\sigma_v^2=1 \]
| \( \lambda \) | \( N \) | % \( Asim \) > 0 | Me\( (\hat{\lambda}) \) | Me\( |\hat{\lambda}-\lambda| \) |
|---|---|---|---|---|
| 0.4 | 50 | 44.4 | 0.484 | 0.394 |
| 70 | 48.8 | 0.252 | 0.394 | |
| 100 | 43.8 | 0.597 | 0.395 | |
| 150 | 48.2 | 0.229 | 0.392 | |
| 0.8 | 50 | 42.8 | 0.707 | 0.792 |
| 70 | 38.6 | 0.914 | 0.789 | |
| 100 | 36.0 | 0.786 | 0.782 | |
| 150 | 33.8 | 0.869 | 0.662 | |
| 1 | 50 | 34.6 | 0.990 | 0.986 |
| 70 | 33.8 | 0.940 | 0.977 | |
| 100 | 30.4 | 1.023 | 0.771 | |
| 150 | 25.8 | 0.933 | 0.591 | |
| 2 | 50 | 10.6 | 2.077 | 1.059 |
| 70 | 6.2 | 2.044 | 0.817 | |
| 100 | 3.2 | 2.123 | 0.605 | |
| 150 | 1.2 | 2.080 | 0.453 | |
| 5 | 50 | 0.8 | 6.900 | 2.871 |
| 70 | 0.0 | 5.832 | 1.991 | |
| 100 | 0.0 | 5.586 | 1.555 | |
| 150 | 0.0 | 5.341 | 1.253 |
| \( \lambda \) | N | Me\( (\hat{\lambda}) \) (\( Asim > 0 \)) | Me\( |\hat{\lambda}-\lambda| \) | Me\( (\hat{\lambda}) \) (\( Asim<0 \)) | Me\( |\hat{\lambda}-\lambda| \) |
|---|---|---|---|---|---|
| 0.4 | 50 | 0.008 | 0.392 | 1.442 | 1.042 |
| 70 | 0.008 | 0.389 | 1.291 | 0.891 | |
| 100 | 0.009 | 0.391 | 1.205 | 0.805 | |
| 150 | 0.010 | 0.390 | 0.988 | 0.588 | |
| 0.8 | 50 | 0.008 | 0.792 | 1.527 | 0.788 |
| 70 | 0.009 | 0.791 | 1.426 | 0.719 | |
| 100 | 0.010 | 0.790 | 1.205 | 0.519 | |
| 150 | 0.011 | 0.789 | 1.202 | 0.466 | |
| 1 | 50 | 0.009 | 0.991 | 1.596 | 0.754 |
| 70 | 0.009 | 0.991 | 1.512 | 0.667 | |
| 100 | 0.010 | 0.990 | 1.371 | 0.485 | |
| 150 | 0.011 | 0.989 | 1.200 | 0.409 | |
| 2 | 50 | 0.010 | 1.990 | 2.346 | 0.919 |
| 70 | 0.012 | 1.988 | 2.134 | 0.751 | |
| 100 | 0.013 | 1.987 | 2.140 | 0.568 | |
| 150 | 0.015 | 1.985 | 2.085 | 0.448 | |
| 5 | 50 | 0.023 | 4.977 | 6.955 | 2.838 |
| 70 | NA | NA | 5.832 | 1.991 | |
| 100 | NA | NA | 5.586 | 1.555 | |
| 150 | NA | NA | 5.341 | 1.253 |
Utilizando el método MV, la idea es introducirle una modificación que ayude a tener en cuenta la rugosidad de la curva a estimar.
\[ \ln L(X_i|\psi)=\sum_{i}\log{f(X_i)}-\psi R(f) \]
donde \( \psi \) es un parámetro de suavización positivo y \( R(f) \) es una función que recoge el nivel de rugosidad de \( f \).
\( R(f) \) es la raíz cuadrada de la función de densidad resultando la siguiente función penalizadora. Sea \( \rho=\sqrt{f} \) donde \( f \) es una función de densidad:
\[ R(f)=\int{\rho^{'2}} \]
En este trabajo se ha explorado el comportamiento de este método con \( 0<\psi<1 \), sin embargo los mejores resultados se obtenian cuando \( \psi=0 \).
La estimación núcleo se define como: \[ \hat{f}(x)=\frac{1}{Nh}\sum_{i=1}^N \kappa\left(\frac{x-x_i}{h}\right) \]
donde
En nuestro caso:
Podemos obtener una expresión de la función de densidad de los residuos en función de \( \lambda \) y la desviación típica de los residuos:
\[ f( \epsilon)=\frac{2\sqrt{\lambda^2(\pi-2)+\pi}}{\sigma_\epsilon \sqrt{\pi(\lambda^2+1)}}\cdot\phi\left(\frac{ \epsilon\sqrt{\lambda^2(\pi-2)+\pi}}{\sigma_\epsilon\sqrt{\pi(\lambda^2+1)}}\right)\cdot\Phi\left(\frac{- \epsilon\lambda\sqrt{\lambda^2(\pi-2)+\pi}}{\sigma_\epsilon\sqrt{\pi(\lambda^2+1)}}\right) \] donde \( \sigma_\epsilon=\sigma\sqrt{\frac{\lambda^2(\pi-2)+\pi}{\lambda^2 \pi+\pi}} \) es la desviación típica de los residuos.
En el caso de \( \sigma_\epsilon \) podemos utilizar su estimación máximo-verosímil, ya que este método nos permite obtener un estimación adecuada de este parámetro.
Utilizando los resultados anteriores podemos definir el área común como:
\[ \mathcal{AC}(\hat{\lambda})=\mbox{máx}_{\lambda} \int_{\mathbb{R}}\mbox{mín}\left\{\hat{f}(\vec \epsilon),f(\vec \epsilon~|~\lambda,\hat{\sigma}_\epsilon)\right\}d\vec \epsilon \]
Si recordamos, los residuos \( \epsilon \) presentaban una distribución asimétrica ya que el valor de la asimetría teórico era:
\[ \mathcal{A}=\frac{\sqrt{2}(\pi-4)\lambda^3}{(\pi+(\pi-2)\lambda^2)^{3/2}} \]
Esto es un problema ya que la funciones núcleo son por lo general simétricas, tal y como sucede en nuestro caso con la función núcleo gaussiana.
Sea \( X \) es una variable aleatoria cuya función de distribución, que denotamos por \( F \), es continua e invertible. Según el Teorema de inversión, la v.a. \( Y=F(X)\equiv \mathfrak{U}(0,1) \).
Con esta transformación tendríamos solucionado el problema, ya que la distribución \( \mathfrak{U}(0,1) \) es simétrica.
Esto es debido a que la distribución uniforme tiene una densidad discontinua, con saltos notables. Para corregir este problema, sobre la variable \( Y \) realizamos la siguiente transformación, \( Z=\Phi^{-1}(Y)~,~Z\equiv \mathfrak{N}(0,1) \). Esto nos permite obtener una transformación de los residuos que conduce a una densidad continua y derivable.
La metodología es es la siguiente:
Obtenemos una estimación de \( \sigma_\epsilon \) y de \( \vec \epsilon \) mediante el método de máxima verosimilitud.
Aplicamos la transformación \( \vec {\epsilon}_{T}=\Phi^{-1}(F(\vec{\epsilon})) \).
Obtenemos una estimación de \( \lambda \) mediante el método \( \mathcal{AC} \).
Para realizar el análisis utilizamos el mismo modelo que en la estimación MV para generar nuestras muestras:
\[ y=100+5x_i+\epsilon_i ~~ \mbox{donde} ~~i=1,...,K~~~;~~~\sigma_v^2=1 \]
| \( \lambda \) | \( N \) | Me\( (\hat{\lambda}) \) | Me\( |\hat{\lambda}-\lambda| \) |
|---|---|---|---|
| 0.4 | 50 | 0.274 | 0.380 |
| 70 | 0.213 | 0.379 | |
| 100 | 0.332 | 0.387 | |
| 150 | 0.492 | 0.381 | |
| 0.8 | 50 | 0.541 | 0.721 |
| 70 | 0.728 | 0.703 | |
| 100 | 0.821 | 0.706 | |
| 150 | 0.754 | 0.656 | |
| 1 | 50 | 0.976 | 0.869 |
| 70 | 0.925 | 0.861 | |
| 100 | 1.007 | 0.698 | |
| 150 | 0.966 | 0.517 | |
| 2 | 50 | 1.923 | 0.980 |
| 70 | 1.942 | 0.643 | |
| 100 | 1.918 | 0.564 | |
| 150 | 1.928 | 0.440 | |
| 5 | 50 | 4.558 | 1.888 |
| 70 | 4.712 | 1.833 | |
| 100 | 4.597 | 1.503 | |
| 150 | 4.480 | 1.253 |
| \( \lambda \) | N | Me\( (\hat{\lambda}) \) (\( Asim > 0 \)) | Me\( |\hat{\lambda}-\lambda| \) | Me\( (\hat{\lambda}) \) (\( Asim < 0 \)) | Me\( |\hat{\lambda}-\lambda| \) |
|---|---|---|---|---|---|
| 0.4 | 50 | 0.102 | 0.300 | 1.583 | 1.183 |
| 70 | 0.076 | 0.326 | 1.184 | 0.783 | |
| 100 | 0.060 | 0.340 | 1.129 | 0.729 | |
| 150 | 0.045 | 0.355 | 1.025 | 0.625 | |
| 0.8 | 50 | 0.082 | 0.717 | 1.484 | 0.740 |
| 70 | 0.079 | 0.720 | 1.292 | 0.648 | |
| 100 | 0.055 | 0.745 | 1.230 | 0.504 | |
| 150 | 0.045 | 0.754 | 1.136 | 0.445 | |
| 1 | 50 | 0.084 | 0.915 | 1.445 | 0.603 |
| 70 | 0.066 | 0.933 | 1.437 | 0.566 | |
| 100 | 0.056 | 0.943 | 1.263 | 0.416 | |
| 150 | 0.048 | 0.951 | 1.199 | 0.355 | |
| 2 | 50 | 0.088 | 1.911 | 2.126 | 0.787 |
| 70 | 0.045 | 1.954 | 2.005 | 0.572 | |
| 100 | 0.045 | 1.955 | 1.980 | 0.527 | |
| 150 | 0.061 | 1.938 | 1.956 | 0.431 | |
| 5 | 50 | 0.040 | 4.959 | 4.559 | 1.871 |
| 70 | 0.321 | 4.678 | 4.716 | 1.829 | |
| 100 | NA | NA | 4.597 | 1.502 | |
| 150 | NA | NA | 4.480 | 1.252 |
| \( \lambda \) | N | \( \hat{\lambda}_{AC} \) | \( \hat{\lambda}_{MV} \) |
|---|---|---|---|
| 0.4 | 50 | 0.102 | 0.008 |
| 70 | 0.076 | 0.008 | |
| 100 | 0.060 | 0.009 | |
| 150 | 0.045 | 0.010 | |
| 0.8 | 50 | 0.082 | 0.008 |
| 70 | 0.079 | 0.009 | |
| 100 | 0.055 | 0.010 | |
| 150 | 0.045 | 0.011 | |
| 1 | 50 | 0.084 | 0.009 |
| 70 | 0.067 | 0.009 | |
| 100 | 0.056 | 0.010 | |
| 150 | 0.048 | 0.011 | |
| 2 | 50 | 0.089 | 0.010 |
| 70 | 0.046 | 0.012 | |
| 100 | 0.045 | 0.013 | |
| 150 | 0.062 | 0.015 | |
| 5 | 50 | 0.041 | 0.023 |
| 70 | 0.322 | NA | |
| 100 | NA | NA | |
| 150 | NA | NA |
| \( \lambda \) | N | \( \hat{\lambda}_{AC} \) | \( \hat{\lambda}_{MV} \) |
|---|---|---|---|
| 0.4 | 50 | 1.583 | 1.442 |
| 70 | 1.184 | 1.291 | |
| 100 | 1.129 | 1.205 | |
| 150 | 1.025 | 0.988 | |
| 0.8 | 50 | 1.485 | 1.527 |
| 70 | 1.292 | 1.426 | |
| 100 | 1.231 | 1.205 | |
| 150 | 1.137 | 1.202 | |
| 1 | 50 | 1.446 | 1.596 |
| 70 | 1.437 | 1.512 | |
| 100 | 1.263 | 1.371 | |
| 150 | 1.199 | 1.200 | |
| 2 | 50 | 2.126 | 2.346 |
| 70 | 2.005 | 2.134 | |
| 100 | 1.980 | 2.140 | |
| 150 | 1.956 | 2.085 | |
| 5 | 50 | 4.560 | 6.955 |
| 70 | 4.716 | 5.832 | |
| 100 | 4.597 | 5.586 | |
| 150 | 4.480 | 5.341 |
Este tipo de funciones se conocen con el nombre de estimadores de núcleo adaptable y se pueden definir como:
\[ \hat{f}(x)=\frac{1}{N}\sum^N_{i=1}\frac{1}{ H_i}\kappa\left(\frac{x-x_i}{ H_i}\right) \] donde
Se calculan los valores de los anchos de ventana locales como
\[ \tau_i = \left(\frac{\hat{f}^0(x_i)}{g}\right)^{-\alpha} \] donde \( g \) es la media geométrica de \( \{\hat{f}^0(x_i)\mid i=1,...,N\} \) y \( \alpha \) es un parámetro de sensibilidad, tal que \( ~0 \leq \alpha \leq 1~ \).
Se define la estimación mediante núcleos adaptables como
\[ \hat{f}(x)=\frac{1}{N}\sum^N_{i=1}\frac{1}{h \tau_i}\kappa\left(\frac{x-x_i}{h \tau_i}\right) \] donde \( \kappa \) será una función kernel, \( h \) será el ancho de ventana y será \( \alpha \) el parámetro que nos permita regular la sensibilidad (Véase la definición de \( \tau_i \)).
Para realizar la estimaciones se continúa utilizando el modelo planteado anteriormente. Además para calcular el área común tendremos en cuenta el valor del parámetro de ajuste \( \alpha \).
\[ \mathcal{AC_{(\lambda,\alpha)}}=\int_{\mathbb{R}} \mbox{mín}[\hat{f}(\vec \epsilon),f(\vec \epsilon~|~\lambda,\alpha,\sigma_\epsilon)]d \vec \epsilon \]
| \( \lambda \) | \( N \) | Me\( (\hat{\lambda}) \) | Me\( |\hat{\lambda}-\lambda| \) |
|---|---|---|---|
| 0.4 | 50 | 0.3950 | 0.3610 |
| 70 | 0.3000 | 0.3550 | |
| 100 | 0.3580 | 0.3780 | |
| 150 | 0.4780 | 0.3630 | |
| 0.8 | 50 | 0.8660 | 0.7030 |
| 70 | 0.8190 | 0.6470 | |
| 100 | 0.8060 | 0.6190 | |
| 150 | 0.7970 | 0.6380 | |
| 1 | 50 | 0.9930 | 0.7910 |
| 70 | 1.0580 | 0.8160 | |
| 100 | 1.0050 | 0.6650 | |
| 150 | 0.9880 | 0.4980 | |
| 2 | 50 | 1.9790 | 0.6380 |
| 70 | 2.0390 | 0.9030 | |
| 100 | 2.0100 | 0.4420 | |
| 150 | 2.0868 | 0.4110 | |
| 5 | 50 | 4.9570 | 1.8440 |
| 70 | 4.8870 | 1.8201 | |
| 100 | 4.6490 | 1.4590 | |
| 150 | 4.8180 | 1.0800 |
| \( \lambda \) | N | \( \hat{\lambda}_{AC-AD} \) | \( \hat{\lambda}_{AC} \) |
|---|---|---|---|
| 0.4 | 50 | 0.105 | 0.102 |
| 70 | 0.098 | 0.076 | |
| 100 | 0.069 | 0.060 | |
| 150 | 0.061 | 0.045 | |
| 0.8 | 50 | 0.096 | 0.082 |
| 70 | 0.097 | 0.079 | |
| 100 | 0.080 | 0.055 | |
| 150 | 0.064 | 0.045 | |
| 1 | 50 | 0.096 | 0.084 |
| 70 | 0.111 | 0.067 | |
| 100 | 0.077 | 0.056 | |
| 150 | 0.075 | 0.048 | |
| 2 | 50 | 0.093 | 0.089 |
| 70 | 0.065 | 0.046 | |
| 100 | 0.052 | 0.045 | |
| 150 | 0.082 | 0.062 | |
| 5 | 50 | 0.063 | 0.041 |
| 70 | 0.352 | 0.322 | |
| 100 | NA | NA | |
| 150 | NA | NA |
| \( \lambda \) | N | \( \hat{\lambda}_{AC-AD} \) | \( \hat{\lambda}_{AC} \) |
|---|---|---|---|
| 0.4 | 50 | 1.321 | 1.583 |
| 70 | 1.178 | 1.184 | |
| 100 | 1.082 | 1.129 | |
| 150 | 1.008 | 1.025 | |
| 0.8 | 50 | 1.433 | 1.485 |
| 70 | 1.270 | 1.292 | |
| 100 | 1.194 | 1.231 | |
| 150 | 1.117 | 1.137 | |
| 1 | 50 | 1.432 | 1.446 |
| 70 | 1.314 | 1.437 | |
| 100 | 1.182 | 1.263 | |
| 150 | 1.127 | 1.199 | |
| 2 | 50 | 1.930 | 2.126 |
| 70 | 2.017 | 2.005 | |
| 100 | 2.013 | 1.980 | |
| 150 | 2.030 | 1.956 | |
| 5 | 50 | 4.977 | 4.560 |
| 70 | 4.907 | 4.716 | |
| 100 | 4.669 | 4.597 | |
| 150 | 4.838 | 4.480 |
Problemas a la hora de evaluar la normalidad de los residuos:
Método basado en una medida conocida como neguentropía, utilizada en los campos de teoría de la señal y teoría de la información.
La entropía mide la cantidad incertidumbre de una señal.
Para una variable aleatoria discreta \( X \) se puede definir su entropía \( H(X) \) como:
\[ H(X)=-\sum_{i}{P(X=a_i)\log{P(X=a_i)}} \]
donde \( a_i \) son los posibles valores de \( X \).
El concepto de entropía se puede generalizar para variables aleatorias continuas. En este caso se conoce como entropía diferencial. Sea \( X \) una variable aleatoria continua con función de densidad \( f(x) \), se puede definir la entropía diferencial como :
\[ H(X)=-\int{f(x)\log{f(x)}dx} \]
De entre todas las distribuciones de probabilidad con soporte en \( (-\infty,\infty) \) y con una varianza \( \sigma^2 \) concreta, es la distribución normal la que tiene una mayor entropía. Es por ello que podemos utilizar la entropía diferencial como medida de no normalidad de una señal. A partir de esta expresión es posible obtener una medida de no normalidad que sea no negativa y que tome valor cero cuando la variable sea normal. Estamos hablando de la neguentropía.
Se puede entender como la diferencia entre la cantidad de entropía que tiene una señal y el máximo de entropía que puede llegar a tener. Es por tanto una medida en este caso de organización de un sistema o señal.
Sea \( X \) una variable aleatoria, se puede definir la neguentropía \( J(X) \) como :
\[ J(X)=H(X_{\mathfrak{N}})-H(X) \]
donde \( H(X_{\mathfrak{N}}) \) es la entropía de una variable aleatoria normal con la misma media y varianza que \( X \).
Dado que la estimación de la neguentropía es algo compleja existen distintas aproximaciones. La más sencilla se calcula en base a momentos de alto orden. Sea \( X\equiv \mathfrak{N}(0,1) \):
\[ J(X)\approx \frac{1}{12} E(X^3)^2 + \frac{1}{48} \mbox{curtosis}(X)^2 \]
Existen más opciones como : \[ J(X)\approx (E[G(X_{\mathfrak{N}})]-E[G(X)])^2 \]
donde \( G(z)=\frac{1}{a}\log{\cosh(az)} \) para \( 1\leq a\leq 2 \), \( a \) es una parámetro de ajuste y \( \cosh(z)=\frac{e^z + e^{-z}}{2} \)
Otra variante es usar \( G(z)=-e^{\frac{-u^2}{2}} \).
| \( \lambda \) | N | \( \hat{\lambda_{NG}} \) | \( \hat{\lambda_{AC}} \) |
|---|---|---|---|
| 0.4 | 50 | 0.1880 | 0.1024 |
| 70 | 0.1060 | 0.0760 | |
| 100 | 0.0690 | 0.0601 | |
| 150 | 0.0619 | 0.0449 | |
| 0.8 | 50 | 0.0900 | 0.0820 |
| 70 | 0.1070 | 0.0791 | |
| 100 | 0.0810 | 0.0547 | |
| 150 | 0.0520 | 0.0452 | |
| 1 | 50 | 0.1500 | 0.0844 |
| 70 | 0.0880 | 0.0665 | |
| 100 | 0.1020 | 0.0563 | |
| 150 | 0.0570 | 0.0480 | |
| 2 | 50 | 0.0090 | 0.0887 |
| 70 | 0.0953 | 0.0458 | |
| 100 | 0.0450 | 0.0447 | |
| 150 | 0.1890 | 0.0616 | |
| 5 | 50 | NA | 0.0406 |
| 70 | NA | 0.3219 | |
| 100 | NA | NA | |
| 150 | NA | NA |
Estas técnicas ofrecen en términos generales mejores resultados, tanto para el problema de la asimetría positiva como para el resto de casos.
No obstante hay que ser consciente de que el grado de mejora, si bien es positivo, es moderado.
Esto es debido a que aunque tenemos cierta certeza de que cual es la causa del problema, resulta difícil identificar que observaciones generan las distorsiones y su posterior tratamiento.
En balance se ha comprobado que con los métodos que ofrecen un análisis más flexible se obtienen mejores resultados. Aquellos procedimientos que atenúan el efecto de las observaciones individuales para dar un mayor peso al comportamiento general de los datos resultan más adecuados para este problema.
Como producto de este TFM y de la tesis que ha servido de base para el desarrollo del trabajo se ha elaborado una librería del software estadístico R donde aparecen implementadas las técnicas anteriormente utilizadas.
Las funciones que recoge el paquete para distintos modelos de error compuesto son:
El código puede consultarse y descargarse de https://github.com/javiergarcirod/stfa.
Para instalar y cargar el paquete cuando este disponible:
##library(devtools)
##url<-'https://github.com/javiergarcirod/stfa'
##install_git(url=url)
## library(stfa)
set.seed(3)
b0<-100;b1<-5;landa<-1;n<-100;sigma2v<-1;
sigmav <- sqrt(sigma2v);sigma2u <- landa^2 * sigma2v;sigmau <- sqrt(sigma2u)
x <- runif(n, 1, 30);v <- rnorm(n, 0, sigmav);u <- abs(rnorm(n, 0, sigmau));e.real <- v - u
y <- b0 + b1 * x + e.real
l1<-stfa::area.comun(x,y,model="Normal-HalfNormal",method='Adaptative-Kernel')$landa_ac
l2<-stfa::area.comun(x,y,model="Normal-HalfNormal",method='Kernel')$landa_ac
cat("Para un valor del parámetro =",landa,"los resultados son:","\n","núcleo adaptable=",l1,'\n','núcleo=',l2)
Para un valor del parámetro = 1 los resultados son:
núcleo adaptable= 1
núcleo= 1.93204
Método de MV con penalización utilizando otras funciones penalizadoras u otros valores del parámetro de sensibilidad.
Nuevas técnicas de optimización cuántica aplicadas al campo de la estimación MV.
Nuevos métodos de eliminación de valores anómalos basado en reglas heurísticas o metaheurísticas que tenga en cuenta la influencia de conjuntos de puntos.
GRACIAS POR SU ATENCION