Simule 100 de los datos que perdió el experto. Para esta pregunta desde una semilla igual a 0, genere los datos normales y utilice el teorema mostrado.

# semilla
set.seed(0)
#tamaño de n
n <- 100
# 2 dimensiones
d=2
#creamos una matrix llamada x, que contenga 2 dimensión donde n y r son normales
x <- matrix( rnorm(d * n), n, d )
#Calculamos la norma de = raíz (suma los valores de x^2)
x.norma <- sqrt( rowSums( x^2 ) )
# le decimos que n se distribuye uniforme
u <- runif( n )
# graficamos la norma de x
plot( x / x.norma, col = "black", xlab = "x", ylab = "y" )

Encuentre el estimador máximo verosímil

Sea \(X_1,...,X_n\) una m.a de la distribución exp\((\theta)\). La función de verosimilitud es

\(L(\theta)=f(x_1;\theta),...,f(x_n;\theta)\) \(L(\theta)=\theta e^{-\theta x_1},...,\theta e^{-\theta x_n}\) \(L(\theta)=\theta^{n} e^{-\theta n \bar{x}}\) Entonces;

\(ln L(\theta)=nln\theta-\theta n \bar{x}\)

\(\dfrac{d}{d\theta}ln L(\theta)=\dfrac{n}{\theta}-n \bar{x}\)

esta derivada es cero si solo si \(\theta=\dfrac{1}{\bar{x}}\)

Además, \(\dfrac{d^2}{d \theta^2} ln L(\theta)=\dfrac{-n}{\theta^2}<0\)

Por lo tanto, \(\widehat{\theta}=\dfrac{1}{\bar{x}}\) es la estimación para \(\theta\)

Obtenga el estimador máximo verosímil con 1000 datos generados.

set.seed(5)
#distribución exponencial con rate 0.9
x<-rexp(1000,rate=0.9)
# creamos una función, que sume y calcule el logaritmo
f<-function(rate,x){
  -sum(dexp(x,rate=rate,log = TRUE))
}
s<-nlm(f,rate<-c(runif(1)),x=x,hessian = TRUE) #Minimiza la función f, y se distribuye uniforme. Y utilizamos la matriz hessiana
s$estimate
## [1] 0.8975922

Intervalo de confianza y test de hipótesis

Suponga que los puntajes de una prueba internacional siguen una ley normal de parámetros desconocidos. Genera 30 datos normales de parámetro de media igual a 5 y de varianza igual a 2. Desde una semilla igual a 1,

set.seed(1)

ds=sqrt(2);ds
## [1] 1.414214
# distr.normal, n=30, media=5,sd=1.414214
x=rnorm(30,5,1.414214)
  1. Encuentre los estimadores de media y varianza con los 30 datos.
#media
mean(x)
## [1] 5.116613
#varianza
var(x)
## [1] 1.708
#des.estan
sd(x)
## [1] 1.306905
  1. Encuentre un intervalo de confianza para la media y para la varianza con una confianza igual a 0,01

Estimación del intervalo de la media poblacional con varianza desconocida

# prueba t, x=muestra, intervalo de confianza
t.test (x,conf.level = 0.99)
## 
##  One Sample t-test
## 
## data:  x
## t = 21.444, df = 29, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 99 percent confidence interval:
##  4.458920 5.774307
## sample estimates:
## mean of x 
##  5.116613
  1. Realice el test de hipótesis

\(Ho:\mu=5,1\) vs\(H1:\mu \ne 5,1\)

t.test(x, alternative='two.sided',conf.level=0.95, mu=5.1)
## 
##  One Sample t-test
## 
## data:  x
## t = 0.069627, df = 29, p-value = 0.945
## alternative hypothesis: true mean is not equal to 5.1
## 95 percent confidence interval:
##  4.628607 5.604620
## sample estimates:
## mean of x 
##  5.116613

Como el valor-P es 0.945 y mayor que el nivel de significancia 5%, no se rechaza la hipótesis nula.

set.seed(0)
x1=rnorm(100)
x2=rnorm(100)
y1=3+5*x1+rnorm(100,0,2)
y2=33+53*x1+0.1*x2*rnorm(100,0,2)
#Creamos un data.frame llamado data
data=data.frame(y1,y2,x1,x2)

Regression lineal

#
library(ggplot2)
## Warning in as.POSIXlt.POSIXct(Sys.time()): unable to identify current timezone 'H':
## please set environment variable 'TZ'
ggplot(data=data,aes(x = x1, y = y1)) + 
  geom_point()+ theme_bw()+stat_smooth(method = lm)
## `geom_smooth()` using formula 'y ~ x'

# dibuja puntos, lineas de fondo, metodo de lm =regresion lineal simple

Hipótesis nula (H0): los coeficientes son iguales a cero (es decir, sin relación entre x e y) Hipótesis alternativa (Ha): los coeficientes no son iguales a cero (es decir, hay alguna relación entre x e y)

modelo1<-lm(y1~x1,data=data)
summary(modelo1)
## 
## Call:
## lm(formula = y1 ~ x1, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7598 -1.4873 -0.0082  1.1700  4.8457 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3.1309     0.2111   14.83   <2e-16 ***
## x1            5.1551     0.2403   21.45   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.11 on 98 degrees of freedom
## Multiple R-squared:  0.8244, Adjusted R-squared:  0.8226 
## F-statistic: 460.2 on 1 and 98 DF,  p-value: < 2.2e-16

Interpretación

El primer paso para interpretar el análisis de regresión múltiple es examinar el estadístico F y el valor p asociado, en la parte inferior del resumen del modelo.

En nuestro ejemplo, se puede ver que el valor p del estadístico F es < 2.2e-16 que es altamente significativo. Esto significa que, al menos, una de las variables predictoras está significativamente relacionada con la variable de resultado.

Para ver qué variables predictoras son significativas, puede examinar la tabla de coeficientes, que muestra la estimación de los coeficientes beta de regresión y los valores p estadísticos t asociados:

summary(modelo1)$coef
##             Estimate Std. Error  t value     Pr(>|t|)
## (Intercept) 3.130927  0.2111183 14.83020 8.686160e-27
## x1          5.155074  0.2403117 21.45161 8.407753e-39

Para un predictor dado, el estadístico t evalúa si existe o no una asociación significativa entre el predictor y la variable de resultado, es decir, si el coeficiente beta del predictor es significativamente diferente de cero

\(y_1=2,72+5,05*x_1\)

ggplot(data=data,aes(x = x1+x2, y = y1)) + 
  geom_point()  + theme_bw()+stat_smooth(method = lm)
## `geom_smooth()` using formula 'y ~ x'

modelo2<-lm(y2~x1+x2)
summary(modelo2)
## 
## Call:
## lm(formula = y2 ~ x1 + x2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.65878 -0.03480  0.00657  0.06841  0.52662 
## 
## Coefficients:
##             Estimate Std. Error  t value Pr(>|t|)    
## (Intercept) 32.99398    0.01907 1729.725   <2e-16 ***
## x1          52.99217    0.02186 2424.078   <2e-16 ***
## x2          -0.01249    0.01999   -0.625    0.533    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1904 on 97 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 2.986e+06 on 2 and 97 DF,  p-value: < 2.2e-16

\(y_2=32,99+52,99x_1-0,005x_2\) Interpretación En nuestro ejemplo, se puede ver que el valor p del estadístico F es < 2.2e-16 que es altamente significativo. Esto significa que, al menos, una de las variables predictoras está significativamente relacionada con la variable de resultado.

summary(modelo2)$coef
##                Estimate Std. Error      t value      Pr(>|t|)
## (Intercept) 32.99397780 0.01907469 1729.7253161 1.518467e-219
## x1          52.99217267 0.02186076 2424.0775677 9.215271e-234
## x2          -0.01249279 0.01998512   -0.6251046  5.333702e-01

Se puede ver que x1 están significativamente asociados a y1, mientras que x2 no están significativamente asociados a y2.