# semilla
set.seed(0)
#tamaño de n
n <- 100
# 2 dimensiones
d=2
#creamos una matrix llamada x, que contenga 2 dimensión donde n y r son normales
x <- matrix( rnorm(d * n), n, d )
#Calculamos la norma de = raíz (suma los valores de x^2)
x.norma <- sqrt( rowSums( x^2 ) )
# le decimos que n se distribuye uniforme
u <- runif( n )
# graficamos la norma de x
plot( x / x.norma, col = "black", xlab = "x", ylab = "y" )
Sea \(X_1,...,X_n\) una m.a de la distribución exp\((\theta)\). La función de verosimilitud es
\(L(\theta)=f(x_1;\theta),...,f(x_n;\theta)\) \(L(\theta)=\theta e^{-\theta x_1},...,\theta e^{-\theta x_n}\) \(L(\theta)=\theta^{n} e^{-\theta n \bar{x}}\) Entonces;
\(ln L(\theta)=nln\theta-\theta n \bar{x}\)
\(\dfrac{d}{d\theta}ln L(\theta)=\dfrac{n}{\theta}-n \bar{x}\)
esta derivada es cero si solo si \(\theta=\dfrac{1}{\bar{x}}\)
Además, \(\dfrac{d^2}{d \theta^2} ln L(\theta)=\dfrac{-n}{\theta^2}<0\)
Por lo tanto, \(\widehat{\theta}=\dfrac{1}{\bar{x}}\) es la estimación para \(\theta\)
set.seed(5)
#distribución exponencial con rate 0.9
x<-rexp(1000,rate=0.9)
# creamos una función, que sume y calcule el logaritmo
f<-function(rate,x){
-sum(dexp(x,rate=rate,log = TRUE))
}
s<-nlm(f,rate<-c(runif(1)),x=x,hessian = TRUE) #Minimiza la función f, y se distribuye uniforme. Y utilizamos la matriz hessiana
s$estimate
## [1] 0.8975922
Suponga que los puntajes de una prueba internacional siguen una ley normal de parámetros desconocidos. Genera 30 datos normales de parámetro de media igual a 5 y de varianza igual a 2. Desde una semilla igual a 1,
set.seed(1)
ds=sqrt(2);ds
## [1] 1.414214
# distr.normal, n=30, media=5,sd=1.414214
x=rnorm(30,5,1.414214)
#media
mean(x)
## [1] 5.116613
#varianza
var(x)
## [1] 1.708
#des.estan
sd(x)
## [1] 1.306905
Estimación del intervalo de la media poblacional con varianza desconocida
# prueba t, x=muestra, intervalo de confianza
t.test (x,conf.level = 0.99)
##
## One Sample t-test
##
## data: x
## t = 21.444, df = 29, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 99 percent confidence interval:
## 4.458920 5.774307
## sample estimates:
## mean of x
## 5.116613
\(Ho:\mu=5,1\) vs\(H1:\mu \ne 5,1\)
t.test(x, alternative='two.sided',conf.level=0.95, mu=5.1)
##
## One Sample t-test
##
## data: x
## t = 0.069627, df = 29, p-value = 0.945
## alternative hypothesis: true mean is not equal to 5.1
## 95 percent confidence interval:
## 4.628607 5.604620
## sample estimates:
## mean of x
## 5.116613
Como el valor-P es 0.945 y mayor que el nivel de significancia 5%, no se rechaza la hipótesis nula.
set.seed(0)
x1=rnorm(100)
x2=rnorm(100)
y1=3+5*x1+rnorm(100,0,2)
y2=33+53*x1+0.1*x2*rnorm(100,0,2)
#Creamos un data.frame llamado data
data=data.frame(y1,y2,x1,x2)
#
library(ggplot2)
## Warning in as.POSIXlt.POSIXct(Sys.time()): unable to identify current timezone 'H':
## please set environment variable 'TZ'
ggplot(data=data,aes(x = x1, y = y1)) +
geom_point()+ theme_bw()+stat_smooth(method = lm)
## `geom_smooth()` using formula 'y ~ x'
# dibuja puntos, lineas de fondo, metodo de lm =regresion lineal simple
Hipótesis nula (H0): los coeficientes son iguales a cero (es decir, sin relación entre x e y) Hipótesis alternativa (Ha): los coeficientes no son iguales a cero (es decir, hay alguna relación entre x e y)
modelo1<-lm(y1~x1,data=data)
summary(modelo1)
##
## Call:
## lm(formula = y1 ~ x1, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.7598 -1.4873 -0.0082 1.1700 4.8457
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.1309 0.2111 14.83 <2e-16 ***
## x1 5.1551 0.2403 21.45 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.11 on 98 degrees of freedom
## Multiple R-squared: 0.8244, Adjusted R-squared: 0.8226
## F-statistic: 460.2 on 1 and 98 DF, p-value: < 2.2e-16
Interpretación
El primer paso para interpretar el análisis de regresión múltiple es examinar el estadístico F y el valor p asociado, en la parte inferior del resumen del modelo.
En nuestro ejemplo, se puede ver que el valor p del estadístico F es < 2.2e-16 que es altamente significativo. Esto significa que, al menos, una de las variables predictoras está significativamente relacionada con la variable de resultado.
Para ver qué variables predictoras son significativas, puede examinar la tabla de coeficientes, que muestra la estimación de los coeficientes beta de regresión y los valores p estadísticos t asociados:
summary(modelo1)$coef
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.130927 0.2111183 14.83020 8.686160e-27
## x1 5.155074 0.2403117 21.45161 8.407753e-39
Para un predictor dado, el estadístico t evalúa si existe o no una asociación significativa entre el predictor y la variable de resultado, es decir, si el coeficiente beta del predictor es significativamente diferente de cero
\(y_1=2,72+5,05*x_1\)
ggplot(data=data,aes(x = x1+x2, y = y1)) +
geom_point() + theme_bw()+stat_smooth(method = lm)
## `geom_smooth()` using formula 'y ~ x'
modelo2<-lm(y2~x1+x2)
summary(modelo2)
##
## Call:
## lm(formula = y2 ~ x1 + x2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.65878 -0.03480 0.00657 0.06841 0.52662
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 32.99398 0.01907 1729.725 <2e-16 ***
## x1 52.99217 0.02186 2424.078 <2e-16 ***
## x2 -0.01249 0.01999 -0.625 0.533
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1904 on 97 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 2.986e+06 on 2 and 97 DF, p-value: < 2.2e-16
\(y_2=32,99+52,99x_1-0,005x_2\) Interpretación En nuestro ejemplo, se puede ver que el valor p del estadístico F es < 2.2e-16 que es altamente significativo. Esto significa que, al menos, una de las variables predictoras está significativamente relacionada con la variable de resultado.
summary(modelo2)$coef
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 32.99397780 0.01907469 1729.7253161 1.518467e-219
## x1 52.99217267 0.02186076 2424.0775677 9.215271e-234
## x2 -0.01249279 0.01998512 -0.6251046 5.333702e-01
Se puede ver que x1 están significativamente asociados a y1, mientras que x2 no están significativamente asociados a y2.