Las herramientas tecnológicas para el estudio y la enseñanza de la estadística en la actualidad están ampliamente extendidas y disponibles incluso de manera gratuita. El estudio de los conceptos estadísticos teóricos, sus propiedades y teoremas relacionados, pueden verificarse fácilmente mediante la generación de ensayos y simulaciones de variables aleatorias. Programas estadísticos de licencia gratuita como el R-project se constituyen en un aliado estratégico que facilitan y simplifican al docente la transferencia de conocimiento y al estudiante su asimilación. El presente trabajo recopila el fruto de varios años de experiencia enseñando inferencia estadística apoyado en las simulaciones y ejercicios prácticos realizados usando este programa. La experiencia se concretó en el diseño y socialización de esta página web generado y publicado mediante la plataforma RStudio Cloud. En esta página se organizan los contenidos en varias secciones, que incluyen los códigos necesarios para realizar los ensayos de simulaciones que permiten verificar las propiedades y teoremas de los tópicos tratados en el curso de Probabilidades. Los estudiantes matriculados al curso pueden copiar los códigos para ejecutarlos en su propio ordenador, para verificar el efecto que tienen los cambios en los parámetros de los modelos de probabilidad estudiados, sobre los resultados de las simulaciones. Adicionalmente se incluyen una serie de estudios de casos con datos provenientes de registros administrativos y encuestas nacionales para aplicar los conceptos abordados en la solución de problemas sobre algunas variables relevantes. Actualmente, resulta imprescindible que todo estudiante de Estadística culmine la carrera con el manejo de un programa para el análisis estadístico, y R es una excelente opción que se puede disponer para el efecto.
R es un programa de código abierto, que tuvo inicios aproximadamente en el año 2000, como continuación de programa S. De acuerdo con la página oficial de R-project, este es un lenguaje y entorno para computación estadística y gráficos. Es un proyecto GNU que es similar al lenguaje y entorno S por lo que puede considerarse como una implementación diferente de S. El programa fue desarrollado en Bell Laboratories por John Chambers y sus colegas. Hay algunas diferencias importantes, pero gran parte del código escrito para S se ejecuta sin cambios en R. R proporciona una amplia variedad de técnicas estadísticas (modelado lineal y no lineal, pruebas estadísticas clásicas, análisis de series temporales, clasificación, agrupamiento, …) y técnicas gráficas, y es altamente extensible. El lenguaje S suele ser el vehículo elegido para la investigación en metodología estadística, y R proporciona una ruta de código abierto para participar en esa actividad. (‘Using RStudio projects,’ n.d.)
R-project Enlace para descargar el programa R-project
A continuación te dejamos algunos enlaces interesantes para aprender a usar R como herramienta para el análisis estadístico
Puede resultar de mucha utilidad trabajar y guardar los comandos usados en un “script” de R. El script es básicamente un documento de texto donde uno puede ir escribiendo todos los comandos a ejecutar. Considerando el hecho de que si se antepone a una línea de comando el signo #, este no será ejecutado y el programa lo considerará como un comentario.
Script en R
Paquetes que usualmente son necesarios instalar. Elimine los signos # para instalarlos por primera vez.
# install.packages("hrbrthemes")
# install.packages("viridis")
# install.packages("dplyr")
# install.packages("data.table")
# install.packages("bookdown")
# install.packages("agricolae")
# install.packages("fastmap")
# install.packages("grDevices")
# install.packages("PNG")
# install.packages("readpng")
# install.packages("sandwich")
# install.packages("reticulate")
# install.packages("tidyverse")
# install.packages("crosstable")
# install.packages("prettydoc")
# install.packages("rmdformats")
# install.packages("DescTools")
# install.packages("kableExtra")
# install.packages("expss")
# install.packages('descr')
# install.packages("gtools")
Una de las cosas más importantes a la hora de trabajar con R es aprender a usar la ayuda. Para obtener la ayuda sobre alguna función o comando de R basta con escribir el comando help() y dentro del paréntesis incluir el nombre de la función o comando
help("seq")
## starting httpd help server ... done
La ayuda de R
Puedes usar el programa R como una calculadora, basta con conocer cuáles son los signos y comandos a utilizar para realizar las opereaciones. Copia los comandos en tu script de R y ejecútalos para ver los resultados.
#suma
2+2
## [1] 4
#multiplicación
2*2
## [1] 4
#división
2/2
## [1] 1
#potencia
4^2
## [1] 16
#raíz cuadrada
sqrt(16)
## [1] 4
Un primer paso para usar R en el estudio de la Estadística se relaciona con el proceso de cargar datos, que luego puedan ser analizados. Considera las variables “Edad del estudiante” y su “Altura”, carga los datos para luego realizar algunas operaciones estadísticas con ellos.
#cargamos una variable cuantitativa discreta
<-c(11,12,12,15,12,41)
edad edad
## [1] 11 12 12 15 12 41
#cargamos una variable cuantitativa contínua
=c(50,65,120,156,60,182)
altura altura
## [1] 50 65 120 156 60 182
#cargamos una variable cualitativa nominal
=as.factor(c("Hombre","Mujer","Mujer","Hombre","Mujer","Mujer"))
sexo sexo
## [1] Hombre Mujer Mujer Hombre Mujer Mujer
## Levels: Hombre Mujer
#cargamos una variable cualitativa ordinal
=as.factor(c("Sin instrucción","Educ. Básica","Educ.Básica","Unviversitaria","Unviversitaria","Educ. Básica"))
niveleducativo niveleducativo
## [1] Sin instrucción Educ. Básica Educ.Básica Unviversitaria
## [5] Unviversitaria Educ. Básica
## Levels: Educ. Básica Educ.Básica Sin instrucción Unviversitaria
#para indicar a R que los datos cargados están relacionados
=data.frame(edad,altura,sexo,niveleducativo)
datos datos
## edad altura sexo niveleducativo
## 1 11 50 Hombre Sin instrucción
## 2 12 65 Mujer Educ. Básica
## 3 12 120 Mujer Educ.Básica
## 4 15 156 Hombre Unviversitaria
## 5 12 60 Mujer Unviversitaria
## 6 41 182 Mujer Educ. Básica
Usando la función table()
# Tablas de frecuencias para sexo
<- table(sexo)
tab_sexo tab_sexo
## sexo
## Hombre Mujer
## 2 4
# Tablas de frecuencias para edad
<- table(edad)
tab_edad tab_edad
## edad
## 11 12 15 41
## 1 3 1 1
# Tablas de frecuencias de doble entrada
<- table(sexo,edad)
tab_sexo_edad tab_sexo_edad
## edad
## sexo 11 12 15 41
## Hombre 1 0 1 0
## Mujer 0 3 0 1
# Proporción por sexo y edades
<- table(sexo,edad)
tab_sexo_edad prop.table(tab_sexo_edad, margin = 1)
## edad
## sexo 11 12 15 41
## Hombre 0.50 0.00 0.50 0.00
## Mujer 0.00 0.75 0.00 0.25
# la función summary
summary(datos)
## edad altura sexo niveleducativo
## Min. :11.00 Min. : 50.00 Hombre:2 Educ. Básica :2
## 1st Qu.:12.00 1st Qu.: 61.25 Mujer :4 Educ.Básica :1
## Median :12.00 Median : 92.50 Sin instrucción:1
## Mean :17.17 Mean :105.50 Unviversitaria :2
## 3rd Qu.:14.25 3rd Qu.:147.00
## Max. :41.00 Max. :182.00
#Usando la función table.freq()
<- hist(edad, plot=FALSE)
tab_Edad =table.freq(tab_Edad); tab_Edad2 tab_Edad2
## Lower Upper Main Frequency Percentage CF CPF
## 1 10 20 15 5 83.3 5 83.3
## 2 20 30 25 0 0.0 5 83.3
## 3 30 40 35 0 0.0 5 83.3
## 4 40 50 45 1 16.7 6 100.0
Algunas gráficas estadísticas con los datos cargados
# una gráfica para sexo
pie(table(sexo),labels = c("Hombres","Mujeres"), main="Pie Chart",edges = 200)
# una gráfica de barras
barplot(tab_edad)
# Histograma de las edades
hist(edad)
# Histograma de las edades
hist(edad)
#X es el conjunto de los números del 1 al 5
<- seq (1, 5)
x x
## [1] 1 2 3 4 5
#X es un conjunto formado por la secuencia de números desde el -6 hasta el valor 6 con saltos de valor 0,1
# help(seq)
<- seq ( -6, 6,by=0.1)
x x
## [1] -6.0 -5.9 -5.8 -5.7 -5.6 -5.5 -5.4 -5.3 -5.2 -5.1 -5.0 -4.9 -4.8 -4.7 -4.6
## [16] -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1
## [31] -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6
## [46] -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1
## [61] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4
## [76] 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
## [91] 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.1 4.2 4.3 4.4
## [106] 4.5 4.6 4.7 4.8 4.9 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9
## [121] 6.0
#X es un conjunto formado por la secuencia de 100 números desde el -6 hasta el valor 6 redondeado con tres valores decimales
<- round(seq ( -6, 6, len=100 ),3)
x x
## [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
## [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
## [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
## [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
## [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
## [51] 0.061 0.182 0.303 0.424 0.545 0.667 0.788 0.909 1.030 1.152
## [61] 1.273 1.394 1.515 1.636 1.758 1.879 2.000 2.121 2.242 2.364
## [71] 2.485 2.606 2.727 2.848 2.970 3.091 3.212 3.333 3.455 3.576
## [81] 3.697 3.818 3.939 4.061 4.182 4.303 4.424 4.545 4.667 4.788
## [91] 4.909 5.030 5.152 5.273 5.394 5.515 5.636 5.758 5.879 6.000
R ya incorpora una serie de bases de datos que te pueden resultar de utilidad para empezar a explorar las posibilidades de análisis estadístico que te ofrece este programa.
Como ejemplo vamos a explorara la base de datos llamada
cars
.
#cargar la base
data(cars)
#visualizar los encabezados
head(cars)
## speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 4 7 22
## 5 8 16
## 6 9 10
#resumir con algunas estadísticas las variables de la base
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
En R existen funciones ya establecidas y de uso muy común como el que te permite calcular el valor promedio (mean()), o el que te permite calcular la varianza (var()), pero tambien es posible crear tus propias funciones, basta con usar el comando “function”, como se muestra en los ejemplos siguientes:
#una función de las variables o argumentos x,y,z que multiplica sus valores
=function(x,y,z){
z*y*z
x }
# aplicamos la función creada sobre algunos datos
=z(2,5,10)
a a
## [1] 100
#función que reproduce el valor de la varianza de un conjunto de datos d
=c(1,2,3)
d
=function(x){
varisum((x-mean(x))^2)/(length(x))
}
vari(d)
## [1] 0.6666667
En matemáticas, una permutación de un conjunto es, en términos generales, una disposición de sus miembros en una secuencia u orden lineal, o si el conjunto ya está ordenado, una variación del orden o posición de los elementos de un conjunto ordenado o una tupla. La palabra “permutación” también se refiere al acto o proceso de cambiar el orden lineal de un conjunto ordenado.
Problema 1: Cuántas posibilidades de resultados ocurre cuando se extraen simultáneamente de una urna dos canicas, si en la urna existen 5 de color negro y 2 de color blanco, sin que importe el orden y b) si consideramos el orden
#librería para análisis combinatorio
library("gtools")
## Warning: package 'gtools' was built under R version 4.2.2
#a
combinations(2,2,c("b","n"),repeats=TRUE)
## [,1] [,2]
## [1,] "b" "b"
## [2,] "b" "n"
## [3,] "n" "n"
#b
permutations(2,2,c("b","n"),repeats=TRUE)
## [,1] [,2]
## [1,] "b" "b"
## [2,] "b" "n"
## [3,] "n" "b"
## [4,] "n" "n"
Para obtener ayuda de R al respecto de las permutaciones
#help(permutations)
Otros ejemplos
=permutations(4,3)
P P
## [,1] [,2] [,3]
## [1,] 1 2 3
## [2,] 1 2 4
## [3,] 1 3 2
## [4,] 1 3 4
## [5,] 1 4 2
## [6,] 1 4 3
## [7,] 2 1 3
## [8,] 2 1 4
## [9,] 2 3 1
## [10,] 2 3 4
## [11,] 2 4 1
## [12,] 2 4 3
## [13,] 3 1 2
## [14,] 3 1 4
## [15,] 3 2 1
## [16,] 3 2 4
## [17,] 3 4 1
## [18,] 3 4 2
## [19,] 4 1 2
## [20,] 4 1 3
## [21,] 4 2 1
## [22,] 4 2 3
## [23,] 4 3 1
## [24,] 4 3 2
combinations(3,2,letters[1:3])
## [,1] [,2]
## [1,] "a" "b"
## [2,] "a" "c"
## [3,] "b" "c"
combinations(3,2,letters[1:3],repeats=TRUE)
## [,1] [,2]
## [1,] "a" "a"
## [2,] "a" "b"
## [3,] "a" "c"
## [4,] "b" "b"
## [5,] "b" "c"
## [6,] "c" "c"
permutations(3,2,letters[1:3])
## [,1] [,2]
## [1,] "a" "b"
## [2,] "a" "c"
## [3,] "b" "a"
## [4,] "b" "c"
## [5,] "c" "a"
## [6,] "c" "b"
permutations(3,2,letters[1:3],repeats=TRUE)
## [,1] [,2]
## [1,] "a" "a"
## [2,] "a" "b"
## [3,] "a" "c"
## [4,] "b" "a"
## [5,] "b" "b"
## [6,] "b" "c"
## [7,] "c" "a"
## [8,] "c" "b"
## [9,] "c" "c"
Desafío 1: Consideramos un tablero de ajedréz y dos puntos: A situado en el vértices inferior izquierda y B un punto situado en el vértice superior derecha. Se tratará de averiguar cuál es el número de caminos mínimos que hay de A a B. Aquí un camino mínimo de A a B es uno que sigue las líneas de la retícula y avanza siempre a hacia la izquierda ó hacia arriba, nunca a la derecha ni hacia abajo. Generalize para cualquier tablero de m filas y n columnas
Grafica del tablero de ajedréz con R (chessR?)
library('tidyverse')
# https://stackoverflow.com/questions/58769722/plotting-a-chessboard-in-r-how-to-name-columns-and-rows
= function(n){
chessboard if(n > 26){
stop('Ya board too big!')
}= expand_grid(X = 1:n, Y = 1:n)
board = board %>%
board mutate(color = ifelse((X - Y) %% 2 == 0, 'black', 'white')) %>%
mutate_all(factor)
= LETTERS[1:n]
letter_labs
ggplot(data = board, aes(x = X, y = Y, fill = color)) +
geom_tile() +
scale_fill_manual(values = c('black' = "#FFFFFF", 'white' = "#000000")) +
scale_x_discrete(labels = letter_labs, name = '') +
scale_y_discrete(labels = letter_labs, name = '') +
theme(legend.position = 'none')
}chessboard(8)
Desafío 2: Dada la ecuación X + Y + Z + T = 13, determinar cuántas soluciones tiene en el conjunto N de los números naturales.
Ver respuesta:
Este problema se puede interpretar como colocar un total de 13 bolas en cuatro cajas: U1, U2, U3 y U4, y como hemos visto, el número de posibles distribuciones en el número de combinaciones con repetición de cuatro elementos tomados de 13 en 13. El valor es:
\[ \frac{(13+4-1)}{4-1} = \frac{(13+4-1)}{13} \]
Creando el vector i en R:
=1:15
i i
## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Creando el vector j en R:
=10:25
j j
## [1] 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Creando la unión de los vectores i, j con la función union:
<-union(i,j)
k k
## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
También podemos crear la intersección de los vectores i, j con la función intersect:
=intersect(i,j)
l l
## [1] 10 11 12 13 14 15
Podemos saber la diferencia entre los vectores i, j (elementos que aparecen en i y no aparecen en j), con la función setdiff:
<-setdiff(j,i)
n n
## [1] 16 17 18 19 20 21 22 23 24 25
Podemos comprobar si los vectores i, j son iguales mediante la función setequal:
<-setequal(i,j)
o o
## [1] FALSE
Graficamos los conjuntos
#install.packages("venn")
library("venn")
## Warning: package 'venn' was built under R version 4.2.2
=venn(3) a
venn("010",zcolor="blue",opacity=0.5)
Tres conjuntos con rótulos.
=c(2,4,6,8,10,11)
a=c(1,2,3,4,5,6)
b=c(5,6,7,8,9,10)
c=list(a,b,c)
d d
## [[1]]
## [1] 2 4 6 8 10 11
##
## [[2]]
## [1] 1 2 3 4 5 6
##
## [[3]]
## [1] 5 6 7 8 9 10
venn(d)
Con la librería ggVennDiagram
ggVennDiagram(list(i,j), label_alpha = 0)
Cuando hablamos de un experimento aleatorio estamos hablando de variables que pueden tomar un valor de manera aleatoria, es decir, donde interviene el azar y, por lo tanto, no podemos estar seguros de cual va a ser el valor siguiente que se obtendrá, solo podemos suponer una cierta probabilidad. En econometría y series de tiempo a este tipo de sucesos aleatorios se les suele denominar random walk. Dentro de las variables aleatorias, se les puede clasificar en dos principales:
[1] Aleatorias discretas: No pueden tomar ciertos valores de un conjunto.
[2] Aleatorias continuas: pueden tomar infinitos valores.
Un ejemplo clásico para entender lo que es un evento aleatorio es el lanzamiento de una moneda. Cuando lanzamos la moneda ésta solo puede adquirir dos valores posibles: cara o cruz, ¿qué probabilidad tenemos de obtener alguno de los dos lados de la moneda? En este caso tenemos dos opciones posibles, por lo que podríamos decir que la probabilidad es del 50%, pero cuando hagamos un experimento lanzando monedas de manera indefinida, por ejemplo, unas 100 veces, es posible que no obtengamos 50 caras y 50 cruces, ya que es un evento aleatorio. Vamos a replicar el experimento en la consola de R, esto lo podemos hacer de la siguiente manera:
Ejemplo de las dos monedas Espacio muestral: conjunto de todos los posibles resultados EM=(CC,C+,+C,++) nroEM=2*2=4
Lanzamiendo de dos dados EM=((1,1);(1,2);….;(6,5);(6,6)) EM=6*6=36
Lanzamiento de 100 dados? nroEM=6666…..*6=
=6^100
nroEM nroEM
## [1] 6.533186e+77
Puedes realizar el experimento en casa: toma una moneda y lanzala 20 veces. Anota tus resultados y luego transcribelos en R dandole valores a cara y sello. Resultado de tirar n = 20 veces la monada donde: Cara = 1 y Sello = 0.
= c(0,1,0,0,1,0,1,1,0,0,1,0,0,1,1,0,0,1,0,1)
moneda
= table(moneda)/length(moneda)
fr print(fr)
## moneda
## 0 1
## 0.55 0.45
# Call vtree and give the root node a title
vtree(edges1b,"from to",title="Lanzamiento de una moneda")
## Warning in knitr::include_graphics(fullpath): It is highly recommended to use
## relative paths for images. You had absolute paths: "C:/Users/Diego/AppData/
## Local/Temp/RtmpyiIkNG/vtree001.png"
Definición clásica y frecuentista
Demostrar por definición de probabilidad clásica y frecuentista (simulaciones) los puntos a) La suma más probable al lanzar dos dados a) La suma más probable al lanzar cuatro dados a) La suma más probable al lanzar n dados
Cuando se lanza un solo dado
=seq(1:36)
dado1 dado1
## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
## [26] 26 27 28 29 30 31 32 33 34 35 36
=sample(dado1, 30, replace = TRUE, prob = NULL)
muestra1 muestra1
## [1] 16 1 23 26 11 9 21 31 27 35 24 26 1 25 32 1 30 27 2 6 35 32 23 5 11
## [26] 28 28 33 2 5
Definir una funcion en R
=function(x){sum(x)/length(x)}
media=c(1,2,3)
xmedia(x)
## [1] 2
Cuando se lanza tres dados y se mide la suma de los tres resultados
<-sapply(1:3000, function(x){sum(sample(1:6,3,rep=T))})
t t
## [1] 7 11 13 9 9 9 6 10 9 13 16 6 13 7 13 11 14 6 5 15 15 10 9 12
## [25] 7 14 7 17 8 9 16 9 9 10 14 14 8 14 11 11 12 13 14 14 17 17 8 9
## [49] 9 8 14 14 14 10 11 15 7 8 12 15 9 13 8 9 6 7 8 10 11 14 8 8
## [73] 8 16 14 13 10 8 9 14 11 7 11 8 10 11 6 10 12 9 12 11 12 13 10 6
## [97] 9 10 8 14 7 15 7 4 6 8 10 11 9 11 5 9 7 13 5 9 10 13 3 3
## [121] 10 7 11 12 9 11 16 10 8 15 14 16 12 15 8 7 13 14 12 18 7 11 16 14
## [145] 6 11 4 15 11 16 17 10 12 9 6 12 10 13 15 8 10 12 9 7 13 7 16 8
## [169] 9 13 6 11 11 11 6 15 6 10 7 9 5 18 12 5 6 7 10 12 7 10 13 9
## [193] 12 9 14 13 10 16 7 6 16 14 7 15 14 9 8 8 9 9 12 6 5 8 4 11
## [217] 9 11 9 9 4 10 11 11 8 7 13 12 8 9 9 10 10 11 8 7 8 10 11 15
## [241] 11 4 11 14 14 10 17 9 8 9 10 16 10 8 14 16 9 15 12 11 15 15 11 6
## [265] 13 6 15 9 9 14 8 12 5 7 8 8 8 13 9 15 10 7 9 8 9 12 12 10
## [289] 7 14 11 10 10 4 13 9 7 12 10 5 14 12 11 17 16 8 6 4 12 10 13 11
## [313] 14 4 13 6 12 6 6 11 14 14 10 9 14 4 9 10 11 12 10 11 10 10 7 11
## [337] 13 11 8 7 10 13 8 8 11 12 8 8 15 13 14 9 9 13 11 6 11 14 13 14
## [361] 12 11 8 12 15 17 13 9 13 13 13 10 14 12 4 15 6 14 15 13 17 9 10 15
## [385] 13 6 10 13 11 12 9 10 11 12 7 10 7 13 9 13 10 8 15 12 15 16 10 5
## [409] 8 8 6 6 17 9 11 13 11 7 12 11 7 13 11 5 9 11 7 8 4 10 15 18
## [433] 6 12 15 9 9 14 11 9 10 10 10 8 11 9 9 9 13 7 12 16 11 10 16 7
## [457] 16 7 7 12 9 12 8 14 8 11 14 10 11 9 10 11 16 9 10 10 10 12 10 6
## [481] 12 7 9 12 9 9 13 10 15 9 11 12 10 11 8 9 6 14 12 13 11 13 7 14
## [505] 12 12 4 8 11 16 11 12 9 10 9 10 10 10 8 16 11 11 15 8 9 7 10 9
## [529] 7 15 13 11 16 9 6 15 9 14 7 13 8 5 13 15 5 11 15 10 12 11 11 7
## [553] 4 18 9 11 7 5 13 13 6 12 18 8 13 11 9 10 13 14 11 12 14 16 13 11
## [577] 7 13 16 10 12 10 13 10 4 17 13 11 14 7 8 11 13 12 11 8 12 12 11 6
## [601] 10 11 11 11 12 10 7 12 15 8 10 9 11 13 7 7 15 8 12 9 14 9 12 8
## [625] 8 12 14 10 7 11 5 5 13 12 13 15 12 7 12 9 7 13 8 9 15 10 12 10
## [649] 9 9 4 12 13 12 12 11 15 12 11 7 13 8 18 8 14 14 8 7 6 14 10 14
## [673] 14 13 9 12 5 10 12 15 10 17 13 9 11 9 11 15 10 9 6 18 5 9 11 9
## [697] 11 12 15 14 10 8 12 13 16 9 13 13 10 7 9 6 8 10 6 12 8 7 7 8
## [721] 10 9 12 5 10 9 7 7 10 11 7 10 7 14 8 11 7 14 13 11 13 12 4 7
## [745] 12 14 14 9 8 9 12 10 11 13 9 8 10 8 6 9 13 7 6 16 15 11 10 11
## [769] 10 9 12 6 13 11 10 11 11 10 14 10 9 11 11 10 13 13 10 10 14 9 3 12
## [793] 9 12 7 14 15 8 13 9 9 14 11 15 16 11 13 9 8 11 7 10 7 13 12 6
## [817] 5 9 10 10 17 11 7 14 11 11 15 13 7 6 17 9 14 10 13 10 15 8 9 10
## [841] 10 11 8 6 9 14 12 10 6 18 11 13 15 16 11 8 10 13 14 13 12 3 12 3
## [865] 6 10 6 14 5 13 14 13 9 4 7 9 13 9 4 6 8 9 9 11 9 8 12 15
## [889] 12 10 12 11 18 12 12 8 9 9 14 6 17 9 7 7 6 8 14 14 11 7 4 9
## [913] 11 15 8 14 13 9 8 11 17 12 11 12 13 6 8 16 8 10 10 9 11 11 11 10
## [937] 10 9 5 12 11 7 10 11 11 14 11 11 10 11 14 8 6 8 8 10 12 5 15 10
## [961] 16 9 16 8 5 11 9 11 12 5 11 12 12 15 10 13 17 9 9 12 7 13 15 12
## [985] 10 9 10 13 7 14 9 10 13 9 14 9 7 8 11 6 8 12 15 12 13 12 8 10
## [1009] 8 18 13 15 14 15 8 12 4 14 10 12 9 14 10 5 13 7 11 10 11 10 15 10
## [1033] 4 6 13 9 8 12 12 8 15 5 9 14 11 5 11 9 14 11 10 3 14 5 12 15
## [1057] 14 12 12 12 8 13 14 11 17 11 13 15 6 13 14 15 14 15 4 9 14 12 10 7
## [1081] 17 6 12 11 7 10 14 8 10 14 8 11 9 10 16 9 8 12 13 9 8 14 7 6
## [1105] 15 7 13 10 12 10 7 14 9 9 9 12 11 10 13 12 6 14 17 9 10 10 6 10
## [1129] 13 9 6 15 12 12 13 10 14 14 11 8 10 6 8 11 9 10 14 9 12 9 16 10
## [1153] 7 8 17 9 15 9 12 7 12 9 9 10 11 18 7 3 11 13 9 14 8 9 13 9
## [1177] 11 10 13 8 11 15 9 13 12 9 13 9 12 16 12 17 10 13 5 10 14 12 18 13
## [1201] 13 8 13 14 6 10 16 13 9 11 13 10 9 7 8 15 8 12 8 12 13 7 7 7
## [1225] 8 11 16 7 9 4 11 11 12 8 13 11 5 12 14 11 12 6 7 13 15 8 12 5
## [1249] 12 9 6 10 13 13 9 12 11 10 17 14 7 15 7 10 9 14 10 6 4 13 11 10
## [1273] 14 5 8 14 10 6 8 10 9 10 14 16 13 12 11 12 17 13 11 10 11 11 13 13
## [1297] 8 8 10 13 14 8 13 7 8 12 10 9 9 13 11 11 15 9 13 12 9 16 7 12
## [1321] 13 10 11 11 11 10 6 11 11 8 4 8 13 8 6 11 12 10 8 14 7 14 12 16
## [1345] 5 11 7 10 9 9 8 15 15 7 14 9 8 10 12 5 6 11 13 11 9 10 12 9
## [1369] 13 12 11 6 8 6 10 10 12 11 13 8 14 4 16 5 7 13 8 10 11 13 12 10
## [1393] 13 11 10 12 9 7 17 8 12 9 11 6 10 9 7 6 10 11 10 11 8 11 7 9
## [1417] 9 4 11 10 13 10 9 13 10 9 9 10 12 9 13 9 11 4 13 14 10 11 12 11
## [1441] 7 9 11 9 13 10 14 10 13 4 11 14 10 14 7 14 10 16 9 11 8 5 14 13
## [1465] 11 15 16 6 13 14 10 9 10 10 9 9 10 13 7 14 14 14 9 11 12 11 13 8
## [1489] 11 10 14 7 16 16 11 14 16 12 11 9 10 8 7 11 7 9 13 12 7 5 15 10
## [1513] 16 7 14 6 10 8 10 11 9 8 11 15 10 12 8 4 11 14 7 11 9 11 6 8
## [1537] 17 12 10 10 12 8 15 10 10 13 5 15 6 11 9 14 7 11 8 14 10 8 10 10
## [1561] 12 11 13 8 16 11 17 11 17 12 7 13 11 11 10 10 6 9 13 12 7 13 8 17
## [1585] 12 10 16 12 13 11 12 6 13 12 8 8 11 12 6 5 12 7 10 8 15 13 12 7
## [1609] 16 10 9 9 7 8 11 14 13 10 9 5 6 9 10 6 11 14 13 9 14 12 10 9
## [1633] 7 12 10 12 11 9 15 6 14 11 11 9 11 16 9 9 13 3 9 12 10 7 11 17
## [1657] 13 13 6 13 14 14 5 15 14 12 9 10 13 15 15 12 13 7 11 10 8 16 15 13
## [1681] 9 13 7 9 14 6 12 10 14 8 11 10 12 7 14 8 10 10 10 5 10 11 12 8
## [1705] 9 10 10 10 12 13 10 11 11 9 14 11 15 16 10 11 9 14 9 12 5 8 11 11
## [1729] 11 12 9 15 14 3 9 7 11 8 10 13 9 9 6 11 11 8 10 9 13 8 15 11
## [1753] 9 7 14 13 7 5 14 12 14 12 8 16 7 13 11 11 10 11 7 11 12 5 11 7
## [1777] 13 6 9 12 8 9 10 12 8 14 8 11 9 12 11 10 9 9 6 12 9 10 8 11
## [1801] 9 5 5 12 11 7 12 12 13 8 11 8 18 10 15 14 16 6 11 13 15 10 9 6
## [1825] 11 10 11 8 10 14 12 12 12 10 8 11 12 15 14 12 11 8 9 8 12 8 8 6
## [1849] 10 11 8 12 13 10 12 12 7 13 14 8 11 12 13 15 8 15 14 12 9 5 10 11
## [1873] 8 10 14 13 15 11 11 14 11 7 13 14 12 9 12 11 15 10 13 10 8 6 10 7
## [1897] 10 10 7 14 7 9 8 5 14 11 11 13 9 11 9 10 9 5 13 12 12 6 9 14
## [1921] 6 10 9 9 13 10 4 14 7 12 8 16 11 12 8 10 8 14 14 14 5 5 13 14
## [1945] 15 11 10 12 9 17 7 15 12 12 10 5 13 7 10 9 7 7 12 12 9 7 17 9
## [1969] 11 10 10 8 10 7 16 12 12 10 15 11 9 6 11 11 12 7 13 9 17 12 11 10
## [1993] 9 5 12 11 10 12 10 14 12 5 8 10 8 8 4 5 15 8 11 14 14 15 12 9
## [2017] 13 6 12 6 7 9 13 7 4 9 8 10 11 3 10 6 5 15 5 12 8 14 13 12
## [2041] 12 16 13 13 9 8 12 8 12 13 14 12 12 9 8 7 8 9 8 10 11 5 16 12
## [2065] 9 5 9 9 10 8 13 13 11 13 3 8 9 3 11 12 8 11 11 13 10 13 9 10
## [2089] 11 13 18 8 7 6 7 11 16 10 9 10 17 17 9 14 9 5 12 5 5 10 11 6
## [2113] 10 9 15 12 6 17 8 7 10 12 13 17 14 15 7 12 17 16 13 14 14 10 10 7
## [2137] 12 12 8 10 13 13 8 13 12 7 6 13 12 14 10 7 6 6 12 9 14 15 14 5
## [2161] 11 15 11 4 9 9 8 13 12 9 9 9 9 7 8 11 15 8 6 13 8 4 4 13
## [2185] 12 8 9 3 13 10 11 6 6 9 7 12 11 11 9 8 10 12 10 6 10 17 11 13
## [2209] 14 10 12 14 8 7 12 8 12 12 14 10 13 10 8 7 13 10 13 11 12 10 15 8
## [2233] 10 7 9 15 9 10 13 11 11 12 14 12 11 11 13 15 8 9 11 5 15 9 13 7
## [2257] 15 15 6 14 5 12 11 5 11 9 7 8 14 14 12 13 12 8 4 9 7 8 12 7
## [2281] 11 10 9 13 13 11 9 18 15 7 10 11 8 8 12 13 12 11 15 17 9 7 11 9
## [2305] 10 6 16 8 9 13 7 9 11 9 12 8 7 9 13 13 4 10 7 6 12 15 5 6
## [2329] 11 16 10 10 5 15 13 16 11 7 10 5 14 9 7 9 13 8 11 10 6 11 15 12
## [2353] 11 11 13 8 12 7 6 13 8 12 9 12 11 9 8 7 11 6 15 7 13 10 10 8
## [2377] 5 10 14 15 10 13 12 10 14 15 8 14 10 10 11 14 12 10 11 11 11 4 10 10
## [2401] 13 12 14 4 9 8 8 12 7 7 9 10 12 15 11 11 11 10 12 10 11 17 15 12
## [2425] 14 6 10 7 9 5 13 9 8 13 16 13 12 9 11 7 13 8 4 11 12 11 6 8
## [2449] 11 3 11 10 14 15 7 9 15 9 10 10 11 6 11 10 9 16 10 11 11 7 10 5
## [2473] 7 15 16 7 9 8 13 13 8 15 8 14 6 9 13 5 3 7 11 16 13 11 15 10
## [2497] 10 8 11 8 8 10 8 10 7 9 13 11 15 10 5 8 10 10 9 11 8 4 13 14
## [2521] 9 14 11 6 13 11 7 13 13 8 6 9 11 10 6 12 7 13 9 15 5 12 11 16
## [2545] 11 13 12 5 7 10 15 10 10 11 14 7 9 7 13 13 12 11 14 4 12 7 15 10
## [2569] 12 11 10 5 8 10 13 13 15 14 11 10 12 11 11 9 10 8 10 10 9 8 6 7
## [2593] 12 11 9 5 10 10 14 9 10 11 13 12 9 8 8 14 14 10 9 13 13 7 9 13
## [2617] 8 7 9 12 15 15 15 10 6 13 12 11 8 10 9 14 8 13 10 14 9 11 9 12
## [2641] 9 13 14 8 6 12 15 12 14 10 11 10 12 6 12 4 15 12 18 10 6 8 8 10
## [2665] 11 12 13 10 7 12 9 6 8 15 16 13 9 11 7 8 13 9 8 9 11 9 10 10
## [2689] 11 5 10 6 8 6 9 9 15 10 11 10 15 15 12 7 11 9 10 8 9 8 12 14
## [2713] 9 14 11 4 13 8 7 7 10 7 16 6 5 10 7 8 8 7 11 11 10 10 8 8
## [2737] 13 9 14 12 7 10 10 12 11 8 16 7 13 12 13 11 6 10 10 10 9 7 11 10
## [2761] 7 8 15 11 7 10 14 9 9 6 7 10 8 10 13 11 7 11 13 11 9 13 12 14
## [2785] 10 16 8 9 10 9 14 13 8 9 12 10 4 13 6 8 12 8 10 10 16 12 12 12
## [2809] 5 13 12 11 8 10 7 10 11 8 9 12 11 9 15 6 9 5 8 15 11 15 9 10
## [2833] 7 11 8 15 8 11 8 10 13 4 9 15 12 10 13 13 12 12 8 11 5 13 12 13
## [2857] 9 14 13 11 13 9 4 8 14 16 8 15 9 11 8 10 15 12 11 15 10 4 14 8
## [2881] 8 9 11 13 9 8 4 15 10 5 10 13 14 14 15 15 7 9 13 9 6 5 14 13
## [2905] 13 7 14 11 9 10 10 9 15 14 8 11 10 11 8 14 12 11 7 10 12 13 12 15
## [2929] 10 14 11 15 12 12 6 8 10 12 12 10 16 7 13 11 7 8 16 17 8 14 15 4
## [2953] 12 17 6 8 11 9 13 12 12 5 13 8 11 14 10 9 8 4 10 9 11 11 9 12
## [2977] 15 7 14 13 7 8 9 12 12 11 11 13 16 10 13 14 7 11 13 8 5 10 8 5
plot(table(t))
Desafío: Determinar la suma más probable al lanzar 6 dados simultáneamente
Es un concepto crucial en teoría de la probabilidad y subyace al propósito principal del análisis de regresión logística.
La probabilidad de un evento A después de que nos enteramos de que se ha producido el evento B se denomina probabilidad condicional de A dado B. Formalmente:
\[\mathbb{P}(A \mid B)\]
Ejemplo: - Experimento: tirar un dado “justo” - Espacio muestral, \(\Omega: \{1,2,3,4,5,6\}\) - A es el evento de obtener un cuatro o más, \(A: \{4,5,6\}\) - B es el evento de obtener un número par, \(B: \{2,4,6\}\)
Supongamos que tiramos el dado pero no miramos el resultado todavía. Una tercera persona nos dice que obtuvimos un número par.
Pregunta: ¿Cuál es la probabilidad de obtener un cuatro o más una vez que sabemos que el resultado es un número par?
Formalmente, nuestra pregunta se expresa del siguiente modo: \(\mathbb{P}(A \mid B )\). Para calcular esta probabilidad utilizamos la siguiente fórmula:
\[\mathbb{P}(A \mid B ) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)}\] Intuitivamente, queremos saber en qué proporción de los casos en que B ocurre, A también ocurre.
\[\mathbb{P}(A \mid B ) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)}\]
Donde, - \(\mathbb{P}(B)\) es la probabilidad de que B ocurra: obtener un número - \(\mathbb{P}(A,B)\) es la probabilidad de que A y B ocurran conjuntamente: obtener un número .bold[par, igual o superior a 4
\[\begin{align} \mathbb{P}(A | B ) &= \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)} \\ \\ &= \frac{\mathbb{P}(\text{dado=4 o dado=6}) }{\mathbb{P}(\text{dado=2 o dado=4 o dado=6})} \\ \\ &= \frac{2/6}{3/6} = \frac{1}{3} \times 2 \end{align}\]La probabilidad de A dado B está definida como:
\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad (1)\]
Por tanto, la probabilidad de B dado A está definida como:
\[\mathbb{P}(B \mid A) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(A)} \quad \quad \quad \quad \quad (2)\]
Por tanto:
\[\mathbb{P}(A,B) = \mathbb{P}(B \mid A)\mathbb{P}(A) \quad \quad \quad \quad (3)\]
Reemplazando (3) en (1) obtenemos:
\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(B \mid A)\mathbb{P}(A)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad \] Entonces, si
\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(B \mid A)\mathbb{P}(A)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad \]
re-ordenando la expresión encontramos …
Teorema de Bayes: \[\mathbb{P}(B \mid A) = \frac{\mathbb{P}(A \mid B)\mathbb{P}(B)}{\mathbb{P}(A)} \quad \quad \quad \quad \quad \]
Bayes’ theorem in three panels
https://www.r-bloggers.com/2020/03/bayes-theorem-in-three-panels
Problema: Supongamos que un 5% de la población son mujeres (M) con estudios universitarios completos (U). Las mujeres representan un 55% de la población. Un 20% de la población tiene estudios universitarios completos. Pregunta:
\[ \begin{align} \mathbb{P}(U \mid M) = \frac{\mathbb{P}(U,M)}{\mathbb{P}(M)} = \frac{0.05}{0.55} \approx 0.09 \end{align} \]
\[ \begin{align} \mathbb{P}(M \mid U) = \frac{\mathbb{P}(U,M)}{\mathbb{P}(U)} = \frac{0.05}{0.2} = 0.25 \end{align} \]
$$
Problema: Supongamos que enviamos una encuesta a 300 personas preguntándoles qué deporte les gusta más: Voleibol, Basket, Fútbol o Tenis. a) Calcular la probabilidad de que sea mujer, dado que el individuo prefiere el básket b) Calcular la probabilidad de que sea hombre, dado que el individuo prefiere el fútbol c) Calcular la probabilidad de que sea mujer, dado que el individuo prefiere el básket d) Calcular la probabilidad de que el individuo prefiera el tenis c) Calcular la probabilidad de que el individuo prefiere el Voleibol
Problema: Calcular y demostrar la probabilidad medante teorema de Bayes del siguiente ejercicio: Un fabricante de teléfonos celulares compra un microchip en particular denominado “LS-24” a 3 proveedores Hall Electronics, Schuller Sales,y Crawford Components. Del total de piezas 30% la adquiere Hall Electronics; 20% de Schuller Sales y el restante 50% de crawford. El fabricante cuenta con amplias historiales con los 3 proveedores y reconoce los porcentajes de defecto de los dispositivos de cada proveedores: 3% Hall Electronics 5% Schuller sales 4% Crawford Componens Cuando el fabricante recibe el material y lo lleva directamente a un depósito y no lo inspecciona ni lo identifica con el nombre de proveedor. Un trabajador selecciona un microchip para instalarlo y lo encontró defectuoso. ¿Cual es la probabibilidad que lo hayan fabricado Schuler Sales?
define data frame
<- data.frame(var1=c(4, 13, 7, 8),
df1 var2=c(15, 9, 9, 13),
var3=c(12, 12, 7, 5))
df1
## var1 var2 var3
## 1 4 15 12
## 2 13 9 12
## 3 7 9 7
## 4 8 13 5
define second data frame
<- data.frame(var1=c(4, 13),
df2 var2=c(9, 12),
var3=c(6, 6))
df2
## var1 var2 var3
## 1 4 9 6
## 2 13 12 6
append the rows of the second data frame to end of first data frame
<- rbind(df1, df2)
df3 df3
## var1 var2 var3
## 1 4 15 12
## 2 13 9 12
## 3 7 9 7
## 4 8 13 5
## 5 4 9 6
## 6 13 12 6
Descargar los microdatos
#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2021/data/9e824reg02_ephc2021.csv"
#download.file(url,"EPH2021.csv")
Leer los microdatos
=read.csv("EPH2021.csv",sep =";")
eph2021#str(eph2021)
names(eph2021)
## [1] "UPM" "NVIVI" "NHOGA"
## [4] "DPTOREP" "AREA" "L02"
## [7] "P02" "P03" "P04"
## [10] "P04A" "P04B" "P05C"
## [13] "P05P" "P05M" "P06"
## [16] "P08D" "P08M" "P08A"
## [19] "P09" "P10A" "P10AB"
## [22] "P10Z" "P11A" "P11AB"
## [25] "P11Z" "P12" "A01"
## [28] "A01A" "A02" "A03"
## [31] "A04" "A04B" "A04A"
## [34] "A05" "A07" "A08"
## [37] "A10" "A11A" "A11M"
## [40] "A11S" "A12" "A13REC"
## [43] "A14REC" "A15" "A16"
## [46] "A17A" "A17M" "A17S"
## [49] "A18" "A18A" "B01REC"
## [52] "B02REC" "B03LU" "B03MA"
## [55] "B03MI" "B03JU" "B03VI"
## [58] "B03SA" "B03DO" "B04"
## [61] "B05" "B05A" "B06"
## [64] "B07A" "B07M" "B07S"
## [67] "B08" "B09A" "B09M"
## [70] "B09S" "B10" "B11"
## [73] "B12" "B12A" "B12B"
## [76] "B12C" "B13" "B14"
## [79] "B15" "B16G" "B16U"
## [82] "B16D" "B16T" "B17"
## [85] "B18AG" "B18AU" "B18BG"
## [88] "B18BU" "B19" "B20G"
## [91] "B20U" "B20D" "B20T"
## [94] "B21" "B22" "B23"
## [97] "B24" "B25" "B26"
## [100] "B271" "B272" "B28"
## [103] "B29" "B30" "B31"
## [106] "C01REC" "C02REC" "C03"
## [109] "C04" "C05" "C06"
## [112] "C07" "C08" "C09"
## [115] "C101" "C102" "C11G"
## [118] "C11U" "C11D" "C11T"
## [121] "C12" "C13AG" "C13AU"
## [124] "C13BG" "C13BU" "C14"
## [127] "C14A" "C14B" "C14C"
## [130] "C15" "C16REC" "C17REC"
## [133] "C18" "C18A" "C18B"
## [136] "C19" "D01" "D02"
## [139] "D03" "D04" "D05"
## [142] "E01A" "E01B" "E01C"
## [145] "E01D" "E01E" "E01F"
## [148] "E01G" "E01H" "E01I"
## [151] "E01J" "E01K" "E01L"
## [154] "E01M" "E02D1" "E02D2"
## [157] "E02B" "ED01" "ED02"
## [160] "ED03" "ED0504" "ED06C"
## [163] "ED08" "ED09" "ED10"
## [166] "ED11F1" "ED11F1A" "ED11GH1"
## [169] "ED11GH1A" "ED12" "ED13"
## [172] "ED14" "ED14A" "ED15"
## [175] "S01A" "S01B" "S02"
## [178] "S03" "S03A" "S03B"
## [181] "S03C" "S04" "S05"
## [184] "S06" "S07" "S08"
## [187] "S09" "CATE_PEA" "TAMA_PEA"
## [190] "OCUP_PEA" "RAMA_PEA" "HORAB"
## [193] "HORABC" "HORABCO" "PEAD"
## [196] "PEAA" "TIPOHOGA" "FEX"
## [199] "NJEF" "NCON" "NPAD"
## [202] "NMAD" "TIC01" "TIC02"
## [205] "TIC03" "TIC0401" "TIC0402"
## [208] "TIC0403" "TIC0404" "TIC0405"
## [211] "TIC0406" "TIC0407" "TIC0408"
## [214] "TIC0409" "TIC0501" "TIC0502"
## [217] "TIC0503" "TIC0504" "TIC0505"
## [220] "TIC0506" "TIC0507" "TIC0508"
## [223] "TIC0509" "TIC0510" "TIC0511"
## [226] "TIC0512" "TIC0513" "TIC06"
## [229] "TIC07" "añoest" "ra06ya09"
## [232] "e01aimde" "e01bimde" "e01cimde"
## [235] "e01dde" "e01ede" "e01fde"
## [238] "e01gde" "e01hde" "e01ide"
## [241] "e01jde" "e01kde" "e01lde"
## [244] "e01mde" "e01kjde" "e02bde"
## [247] "ingrevasode" "ingrepytyvõde" "ingresect_privadode"
## [250] "ipcm" "pobrezai" "pobnopoi"
## [253] "quintili" "decili" "quintiai"
## [256] "decilai" "informalidad"
#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2020/data/55f07reg02_ephc2020.csv"
#download.file(url,"EPH2020.csv")
=read.csv("EPH2020.csv",sep =";")
eph2020#head(eph2020)
#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2019/data/4edb7reg02_ephc2019.csv"
#download.file(url,"EPH2019.csv")
=read.csv("EPH2019.csv",sep =";")
eph2019#head(eph2019)
#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2018/data/3493ereg02_ephc2018.csv"
#download.file(url,"EPH2018.csv")
=read.csv("EPH2018.csv",sep =";")
eph2018#head(eph2018)
=subset(eph2018,P02>14,select=c("AREA","P06","P02","e01aimde","PEAA","FEX"))
eph2018s$year <- 2018
eph2018s#head(eph2018s)
names(eph2018s)
## [1] "AREA" "P06" "P02" "e01aimde" "PEAA" "FEX" "year"
# select variables v1, v2, v3
<- subset(eph2019, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX"))
eph2019s $year <- 2019
eph2019snames(eph2019s)
## [1] "AREA" "P06" "PEAA" "P02" "e01aimde" "FEX" "year"
<- subset(eph2020, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX"))
eph2020s $year <- 2020
eph2020snames(eph2020s)
## [1] "AREA" "P06" "PEAA" "P02" "e01aimde" "FEX" "year"
<- subset(eph2021, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX"))
eph2021s $year <- 2021
eph2021snames(eph2021s)
## [1] "AREA" "P06" "PEAA" "P02" "e01aimde" "FEX" "year"
Juntar las bases en una sola
<- rbind(eph2018s, eph2019s,eph2020s,eph2021s)
eph2018a2021 #head(eph2018a2021)
Exploramos la base compilada
str(eph2018a2021)
## 'data.frame': 51664 obs. of 7 variables:
## $ AREA : int 1 1 1 1 1 1 1 1 1 1 ...
## $ P06 : int 6 1 6 6 1 6 1 6 6 1 ...
## $ P02 : int 60 21 36 79 26 20 21 72 30 33 ...
## $ e01aimde: chr "0" "2657944,294" "1005870,841" "170998,043" ...
## $ PEAA : int 3 1 1 1 1 1 2 1 1 1 ...
## $ FEX : int 393 393 393 519 519 519 519 225 343 416 ...
## $ year : num 2018 2018 2018 2018 2018 ...
$e01aimdec = as.numeric(gsub(",", ".", as.character(eph2018a2021$e01aimde)))
eph2018a2021summary(eph2018a2021$e01aimdec)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 0 500000 1358883 2000000 323372117
hist(eph2018a2021$e01aimdec )
PEAA condición de ocupación
table(eph2018a2021$PEAA)
##
## 1 2 3
## 34704 1965 14995
$PEAA <- factor(eph2018a2021$PEAA, labels = c("Ocupados", "Desocupados", "Inactivos"))
eph2018a2021
table(eph2018a2021$PEAA,eph2018a2021$year)
##
## 2018 2019 2020 2021
## Ocupados 9013 9046 8587 8058
## Desocupados 460 478 531 496
## Inactivos 3880 3745 3765 3605
addmargins(table(eph2018a2021$PEAA,eph2018a2021$year),c(1,2))
##
## 2018 2019 2020 2021 Sum
## Ocupados 9013 9046 8587 8058 34704
## Desocupados 460 478 531 496 1965
## Inactivos 3880 3745 3765 3605 14995
## Sum 13353 13269 12883 12159 51664
Edad
summary(eph2018a2021$P02)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 15.00 25.00 38.00 40.64 54.00 106.00
boxplot(eph2018a2021$P02)
hist(eph2018a2021$P02)
AREA (AREA)
table(eph2018a2021$AREA)
##
## 1 6
## 28200 23464
Eliminar de los ingresos los valores nulos y mayores a 100.000.000
<- subset(eph2018a2021, e01aimdec > 0 & e01aimdec < 100000000 & P02 >= 15 & PEAA == "Ocupados")
ephing head(ephing)
## AREA P06 P02 e01aimde PEAA FEX year e01aimdec
## 2 1 1 21 2657944,294 Ocupados 393 2018 2657944.3
## 8 1 6 36 1005870,841 Ocupados 393 2018 1005870.8
## 9 1 6 79 170998,043 Ocupados 519 2018 170998.0
## 10 1 1 26 2124964,517 Ocupados 519 2018 2124964.5
## 11 1 6 20 1810567,515 Ocupados 519 2018 1810567.5
## 14 1 6 72 804696,673 Ocupados 225 2018 804696.7
$AREA <- factor(eph2018a2021$AREA, labels = c("Urbana", "Rural"))
eph2018a2021
table(eph2018a2021$AREA)
##
## Urbana Rural
## 28200 23464
# una gráfica para sexo
pie(table(eph2018a2021$P06),labels = c("Hombres","Mujeres"), main="Pie Chart",edges = 200)
$P06 <- factor(eph2018a2021$P06, labels = c("Hombres", "Mujeres"))
eph2018a2021
table(eph2018a2021$P06)
##
## Hombres Mujeres
## 25351 26313
addmargins(table(eph2018a2021$P06,eph2018a2021$AREA),c(1,2))
##
## Urbana Rural Sum
## Hombres 13232 12119 25351
## Mujeres 14968 11345 26313
## Sum 28200 23464 51664
Cuál es la probabilidad de que una encuestado resulte ser Hombre y vivir en el área Rural
=12119/51664
P_RyH P_RyH
## [1] 0.2345734
\[P_RdadoqH_=P(RyH)/P(H)\]
=(12119/51664)/(25351/51664)
P_RdadoqH_=(12119)/(25351)
P_RdadoqH_ P_RdadoqH_
## [1] 0.4780482
\[P(H/R)=P(HyR)/P(R)\]
=13232/25351
P_HdadoqR_ P_HdadoqR_
## [1] 0.5219518
¿La probabilidad de estar desocupado dado que el entrevistado es un hombre?
addmargins(table(eph2018a2021$P06,eph2018a2021$PEAA),c(1,2))
##
## Ocupados Desocupados Inactivos Sum
## Hombres 20434 869 4048 25351
## Mujeres 14270 1096 10947 26313
## Sum 34704 1965 14995 51664
P_DESdadoqH
=866/25351
P_DESdadoqH P_DESdadoqH
## [1] 0.03416039
P_DESdadoqM
=1096/26313
P_DESdadoqM P_DESdadoqM
## [1] 0.04165242
Obtener la probb de que una persona menor de 30 años y que vive en el área rural esté ocupada
Ingreso en la ocupación principal
<- subset(eph2018a2021, e01aimdec > 0 & e01aimdec < 100000000 & P02 >= 15 & PEAA == "Ocupados")
ephing head(ephing)
## AREA P06 P02 e01aimde PEAA FEX year e01aimdec
## 2 Urbana Hombres 21 2657944,294 Ocupados 393 2018 2657944.3
## 8 Urbana Mujeres 36 1005870,841 Ocupados 393 2018 1005870.8
## 9 Urbana Mujeres 79 170998,043 Ocupados 519 2018 170998.0
## 10 Urbana Hombres 26 2124964,517 Ocupados 519 2018 2124964.5
## 11 Urbana Mujeres 20 1810567,515 Ocupados 519 2018 1810567.5
## 14 Urbana Mujeres 72 804696,673 Ocupados 225 2018 804696.7
summary(ephing$e01aimdec)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 125 800000 1790674 2248055 2612195 99581213
boxplot(ephing$e01aimdec,ephing$P06)
hist(ephing$e01aimdec)
#Media ponderada de "E01AIMDE" total Nivel País en miles de guaraníes (a un decimal)
round(mean(ephing$e01aimdec),1)
## [1] 2248055
round(weighted.mean(ephing$e01aimdec , ephing$FEX),1)
## [1] 2342233
library(ggplot2)
<- ggplot(ephing, aes(x=e01aimdec)) +
histograma ggtitle("Ingreso en la ocupaciòn principal") +
geom_histogram(color="#28324a", fill="#3c78d8")
histograma
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
# Gruop by
<- ephing %>%
ephing group_by(AREA) %>%
mutate(ingresoprom=mean(e01aimdec))
%>%
ephing group_by(AREA) %>%
summarise(ingresoprom=mean(e01aimdec),
edadprom=mean(P02))
## # A tibble: 2 × 3
## AREA ingresoprom edadprom
## <fct> <dbl> <dbl>
## 1 Urbana 2629456. 39.3
## 2 Rural 1729959. 42.1
A partir de esta sección veremos como podemos utilizar R para estudiar los fundamentos de la Inferencia Estadística, nos apoyaremos principalmente en la realización de simulaciones para verificar las propiedades, teoremas y supuestos que conforman la teoría de la inferencia estadística.
Simulación es una técnica numérica para conducir experimentos en una computadora digital. Estos experimentos comprenden ciertos tipos de relaciones matemáticas y lógicas, las cuales son necesarias para describir el comportamiento y la estructura de sistemas complejos del mundo real a través de largos períodos de tiempo (Naylor, 1982).
Otra definición de simulación la realiza Robert E. Shannon como: Es el proceso de diseñar y desarrollar un modelo computarizado de un sistema o proceso y conducir experimentos con este modelo con el propósito de entender el comportamiento del sistema o evaluar varias estrategias con las cuales se puede operar el sistema (Shannon, 1975).
Una simulación en el programa R consiste básicamente en escribir los códigos necesarios para reproducir las condiciones de un experimento aleatorio, donde se procura replicar el comportamiento de una variable aleatoria mediante un modelo matemático, con el fin de obtener una estimación al respecto de un resultado o un conjunto de resultados de interés y el valor de su probabilidad de ocurrencia.
En el Ejemplo dado a continuación se desarrolla la simulación del experimento aleatorio que consiste en obtener una muestra de tamaño 5 con reposición a partir de una población P que consiste en los primeros 10 números naturales (sin el cero). En este caso, los posibles resultados del experimento son todas las muestras posibles de tamaño 5 que puedan resultar de la población P, si no se repone el número extraído en cada extracción sucesiva.
# Muestra aleatoria extraída CON REPOSICIÓN de la población P
=c(1,2,3,4,5,6,7,8,9,10)
P=sample(P,5,rep=T)
muestra1 muestra1
## [1] 9 4 10 5 7
# Muestra aleatoria extraida SIN reposición de la población P
=c(1,2,3,4,5,6,7,8,9,10)
P=sample(P,5,rep=F)
muestra1 muestra1
## [1] 6 4 9 2 5
# 10 Muestras aleatorias de tamaño 3 obtenidas con reposición de la población P
<-sapply(1:10, function(x){(sample(P,3,rep=T))})
muestras1 muestras1
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,] 5 3 5 8 2 6 2 4 2 7
## [2,] 8 6 10 8 1 2 9 8 5 2
## [3,] 1 8 3 9 7 4 4 5 4 2
# 10 Muestras aleatorias de tamaño 3 obtenidas sin reposición de la población P
<-sapply(1:10, function(x){(sample(P,3,rep=F))})
muestras2 muestras2
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,] 6 2 4 3 10 2 8 2 7 10
## [2,] 9 5 1 9 2 6 3 3 3 8
## [3,] 2 9 7 10 9 10 9 9 4 4
=seq(1000,2000,1)
Data Data
## [1] 1000 1001 1002 1003 1004 1005 1006 1007 1008 1009 1010 1011 1012 1013
## [15] 1014 1015 1016 1017 1018 1019 1020 1021 1022 1023 1024 1025 1026 1027
## [29] 1028 1029 1030 1031 1032 1033 1034 1035 1036 1037 1038 1039 1040 1041
## [43] 1042 1043 1044 1045 1046 1047 1048 1049 1050 1051 1052 1053 1054 1055
## [57] 1056 1057 1058 1059 1060 1061 1062 1063 1064 1065 1066 1067 1068 1069
## [71] 1070 1071 1072 1073 1074 1075 1076 1077 1078 1079 1080 1081 1082 1083
## [85] 1084 1085 1086 1087 1088 1089 1090 1091 1092 1093 1094 1095 1096 1097
## [99] 1098 1099 1100 1101 1102 1103 1104 1105 1106 1107 1108 1109 1110 1111
## [113] 1112 1113 1114 1115 1116 1117 1118 1119 1120 1121 1122 1123 1124 1125
## [127] 1126 1127 1128 1129 1130 1131 1132 1133 1134 1135 1136 1137 1138 1139
## [141] 1140 1141 1142 1143 1144 1145 1146 1147 1148 1149 1150 1151 1152 1153
## [155] 1154 1155 1156 1157 1158 1159 1160 1161 1162 1163 1164 1165 1166 1167
## [169] 1168 1169 1170 1171 1172 1173 1174 1175 1176 1177 1178 1179 1180 1181
## [183] 1182 1183 1184 1185 1186 1187 1188 1189 1190 1191 1192 1193 1194 1195
## [197] 1196 1197 1198 1199 1200 1201 1202 1203 1204 1205 1206 1207 1208 1209
## [211] 1210 1211 1212 1213 1214 1215 1216 1217 1218 1219 1220 1221 1222 1223
## [225] 1224 1225 1226 1227 1228 1229 1230 1231 1232 1233 1234 1235 1236 1237
## [239] 1238 1239 1240 1241 1242 1243 1244 1245 1246 1247 1248 1249 1250 1251
## [253] 1252 1253 1254 1255 1256 1257 1258 1259 1260 1261 1262 1263 1264 1265
## [267] 1266 1267 1268 1269 1270 1271 1272 1273 1274 1275 1276 1277 1278 1279
## [281] 1280 1281 1282 1283 1284 1285 1286 1287 1288 1289 1290 1291 1292 1293
## [295] 1294 1295 1296 1297 1298 1299 1300 1301 1302 1303 1304 1305 1306 1307
## [309] 1308 1309 1310 1311 1312 1313 1314 1315 1316 1317 1318 1319 1320 1321
## [323] 1322 1323 1324 1325 1326 1327 1328 1329 1330 1331 1332 1333 1334 1335
## [337] 1336 1337 1338 1339 1340 1341 1342 1343 1344 1345 1346 1347 1348 1349
## [351] 1350 1351 1352 1353 1354 1355 1356 1357 1358 1359 1360 1361 1362 1363
## [365] 1364 1365 1366 1367 1368 1369 1370 1371 1372 1373 1374 1375 1376 1377
## [379] 1378 1379 1380 1381 1382 1383 1384 1385 1386 1387 1388 1389 1390 1391
## [393] 1392 1393 1394 1395 1396 1397 1398 1399 1400 1401 1402 1403 1404 1405
## [407] 1406 1407 1408 1409 1410 1411 1412 1413 1414 1415 1416 1417 1418 1419
## [421] 1420 1421 1422 1423 1424 1425 1426 1427 1428 1429 1430 1431 1432 1433
## [435] 1434 1435 1436 1437 1438 1439 1440 1441 1442 1443 1444 1445 1446 1447
## [449] 1448 1449 1450 1451 1452 1453 1454 1455 1456 1457 1458 1459 1460 1461
## [463] 1462 1463 1464 1465 1466 1467 1468 1469 1470 1471 1472 1473 1474 1475
## [477] 1476 1477 1478 1479 1480 1481 1482 1483 1484 1485 1486 1487 1488 1489
## [491] 1490 1491 1492 1493 1494 1495 1496 1497 1498 1499 1500 1501 1502 1503
## [505] 1504 1505 1506 1507 1508 1509 1510 1511 1512 1513 1514 1515 1516 1517
## [519] 1518 1519 1520 1521 1522 1523 1524 1525 1526 1527 1528 1529 1530 1531
## [533] 1532 1533 1534 1535 1536 1537 1538 1539 1540 1541 1542 1543 1544 1545
## [547] 1546 1547 1548 1549 1550 1551 1552 1553 1554 1555 1556 1557 1558 1559
## [561] 1560 1561 1562 1563 1564 1565 1566 1567 1568 1569 1570 1571 1572 1573
## [575] 1574 1575 1576 1577 1578 1579 1580 1581 1582 1583 1584 1585 1586 1587
## [589] 1588 1589 1590 1591 1592 1593 1594 1595 1596 1597 1598 1599 1600 1601
## [603] 1602 1603 1604 1605 1606 1607 1608 1609 1610 1611 1612 1613 1614 1615
## [617] 1616 1617 1618 1619 1620 1621 1622 1623 1624 1625 1626 1627 1628 1629
## [631] 1630 1631 1632 1633 1634 1635 1636 1637 1638 1639 1640 1641 1642 1643
## [645] 1644 1645 1646 1647 1648 1649 1650 1651 1652 1653 1654 1655 1656 1657
## [659] 1658 1659 1660 1661 1662 1663 1664 1665 1666 1667 1668 1669 1670 1671
## [673] 1672 1673 1674 1675 1676 1677 1678 1679 1680 1681 1682 1683 1684 1685
## [687] 1686 1687 1688 1689 1690 1691 1692 1693 1694 1695 1696 1697 1698 1699
## [701] 1700 1701 1702 1703 1704 1705 1706 1707 1708 1709 1710 1711 1712 1713
## [715] 1714 1715 1716 1717 1718 1719 1720 1721 1722 1723 1724 1725 1726 1727
## [729] 1728 1729 1730 1731 1732 1733 1734 1735 1736 1737 1738 1739 1740 1741
## [743] 1742 1743 1744 1745 1746 1747 1748 1749 1750 1751 1752 1753 1754 1755
## [757] 1756 1757 1758 1759 1760 1761 1762 1763 1764 1765 1766 1767 1768 1769
## [771] 1770 1771 1772 1773 1774 1775 1776 1777 1778 1779 1780 1781 1782 1783
## [785] 1784 1785 1786 1787 1788 1789 1790 1791 1792 1793 1794 1795 1796 1797
## [799] 1798 1799 1800 1801 1802 1803 1804 1805 1806 1807 1808 1809 1810 1811
## [813] 1812 1813 1814 1815 1816 1817 1818 1819 1820 1821 1822 1823 1824 1825
## [827] 1826 1827 1828 1829 1830 1831 1832 1833 1834 1835 1836 1837 1838 1839
## [841] 1840 1841 1842 1843 1844 1845 1846 1847 1848 1849 1850 1851 1852 1853
## [855] 1854 1855 1856 1857 1858 1859 1860 1861 1862 1863 1864 1865 1866 1867
## [869] 1868 1869 1870 1871 1872 1873 1874 1875 1876 1877 1878 1879 1880 1881
## [883] 1882 1883 1884 1885 1886 1887 1888 1889 1890 1891 1892 1893 1894 1895
## [897] 1896 1897 1898 1899 1900 1901 1902 1903 1904 1905 1906 1907 1908 1909
## [911] 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923
## [925] 1924 1925 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937
## [939] 1938 1939 1940 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950 1951
## [953] 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965
## [967] 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979
## [981] 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
## [995] 1994 1995 1996 1997 1998 1999 2000
set.seed(333)
<- 1000
n <- round(.1*n,0)
s_size
#la muestra
<- Data[sample(x=1:n,size=s_size)]
psuedoData psuedoData
## [1] 1909 1424 1310 1577 1294 1315 1001 1645 1066 1555 1214 1358 1039 1574 1160
## [16] 1342 1842 1345 1414 1325 1348 1589 1227 1133 1122 1440 1917 1976 1271 1837
## [31] 1290 1112 1457 1379 1116 1537 1265 1527 1835 1368 1764 1332 1969 1776 1501
## [46] 1308 1159 1620 1362 1680 1981 1104 1658 1183 1203 1519 1939 1797 1974 1556
## [61] 1418 1256 1423 1622 1709 1665 1407 1057 1276 1883 1873 1980 1044 1902 1390
## [76] 1174 1412 1572 1386 1389 1815 1481 1033 1613 1660 1300 1469 1766 1932 1772
## [91] 1528 1139 1311 1856 1644 1189 1865 1087 1872 1930
=seq(1,2850,by=1)
empleados
head(empleados)
## [1] 1 2 3 4 5 6
tail(empleados)
## [1] 2845 2846 2847 2848 2849 2850
=sample(empleados,285,replace=F)
muestra_empleados muestra_empleados
## [1] 2066 2845 1039 2559 488 2767 1801 2384 380 2445 2723 86 1348 1520 2056
## [16] 602 2582 247 1415 2299 2142 1191 1104 1960 1645 2635 1347 1511 834 244
## [31] 920 1238 1640 2452 2493 573 255 899 1649 969 1957 788 807 2376 329
## [46] 1871 1749 1061 2675 1006 278 1220 1862 517 2291 2808 2259 1373 1722 1630
## [61] 32 354 618 451 2430 1451 1758 2363 581 2685 909 1513 56 2751 873
## [76] 1501 1316 1214 1308 2686 513 185 1618 2754 2829 645 253 2272 1837 1157
## [91] 117 2469 350 1403 2149 2156 1835 201 361 2131 2137 2356 1697 216 464
## [106] 2530 1273 2337 1914 418 2215 1710 2308 47 578 2014 2544 1432 39 59
## [121] 610 2117 565 2480 2534 1208 1779 566 1784 717 2528 1654 2191 2157 802
## [136] 636 538 2736 1154 970 2244 2134 110 2442 429 1217 737 215 1174 1487
## [151] 2494 2604 2795 1248 24 1865 1921 1773 2708 1599 2622 43 2755 949 1941
## [166] 765 1441 775 1712 1975 2498 2213 2643 358 1361 1358 1703 1890 432 812
## [181] 1256 2152 1222 2348 1920 1496 2540 1946 391 511 1685 473 2047 1569 2764
## [196] 1806 1309 2609 627 629 516 2511 1167 2616 989 2774 673 2642 116 894
## [211] 1673 499 956 1097 1326 2346 208 2467 2095 5 863 2166 2072 2278 601
## [226] 2267 1030 1476 1576 274 2520 1453 962 1428 2703 409 1059 533 1003 2592
## [241] 2491 2378 2342 50 148 1746 2413 341 2432 2461 2489 186 2307 808 2009
## [256] 296 750 1437 1714 149 1628 348 2365 442 1334 2637 1910 2709 676 319
## [271] 701 568 1025 1660 1675 2735 1016 1536 2785 2817 406 315 2164 1286 2618
=rbinom(2850,1,0.8)
sexohead(sexo)
## [1] 0 1 1 1 1 1
tail(sexo)
## [1] 1 1 0 1 1 1
summary(sexo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 1.0000 1.0000 0.7965 1.0000 1.0000
=factor(sexo, levels = c(0,1),labels = c("Hombre", "Mujer"))
sexoplot(sexo)
A discrete random variable \(X\) takes on values \(x_i\) with probability \(p_i\), \(i=1, \ldots, m\), where \(\sum_{i=1}^{m} p_i = 1\).
Example 1: Roll a fair die and let \(X\) be the value that appears. Then \(X\) takes on the values \(1\) through \(6\), each with probability \(1/6\).
Example 2: You are told that there is a hundred dollar bill behind one of three doors and there is nothing behind the other two. Choose one of the doors and let \(X\) be the amount of money that you find behind your door. Then \(X\) takes on the value \(100\) with probability \(1/3\) and \(0\) with probability \(2/3\).
Now suppose that after choosing a door, but before opening it, you are told one of the other doors that does not contain the money. That is, suppose the hundred dollars is behind door number one. If you guessed one, then you are told either that it is not behind door number two or that it is not behind door number three. If you guessed two, you are told that it is not behind door number three, and if you guessed three then you are told that it is not behind door number two. You may now change your guess to the remaining door — the one that you did not choose the first time and that you were not told did not contain the hundred dollars. Let \(Y\) be the amount of money that you find if you change your guess. Then \(Y\) takes on the value \(100\) with probability \(2/3\) and \(0\) with probability \(1/3\). Do you see why?
The expected value of a discrete random variable \(X\) is defined as
\(E(X)\equiv \langle X \rangle = \sum_{i=1}^m p_i x_i .\)
This is also sometimes called the mean of the random variable \(X\) and denoted as \(\mu\).
In Example 1 above,
\(E(X) = \frac{1}{6} \cdot 1 + \frac{1}{6} \cdot 2 + \frac{1}{6} \cdot 3 +\frac{1}{6} \cdot 4 + \frac{1}{6} \cdot 5 + \frac{1}{6} \cdot 6 =\frac{7}{2} .\)
In Example 2 above,
\(E(X) = \frac{1}{3} \cdot 100 + \frac{2}{3} \cdot 0 = 33 \frac{1}{3} .\) \(E(Y) = \frac{2}{3} \cdot 100 + \frac{1}{3} \cdot 0 = 66 \frac{2}{3} .\)
If \(X\) is a discrete random variable and \(g\) is any function, then \(g(X)\) is a discrete random variable and
$ E(g(X)) = _{i=1}^{m} p_i g( x_i )$
Example: \(g(X) = a X + b\), \(a\) and \(b\) constants.
\[\begin{eqnarray*} E(g(X)) & = & \sum_{i=1}^{m} p_i ( a x_i + b ) \\ & = & a \sum_{i=1}^{m} p_i x_i ~+~ b~~~ \mbox{(since } \sum_{i=1}^{m} p_i = 1 ) \\ & = & a \cdot E(X) + b . \end{eqnarray*}\]Example: \(g(X) = X^2\). Then \(E(g(X)) = \sum_{i=1}^{m} p_i x_i^2\).
In Example 1 above,
\(E( X^2 ) = \frac{1}{6} \cdot 1^2 + \frac{1}{6} \cdot 2^2 +\frac{1}{6} \cdot 3^2 + \frac{1}{6} \cdot 4^2 +\frac{1}{6} \cdot 5^2 + \frac{1}{6} \cdot 6^2 = \frac{91}{6} .\)
Let \(\mu = E(X)\) denote the expected value of \(X\). The expected value of the \(square of the difference\) between \(X\) and \(\mu\) is
\[\begin{eqnarray*} E( ( X - \mu )^2 ) & = & \sum_{i=1}^{m} p_i ( x_i - \mu )^2 \\ & = & \sum_{i=1}^{m} p_i ( x_i^2 - 2 \mu x_i + \mu^2 ) \\ & = & \sum_{i=1}^{m} p_i x_i^2 - 2 \mu \sum_{i=1}^{m} p_i x_i + \mu^2 \\ & = & E( X^2 ) - \mu^2 \\ & = & E( X^2 ) - (E(X) )^2 . \end{eqnarray*}\]The quantity \(E( X^2 ) - ( E(X) )^2\) is called the \(variance\) of the random variable \(X\) and is denoted var(\(X\)). The square root of the variance, \(\sigma \equiv \sqrt{ \mbox{var}(X)}\) is called the standard deviation. In Example 1 above,
\(\mbox{var}(X) = \frac{91}{6} - \left( \frac{7}{2} \right)^2 = \frac{35}{12} .\)
Let \(X\) and \(Y\) be two random variables and let \(c_1\) and \(c_2\) be constants. Then
\[\begin{eqnarray*} \mbox{var}( c_1 X + c_2 Y ) & = & E( ( c_1 X + c_2 Y )^2 ) ~-~ ( E( c_1 X + c_2 Y ) )^2 \\ & = & E( c_1^2 X^2 + 2 c_1 c_2 XY + c_2^2 Y^2 ) ~-~ ( c_1 E(X) + c_2 E(Y) )^2 \\ & = & c_1^2 E( X^2 ) + 2 c_1 c_2 E(XY) + c_2^2 E( Y^2 ) ~- \\ & & [ c_1^2 ( E(X) )^2 + 2 c_1 c_2 E(X) E(Y) + c_2^2 ( E(Y) )^2 ] \\ & = & c_1^2 \mbox{var}(X) + c_2^2 \mbox{var}(Y) + 2 c_1 c_2 ( E(XY) - E(X)E(Y) ) . \end{eqnarray*}\]The \(covariance\) of \(X\) and \(Y\), denoted cov(\(X,Y\)), is the quantity \(E(XY) - E(X)E(Y)\).
Two random variables \(X\) and \(Y\) are said to be \(independent\) if the value of one does not depend on that of the other; that is, if the probability that \(X = x_i\) is the same regardless of the value of \(Y\) and the probability that \(Y = y_j\) is the same regardless of the value of \(X\). Equivalently, the probability that \(X = x_i\) and \(Y = y_j\) is the \(product\) of the probability that \(X = x_i\) and the probability that \(Y = y_j\).
Example: Toss two fair coins. There are four equally probable outcomes: HH, HT, TH, TT. Let \(X\) equal \(1\) if first coin is heads, \(0\) if first coin is tails. Let \(Y\) equal \(1\) if second coin is heads, \(0\) if second coin is tails. Then \(X\) and \(Y\) are independent because, for example,
\(\mbox{Prob}( X=1 \mbox{ and } Y=0 ) = \frac{1}{4} = \frac{1}{2} \cdot \frac{1}{2} = \mbox{Prob}( X=1 ) \cdot \mbox{Prob}( Y=0 ) ,\)
and similarly, for all other possible values,
\(\mbox{Prob}( X= x_i \mbox{ and } Y= y_j ) = \mbox{Prob}( X= x_i ) \cdot\mbox{Prob}( Y= y_j )\).
In contrast, if we define \(Y\) to be \(0\) if outcome is \(TT\) and \(1\) otherwise, then \(X\) and \(Y\) are not independent because
\(\mbox{Prob}(X=1 \mbox{ and }Y=0) = 0\), yet \(\mbox{Prob}(X=1) = 1/2\)
and \(\mbox{Prob}(Y=0) = 1/4\).
If \(X\) and \(Y\) are independent random variables, then cov(\(X,Y)=0\), and \(\mbox{var}( c_1 X + c_2 Y ) = c_1^2 \mbox{var}(X) + c_2^2 \mbox{var}(Y) .\)
Definiciòn
Una variable aleatoria discreta \(X\) tiene distribución de Bernoulli de parámetro \(p\) si su función de probabilidad es
\[ \begin{equation} f(x;p) = \left\{ \begin{array}{cc} p & \mathrm{si\ } x=1 \\ 1-p & \mathrm{si\ } x=0 \\ \end{array} \right. \end{equation} \]
\[ P(X = 1) = p, P(X = 0) = 1-p \] \[ p^x(1-p)^{1-x} \]
\[ E(X) = \mu_X = p \]
\[ Var(X) = \sigma^2_X = p(1-p) \]
Definición
Una variable aleatoria discreta \(X\) tiene una distribución binomial de parámetro \(p\) si su función de probabilidad es
\[P(X = k) = \left\{ \begin{array}{cl} \displaystyle{\binom{n}{k}} p^k (1-p)^{n-k} & \text{si } x=0,1,...,n \\ 0 & \text{en cualquier otro caso} \end{array} \right.\]
donde
\[ \binom{n}{k} = \frac{n!}{k!(n - k)!} = {n}C_{k} = C_{k}^n \]
where A is the permutation
\[\frac{A_n^k}{k!} = \binom{n}{k}\] donde: \[A_n^k = \frac{n!}{(n-k)!}\] are the different ordered arrangements of a k-element subset of an n-set
Triángulo de Pascal
\[\binom{n}{k} = \binom{n-1}{k-1} +\binom{n-1}{k}\]
Estudio de caso
Simular una población de 100 personas donde la variable de interés es el sexo y se sabe que el 80% son mujeres.
=rbinom(100,1,0.8)
sexo sexo
## [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 0 1 1
## [38] 1 1 1 0 1 1 0 1 1 1 1 0 1 1 0 0 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1
## [75] 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 0
=factor(sexo, levels = c(0,1),labels = c("Hombre", "Mujer"))
sexo sexo
## [1] Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer
## [11] Mujer Mujer Mujer Mujer Hombre Mujer Mujer Mujer Mujer Mujer
## [21] Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer Hombre
## [31] Mujer Hombre Mujer Mujer Hombre Mujer Mujer Mujer Mujer Mujer
## [41] Hombre Mujer Mujer Hombre Mujer Mujer Mujer Mujer Hombre Mujer
## [51] Mujer Hombre Hombre Hombre Mujer Mujer Hombre Mujer Mujer Mujer
## [61] Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer
## [71] Mujer Hombre Mujer Mujer Hombre Mujer Mujer Hombre Mujer Mujer
## [81] Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer
## [91] Mujer Mujer Mujer Mujer Mujer Hombre Mujer Mujer Hombre Hombre
## Levels: Hombre Mujer
plot(sexo)
=1/6
p# La probabilidad de tener x aciertos en 6 lanzamientos
=rbinom(10000,6,p)
dadohead(dado)
## [1] 0 0 2 0 0 1
tail(dado)
## [1] 0 0 1 2 3 0
hist(dado)
Estudio de caso
Simula la distribución de la cantidad de caras que salen al lanzar dos monedas. Suponga que se repite el experimento 30 veces.
sample(0:2,10,rep=T)
## [1] 0 2 2 0 0 0 1 0 0 2
<-sapply(1:30, function(x){sum(sample(0:2,1,rep=T))})
t t
## [1] 0 0 2 0 2 0 2 0 0 0 0 0 0 1 0 0 0 1 0 1 0 0 2 2 1 0 1 1 2 0
table(t)
## t
## 0 1 2
## 18 6 6
barplot(table(t))
¿Es posible sacar alguna conclusión al respecto de la distribución?
Repite el experimento 300 veces
<-sapply(1:300, function(x){sum(sample(0:5,1,rep=T))})
t t
## [1] 5 3 3 5 1 2 0 0 1 5 3 2 3 1 5 1 0 4 1 0 3 1 4 5 3 3 3 4 4 2 3 0 4 2 0 0 5
## [38] 3 3 5 1 0 2 3 0 0 1 0 4 1 2 1 0 0 2 0 5 0 4 5 4 2 0 1 0 2 4 5 2 5 2 5 2 3
## [75] 4 0 0 3 3 2 2 1 1 1 5 5 0 2 4 5 0 4 1 1 1 5 1 4 1 2 2 4 1 5 5 3 4 5 2 5 1
## [112] 3 2 5 5 4 5 0 3 5 0 0 2 3 4 5 5 1 3 2 1 4 5 5 1 2 5 5 3 3 2 1 4 1 5 3 1 1
## [149] 0 2 1 1 0 4 1 4 5 1 1 2 3 2 5 4 4 4 3 0 5 0 4 5 5 0 3 5 0 3 3 4 4 4 0 4 1
## [186] 1 0 2 4 1 4 0 1 2 2 2 1 0 5 2 2 5 2 1 3 3 2 5 2 4 1 3 0 3 4 5 4 2 4 2 2 5
## [223] 1 2 1 0 5 5 0 3 2 5 1 2 0 2 1 2 0 3 0 1 3 1 0 3 1 4 0 3 4 0 4 4 4 2 2 1 2
## [260] 4 0 4 4 0 0 3 3 5 3 0 5 4 4 2 1 4 4 1 1 1 1 0 0 4 2 1 5 1 2 4 0 5 1 0 4 1
## [297] 2 5 5 1
table(t)
## t
## 0 1 2 3 4 5
## 51 58 50 40 50 51
barplot(table(t))
Estudio de caso
Simula la distribució de la suma de los números que salen al lanzar dos dados
sample(1:6,4,rep=T)
## [1] 5 3 6 1
sum(sample(1:6,4,rep=T))
## [1] 14
para 100 ensayos
<-sapply(1:100, function(x){sum(sample(1:6,4,rep=T))})
t t
## [1] 16 15 10 11 14 13 11 16 19 14 13 10 9 10 13 13 12 17 9 15 11 16 13 8 15
## [26] 11 16 17 12 18 10 14 12 19 13 15 10 18 15 10 17 11 14 11 19 10 9 16 12 8
## [51] 7 12 13 22 16 9 11 15 12 10 14 15 10 12 19 17 9 14 12 14 11 13 18 10 12
## [76] 14 14 12 13 11 13 22 10 13 16 13 12 15 8 14 12 13 15 20 17 15 19 15 14 21
table(t)
## t
## 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
## 1 3 5 11 9 12 13 11 11 7 5 3 5 1 1 2
barplot(table(t))
para 1000 ensayos
<-sapply(1:1000, function(x){sum(sample(1:6,4,rep=T))})
ubarplot(table(u))
para 100.000 ensayos
<-sapply(1:10000, function(x){sum(sample(1:6,4,rep=T))})
vbarplot(table(v))
¿Es posible sacar alguna conclusión al respecto de la distribución de la suma obtenida en las caras?
Estudio de caso
Simula la distribució de la suma de los números que salen al lanzar cuatro dados 10.000 de veces. Identifique la suma más probable.
<-sapply(1:10000, function(x){sum(sample(1:6,4,rep=T))})
vbarplot(table(v))
Una variable aleatoria \(X\) se dice que es de Poisson de parámetro \(\lambda>0\) si su función de probabilidad está definida como
\[ P(X=x) = \begin{cases} \dfrac{e^{-\lambda}\lambda^x}{x!} & \text{si } x=0,1,2,... \\ 0 & \text{en cualquier otro caso} \end{cases} \]
En la distribución la media y la varianza coinciden, es decir, \(E(X)=Var(X)=\lambda\).
If a random variable \(X\) can take on any of a continuum of values, say, any value between \(0\) and \(1\), then we cannot define it by listing values \(x_i\) and giving the probability \(p_i\) that \(X= x_i\); for any single value \(x_i\), \(\mbox{Prob}(X = x_i )\) is zero! Instead we can define the cumulative distribution function:
\(F(x) \equiv \mbox{Prob}(X < x ) ,\)
or the probability density function (pdf):
\(\rho (x)\,dx \equiv \mbox{Prob}( X \in [ x, x+\,dx ] ) = F(x+\,dx ) - F(x) .\)
Letting \(dx \rightarrow 0\), we find
\(\rho (x) = F'(x) ,~~~F(x) = \int_{- \infty}^{x} \rho (t)\,dt .\)
(For a more formal mathematical derivation, take a course in probability or measure theory. This will suffice for our purposes.)
The expected value of a continuous random variable \(X\) is then defined by
\(E(X) = \int_{- \infty}^{\infty} x \rho (x)\,dx .\)
Note that by definition, \(\int_{- \infty}^{\infty} \rho (x)\,dx = 1\). The expected value of \(X^2\) is
\(E( X^2 ) = \int_{- \infty}^{\infty} x^2 \rho (x)\,dx ,\)
and the variance is again defined as \(E( X^2 ) - (E(X) )^2\).
Example: Uniform Distribution in \([0,1]\).
\[F(x) = \left\{ \begin{array}{cl} 0 & \mbox{if } x < 0 \\ x & \mbox{if } 0 \leq x \leq 1 \\ 1 & \mbox{if } x > 1 \end{array} \right. ,~~~ \rho (x) = \left\{ \begin{array}{cl} 0 & \mbox{if } x < 0 \\ 1 & \mbox{if } 0 \leq x \leq 1 \\ 0 & \mbox{if } x > 1 \end{array} \right.\]
\(E(X) = \int_{- \infty}^{\infty} x \rho (x)\,dx = \int_{0}^{1} x\,dx = \frac{1}{2} ,\)
\(\mbox{var}(X) = \int_{0}^{1} x^2\,dx - \left( \frac{1}{2} \right)^2 =\frac{1}{3} - \frac{1}{4} = \frac{1}{12} .\)
Example: Normal (Gaussian) Distribution, Mean \(\mu\), Variance \(\sigma^2\).
\(\rho (x) = \frac{1}{\sigma \sqrt{2 \pi}}~\exp \left( - \frac{(x - \mu )^2}{2 \sigma^2} \right) ,\)
\(F(x) = \frac{1}{\sigma \sqrt{2 \pi}}~\int_{- \infty}^{x} \exp \left( -\frac{(t - \mu )^2}{2 \sigma^2} \right) \,dt\)
\[X_i \stackrel{iid}{\sim} U[0, 1]\]
=sample(runif(100,0,1),50,rep=T)
mu10 mu10
## [1] 0.144634831 0.805856121 0.490030302 0.060207580 0.890073922 0.451722343
## [7] 0.019849212 0.464314196 0.258541825 0.864267797 0.907955596 0.766630250
## [13] 0.718821334 0.342934703 0.906356126 0.873705012 0.403890211 0.005605501
## [19] 0.273836776 0.005108057 0.490030302 0.535928883 0.458694353 0.082327513
## [25] 0.807212172 0.116256322 0.430403067 0.049477275 0.716838389 0.448308979
## [31] 0.761004041 0.868262308 0.805856121 0.716838389 0.809174900 0.533570437
## [37] 0.631565865 0.089800581 0.869347741 0.882304534 0.383405325 0.019849212
## [43] 0.805515476 0.338556307 0.653796538 0.111965035 0.430403067 0.448308979
## [49] 0.906356126 0.906356126
hist(mu10)
=sample(runif(100,0,1),1000,rep=T)
mu1000head(mu1000)
## [1] 0.1213838 0.1828582 0.2166039 0.3116694 0.6475385 0.1213838
tail(mu1000)
## [1] 0.7248528 0.5037491 0.9287404 0.8100480 0.5901328 0.2308900
hist(mu1000)
Una variable aleatoria \(X\) se dice que tiene una distribución exponencial de parámetro \(\lambda>0\) si su función de densidad de probabilidad es
\[ f(x) = \begin{cases} \lambda e^{-\lambda x} & \text{si } x>0\\ 0 & \text{si } x\le 0 \end{cases} \]
La media y la varianza de una variable exponencial son respectivamente \(E(X)=\dfrac{1}{\lambda}\) y \(Var(X)=\dfrac{1}{\lambda^2}\).
Ejemplo: Sea una variable \(X\) que mide el tiempo de duración de un cierto tipo de artefacto eléctrico. Se sabe que esta variable tiene una distribución exponencial de parámetro \(\lambda=5\). Su función de densidad de probabilidad es entonces
\[ f(x) = \begin{cases} 5 e^{-5 x} & \text{si } x>0\\ 0 & \text{si } x\le 0 \end{cases} \]
y su gráfica es
#install.packages("RcmdrMisc")
library("RcmdrMisc")
## Loading required package: car
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:ggVennDiagram':
##
## ellipse
## The following object is masked from 'package:gtools':
##
## logit
## The following object is masked from 'package:expss':
##
## recode
## The following object is masked from 'package:DescTools':
##
## Recode
## The following object is masked from 'package:purrr':
##
## some
## The following object is masked from 'package:dplyr':
##
## recode
## Registered S3 methods overwritten by 'Hmisc':
## method from
## [.labelled expss
## print.labelled expss
## as.data.frame.labelled expss
<- seq(0, 2, length.out = 1000)
x ::plotDistr(x, dexp(x, rate = 5), ylab="f(x)",
RcmdrMiscmain = expression(paste("Distribución exponencial de parámetro ",lambda==5)), las=1)
set.seed(333)
<-10000
n<-10
lambda<- -log(runif(n,0,1))/lambda
xhist(x)
Una variable aleatoria \(X\) tiene una distribución normal de parámetros \(\mu\) y \(\sigma\) si su función de densidad de probabilidad es
\[ f(x; \mu, \sigma) = \dfrac{1}{\sigma\sqrt{2\pi}}\exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)\ \ \text{ si }\ \ x \in \mathbb{R} \]
donde \(E(X)=\mu\) y \(Var(X)=\sigma^2\).
Contraste entre varias curvas normales con diferentes parámetros de media y desvío estándar
Veamos algunos perfiles de la distribución normal para ciertos valores de \(\mu\) y \(\sigma\).
<- round(seq(-6, 6, len=100),3)
x x
## [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
## [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
## [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
## [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
## [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
## [51] 0.061 0.182 0.303 0.424 0.545 0.667 0.788 0.909 1.030 1.152
## [61] 1.273 1.394 1.515 1.636 1.758 1.879 2.000 2.121 2.242 2.364
## [71] 2.485 2.606 2.727 2.848 2.970 3.091 3.212 3.333 3.455 3.576
## [81] 3.697 3.818 3.939 4.061 4.182 4.303 4.424 4.545 4.667 4.788
## [91] 4.909 5.030 5.152 5.273 5.394 5.515 5.636 5.758 5.879 6.000
#f1 es la función de densidad para cada valor posible de X, si esta sigue una distribución normal de media 0 y varianza 1
=dnorm(x, 0, 1)
f1 f1
## [1] 6.075883e-09 1.246602e-08 2.520507e-08 5.050535e-08 9.915803e-08
## [6] 1.918491e-07 3.657912e-07 6.873030e-07 1.279056e-06 2.333645e-06
## [11] 4.195867e-06 7.434472e-06 1.304050e-05 2.243639e-05 3.804111e-05
## [16] 6.356163e-05 1.046594e-04 1.704959e-04 2.726012e-04 4.295197e-04
## [21] 6.669293e-04 1.020512e-03 1.543994e-03 2.294109e-03 3.359111e-03
## [26] 4.847033e-03 6.912039e-03 9.684748e-03 1.337248e-02 1.819604e-02
## [31] 2.439965e-02 3.231510e-02 4.207679e-02 5.399097e-02 6.827176e-02
## [36] 8.507513e-02 1.046445e-01 1.266217e-01 1.509878e-01 1.774258e-01
## [41] 2.054627e-01 2.347138e-01 2.639280e-01 2.924649e-01 3.193770e-01
## [46] 3.438839e-01 3.646466e-01 3.810430e-01 3.923894e-01 3.982007e-01
## [51] 3.982007e-01 3.923894e-01 3.810430e-01 3.646466e-01 3.438839e-01
## [56] 3.193770e-01 2.924649e-01 2.639280e-01 2.347138e-01 2.054627e-01
## [61] 1.774258e-01 1.509878e-01 1.266217e-01 1.046445e-01 8.507513e-02
## [66] 6.827176e-02 5.399097e-02 4.207679e-02 3.231510e-02 2.439965e-02
## [71] 1.819604e-02 1.337248e-02 9.684748e-03 6.912039e-03 4.847033e-03
## [76] 3.359111e-03 2.294109e-03 1.543994e-03 1.020512e-03 6.669293e-04
## [81] 4.295197e-04 2.726012e-04 1.704959e-04 1.046594e-04 6.356163e-05
## [86] 3.804111e-05 2.243639e-05 1.304050e-05 7.434472e-06 4.195867e-06
## [91] 2.333645e-06 1.279056e-06 6.873030e-07 3.657912e-07 1.918491e-07
## [96] 9.915803e-08 5.050535e-08 2.520507e-08 1.246602e-08 6.075883e-09
<- cbind(round(f1,3), round(dnorm(x, -2, 1), 3),
y round(dnorm(x, 0, 2), 3), round(dnorm( x, 0, .5),3),
round(dnorm(x, 2, .3), 3), round(dnorm(x, -.5, 3 ),3))
=data.frame(x,y)
valoreshead(valores)
## x X1 X2 X3 X4 X5 X6
## 1 -6.000 0 0.000 0.002 0 0 0.025
## 2 -5.879 0 0.000 0.003 0 0 0.027
## 3 -5.758 0 0.000 0.003 0 0 0.029
## 4 -5.636 0 0.001 0.004 0 0 0.031
## 5 -5.515 0 0.001 0.004 0 0 0.033
## 6 -5.394 0 0.001 0.005 0 0 0.035
matplot(x, y, type="l", col=c(1,2,3,4,5,6), las = 1, ylab = "f(x)")
legend(-6, 1.3, expression(paste(mu==0," ; ", sigma==1),
paste(mu==-2," ; ", sigma==1),
paste(mu==0," ; ", sigma==2),
paste(mu==0," ; ", sigma==0.5),
paste(mu==2," ; ", sigma==0.3),
paste(mu==-0.5," ; ", sigma==3)),
lty = 1:6, cex = 0.7, col=c(1,2,3,4,5,6))
matplot dnomr
# la probabilidad de que una variable aleatoria normal estándar tenga un valor menor a 1.5
=pnorm(1.5,mean=0,sd=1)
pbb pbb
## [1] 0.9331928
<- seq(-3.5, 3.5, length.out = 1000)
x ::plotDistr(x,dnorm(x,0,1),
RcmdrMiscregions = list(c(-3.5,1.5)),
legend = F, bty = "n", las = 1,
xlab="x", ylab="f(x)")
# la probabilidad de que una variable aleatoria normal de media 20 y desvío estándar 2 tenga un valor mayor a 18 y menor 21
=pnorm(21,20,2)-pnorm(18,20,2)
area area
## [1] 0.5328072
<- seq(13, 27, length.out = 1000)
x ::plotDistr(x,dnorm(x,20,2),
RcmdrMiscregions = list(c(18, 21)),
legend = F, bty = "n", las = 1,
xlab="x", ylab="f(x)")
Si aplicamos barplot()
al objeto f1
tenemos
un histograma cuya apariencia en la siguiente:
# Gráfica de la función f1
barplot(f1, las=1)
Barplot f1
La tabla de la distribución normal
=round(seq(-4,4,length=100),3)
q q
## [1] -4.000 -3.919 -3.838 -3.758 -3.677 -3.596 -3.515 -3.434 -3.354 -3.273
## [11] -3.192 -3.111 -3.030 -2.949 -2.869 -2.788 -2.707 -2.626 -2.545 -2.465
## [21] -2.384 -2.303 -2.222 -2.141 -2.061 -1.980 -1.899 -1.818 -1.737 -1.657
## [31] -1.576 -1.495 -1.414 -1.333 -1.253 -1.172 -1.091 -1.010 -0.929 -0.848
## [41] -0.768 -0.687 -0.606 -0.525 -0.444 -0.364 -0.283 -0.202 -0.121 -0.040
## [51] 0.040 0.121 0.202 0.283 0.364 0.444 0.525 0.606 0.687 0.768
## [61] 0.848 0.929 1.010 1.091 1.172 1.253 1.333 1.414 1.495 1.576
## [71] 1.657 1.737 1.818 1.899 1.980 2.061 2.141 2.222 2.303 2.384
## [81] 2.465 2.545 2.626 2.707 2.788 2.869 2.949 3.030 3.111 3.192
## [91] 3.273 3.354 3.434 3.515 3.596 3.677 3.758 3.838 3.919 4.000
=round(pnorm(q,0,1),3)
pbb1 pbb1
## [1] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.001 0.001
## [13] 0.001 0.002 0.002 0.003 0.003 0.004 0.005 0.007 0.009 0.011 0.013 0.016
## [25] 0.020 0.024 0.029 0.035 0.041 0.049 0.058 0.067 0.079 0.091 0.105 0.121
## [37] 0.138 0.156 0.176 0.198 0.221 0.246 0.272 0.300 0.329 0.358 0.389 0.420
## [49] 0.452 0.484 0.516 0.548 0.580 0.611 0.642 0.671 0.700 0.728 0.754 0.779
## [61] 0.802 0.824 0.844 0.862 0.879 0.895 0.909 0.921 0.933 0.942 0.951 0.959
## [73] 0.965 0.971 0.976 0.980 0.984 0.987 0.989 0.991 0.993 0.995 0.996 0.997
## [85] 0.997 0.998 0.998 0.999 0.999 0.999 0.999 1.000 1.000 1.000 1.000 1.000
## [97] 1.000 1.000 1.000 1.000
plot(pbb1, las=1)
#Funcion de densidad
=dnorm(q,0,1)
dens1 dens1
## [1] 0.0001338302 0.0001844340 0.0002525098 0.0003421640 0.0004623895
## [6] 0.0006207721 0.0008279556 0.0010970653 0.0014393027 0.0018824088
## [11] 0.0024458305 0.0031571075 0.0040485822 0.0051578315 0.0065093281
## [16] 0.0081853400 0.0102255782 0.0126908181 0.0156473918 0.0191194138
## [21] 0.0232682262 0.0281321274 0.0337903327 0.0403211541 0.0477011853
## [26] 0.0561831419 0.0657405705 0.0764207874 0.0882551672 0.1010880830
## [31] 0.1152298404 0.1304909983 0.1468069922 0.1640829751 0.1819646151
## [36] 0.2007428520 0.2200107141 0.2395510977 0.2591212881 0.2784573054
## [41] 0.2970512687 0.3150817868 0.3320211746 0.3475832643 0.3614951936
## [46] 0.3733695746 0.3832824734 0.3908855264 0.3960324870 0.3986232542
## [51] 0.3986232542 0.3960324870 0.3908855264 0.3832824734 0.3733695746
## [56] 0.3614951936 0.3475832643 0.3320211746 0.3150817868 0.2970512687
## [61] 0.2784573054 0.2591212881 0.2395510977 0.2200107141 0.2007428520
## [66] 0.1819646151 0.1640829751 0.1468069922 0.1304909983 0.1152298404
## [71] 0.1010880830 0.0882551672 0.0764207874 0.0657405705 0.0561831419
## [76] 0.0477011853 0.0403211541 0.0337903327 0.0281321274 0.0232682262
## [81] 0.0191194138 0.0156473918 0.0126908181 0.0102255782 0.0081853400
## [86] 0.0065093281 0.0051578315 0.0040485822 0.0031571075 0.0024458305
## [91] 0.0018824088 0.0014393027 0.0010970653 0.0008279556 0.0006207721
## [96] 0.0004623895 0.0003421640 0.0002525098 0.0001844340 0.0001338302
=data.frame(q,pbb1,dens1)
tablaZ tablaZ
## q pbb1 dens1
## 1 -4.000 0.000 0.0001338302
## 2 -3.919 0.000 0.0001844340
## 3 -3.838 0.000 0.0002525098
## 4 -3.758 0.000 0.0003421640
## 5 -3.677 0.000 0.0004623895
## 6 -3.596 0.000 0.0006207721
## 7 -3.515 0.000 0.0008279556
## 8 -3.434 0.000 0.0010970653
## 9 -3.354 0.000 0.0014393027
## 10 -3.273 0.001 0.0018824088
## 11 -3.192 0.001 0.0024458305
## 12 -3.111 0.001 0.0031571075
## 13 -3.030 0.001 0.0040485822
## 14 -2.949 0.002 0.0051578315
## 15 -2.869 0.002 0.0065093281
## 16 -2.788 0.003 0.0081853400
## 17 -2.707 0.003 0.0102255782
## 18 -2.626 0.004 0.0126908181
## 19 -2.545 0.005 0.0156473918
## 20 -2.465 0.007 0.0191194138
## 21 -2.384 0.009 0.0232682262
## 22 -2.303 0.011 0.0281321274
## 23 -2.222 0.013 0.0337903327
## 24 -2.141 0.016 0.0403211541
## 25 -2.061 0.020 0.0477011853
## 26 -1.980 0.024 0.0561831419
## 27 -1.899 0.029 0.0657405705
## 28 -1.818 0.035 0.0764207874
## 29 -1.737 0.041 0.0882551672
## 30 -1.657 0.049 0.1010880830
## 31 -1.576 0.058 0.1152298404
## 32 -1.495 0.067 0.1304909983
## 33 -1.414 0.079 0.1468069922
## 34 -1.333 0.091 0.1640829751
## 35 -1.253 0.105 0.1819646151
## 36 -1.172 0.121 0.2007428520
## 37 -1.091 0.138 0.2200107141
## 38 -1.010 0.156 0.2395510977
## 39 -0.929 0.176 0.2591212881
## 40 -0.848 0.198 0.2784573054
## 41 -0.768 0.221 0.2970512687
## 42 -0.687 0.246 0.3150817868
## 43 -0.606 0.272 0.3320211746
## 44 -0.525 0.300 0.3475832643
## 45 -0.444 0.329 0.3614951936
## 46 -0.364 0.358 0.3733695746
## 47 -0.283 0.389 0.3832824734
## 48 -0.202 0.420 0.3908855264
## 49 -0.121 0.452 0.3960324870
## 50 -0.040 0.484 0.3986232542
## 51 0.040 0.516 0.3986232542
## 52 0.121 0.548 0.3960324870
## 53 0.202 0.580 0.3908855264
## 54 0.283 0.611 0.3832824734
## 55 0.364 0.642 0.3733695746
## 56 0.444 0.671 0.3614951936
## 57 0.525 0.700 0.3475832643
## 58 0.606 0.728 0.3320211746
## 59 0.687 0.754 0.3150817868
## 60 0.768 0.779 0.2970512687
## 61 0.848 0.802 0.2784573054
## 62 0.929 0.824 0.2591212881
## 63 1.010 0.844 0.2395510977
## 64 1.091 0.862 0.2200107141
## 65 1.172 0.879 0.2007428520
## 66 1.253 0.895 0.1819646151
## 67 1.333 0.909 0.1640829751
## 68 1.414 0.921 0.1468069922
## 69 1.495 0.933 0.1304909983
## 70 1.576 0.942 0.1152298404
## 71 1.657 0.951 0.1010880830
## 72 1.737 0.959 0.0882551672
## 73 1.818 0.965 0.0764207874
## 74 1.899 0.971 0.0657405705
## 75 1.980 0.976 0.0561831419
## 76 2.061 0.980 0.0477011853
## 77 2.141 0.984 0.0403211541
## 78 2.222 0.987 0.0337903327
## 79 2.303 0.989 0.0281321274
## 80 2.384 0.991 0.0232682262
## 81 2.465 0.993 0.0191194138
## 82 2.545 0.995 0.0156473918
## 83 2.626 0.996 0.0126908181
## 84 2.707 0.997 0.0102255782
## 85 2.788 0.997 0.0081853400
## 86 2.869 0.998 0.0065093281
## 87 2.949 0.998 0.0051578315
## 88 3.030 0.999 0.0040485822
## 89 3.111 0.999 0.0031571075
## 90 3.192 0.999 0.0024458305
## 91 3.273 0.999 0.0018824088
## 92 3.354 1.000 0.0014393027
## 93 3.434 1.000 0.0010970653
## 94 3.515 1.000 0.0008279556
## 95 3.596 1.000 0.0006207721
## 96 3.677 1.000 0.0004623895
## 97 3.758 1.000 0.0003421640
## 98 3.838 1.000 0.0002525098
## 99 3.919 1.000 0.0001844340
## 100 4.000 1.000 0.0001338302
=plot(data.frame(q,dens1)) curvagauss
Muestra aleatoria
Es una porción o un subconjunto de la población que es obtenido por un mecanismo de selección probabilística. De una manera más formal, una muestra aleatoria es una colección de \(n\) variables aleatorias (\(X_1, X_2,...,X_n\)) independientes e idénticamente distribuidas. Esto implica que la función de probabilidad o de densidad de probabilidad conjunta se puede escribir como
\[f(x_1, x_2, ..., x_n) = f(x_1)f(x_2)\cdots f(x_n)\]
Proceso inferencial
Razones para obtener una muestra
En muchas situaciones el análisis exhaustivo de la población es difícil o es imposible de realizarlo. Esto puede deberse a:
a- El alto costo a que se incurre si se realiza una recolección de datos de todos los elementos o individuos que forman parte de la población.
b- La accesibilidad a cada uno de los elementos de la población puede verse obstaculizada por las regiones o momentos donde se quiera realizar la investigación.
c- En algunas ocasiones, las investigaciones disponen de un tiempo relativamente corto para poder recabar los datos de cada uno de los individuos, entre otras.
Es por todo esto que se recurre al muestreo. Si obtenemos una muestra no necesitamos de tanta inversión económica como en un censo ya que solo se toma una parte de la población. Además, podemos realizar procedimientos en donde se tenga una muestra representativa de la población sin la necesidad de acceder a lugares difíciles ni destruir la naturaleza del estudio.
Sean \(X_1, X_2,...,X_n\) \(n\) variables aleatorias IID con una distribución de probabilidad no especificada y que tienen una media \(\mu\) y una varianza \(\sigma^2\) finita. El promedio muestral \(\bar{X} =(X_1+X_2+...+X_n)/n\) tiene una distribución con media \(\mu\) y varianza \(\sigma^2/n\) que tiende hacia una distribución normal conforme \(n\) tiende a \(\infty\). En otras palabras, la variable aleatoria \((\bar{X}-\mu)/(\sigma/\sqrt{n})\) tiene como límite una distribución normal estándar
La siguiente simulación te muestra como funciona el teorema central del límite.
En primer lugar, simula 300 muestra de tamaño 5 de una variable aleatoria con distribución uniforme de parámetros \(a=0\) y \(b=1\).
<-sapply(1:300, function(x){mean(sample(runif(10000),5,rep=F))})
u5round(u5, 3)
## [1] 0.491 0.690 0.610 0.516 0.739 0.615 0.696 0.575 0.562 0.616 0.469 0.300
## [13] 0.673 0.292 0.602 0.278 0.385 0.345 0.378 0.660 0.598 0.600 0.362 0.436
## [25] 0.521 0.600 0.565 0.392 0.704 0.324 0.667 0.558 0.436 0.723 0.338 0.516
## [37] 0.642 0.402 0.531 0.572 0.622 0.467 0.602 0.530 0.463 0.233 0.492 0.488
## [49] 0.637 0.348 0.558 0.754 0.385 0.577 0.637 0.513 0.476 0.499 0.567 0.710
## [61] 0.694 0.709 0.678 0.427 0.556 0.139 0.516 0.659 0.492 0.603 0.662 0.388
## [73] 0.559 0.580 0.519 0.520 0.529 0.415 0.510 0.518 0.409 0.411 0.498 0.375
## [85] 0.623 0.441 0.595 0.426 0.548 0.517 0.530 0.617 0.636 0.356 0.596 0.540
## [97] 0.699 0.512 0.428 0.493 0.737 0.488 0.410 0.476 0.539 0.567 0.449 0.622
## [109] 0.643 0.596 0.639 0.305 0.606 0.584 0.421 0.588 0.412 0.481 0.573 0.409
## [121] 0.564 0.592 0.276 0.445 0.569 0.557 0.565 0.444 0.487 0.611 0.511 0.500
## [133] 0.499 0.640 0.681 0.355 0.290 0.451 0.576 0.426 0.518 0.622 0.601 0.400
## [145] 0.677 0.652 0.387 0.560 0.627 0.697 0.319 0.513 0.573 0.668 0.439 0.584
## [157] 0.644 0.497 0.297 0.504 0.424 0.347 0.490 0.414 0.513 0.656 0.395 0.369
## [169] 0.439 0.605 0.693 0.501 0.433 0.816 0.223 0.262 0.619 0.475 0.571 0.604
## [181] 0.642 0.285 0.379 0.573 0.391 0.511 0.391 0.357 0.144 0.661 0.625 0.352
## [193] 0.516 0.554 0.632 0.684 0.390 0.344 0.594 0.571 0.319 0.436 0.561 0.559
## [205] 0.490 0.504 0.382 0.505 0.595 0.701 0.525 0.480 0.638 0.431 0.651 0.592
## [217] 0.425 0.428 0.400 0.510 0.545 0.625 0.473 0.533 0.584 0.364 0.600 0.455
## [229] 0.513 0.458 0.518 0.610 0.289 0.451 0.472 0.543 0.471 0.434 0.602 0.550
## [241] 0.755 0.574 0.566 0.347 0.561 0.493 0.558 0.282 0.566 0.323 0.351 0.495
## [253] 0.556 0.578 0.418 0.591 0.641 0.239 0.700 0.585 0.553 0.512 0.897 0.534
## [265] 0.431 0.560 0.368 0.444 0.564 0.709 0.594 0.655 0.500 0.444 0.397 0.555
## [277] 0.789 0.592 0.536 0.497 0.525 0.585 0.628 0.566 0.341 0.566 0.462 0.528
## [289] 0.514 0.303 0.629 0.583 0.539 0.553 0.309 0.434 0.544 0.480 0.456 0.473
=hist(u5) histU5
En primer lugar, simula 300 muestra de tamaño 100 de una variable aleatoria con distribución uniforme de parámetros a=0 y b=1.
<-sapply(1:300, function(x){mean(sample(runif(10000),100,rep=F))})
u100round(u100, 3)
## [1] 0.546 0.572 0.580 0.509 0.487 0.475 0.485 0.484 0.481 0.480 0.527 0.525
## [13] 0.490 0.488 0.491 0.459 0.491 0.456 0.480 0.504 0.452 0.476 0.460 0.494
## [25] 0.475 0.564 0.521 0.498 0.473 0.509 0.475 0.513 0.448 0.433 0.512 0.473
## [37] 0.510 0.527 0.524 0.471 0.525 0.505 0.469 0.469 0.527 0.510 0.517 0.499
## [49] 0.521 0.466 0.462 0.516 0.493 0.490 0.490 0.513 0.463 0.505 0.498 0.487
## [61] 0.530 0.548 0.557 0.476 0.500 0.501 0.500 0.512 0.476 0.527 0.540 0.485
## [73] 0.497 0.478 0.498 0.547 0.504 0.478 0.487 0.538 0.493 0.516 0.510 0.530
## [85] 0.521 0.448 0.476 0.516 0.528 0.540 0.483 0.529 0.516 0.466 0.520 0.463
## [97] 0.466 0.488 0.471 0.449 0.507 0.491 0.456 0.426 0.501 0.508 0.484 0.533
## [109] 0.505 0.464 0.487 0.469 0.523 0.452 0.533 0.537 0.478 0.488 0.554 0.482
## [121] 0.467 0.542 0.523 0.511 0.457 0.450 0.482 0.530 0.485 0.488 0.523 0.512
## [133] 0.523 0.498 0.514 0.520 0.496 0.500 0.547 0.465 0.553 0.447 0.489 0.493
## [145] 0.553 0.464 0.484 0.581 0.502 0.583 0.454 0.498 0.490 0.510 0.550 0.509
## [157] 0.490 0.533 0.487 0.486 0.533 0.509 0.441 0.455 0.474 0.472 0.554 0.447
## [169] 0.477 0.513 0.535 0.516 0.512 0.476 0.488 0.463 0.467 0.535 0.532 0.535
## [181] 0.447 0.497 0.540 0.486 0.498 0.464 0.475 0.457 0.471 0.529 0.494 0.453
## [193] 0.484 0.579 0.473 0.493 0.513 0.533 0.528 0.518 0.513 0.553 0.504 0.477
## [205] 0.531 0.460 0.528 0.474 0.535 0.504 0.475 0.507 0.487 0.477 0.517 0.487
## [217] 0.534 0.528 0.473 0.482 0.528 0.490 0.535 0.444 0.546 0.489 0.463 0.473
## [229] 0.484 0.460 0.460 0.482 0.500 0.489 0.476 0.511 0.455 0.515 0.502 0.509
## [241] 0.513 0.520 0.473 0.465 0.457 0.525 0.445 0.448 0.527 0.506 0.467 0.485
## [253] 0.501 0.504 0.491 0.537 0.502 0.548 0.454 0.477 0.519 0.534 0.478 0.506
## [265] 0.510 0.514 0.504 0.534 0.489 0.504 0.461 0.494 0.534 0.484 0.498 0.488
## [277] 0.531 0.502 0.524 0.456 0.482 0.525 0.488 0.471 0.472 0.491 0.477 0.508
## [289] 0.511 0.439 0.483 0.442 0.516 0.483 0.498 0.543 0.492 0.422 0.531 0.446
=hist(u100) histU100
Grafíca ambos resultados con dos histogramas para compararlos.
plot(histU5, col = "lightgray",main = "Histogram of U5 and U100") # Plot 1st histogram using a transparent color
plot(histU100, col = "blue", add = TRUE) # Add 2nd histogram using different color
Calcula los valores estandarizados para cada media y grafica un histograma para verificar que la distribución de las medias muestrales estandarizadas es efectivamente normal.
#media y varianza de la distribución uniforme con parámetros a=0 y b=1
=100
n=0
a=1
b=(a+b)/2
munif munif
## [1] 0.5
=(b-a)^2/12
varunif varunif
## [1] 0.08333333
=(u100-munif)/(sqrt(varunif)/sqrt(n))
u100zhist(u100z,col = "green", breaks=10, freq = F, xlim=c(-4,4))
lines(seq(-4, 4, by=.1), dnorm(seq(-4, 4, by=.1),0, 1), col="blue")
Realiza la mísma simulación con una variable aleatoria con distribución Poisson de parámetro igual a 2.
<-sapply(1:300, function(x){mean(sample(rpois(10000,2),5,rep=F))})
p5 p5
## [1] 2.0 2.6 1.2 1.6 2.4 1.8 2.2 3.0 1.4 4.0 1.0 2.0 3.8 1.8 3.2 2.0 2.6 1.4
## [19] 3.2 1.2 2.6 1.4 2.0 1.2 1.6 2.0 1.2 1.4 2.0 2.4 2.6 1.6 2.4 1.4 1.8 2.4
## [37] 1.2 1.6 3.2 2.2 2.2 1.4 2.4 2.0 1.4 2.6 4.0 1.4 2.6 2.2 2.4 2.8 3.0 1.6
## [55] 1.8 1.0 2.8 2.0 1.4 1.6 1.4 1.6 1.2 1.6 2.0 1.8 1.2 1.6 2.0 2.2 3.0 2.6
## [73] 2.2 1.8 1.6 2.0 1.8 1.6 2.2 1.8 1.2 1.6 2.0 2.4 1.8 3.2 2.0 2.2 2.0 2.8
## [91] 3.4 1.8 2.4 2.2 2.0 1.2 1.6 1.0 1.0 2.4 1.0 1.8 2.0 2.0 2.4 1.0 1.8 2.2
## [109] 2.8 2.8 2.2 2.6 2.2 2.0 1.8 0.4 1.8 1.4 2.0 2.8 2.2 1.2 2.4 1.8 2.2 1.2
## [127] 3.0 3.6 2.4 1.2 2.2 2.0 1.8 2.0 1.6 2.2 1.8 3.0 2.4 2.4 1.8 2.8 1.0 3.2
## [145] 3.0 1.8 2.0 1.8 0.6 2.6 2.2 1.6 2.4 2.6 1.4 2.2 1.4 2.6 2.0 1.6 2.0 2.0
## [163] 1.6 2.8 2.2 2.0 1.6 1.4 2.2 1.8 2.6 1.0 2.4 1.2 2.4 2.2 2.6 1.6 2.2 2.0
## [181] 3.2 2.2 2.4 1.2 2.2 3.0 2.2 2.4 2.4 2.0 1.2 2.0 1.4 1.0 1.6 1.8 1.2 2.0
## [199] 1.6 2.6 2.4 2.6 2.4 2.2 1.0 2.4 2.4 1.4 1.8 1.2 2.0 1.6 3.2 1.2 2.2 1.4
## [217] 2.8 1.0 2.0 3.6 1.0 2.2 2.6 1.6 1.2 2.2 2.2 2.0 1.6 2.0 2.6 2.0 1.8 1.2
## [235] 2.8 1.4 2.4 1.4 2.0 2.0 2.6 1.0 3.0 1.2 0.8 2.8 1.8 1.6 1.2 2.0 2.2 0.4
## [253] 1.6 1.8 1.6 1.6 1.6 1.4 1.6 1.8 2.8 3.8 3.4 3.4 3.8 1.8 1.6 1.0 1.8 1.8
## [271] 1.8 2.6 2.0 2.2 2.8 2.0 1.4 1.6 2.2 1.4 1.2 2.0 1.4 1.6 1.8 2.2 1.8 2.2
## [289] 2.2 1.0 2.0 2.8 1.8 2.6 1.6 0.8 2.4 2.2 1.6 1.4
<-sapply(1:300, function(x){mean(sample(rpois(10000,2),100,rep=F))})
p100 p100
## [1] 1.85 1.86 1.97 2.17 1.85 1.89 2.02 1.91 1.69 2.06 2.04 1.86 2.00 1.69 2.09
## [16] 1.93 2.13 2.01 1.96 2.11 2.15 1.70 1.83 1.93 1.91 2.02 2.00 1.83 1.91 1.90
## [31] 1.97 1.85 2.07 2.20 2.07 2.15 1.96 2.00 2.10 2.11 2.22 2.30 2.18 2.31 2.21
## [46] 1.99 2.05 1.95 1.76 2.07 2.12 1.89 1.95 1.86 1.97 2.03 2.09 2.01 1.98 1.94
## [61] 2.05 2.10 2.12 1.80 2.03 2.02 1.93 1.99 2.05 2.11 2.08 2.17 1.79 1.73 2.00
## [76] 1.89 1.90 1.95 2.08 1.94 2.06 1.99 2.06 1.96 1.97 1.96 2.04 1.69 2.20 1.99
## [91] 1.97 2.16 1.96 2.01 1.85 1.95 1.91 1.82 2.13 1.96 1.94 2.02 2.09 2.08 1.91
## [106] 2.15 1.98 2.11 2.19 2.11 2.01 1.95 1.73 2.01 2.00 2.01 2.06 1.87 1.95 1.87
## [121] 2.08 2.25 1.99 1.99 1.82 2.06 2.03 1.96 1.99 2.13 2.33 2.09 2.16 2.00 2.16
## [136] 2.16 1.96 2.03 1.91 1.84 1.91 1.90 2.19 2.08 2.11 1.92 2.00 1.97 2.20 2.07
## [151] 1.78 2.22 2.06 1.98 2.22 1.92 2.05 1.90 1.96 1.96 2.11 1.84 1.84 2.04 2.03
## [166] 2.05 1.92 2.18 1.77 1.85 1.84 1.74 1.94 2.03 2.05 1.96 2.15 2.00 1.79 1.86
## [181] 2.18 2.04 1.82 2.04 1.95 1.74 2.23 1.89 2.01 2.01 2.03 2.03 1.96 1.82 2.02
## [196] 1.84 2.18 1.99 1.87 2.00 2.08 1.87 2.17 2.03 1.93 1.96 1.78 1.99 2.26 1.81
## [211] 2.14 1.85 1.83 1.76 2.02 2.17 2.31 2.10 1.99 2.22 2.17 1.95 2.04 1.67 1.84
## [226] 2.10 1.98 2.15 2.08 2.11 1.94 1.90 2.22 1.93 1.77 1.94 1.97 1.98 2.01 2.06
## [241] 1.75 2.19 1.86 2.10 2.04 1.92 1.98 1.86 2.16 1.95 2.02 2.20 1.78 1.96 2.19
## [256] 2.02 1.93 1.81 1.87 2.08 2.00 1.83 1.98 1.84 2.00 2.04 2.13 1.99 1.94 1.95
## [271] 2.05 1.85 2.08 2.04 1.92 1.94 2.01 2.09 2.05 2.09 1.95 1.95 1.70 1.96 2.16
## [286] 2.02 1.98 1.89 1.88 1.73 1.90 2.03 2.17 2.06 2.19 1.97 1.94 1.98 1.88 2.23
par(mfrow=c(1,2))
hist(p5,col = "lightgreen", breaks=20, freq = TRUE, xlim=c(0,6))
hist(p100,col = "green", breaks=20, freq = TRUE, xlim=c(0,6))
Calcula los valores estandarizados para cada media y gráfica un histograma para verificar que la distribución es efectivamente normal estándar.
=(p100-2)/(sqrt(2)/sqrt(100))
p100zhist(p100z,col = "green", breaks=10, freq = F, xlim=c(-4,4))
lines(seq(-4, 4, by=.1), dnorm(seq(-4, 4, by=.1),0, 1), col="blue")
\[\overline{X} \sim Nor \left( \mu, \frac{\sigma^2}{n}\right)\] > Estudio de caso
Para una población con distribución normal con media igual a 4.5 y varianza igual a 2. Se realiza un muestreo aleatorio simple de tamaño 35. ¿Cuál es la probabilidad de que la media muestral sea al menos igual a 5?
= 4.5
mu = 2
sigma = 35
n = sigma/n
sigma_mu pnorm(5, mean = mu, sd = sqrt(sigma_mu), lower.tail = F)
## [1] 0.01823492
# o también
pnorm((5-4.5)/(sqrt(2/35)),lower.tail = F) #Normal estándar
## [1] 0.01823492
#Gráfico
library(RcmdrMisc)
<- seq(3.5, 5.5, length.out=1000)
x1 plotDistr(x1, dnorm(x1, mean=mu, sd=sqrt(sigma_mu)), cdf=FALSE, xlab="x", ylab="Densidad",
main="", regions=list(c(5, 5.5)), legend.pos=F, bty="n")
\[\frac{\overline{X}-\mu}{\hat{S}/\sqrt{n}} \sim t_{n-1}\] > Estudio de caso
Supongamos el ejemplo anterior pero donde la varianza poblacional es desconocida. Sin embargo, se conoce la varianza muestral \(\hat{s}\) que es igual a 2.25.
= 4.5
mu = 2.25
s2 = 35
n = s2/n
s2_mu pt((5-mu)/sqrt(s2_mu), df = 34,lower.tail = F)
## [1] 0.02839295
#Gráfico
<- seq(-3.5, 3.5, length.out=1000)
x2 plotDistr(x2, dt(x2, df = 34), cdf=FALSE, xlab="x", ylab="Densidad",
main="", regions=list(c(1.97, 3.5)), legend=F, bty="n")
** Estudio de caso ** Probabilidades t student vs la normal
<-c(seq(from=-4, to=+4, by=0.1))
q q
## [1] -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 -2.7 -2.6
## [16] -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1
## [31] -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4
## [46] 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9
## [61] 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4
## [76] 3.5 3.6 3.7 3.8 3.9 4.0
<-5
gl<-pt(q,gl)
pstu pstu
## [1] 0.005161708 0.005704646 0.006314241 0.006999703 0.007771628 0.008642216
## [7] 0.009625522 0.010737750 0.011997588 0.013426592 0.015049624 0.016895352
## [13] 0.018996812 0.021392032 0.024124727 0.027245050 0.030810396 0.034886235
## [19] 0.039546949 0.044876625 0.050969739 0.057931652 0.065878792 0.074938393
## [25] 0.085247616 0.096951840 0.110201940 0.125150317 0.141945528 0.160725410
## [31] 0.181608734 0.204685600 0.230007033 0.257574474 0.287330144 0.319149436
## [37] 0.352836557 0.388124521 0.424680257 0.462115071 0.500000000 0.537884929
## [43] 0.575319743 0.611875479 0.647163443 0.680850564 0.712669856 0.742425526
## [49] 0.769992967 0.795314400 0.818391266 0.839274590 0.858054472 0.874849683
## [55] 0.889798060 0.903048160 0.914752384 0.925061607 0.934121208 0.942068348
## [61] 0.949030261 0.955123375 0.960453051 0.965113765 0.969189604 0.972754950
## [67] 0.975875273 0.978607968 0.981003188 0.983104648 0.984950376 0.986573408
## [73] 0.988002412 0.989262250 0.990374478 0.991357784 0.992228372 0.993000297
## [79] 0.993685759 0.994295354 0.994838292
<-pnorm(q)
pnorm pnorm
## [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
## [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01
=data.frame(pstu,pnorm) datos
matplot (q,datos, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal),paste(student)), cex = 0.7,lty = 1:2)
con muestras de tamaño 15
<-15
gl<-pt(q,gl)
pstu15 pstu15
## [1] 0.0005796584 0.0007106144 0.0008716145 0.0010695443 0.0013128305
## [6] 0.0016117655 0.0019788916 0.0024294533 0.0029819242 0.0036586153
## [11] 0.0044863687 0.0054973399 0.0067298632 0.0082293928 0.0100495006
## [16] 0.0122529016 0.0149124647 0.0181121487 0.0219477876 0.0265276281
## [21] 0.0319725036 0.0384155129 0.0460010591 0.0548831055 0.0652225098
## [26] 0.0771833302 0.0909280407 0.1066116606 0.1243748937 0.1443364788
## [31] 0.1665850680 0.1911710668 0.2180989696 0.2473207913 0.2787312176
## [36] 0.3121650568 0.3473974679 0.3841472673 0.4220833885 0.4608343100
## [41] 0.5000000000 0.5391656900 0.5779166115 0.6158527327 0.6526025321
## [46] 0.6878349432 0.7212687824 0.7526792087 0.7819010304 0.8088289332
## [51] 0.8334149320 0.8556635212 0.8756251063 0.8933883394 0.9090719593
## [56] 0.9228166698 0.9347774902 0.9451168945 0.9539989409 0.9615844871
## [61] 0.9680274964 0.9734723719 0.9780522124 0.9818878513 0.9850875353
## [66] 0.9877470984 0.9899504994 0.9917706072 0.9932701368 0.9945026601
## [71] 0.9955136313 0.9963413847 0.9970180758 0.9975705467 0.9980211084
## [76] 0.9983882345 0.9986871695 0.9989304557 0.9991283855 0.9992893856
## [81] 0.9994203416
<-pnorm(q)
pnorm15 pnorm15
## [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
## [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01
=data.frame(pstu15,pnorm15) datos15
matplot (q,datos15, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal15),paste(student15)), cex = 0.7,lty = 1:2)
con muestras de tamaño 30
<-30
gl
<-pt(q,gl)
pstu30 pstu30
## [1] 0.0001909228 0.0002511250 0.0003297791 0.0004322999 0.0005655892
## [6] 0.0007384037 0.0009617981 0.0012496537 0.0016193009 0.0020922424
## [11] 0.0026949820 0.0034599551 0.0044265547 0.0056422333 0.0071636508
## [16] 0.0090578245 0.0114032185 0.0142906936 0.0178242200 0.0221212356
## [21] 0.0273125225 0.0335414620 0.0409625343 0.0497389378 0.0600392338
## [26] 0.0720329646 0.0858852546 0.1017504793 0.1197651754 0.1400404590
## [31] 0.1626543077 0.1876441434 0.2150002049 0.2446602217 0.2765058798
## [36] 0.3103615024 0.3459952583 0.3831230526 0.4214150785 0.4605048059
## [41] 0.5000000000 0.5394951941 0.5785849215 0.6168769474 0.6540047417
## [46] 0.6896384976 0.7234941202 0.7553397783 0.7849997951 0.8123558566
## [51] 0.8373456923 0.8599595410 0.8802348246 0.8982495207 0.9141147454
## [56] 0.9279670354 0.9399607662 0.9502610622 0.9590374657 0.9664585380
## [61] 0.9726874775 0.9778787644 0.9821757800 0.9857093064 0.9885967815
## [66] 0.9909421755 0.9928363492 0.9943577667 0.9955734453 0.9965400449
## [71] 0.9973050180 0.9979077576 0.9983806991 0.9987503463 0.9990382019
## [76] 0.9992615963 0.9994344108 0.9995677001 0.9996702209 0.9997488750
## [81] 0.9998090772
<-pnorm(q)
pnorm30 pnorm30
## [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
## [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01
=data.frame(pstu30,pnorm30) datos30
matplot (q,datos30, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal),paste(student)), cex = 0.7,lty = 1:2)
\[\overline{X}_1-\overline{X}_2 \sim Nor\left(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}\right)\] > Estudio de caso
Las distribuciones de ciertas mediciones tienen distribuciones normales. Se cuentan con dos poblaciones con los siguientes valores: \(\mu_1=25\), \(\sigma_1=5\), \(\mu_2=26\) y \(\sigma_2=6\). Si se extraen muestras aleatorias de tamaños \(n_1=n_2=100\), ¿cuál es la probabilidad de que la media muestral \(\overline{x}_1\) supere a la otra media en al menos 1 unidad?
= 25
mu_1 = 26
mu_2 = 5
sigma_1 = 6
sigma_2 = 100
n_1 = 100
n_2 = sqrt((sigma_1^2)/n_1+(sigma_2^2)/n_2)
sigma_dmu pnorm(1, mean = mu_1-mu_2, sd = sigma_dmu, lower.tail = F)
## [1] 0.005222511
#Gráfico
library(RcmdrMisc)
<- seq(-4, 2, length.out=1000)
x1 plotDistr(x1, dnorm(x1, mean=mu_1-mu_2, sd=sigma_dmu), cdf=FALSE, xlab="x", ylab="Densidad",
main="", regions = list(c(1,2)), legend=F, bty="n")
\[\hat{p} \sim Nor\left(p,\frac{pq}{n}\right)\] > Estudio de caso
En la asignatura de Estadística I, históricamente se sabe que el porcentaje de alumnos que aprueban es del 75%. En un cierto año, se tomó una muestra aleatoria de 35 estudiantes de la asignatura. Calcula la probabilidad de que el porcetaje de aprobados sea entre 70 y 80%.
= 0.75
p = 35
n = (0.70-0.75)/sqrt(0.75*0.25/35)
Z1 = (0.80-0.75)/sqrt(0.75*0.25/35)
Z2 = pnorm(Z2)-pnorm(Z1)
Probabilidad Probabilidad
## [1] 0.5054753
#Gráfico
<- seq(-3.5, 3.5, length.out=1000)
x1 plotDistr(x1, dnorm(x1), cdf=FALSE, xlab="x", ylab="Densidad",
main="", regions=list(c(Z1, Z2)), legend=F, bty="n")
\[\hat{p}_1-\hat{p}_2 \sim Nor\left(p_1-p_2,\frac{p_1q_1}{n_1}+\frac{p_2q_2}{n_2}\right)\] > Estudio de caso
Sea \(p_1=0.5\), \(p_2=0.45\), \(n_1=60\) y \(n_2=50\). Calcula \(P(|\hat{p}_2-\hat{p}_1| \ge 0.1)\).
= 0.5
p1 = 0.45
p2 = 60
n1 = 50
n2 = (-0.1-(0.45-0.5))/sqrt(0.5*0.5/60+0.45*0.55/60)
Z1 = (0.1-(0.45-0.5))/sqrt(0.5*0.5/60+0.45*0.55/60)
Z2 = pnorm(Z1) + pnorm(Z2, lower.tail = F)
Probabilidad Probabilidad
## [1] 0.3412186
#Gráfico
<- seq(-4, 4, length.out=1000)
x1 plotDistr(x1, dnorm(x1), cdf=FALSE, xlab="x", ylab="Densidad",
main="", regions=list(c(-4, Z1),c(Z2,4)), legend=F, bty="n")
** Simulation of empirical distribution of sample variance(cheang?) **
set.seed(238)
<- 30
n <- 2 # mu = sigma for exponential
mu <- 2
sigma <- 10000 # No. of samples
r <- rep(NA,r) Vstat
for (i in 1:r) { x <- rnorm(n,mu,sigma) # Normal population
# x <- rexp(n,rate=1/mu) # Exponential population
<- var(x)
s2 # V-statistic
<- (n - 1)*s2/sigma^2 } Vstat[i]
<- 8*sqrt(2*(n-1))
upper <- dchisq(seq(0,upper,0.1),n-1)
chisqpdf <- dnorm(seq(0,upper,0.1),n-1,sqrt(2*(n-1))) Npdf
# Plot density histogram of V-statistic
hist(Vstat,breaks=seq(min(Vstat),max(Vstat)+1,1),prob=T,right=T,
main="",xlim=c(0,upper),ylim=c(0,max(chisqpdf)),mgp=c(2,0.5,0),cex=0.7)
# Plot chisq-pdf
lines(seq(0,upper,0.1),chisqpdf,lty=1,col="red")
# Plot normal pdf
lines(seq(0,upper,0.1),Npdf,lty=2,col="blue")
mtext(side=3,line=1,outer=F,"(a) Normal population in blue",cex=1.0)
# mtext(side=3,line=1,outer=F,"(b) Exponential population",cex=1.0)
mtext(side=3,line=0,outer=F,paste("m = ",mu,", s = ",sigma,sep=""),font=5,cex=1.0)
\[\frac{(n-1)\hat{S}^2}{\sigma^2} \sim \chi^2_{n-1}\] > Estudio de caso
En una población normal con varianza igual a 4. Calcula la probabilidad de que en una muestra de tamaño 20 se obtenga una varianza muestra inferior a 3.5.
= 4
sigma2 = 20
n = 3.5
s2 = (n-1)*s2/sigma2
X2 pchisq(X2, df = n-1)
## [1] 0.3847433
#Gráfico
<- seq(0, 45, length.out=1000)
x plotDistr(x, dchisq(x, df=19), cdf=FALSE, xlab="x", ylab="Densidad", main="",
regions=list(c(0, (19*3.5)/4)), legend=F, bty = "n", las = 1)
\[\frac{\hat{S}_1^2/\sigma_1^2}{\hat{S}_2^2/\sigma^2_2} \sim F_{n_1-1,n_2-1}\] > Estudio de caso
Sunponga dos variables aleatorias provenientes de dos poblaciones normales: \(X_1 \sim Nor(\mu_1,\sigma_1^2)\) y \(X_2 \sim Nor(\mu_2,\sigma_2^2)\). Se sabe que las varianzas poblacionales son desconocidas pero iguales. Si al seleccionar muestras aleatorios de tamaño 10 de cada población, ¿cuál es la probabilidad de que la varianza muestral de la primera sea menor a la otra?
= 10
n1 = 10
n2 pf(1, df1=n1-1, df2=n2-1)
## [1] 0.5
#Gráfico
<- seq(0, 7, length.out=1000)
x plotDistr(x, df(x, df1=n1-1, df2=n2-1), cdf=FALSE, xlab="x", ylab="Densidad",
main="", regions=list(c(0, 1)), legend=F, bty = "n", las = 1)
Un estimador \(\hat{\theta}\) es insesgado si su valor esperado coincide con el verdadero valor del parámetro poblacional \(\theta\). Es decir, si
\[E(\hat{\theta})=\theta\]
Un estimador \(\hat{\theta}_i\) es más eficiente que otro estimador \(\hat{\theta}_j\), para \(i \neq j\), si la varianza de \(\hat{\theta}_i\) es más pequeña que la de \(\hat{\theta}_j\), para todo \(j\). Es decir
\[Var(\hat{\theta}_i)<Var(\hat{\theta}_j)\]
Un estimador es consistente si se verifican los siguientes dos límites.
\[\lim_{n \rightarrow \infty}E(\hat{\theta})=\theta \ \ \ \ \ \text{y} \ \ \ \ \ \lim_{n \rightarrow \infty}Var(\hat{\theta})=0\]
Un estimador \(t=T(X_1,X_2,...,X_n )\) es suficiente para \(\theta\) si y solo si la función de probabilidad conjunta o de densidad de probabilidad conjunta \(f(x;\theta)\) puede descomponerse de la siguiente manera:
\[f(x_1,x_2,...,x_n;\theta)=h(T(x_1,x_2,…,x_n );\theta) g(x_1,x_2,...,x_n )\] donde \(h(T(x_1,x_2,...,x_n );\theta)=h(t;\theta)\) es una función que solo depende del parámetro \(\theta\) por medio del estadístico \(T(x_1,x_2,...,x_n )\) y la función \(g(x_1,x_2,...,x_n)\) solo depende de la muestra. Esta definición en realidad es el conocido Teorema de Factorización de Fisher-Neyman.
Un estimador \(\hat{\theta}\) del parámetro \(\theta\) es invariante si se satisface la siguiente igualdad.
\[g(\hat{\theta})=g(\theta)\] siempre y cuando \(g\) sea una función inyectiva.
La siguiente simulación te ayudará a entender el significado de los intervalos de confianza.
En primer lugar tienes la simulación de una muestra compuesta por 15 valores de una variable aleatoria con distribución Poisson
=10
lambda<-rexp(15,1/lambda)
dato dato
## [1] 0.2435025 26.0434048 1.4366231 2.3303827 3.6095980 12.7836887
## [7] 32.0869472 5.5728353 16.2726650 6.4611285 7.1815878 6.2297677
## [13] 0.7943495 3.3261231 14.9900427
Dibuja el resultado con un histograma
hist(dato)
En segundo lugar, genera 100 muestras de tamaño 15 para la misma variable aleatoria
<- replicate(100, rexp(15,1/lambda))
datos datos
## [,1] [,2] [,3] [,4] [,5] [,6]
## [1,] 9.5451899 20.8949177 1.013007 54.6322362 11.3044565 0.4607965
## [2,] 0.3967766 21.4572658 7.939961 6.9135422 4.7177860 0.2598764
## [3,] 0.1781101 2.4996551 31.630806 1.2504170 5.5049044 18.8986924
## [4,] 1.4911985 20.4306841 5.242121 6.0939670 9.9779103 4.7635952
## [5,] 15.2462630 8.1034601 5.765820 11.0216721 3.6980450 7.1912970
## [6,] 7.2164652 0.5492389 20.152769 36.2581729 9.0795401 0.3378809
## [7,] 0.6575281 21.2498903 15.047762 13.1729983 9.8970141 2.2281653
## [8,] 7.6183392 4.1684510 39.060745 5.4327339 10.3798175 4.0889986
## [9,] 1.5965536 19.2990120 26.926921 6.8613451 0.5606447 0.9698772
## [10,] 0.3686128 12.0062897 7.668129 7.4388884 1.5589739 5.6691653
## [11,] 4.6494415 0.2565260 9.432154 6.2732521 34.7250665 2.2712383
## [12,] 21.7067078 11.3177919 20.962817 16.7538895 9.1235828 0.6367037
## [13,] 15.2417377 2.3067193 8.404674 22.5783695 4.6690863 8.1038548
## [14,] 11.3913296 2.6261951 1.224507 0.3503567 53.4809219 4.7000880
## [15,] 0.8407563 74.0792225 23.916355 5.8163910 3.2375408 4.2906680
## [,7] [,8] [,9] [,10] [,11] [,12]
## [1,] 3.4579613 12.2675370 35.4015318 3.2925457 3.8285160 7.210223
## [2,] 4.0105715 37.7783496 12.8772890 49.9073224 10.7150643 1.163238
## [3,] 0.4225920 10.0854348 0.6723831 0.3438940 9.7799437 3.604041
## [4,] 20.8372401 31.0729805 10.3111477 22.2444660 16.8271342 15.823140
## [5,] 7.3493794 5.2351114 6.2348386 8.0758747 7.2829869 3.794872
## [6,] 14.0581092 4.7477872 1.5740438 10.3432819 38.2250785 1.322335
## [7,] 21.0827407 0.6025558 39.9407845 16.5445027 25.7746528 13.454016
## [8,] 13.3991524 1.1536819 6.8750129 15.1984012 1.2394361 9.123106
## [9,] 7.7202764 1.1303024 26.7092214 12.3356608 18.3570754 3.432505
## [10,] 0.9957492 4.6316559 5.2332920 5.0799161 9.2928035 18.758640
## [11,] 6.8131352 25.2129098 21.7780124 9.2760302 0.2015191 16.137103
## [12,] 6.8262209 9.2684552 28.3254361 25.2987873 13.9553917 2.361855
## [13,] 9.4933512 12.1506377 14.4208029 0.7872462 8.6233416 7.431411
## [14,] 9.5899556 0.1530644 2.8490546 7.4864003 3.6250638 3.646919
## [15,] 0.1886567 9.7696599 15.1850536 0.4925385 3.6179433 4.848662
## [,13] [,14] [,15] [,16] [,17] [,18]
## [1,] 8.336891 5.4110985 7.5383037 10.8974472 14.0141968 2.6015811
## [2,] 16.145951 7.6321925 1.5423510 3.8637970 2.4494533 2.1844859
## [3,] 6.764324 4.8779863 10.6219196 12.9449208 0.7244977 17.0901512
## [4,] 8.557213 9.1850421 12.2013460 0.8641065 5.1740957 38.9862519
## [5,] 1.961973 19.7720071 24.4487121 4.8137614 0.9974570 0.9206458
## [6,] 17.757275 0.2123820 2.9471261 23.7204334 19.7767903 22.8082871
## [7,] 3.017391 16.3768506 6.4587739 8.9321408 0.1044970 4.8193145
## [8,] 26.790791 6.5269333 27.2091199 10.7478779 0.4950400 4.0966533
## [9,] 12.326249 0.5116637 6.6340661 0.8044327 17.4050909 2.0180741
## [10,] 49.892947 7.1656555 8.4202061 6.9606945 2.8176739 0.3890604
## [11,] 3.118900 0.2073028 14.6287808 20.0726996 19.2871260 0.8968012
## [12,] 5.515236 0.6176375 17.7178830 6.4509875 12.1514430 3.6611026
## [13,] 15.759904 11.5389589 5.8360611 30.1374429 31.2709260 25.8827024
## [14,] 4.871985 11.3811363 19.2233979 7.9533454 0.5284276 13.1454968
## [15,] 4.618653 11.3849888 0.2689092 6.4441739 2.1308904 10.9327237
## [,19] [,20] [,21] [,22] [,23] [,24]
## [1,] 4.657853 2.58951651 14.7353674 0.6994185 3.9282378 7.8416013
## [2,] 20.770292 9.00951245 0.3123775 15.9215122 20.7913803 4.6794259
## [3,] 4.794517 2.85182601 46.1591091 13.1081865 15.9739523 0.9617368
## [4,] 22.176550 14.96777199 11.5659022 2.3814398 5.0978833 17.9561228
## [5,] 4.458344 1.45391852 4.9337423 1.3466330 16.1893095 4.5421892
## [6,] 51.876852 13.06228358 17.9112041 15.0006390 29.4024787 9.0467280
## [7,] 0.392376 3.52594441 3.0976118 1.1696575 7.3617415 6.9577801
## [8,] 3.537116 6.96703399 16.8530731 0.8243491 2.7997272 6.1695758
## [9,] 24.071569 3.99684861 5.1739097 21.6555764 0.9383953 10.4145484
## [10,] 9.850327 7.65287644 10.6670949 75.9956358 13.2225980 4.5785658
## [11,] 9.657503 0.01254701 6.5248878 6.8905862 20.6199912 4.7253892
## [12,] 10.103974 26.24356178 9.0181219 25.8574127 2.2935020 2.6064369
## [13,] 28.099944 4.74431750 9.4271080 16.3451245 2.8804521 6.6983704
## [14,] 3.840318 3.03735991 8.2788763 0.7032174 7.8173167 2.0380860
## [15,] 0.430643 2.20060164 7.8927607 16.1202422 9.4955758 0.3471863
## [,25] [,26] [,27] [,28] [,29] [,30] [,31]
## [1,] 5.350893 7.439706 2.3008197 25.8073988 21.5567136 12.525789 8.2503342
## [2,] 1.801007 35.882429 10.8710531 7.9641463 3.6826328 0.569150 4.1052788
## [3,] 24.765581 6.557349 4.8284197 0.5030273 13.4873843 3.830502 25.2897559
## [4,] 14.482942 1.910591 4.0861622 1.4398323 5.9948898 10.957606 2.2342960
## [5,] 7.774791 1.534542 3.7744625 9.2505156 6.7968489 8.805642 11.0193722
## [6,] 9.059533 18.089637 7.1644741 17.4762559 7.2946419 7.107502 1.3017023
## [7,] 10.870651 11.632465 1.6721129 2.9298290 16.1688189 9.289617 1.1211330
## [8,] 16.433475 8.550204 1.1338652 2.7691370 7.5037030 13.376845 1.3429482
## [9,] 14.735195 18.854622 4.5901504 1.9939223 0.5810336 14.006820 8.3990885
## [10,] 4.345075 5.887753 20.8050448 29.2571786 23.6051978 10.111656 1.1847325
## [11,] 14.344472 22.959403 12.3000464 2.2596403 15.5726955 9.456032 8.5364004
## [12,] 8.416116 14.739049 0.7217423 20.4533574 5.2668049 8.214309 4.2470247
## [13,] 2.275077 7.898504 2.8191341 4.5836548 1.8234088 4.812558 20.1650507
## [14,] 3.497133 9.762593 1.6659849 1.4826537 18.5564327 7.877432 4.9617999
## [15,] 44.251999 4.858118 15.9868637 23.1538757 0.3483378 2.163610 0.6505169
## [,32] [,33] [,34] [,35] [,36] [,37] [,38]
## [1,] 5.267593 5.2965642 0.5480608 7.792280 13.7435403 16.8327439 58.741939
## [2,] 1.821630 3.0151184 11.3196987 0.564115 28.5252274 0.1738678 3.942944
## [3,] 1.219886 13.8932880 19.7869627 0.634536 2.2198644 0.8715265 4.031059
## [4,] 2.452847 17.3254236 32.0002317 2.024766 1.4730109 26.8022251 6.437748
## [5,] 9.266498 0.4192359 0.2333739 16.829225 0.6765151 7.8514666 9.129914
## [6,] 10.655416 12.4901908 1.0273412 9.302212 4.6913671 1.8306449 2.681042
## [7,] 1.575328 21.3378621 4.7513119 20.362187 3.8499487 2.3450242 31.917985
## [8,] 2.026178 5.4249395 0.8740669 5.478009 9.5288868 12.3801046 14.227780
## [9,] 5.830000 4.8470926 12.2957629 10.938134 2.9447796 3.2952974 6.128107
## [10,] 5.240565 29.2014442 11.5348657 8.687278 6.5613444 26.3365072 2.639150
## [11,] 6.063143 0.7543487 10.7249029 12.195364 3.2750423 0.2538200 1.387335
## [12,] 1.071268 1.1114888 11.0372640 7.017503 7.1176576 3.7719643 10.612117
## [13,] 2.976410 0.3020327 1.6733403 11.476648 24.8462641 0.7169509 9.079896
## [14,] 4.623770 10.3021328 19.6470329 4.538375 16.7594466 0.2429605 12.413001
## [15,] 19.473498 13.0351243 2.1639052 6.147488 3.4429808 3.5518474 49.914015
## [,39] [,40] [,41] [,42] [,43] [,44]
## [1,] 6.272881 3.382130 5.7514043 0.04355816 18.584344 47.7854447
## [2,] 39.232973 7.613041 0.3380348 26.17939984 5.513243 4.9806469
## [3,] 5.334416 10.420904 3.0792208 3.14960931 4.793045 6.0958789
## [4,] 30.413578 10.847702 44.6856208 20.67508470 1.927321 2.3141741
## [5,] 15.011450 4.827515 11.0175833 17.57061828 21.358551 6.6913903
## [6,] 15.204362 9.357353 2.2126720 13.83970874 6.584179 3.9028238
## [7,] 4.684284 16.497140 8.5515082 0.39493314 2.044435 0.9279247
## [8,] 1.374509 4.423160 15.0132314 7.88509059 25.461397 31.4504906
## [9,] 16.916083 21.853552 20.5351184 13.14060054 10.884218 3.1864883
## [10,] 9.540266 3.004524 10.2952002 18.92523499 3.944209 10.9133975
## [11,] 7.305538 13.000791 1.8091090 12.60801150 19.993990 35.9265954
## [12,] 1.924798 28.470381 0.3814116 3.44144419 22.243846 8.2748003
## [13,] 4.335925 9.690624 9.2738711 1.46414212 22.590081 16.3654236
## [14,] 28.445601 18.310122 0.4791250 1.25081623 4.983235 13.6224569
## [15,] 9.486777 8.419540 10.7743218 13.75251940 8.778408 18.9816828
## [,45] [,46] [,47] [,48] [,49] [,50]
## [1,] 25.5200516 5.080924 0.7222984 6.9492248 13.2138068 7.340806
## [2,] 4.5283159 17.720616 24.7398116 4.7255993 14.9248039 18.203613
## [3,] 23.4848800 6.143886 5.6984731 9.2167846 19.5306232 1.330634
## [4,] 1.2638569 12.149495 16.6738670 6.7052012 12.3531179 5.283884
## [5,] 0.4378342 14.677056 13.2615331 0.1083747 13.0243702 14.467271
## [6,] 0.5976580 5.290469 36.6006633 2.2549834 0.1959731 10.779387
## [7,] 3.4920743 11.204320 5.1708348 4.4904571 21.3477251 19.145334
## [8,] 2.3500471 6.965261 0.1873086 7.7397519 12.9746070 1.825461
## [9,] 0.3736500 27.017407 14.5205023 4.1413831 14.4907990 6.569199
## [10,] 0.9963403 11.691138 26.0119426 7.5455833 13.6070891 10.097584
## [11,] 5.2760137 8.526442 25.0931894 15.3242481 1.9394325 10.897397
## [12,] 5.5502751 3.410312 0.9055720 4.0780748 2.8852663 4.824790
## [13,] 5.3269957 1.141202 12.3671228 10.9393592 5.4934213 12.897425
## [14,] 6.3218936 5.989252 31.2625421 14.2220154 8.8025080 14.175222
## [15,] 2.3822359 4.700244 38.2357990 22.1658364 9.3414741 13.829207
## [,51] [,52] [,53] [,54] [,55] [,56] [,57]
## [1,] 30.5087296 1.071277 6.003144 0.613012 15.027267 0.3570743 20.0788100
## [2,] 14.5359118 5.870321 2.896002 7.374250 4.950948 12.0314546 1.7440737
## [3,] 1.1835190 7.662672 3.370422 1.859120 25.395254 4.5731353 39.2041673
## [4,] 8.4146921 2.702133 41.933131 2.684091 12.603592 0.5681169 34.5369844
## [5,] 5.7521214 1.095777 19.633084 5.693254 3.759690 5.0456635 4.3522648
## [6,] 0.1657392 5.299591 6.348549 1.997487 16.071255 2.2175840 14.0702762
## [7,] 16.1303127 12.195404 21.298570 22.471964 9.543856 14.6850955 6.3708149
## [8,] 23.9613654 7.836965 12.683228 3.953265 20.837417 2.3221713 14.1694536
## [9,] 15.6381892 16.883309 11.499397 4.401766 9.659735 8.8213690 7.0540872
## [10,] 4.3109463 34.474312 5.527738 1.763113 26.193113 10.9802112 6.1600040
## [11,] 9.8524011 3.520503 37.607721 2.216111 8.853132 10.7257423 16.1033100
## [12,] 10.5849154 3.064696 7.233516 4.273997 6.938514 3.2822428 4.5242113
## [13,] 1.7357471 30.472033 30.710491 2.542823 22.168837 14.0769388 10.3980831
## [14,] 17.8517875 1.298601 3.724153 3.257005 5.505391 12.4164424 18.5796726
## [15,] 1.1307301 2.566144 25.510329 10.052456 5.989995 21.4255292 0.3001218
## [,58] [,59] [,60] [,61] [,62] [,63]
## [1,] 5.5782110 0.1996211 4.3329384 5.8840271 27.9340846 46.9143518
## [2,] 7.5491155 6.4303881 11.8294724 8.7403191 9.1873230 1.6478447
## [3,] 11.2201416 16.8517351 1.7178627 0.8249535 43.1852518 4.0375944
## [4,] 4.1697172 0.4316938 0.4058404 7.0160090 0.2861341 5.9942892
## [5,] 12.6456136 3.2503815 14.6111926 3.4302318 6.1501733 0.5852099
## [6,] 0.2703783 9.1896393 5.3645959 17.3372709 3.8258732 22.0455277
## [7,] 16.4394190 6.8638462 17.1590508 8.5659852 14.8126364 12.2241924
## [8,] 13.1544481 0.6592846 5.3392065 2.6232290 5.1583474 20.4208413
## [9,] 0.9753879 47.1135526 1.3484173 6.8911324 0.6885385 7.1892100
## [10,] 10.4231873 5.0464441 6.9242458 7.9475626 1.1880967 18.2842644
## [11,] 2.1448828 4.3950036 0.1404677 15.8374313 16.2109755 6.4556814
## [12,] 4.5601603 10.3894082 1.6798642 12.5550936 32.6571228 2.8666142
## [13,] 11.1262662 2.1483807 10.9706831 1.3554648 11.3428719 44.0842794
## [14,] 27.3407923 3.2414009 19.9966155 0.7355850 11.0949855 47.8586795
## [15,] 9.8222657 8.1618281 14.6732076 2.6728084 12.0969852 6.6235643
## [,64] [,65] [,66] [,67] [,68] [,69] [,70]
## [1,] 6.9407705 11.8274885 21.517196 1.5784432 19.5462438 8.814651 21.653758
## [2,] 5.3632754 2.7811970 6.786645 6.5515748 38.4313559 1.880315 2.157972
## [3,] 4.3298605 3.6879501 2.029038 2.0262765 17.9164785 36.405445 3.629108
## [4,] 10.0254744 19.9860580 3.704896 8.6904693 6.6071912 17.753025 19.136782
## [5,] 22.9973193 13.1493040 23.342244 3.2815039 8.8270370 18.833014 8.765031
## [6,] 17.6263338 10.2842593 3.890505 0.3519459 11.7109958 5.199505 12.231922
## [7,] 0.1735939 3.7075733 3.681582 8.1935418 25.0265726 5.477850 7.951040
## [8,] 2.6426128 38.3882392 40.857557 13.8608708 0.6496657 21.896894 1.921419
## [9,] 9.6514608 1.0399208 22.625359 2.4372366 6.4657752 7.253930 11.625327
## [10,] 5.0504286 1.3592037 44.541349 10.7862594 1.3436741 8.528164 5.029714
## [11,] 13.4329643 10.3696272 6.341383 7.9664728 0.3001590 5.056271 19.581448
## [12,] 3.4578527 0.4327706 25.949302 18.3515139 10.8551959 9.808133 8.586843
## [13,] 0.7435359 9.3460401 11.747602 14.1055821 46.3434776 3.060119 20.256366
## [14,] 0.5953435 23.9441496 14.282661 5.2798541 1.7965492 11.549506 31.025896
## [15,] 20.2633865 7.9908874 6.480851 1.3823134 0.8474050 10.170342 3.310071
## [,71] [,72] [,73] [,74] [,75] [,76]
## [1,] 1.9474576 0.03274736 2.628334 7.7958300 24.774154 12.8336246
## [2,] 0.5292518 5.50825829 2.681152 8.7773683 10.874236 7.9233177
## [3,] 6.8145433 10.09903432 4.013918 7.9530002 2.431216 0.4061617
## [4,] 25.1414817 20.86894290 39.207797 34.3627183 1.959909 1.9450411
## [5,] 5.6472606 5.42393691 5.883605 4.9982306 4.984241 1.4508198
## [6,] 6.0826043 21.70818327 2.549919 3.3393170 49.071006 3.3576586
## [7,] 1.3735112 2.49651425 1.410737 8.8515964 8.535997 5.7551952
## [8,] 11.8190943 2.46799024 11.649279 26.4018937 5.435589 1.6937200
## [9,] 1.7604034 2.64970600 5.658066 22.3805162 4.958166 4.6836147
## [10,] 7.9189564 1.73259152 6.931016 2.5599988 33.107223 4.9115044
## [11,] 1.7387362 15.88712485 31.680433 0.5250619 16.430478 5.2140134
## [12,] 2.0700440 3.54553745 7.921727 3.5208417 1.259529 9.4816478
## [13,] 4.3886890 11.90237489 6.627607 1.8849040 5.597167 5.0375431
## [14,] 8.0263890 26.04964001 10.983543 2.2622433 5.380050 2.0667178
## [15,] 2.3337256 16.52319071 3.124076 17.3411503 1.388236 0.2294297
## [,77] [,78] [,79] [,80] [,81] [,82]
## [1,] 20.767150 20.4818950 1.7630576 7.36637686 14.9896260 1.0832436
## [2,] 3.121318 4.6502120 6.1601139 3.01781442 2.6006011 0.1460431
## [3,] 4.003531 35.5212474 1.8591719 0.03879467 2.5461265 6.0955377
## [4,] 3.951855 42.6514240 39.0419137 2.08087366 26.7175721 1.3094389
## [5,] 19.640521 4.9861992 24.4000695 22.79026117 1.0971134 22.4628351
## [6,] 7.199893 17.5828786 4.6777596 42.51289058 15.1592210 13.6667951
## [7,] 4.015377 5.1182754 0.6015401 8.15393122 1.4740529 14.7312361
## [8,] 8.267598 5.2790544 22.1056122 6.42914935 16.3695397 2.1326866
## [9,] 1.260009 7.9330603 8.6006893 3.22734053 0.5750511 6.0377052
## [10,] 11.615593 4.1462081 66.2365101 34.00918469 4.8302246 29.2241698
## [11,] 1.157383 9.8350799 14.8795259 16.04062680 8.4335238 19.3344488
## [12,] 9.199382 4.4181306 1.7073048 4.37318171 25.3840742 0.3954045
## [13,] 1.428050 0.7522836 10.7129374 19.37398473 20.8802712 4.4806095
## [14,] 2.806353 12.4414692 0.5646720 9.55298165 3.4419235 3.6559669
## [15,] 9.297737 12.5428191 18.7486568 14.93569940 19.8710203 6.6367312
## [,83] [,84] [,85] [,86] [,87] [,88]
## [1,] 8.94205350 7.790683 5.234871 8.8665273 0.4760459 26.50265993
## [2,] 4.67835458 18.907101 1.703646 0.7431614 13.2555311 17.19699578
## [3,] 0.07451782 1.425931 6.956308 1.9406627 4.2651771 2.49843784
## [4,] 4.57750873 8.164973 10.721654 2.8686652 10.2760199 4.07149931
## [5,] 19.31752348 22.465824 13.558881 28.7863707 7.9126113 18.09399757
## [6,] 4.27482479 2.328068 19.272825 6.8043180 5.4511805 17.45637126
## [7,] 25.42114673 1.639767 14.251512 4.0603611 3.0843775 13.80707187
## [8,] 9.40804252 8.828895 10.587065 5.7834109 2.4810010 7.44450347
## [9,] 5.49918302 6.069570 2.353156 0.6260708 8.6329550 18.35227834
## [10,] 20.69768390 1.914853 1.054147 8.0873396 0.3052255 14.01213839
## [11,] 16.37025176 7.100912 24.643293 3.4969959 5.0307189 9.17989792
## [12,] 16.14153996 3.212463 5.096421 13.4011940 16.4737378 0.02454052
## [13,] 3.06152016 65.283060 7.101406 9.0714599 4.9872325 20.71536820
## [14,] 10.19139645 2.824004 2.220887 6.0128517 4.4928164 15.56116275
## [15,] 6.00965947 5.485839 23.912334 17.8990321 4.7290471 10.52140882
## [,89] [,90] [,91] [,92] [,93] [,94]
## [1,] 3.799930 2.9654561 3.7765035 0.9420328 19.7342105 46.3733690
## [2,] 14.115252 5.8879831 19.8603091 2.8342594 15.2927550 20.7382801
## [3,] 3.799664 21.7677714 6.0663514 4.2716767 8.3179241 5.9109074
## [4,] 9.931706 7.0234010 6.5175499 3.4853702 7.6369889 4.6071256
## [5,] 10.746834 18.8116652 8.7259553 9.9104642 10.5012300 6.6650541
## [6,] 5.439586 0.6450732 18.0579559 2.5857993 10.5064510 7.2035858
## [7,] 8.191272 11.1980266 15.4630213 0.9880933 18.0586924 2.8290877
## [8,] 6.350635 11.6830173 11.8234279 5.9787315 2.8799323 14.2704519
## [9,] 7.910844 1.0445465 12.0771113 2.0796869 10.1315615 1.8118187
## [10,] 15.101419 26.4559280 6.8505306 7.6346809 0.3681795 0.4850623
## [11,] 18.691719 7.7524776 36.1800062 0.8007808 30.7288848 3.9755102
## [12,] 9.942406 0.8652901 5.7863472 2.3037440 24.3534539 19.7389590
## [13,] 13.144289 6.3316066 10.7566817 16.5639799 1.7724065 1.2947828
## [14,] 1.803925 2.7880037 4.6788687 2.5512745 21.0917134 8.0354607
## [15,] 17.725293 2.9811557 0.2274664 13.4459321 4.5597222 10.7479674
## [,95] [,96] [,97] [,98] [,99] [,100]
## [1,] 6.457446 6.062731 2.155588077 4.9553898 4.3400413 4.9200068
## [2,] 14.682869 11.836578 2.666937620 28.5075105 3.2064010 0.3370152
## [3,] 23.573610 10.891466 6.272505550 4.0469197 7.0072669 22.4205450
## [4,] 32.599895 10.975870 3.116659629 2.6570405 1.6645382 10.4528640
## [5,] 7.890144 12.370094 0.339468140 0.9247689 0.5805245 8.0933216
## [6,] 10.492895 1.785807 5.414871383 4.8087873 0.5448254 4.8579274
## [7,] 22.691250 17.344439 23.611458297 6.9789106 6.7746693 1.0696238
## [8,] 15.045993 2.755842 1.968132164 6.3868545 8.4312384 6.6071051
## [9,] 36.485491 44.542451 1.870144228 0.4897293 29.3686394 6.4202214
## [10,] 1.318565 35.484819 0.007399047 7.6065714 11.6954659 5.7979778
## [11,] 11.055464 6.397347 14.988959300 14.2715897 7.3624360 0.7912876
## [12,] 26.364688 6.005383 8.817416969 0.4069145 25.1412330 6.5346828
## [13,] 26.408286 14.554445 2.663890487 2.3695359 14.1930027 8.4064869
## [14,] 3.805421 13.215352 32.546221687 0.1347722 22.9213865 20.8009228
## [15,] 22.114759 8.002583 4.001872619 5.4461080 3.7494559 1.7510952
Construye los intervalos de confianza asociados a cada una de las 100 medias obtenidas para cada muestra, con un nivel de confianza del 95%.
<- matrix(NA, nrow = 100, ncol = 2)
tint for (i in 1:100){
<- t.test(datos[, i], conf.level = 0.95)
temp <- temp$conf.int
tint[i, ]
} tint
## [,1] [,2]
## [1,] 2.762015 10.323986
## [2,] 4.563177 24.936199
## [3,] 8.536248 21.382225
## [4,] 5.300640 21.479124
## [5,] 3.635385 19.286653
## [6,] 1.685788 6.963665
## [7,] 4.757040 12.075639
## [8,] 4.628610 17.406073
## [9,] 8.289539 22.162181
## [10,] 5.333019 19.561230
## [11,] 5.787680 17.058447
## [12,] 4.228689 10.719587
## [13,] 5.455786 19.268972
## [14,] 4.232178 10.808067
## [15,] 6.543820 15.549107
## [16,] 5.751157 14.996611
## [17,] 3.244083 13.999598
## [18,] 3.651617 16.406160
## [19,] 5.507081 20.988676
## [20,] 3.031189 10.610934
## [21,] 5.546952 17.459868
## [22,] 3.703908 24.832043
## [23,] 5.902965 15.272041
## [24,] 3.545279 8.396553
## [25,] 6.137588 18.182937
## [26,] 6.718264 16.822665
## [27,] 2.981972 9.647406
## [28,] 4.442501 15.734089
## [29,] 5.634556 14.130717
## [30,] 6.010977 10.403032
## [31,] 2.812760 10.895164
## [32,] 2.610136 7.998401
## [33,] 4.473151 14.027687
## [34,] 4.216337 14.399413
## [35,] 5.167536 11.364213
## [36,] 3.870202 13.417249
## [37,] 2.042131 12.258796
## [38,] 5.069370 24.701835
## [39,] 6.723393 19.341066
## [40,] 7.328315 15.354149
## [41,] 3.313816 15.912508
## [42,] 5.626121 14.949982
## [43,] 7.199539 16.758395
## [44,] 6.371368 21.817915
## [45,] 1.515123 10.205160
## [46,] 5.779425 13.114979
## [47,] 9.572866 23.953995
## [48,] 4.884210 11.196707
## [49,] 7.529587 14.353749
## [50,] 7.069064 13.153231
## [51,] 5.802853 15.764762
## [52,] 3.259718 14.875447
## [53,] 8.512685 22.951245
## [54,] 2.014535 8.005960
## [55,] 8.663573 17.136160
## [56,] 4.809253 11.661250
## [57,] 6.878181 19.474663
## [58,] 5.306134 13.016531
## [59,] 1.855396 14.727619
## [60,] 4.109480 11.423009
## [61,] 3.931801 9.723813
## [62,] 6.110764 19.998490
## [63,] 7.183252 25.781034
## [64,] 4.161178 12.278051
## [65,] 4.837190 16.268766
## [66,] 8.313862 23.389894
## [67,] 3.979383 9.999798
## [68,] 5.279324 20.943046
## [69,] 6.446057 16.445565
## [70,] 6.966675 16.615018
## [71,] 2.388002 9.290951
## [72,] 5.088153 14.497950
## [73,] 3.419244 15.640917
## [74,] 4.535485 15.858471
## [75,] 4.109690 19.381937
## [76,] 2.511061 6.420940
## [77,] 3.743360 10.620873
## [78,] 5.847697 19.264334
## [79,] 4.831677 24.776261
## [80,] 6.098021 19.755724
## [81,] 5.759764 16.156228
## [82,] 3.753528 13.765518
## [83,] 6.149061 14.472967
## [84,] 1.895863 19.896396
## [85,] 5.576654 14.245801
## [86,] 3.770570 12.022553
## [87,] 3.629455 8.617702
## [88,] 8.970273 17.088171
## [89,] 6.918448 12.640855
## [90,] 4.092568 13.000952
## [91,] 6.245506 16.000906
## [92,] 2.434775 7.748759
## [93,] 7.464471 17.326743
## [94,] 3.793254 16.831736
## [95,] 11.479621 23.318616
## [96,] 6.988077 19.975283
## [97,] 2.178911 12.546626
## [98,] 1.996496 10.002357
## [99,] 4.704182 14.893301
## [100,] 3.662123 10.906022
Asigna los nombres a las columnas de la matriz.
colnames(tint) <- c("lim.inf", "lim.sup")
<- data.frame(tint) tint
Genera un índice para identificar cuál de los intervalos construidos contienen al parámetro poblacional, y cuál de ellos no lo contiene.
<- (tint$lim.inf <= lambda) & (tint$lim.sup >= lambda)
indx indx
## [1] TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE
## [13] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE
## [25] TRUE TRUE FALSE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE
## [37] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
## [49] TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE
## [61] FALSE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE FALSE TRUE
## [73] TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
## [85] TRUE TRUE FALSE TRUE TRUE TRUE TRUE FALSE TRUE TRUE FALSE TRUE
## [97] TRUE TRUE TRUE TRUE
sum(indx)
## [1] 88
Dibuja los resultados para identificar visualmente como la mayoría de los intervalos resultantes contienen al valor del parámetro poblacional.
plot(range(tint), c(0,1 + 100), type = "n", xlab = "Medias muestrales", ylab = "Muestra")
for (i in 1:100) {lines(tint[i, ], rep(i, 2), lwd = 1)
}abline(v = 10, lwd = 2, lty = 2)
Finalmente, agrega a la tabla de resultados los valores del índice.
<- data.frame(tint,indx)
tint tint
## lim.inf lim.sup indx
## 1 2.762015 10.323986 TRUE
## 2 4.563177 24.936199 TRUE
## 3 8.536248 21.382225 TRUE
## 4 5.300640 21.479124 TRUE
## 5 3.635385 19.286653 TRUE
## 6 1.685788 6.963665 FALSE
## 7 4.757040 12.075639 TRUE
## 8 4.628610 17.406073 TRUE
## 9 8.289539 22.162181 TRUE
## 10 5.333019 19.561230 TRUE
## 11 5.787680 17.058447 TRUE
## 12 4.228689 10.719587 TRUE
## 13 5.455786 19.268972 TRUE
## 14 4.232178 10.808067 TRUE
## 15 6.543820 15.549107 TRUE
## 16 5.751157 14.996611 TRUE
## 17 3.244083 13.999598 TRUE
## 18 3.651617 16.406160 TRUE
## 19 5.507081 20.988676 TRUE
## 20 3.031189 10.610934 TRUE
## 21 5.546952 17.459868 TRUE
## 22 3.703908 24.832043 TRUE
## 23 5.902965 15.272041 TRUE
## 24 3.545279 8.396553 FALSE
## 25 6.137588 18.182937 TRUE
## 26 6.718264 16.822665 TRUE
## 27 2.981972 9.647406 FALSE
## 28 4.442501 15.734089 TRUE
## 29 5.634556 14.130717 TRUE
## 30 6.010977 10.403032 TRUE
## 31 2.812760 10.895164 TRUE
## 32 2.610136 7.998401 FALSE
## 33 4.473151 14.027687 TRUE
## 34 4.216337 14.399413 TRUE
## 35 5.167536 11.364213 TRUE
## 36 3.870202 13.417249 TRUE
## 37 2.042131 12.258796 TRUE
## 38 5.069370 24.701835 TRUE
## 39 6.723393 19.341066 TRUE
## 40 7.328315 15.354149 TRUE
## 41 3.313816 15.912508 TRUE
## 42 5.626121 14.949982 TRUE
## 43 7.199539 16.758395 TRUE
## 44 6.371368 21.817915 TRUE
## 45 1.515123 10.205160 TRUE
## 46 5.779425 13.114979 TRUE
## 47 9.572866 23.953995 TRUE
## 48 4.884210 11.196707 TRUE
## 49 7.529587 14.353749 TRUE
## 50 7.069064 13.153231 TRUE
## 51 5.802853 15.764762 TRUE
## 52 3.259718 14.875447 TRUE
## 53 8.512685 22.951245 TRUE
## 54 2.014535 8.005960 FALSE
## 55 8.663573 17.136160 TRUE
## 56 4.809253 11.661250 TRUE
## 57 6.878181 19.474663 TRUE
## 58 5.306134 13.016531 TRUE
## 59 1.855396 14.727619 TRUE
## 60 4.109480 11.423009 TRUE
## 61 3.931801 9.723813 FALSE
## 62 6.110764 19.998490 TRUE
## 63 7.183252 25.781034 TRUE
## 64 4.161178 12.278051 TRUE
## 65 4.837190 16.268766 TRUE
## 66 8.313862 23.389894 TRUE
## 67 3.979383 9.999798 FALSE
## 68 5.279324 20.943046 TRUE
## 69 6.446057 16.445565 TRUE
## 70 6.966675 16.615018 TRUE
## 71 2.388002 9.290951 FALSE
## 72 5.088153 14.497950 TRUE
## 73 3.419244 15.640917 TRUE
## 74 4.535485 15.858471 TRUE
## 75 4.109690 19.381937 TRUE
## 76 2.511061 6.420940 FALSE
## 77 3.743360 10.620873 TRUE
## 78 5.847697 19.264334 TRUE
## 79 4.831677 24.776261 TRUE
## 80 6.098021 19.755724 TRUE
## 81 5.759764 16.156228 TRUE
## 82 3.753528 13.765518 TRUE
## 83 6.149061 14.472967 TRUE
## 84 1.895863 19.896396 TRUE
## 85 5.576654 14.245801 TRUE
## 86 3.770570 12.022553 TRUE
## 87 3.629455 8.617702 FALSE
## 88 8.970273 17.088171 TRUE
## 89 6.918448 12.640855 TRUE
## 90 4.092568 13.000952 TRUE
## 91 6.245506 16.000906 TRUE
## 92 2.434775 7.748759 FALSE
## 93 7.464471 17.326743 TRUE
## 94 3.793254 16.831736 TRUE
## 95 11.479621 23.318616 FALSE
## 96 6.988077 19.975283 TRUE
## 97 2.178911 12.546626 TRUE
## 98 1.996496 10.002357 TRUE
## 99 4.704182 14.893301 TRUE
## 100 3.662123 10.906022 TRUE
Sea \(X\) una variable aleatoria con distribución normal de media \(\mu\) desconocida y varianza \(\sigma^2\) conocida. Entonces, el intervalo de confianza para la media \(\mu\) considerando un \(100(1-\alpha)\%\) de confianza y un tamaño muestral \(n\) es
\[ IC(\mu)=\left[\bar{x}-z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}},\bar{x}+z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}\right] \]
donde \(z_{\alpha/2}\) es tal que \(P(-\infty < Z \leq z_{\alpha/2})=\dfrac{\alpha}{2}\).
Se podría construir una función que permita calcular un intervalo de confianza para la media.
<- function(media,sigma,n,NC=0.95){
IC_media_var_conocida = media-abs(qnorm((1-NC)/2))*sigma/sqrt(n)
LI = media+abs(qnorm((1-NC)/2))*sigma/sqrt(n)
LS return(paste0("[",round(LI,2),",",round(LS,2),"]"))}
Por ejemplo, supongamos que en una población normal la varianza es igual a 9. Se selecciona aleatoriamente una muestra aleatoria de tamaño 100 de esa población teniendo como media 35. Entonces el intervalo asociado al 95% de confianza se calcula como
IC_media_var_conocida(35,sqrt(9),100) #sqrt calcula la raíz cuadrada
## [1] "[34.41,35.59]"
Por defecto, la función toma un nivel
Estudio de caso
Germán, que realizó sus prácticas en la empresa de transportes LAMP S.A., se enfrentó con la siguiente situación. Su tutor en la empresa, le dio un informe técnico en el que hace seis meses, de una muestra aleatoria de 64 colectivos que prestan servicio en la ciudad de Asunción, se obtuvo el intervalo [ 3,8011 ; 4,3989 ] como estimación de la verdadera media del número de pasajeros por kilómetro, al nivel de confianza del 95%. La primera consigna para Germán fue que construyera, con los datos obtenidos en la muestra de 64 colectivos, un nuevo intervalo, tal que, el error máximo de la estimación fuera de 0,15 pasajeros por kilómetro
=64
n1=3.8011
linf1=4.3989
lsup1
=0.95
NC1=1-NC1
alfa1
=qnorm(1-alfa1/2)
z1 z1
## [1] 1.959964
=(linf1+lsup1)/2
media1 media1
## [1] 4.1
El error asociado al intervalo del 1er estudio
=lsup1-media1
error1 error1
## [1] 0.2989
=(error1*sqrt(n1))/z1
sigma1 sigma1
## [1] 1.220022
El intervalo que debe construir es de mayor precisión porque se reduce el error
=0.15
error2
if(error2>error1) print("IC2 con menor precision") else print("IC2 con mayor precisión")
## [1] "IC2 con mayor precisión"
=error1/z1
eem1 eem1
## [1] 0.1525028
=error2/z1
eem2 eem2
## [1] 0.07653202
if (eem1==eem2) print("Permanece") else print("Se modifica")
## [1] "Se modifica"
=64
n2=0.90
NC2=1-NC2
alfa2=qnorm(1-alfa2/2)
z2 z2
## [1] 1.644854
la misma información muestral implica la misma media muestral
=media1
media2=media2-error2
linf2 linf2
## [1] 3.95
=media2+error2
lsup2 lsup2
## [1] 4.25
=0.99
NC3=1-NC2
alfa3=qnorm(1-alfa2/2)
z3 z3
## [1] 1.644854
=0.2
error3=sigma1
sigma3=(z3)^2*sigma3/error3^2
n3 n3
## [1] 82.52059
Estudio de caso
Una compañía de seguros desea estudiar los hábitos respecto al riesgo de los residentes de Asunción. Se selecciona una muestra aleatoria de 40 participantes y se les pide que mantengan un registro detallado de las actividades riesgosas que realizan durante la semana. Se determinó que el número promedio de actividades riesgosas realizadas (suponiendo que dicen la verdad) es 15,3 horas y que presenta una desviación estándar muestral de 3,8 actividades.
Obtenga el IC al 98% de confianza para la media
=15.3
mean=3.8
sd=40
n1=0.98
NC1=1-NC1
alfa1 alfa1
## [1] 0.02
=qnorm(1-alfa1/2, mean = 0, sd = 1)
z1 z1
## [1] 2.326348
=mean-z1*sd/sqrt(n1)
liminf1 liminf1
## [1] 13.90225
=mean+z1*sd/sqrt(n1)
limsup1 limsup1
## [1] 16.69775
Caso 1.2
=3.8
de=0.98
NC2=1-NC2
alfa2 alfa2
## [1] 0.02
=1
e=qnorm(1-alfa2/2,0,1)
z2 z2
## [1] 2.326348
=((de*z2)/e)^2
n2 n2
## [1] 78.14776
Caso 1.3
=mean-z2*sd/sqrt(n2)
liminf2 liminf2
## [1] 14.3
=mean+z2*sd/sqrt(n2)
limsup2 limsup2
## [1] 16.3
#mu1-mu2=delta
=-2
delta=0.01
alfa
=c(14,12,15,15,11,16,17,12,14,13,18,13,18,15,16,11)
nivel1 nivel1
## [1] 14 12 15 15 11 16 17 12 14 13 18 13 18 15 16 11
=c(20,22,18,18,19,15,18,15,22,18,19,15,21,22,18,16)
nivel2 nivel2
## [1] 20 22 18 18 19 15 18 15 22 18 19 15 21 22 18 16
plot (nivel1)
Solución
=16
n1=16
n2=n1+n2-2
gl
=mean(nivel1)
xbar1 xbar1
## [1] 14.375
=mean(nivel2)
xbar2 xbar2
## [1] 18.5
=xbar1-xbar2
xbardif xbardif
## [1] -4.125
=sd(nivel1)
S1 S1
## [1] 2.276694
=sd(nivel2)
S2 S2
## [1] 2.44949
REGLA: Rechazar H0 si tcalc<tcrit
=sqrt(((n1-1)/(n1+n2-2))*S1^2+((n2-1)/(n1+n2-2))*S2^2)
Sp Sp
## [1] 2.364671
=qt(alfa,gl)
tcrit tcrit
## [1] -2.457262
=((xbar1-xbar2)-(delta))/(Sp*sqrt(1/n1+1/n2))
tcal tcal
## [1] -2.541753
ENFOQUE CON PVALOR
=pt(tcal,gl)
Pvalor Pvalor
## [1] 0.008216869
CON FUNCIÓN DE R-PROJECT
t.test(nivel1,nivel2,mu=-2,alternative = c("less"), conf.level =1-alfa)
##
## Welch Two Sample t-test
##
## data: nivel1 and nivel2
## t = -2.5418, df = 29.841, p-value = 0.008232
## alternative hypothesis: true difference in means is less than -2
## 99 percent confidence interval:
## -Inf -2.070023
## sample estimates:
## mean of x mean of y
## 14.375 18.500
Estudio de caso
Alejandra es una alumna egresada de la carrera de Estadística en la FACEN que realizó su pasantía en una empresa conservera que tiene sede en Asunción y varias filiales en el país. Cuando Alejandra llegó a la empresa su tutor estaba realizando un estudio para tomar la decisión de producir una nueva marca extra condimentada de salsa de tomates. El departamento de investigación de mercado de la empresa realizó una encuesta telefónica nacional de 1.000 hogares y encontró que la salsa de tomates extra condimentada sería comprada por 330 de ellos. Hace dos años, un estudio mucho más extenso mostraba que el 25% de los hogares en ese entonces habrían comprado el producto. Su tutor le preguntó si opinaba que el interés por comprar la nueva marca había crecido significativamente.
H0: p = 0,25 H1: p > 0,25
=1000
n=0.25
PH0=0.98
NC=1-NC
alfa=qnorm(1-alfa)
zcrit zcrit
## [1] 2.053749
=330/1000
Pest=(Pest-PH0)/sqrt((PH0*(1-PH0))/n)
zcal zcal
## [1] 5.842374
=1-pbinom(330,1000,0.25,log = FALSE)
Pvalor Pvalor
## [1] 5.82433e-09
binom.test(x=330,n=1000,p=0.25,alternative="greater",conf.level = 0.98)
##
## Exact binomial test
##
## data: 330 and 1000
## number of successes = 330, number of trials = 1000, p-value = 8.708e-09
## alternative hypothesis: true probability of success is greater than 0.25
## 98 percent confidence interval:
## 0.299546 1.000000
## sample estimates:
## probability of success
## 0.33
Debe rechazar la H0, y Debe concluir que actualmente existe un mayor interes
Error de tipo I
=qbinom((1-0.02),1000,0.25)
xcrit xcrit
## [1] 278
=1-pbinom(xcrit,1000,0.25)
alfa alfa
## [1] 0.01958826
Error de tipo II: Asumida una H1 alternativa P=0.30
=pbinom(xcrit,1000,0.30)
beta beta
## [1] 0.06818224
Estudio de caso
De acuerdo con los resultados de la encuesta a egresados de la FACEN del año 2005, un estudiante de tecnología de producción puede esperar un salario promedio igual al egresar que los estudiantes de la carrera de estadística. Marcos, un estudiante del último año de la carrera de estadística, decide verificar si dicha hipótesis se mantenía luego de 10 años. Para ello relevó datos de dos muestras aleatorias de egresados de ambas carreras del año 2015 para realizar una prueba de hipótesis. Los datos recabados sobre los salarios percibidos (en millones de Gs. en la actualidad) y los resultados de la prueba fueron los siguientes:
<-c(5,4.1,3,2.5,2.6,2.1,2.0,5,7,2,2.1,2.3,2.6,3.5)
tecnol <-c(5.1,5.2,2.0,3.0,4,6,2,8,8.1,10,2.0) estad
De acuerdo con los resultados, Marcos puede rechazar la hipótesis nula de que un egresado de la carrera de tecnología puede esperar un ingreso igual que un egresado de la carrera de estadística?
Dado el intervalo de confianza obtenido por Marcos, es correcto decir que la probabilidad de que el verdadero valor de la diferencia de ingresos medios esté entre -0,2134 y 3,7433 es de 95%?
El Pvalor obtenido por Marcos significa que existe un 7,652% de probabilidad de obtener una diferencia de medias mayor que +1,764935?
mean(estad)
## [1] 5.036364
mean(tecnol)
## [1] 3.271429
<- t.test(estad,tecnol,mu = 0,alternative="greater", conf.level = 0.95)
test test
##
## Welch Two Sample t-test
##
## data: estad and tecnol
## t = 1.9068, df = 14.529, p-value = 0.03826
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 0.1388691 Inf
## sample estimates:
## mean of x mean of y
## 5.036364 3.271429
=mean(estad)-mean(tecnol)
difmean difmean
## [1] 1.764935
Cuando realizamos cierto tipo de experimento, nos encontramos en la situación de que los valores obtenidos en la muestra difieren de los valores que se esperan bajo cierto modelo de probabilidad. Por esa razón es importante analizar si estas diferencias son significativas o no.
Utilizaremos primeramente pruebas de bondad de ajuste basadas en la Chi-cuadrada. Esta prueba requiere que las frecuencias esperadas sean mayores o iguales a 5.
Ejemplo: En un comedor asisten semanalmente personas de diferentes ciudades. El dueño del comedor, en su afán de conocer si la cantidad de personas que vienen por semana es la misma en cada semana, realiza un estudio anotando la cantidad de personas que vienen a su comedor durante 5 semanas. Sus anotaciones son las siguientes:
Semana | Cantidad de Personas |
---|---|
1 | 120 |
2 | 110 |
3 | 116 |
4 | 99 |
5 | 105 |
¿Qué se puede concluir?
Solución
#Definimos una variable que cuente con la cantidad de personas
<- c(120, 110, 116, 99, 105) cantidad_personas
#Contamos la cantidad total de personas
<- sum(cantidad_personas)
total total
## [1] 550
#Calculamos las frecuencias esperadas
<- rep(total/5, 5)
esperadas esperadas
## [1] 110 110 110 110 110
#Aplicando la formula de la chi cuadrada sería
<- sum((cantidad_personas-esperadas)^2/esperadas)
chi_cal chi_cal
## [1] 2.563636
#El p valor asociado es
pchisq(chi_cal, df=4, lower.tail = F)
## [1] 0.6332781
Podemos también usar directamente la función
chisq.test()
definiendo antes las probabilidades de cada
clase o categoría
#Calculamos las probabilidades asociadas a cada categoría
<- rep(1/5,5)
probabilidades probabilidades
## [1] 0.2 0.2 0.2 0.2 0.2
#Aplicamos la prueba Chi con chisq.test()
chisq.test(x=cantidad_personas,p=probabilidades)
##
## Chi-squared test for given probabilities
##
## data: cantidad_personas
## X-squared = 2.5636, df = 4, p-value = 0.6333
Ejemplo: Considera la siguiente tabla de frecuencia:
x | frecuencia |
---|---|
0 | 18 |
1 | 56 |
2 | 110 |
3 | 88 |
4 | 40 |
5 | 8 |
¿Se ajustan los datos a una distribución binomial con \(p=0,5\)? Utiliza un \(\alpha=0,01\).
Solución
#Definimos la variable X
<- 0:5 x
#Creamos la variable frecuencia observada
<- c(18, 56, 110, 88, 40, 8) f_observada
#Calculamos la suma de frecuencias, el total
<- sum(f_observada)
total total
## [1] 320
#Calculamos las probabilidades binomiales con dbinom()
#en donde size=5 es el número de ensayos de Bernoulli,
#y prob=5 es la probabilidad de éxito
<- dbinom(x, size = 5, prob = 0.5)
probabilidades probabilidades
## [1] 0.03125 0.15625 0.31250 0.31250 0.15625 0.03125
#Ahora aplicamos la función chisq.test()
chisq.test(x = f_observada, p = probabilidades)
##
## Chi-squared test for given probabilities
##
## data: f_observada
## X-squared = 11.96, df = 5, p-value = 0.03534
Ejemplo: En una cierta región de un país se dividió en secciones rectangulares de 0,5 km^^2 para hacer un conteo de la cantidad de bombas caídas durante una guerra. Los conteos se muestran en la siguiente tabla:
Cantidad de impactos | Frecuencia |
---|---|
0 | 229 |
1 | 211 |
2 | 93 |
3 | 35 |
4 | 7 |
5 | 1 |
¿Sugieren los datos que la aparición de bombas se distribuye según la ley de Poisson?
Solución
#Definimos la variable X
<- 0:5 x
#Creamos la variable frecuencia observada
<- c(229, 211, 93, 35, 7, 1) f_observada
#Calculamos la suma de frecuencias, el total
<- sum(f_observada)
total total
## [1] 576
#Se estima primeramente el valor de lambda, pues es desconocido
<- sum(x*f_observada)/total
lambda lambda
## [1] 0.9288194
#Calculamos las probabilidades de Poisson con dpois()
<- dpois(x,lambda = lambda)
probabilidades probabilidades
## [1] 0.39501978 0.36690205 0.17039288 0.05275474 0.01224991 0.00227559
#Calculamos las frecuencias esperadas
<- probabilidades*total
f_esperada f_esperada
## [1] 227.531392 211.335581 98.146299 30.386730 7.055946 1.310740
#La última casilla tiene un valor esperado inferior a 5. Juntamos los dos últimos
<- c(229, 211, 93, 35, 8)
f_observada_nueva <- c(f_esperada[-(5:6)],f_esperada[5]+f_esperada[6])
f_esperada_nueva f_esperada_nueva
## [1] 227.531392 211.335581 98.146299 30.386730 8.366687
#Usamos la formula de la chi cuadrada
<- sum((f_observada_nueva-f_esperada_nueva)^2/f_esperada_nueva)
chi_cal chi_cal
## [1] 0.9963088
#Calculamos el p valor, con 3 grados de libertad
<- pchisq(chi_cal, 3, lower.tail = F)
pvalor pvalor
## [1] 0.8021451
Ejemplo: En un estudio sobre la vida en años de 70 máquinas electrónicas se obtuvieron los siguientes resultados:
Años de vida | Frecuencia |
---|---|
0-1 | 30 |
1-2 | 23 |
2-3 | 6 |
3-4 | 5 |
más de 4 | 6 |
Demostrar que estos datos se ajustan a una distribución exponencial, utilizando 5% de nivel de significancia.
Simulación
Genera 100 valores aleatorios de una distribuci?n normal de media 3 y desviación típica 2 (utiliza la semilla 111).
options(width=80)
set.seed(111)
<-rnorm(100,0,1)
data data
## [1] 0.23522071 -0.33073587 -0.31162382 -2.30234566 -0.17087604 0.14027823
## [7] -1.49742666 -1.01018842 -0.94847560 -0.49396222 -0.17367413 -0.40659878
## [13] 1.84563626 0.39405411 0.79752850 -1.56666536 -0.08585101 -0.35913948
## [19] -1.19360897 0.36418674 0.36166245 0.34696437 0.18973653 -0.15957681
## [25] 0.32654924 0.59825420 -1.84153430 2.71805560 0.19124439 -1.30129607
## [31] -3.11321730 -0.94135740 1.40025878 -1.62047003 -2.26599596 1.16299359
## [37] -0.11615504 0.33425601 -0.62085811 -1.30984491 -1.17572604 -1.12121553
## [43] -1.36190448 0.48112458 0.74197163 0.02782463 0.33137971 0.64411413
## [49] 2.48566156 1.95998171 0.19166338 1.55254427 0.91424229 0.35862537
## [55] 0.17509564 -0.84726777 0.97823166 1.80586826 0.12291480 -0.12977203
## [61] -0.21642866 1.44647817 0.40970980 0.91091657 1.43035817 -0.38129196
## [67] 0.20230718 -0.80619919 0.29463418 1.40488308 1.02376685 0.47612606
## [73] -0.67033033 0.15923432 -0.38271538 0.93576259 -0.63153227 -0.09830608
## [79] 1.03198498 0.38780843 -1.25612931 -0.78695273 0.42981155 -0.37641622
## [85] -1.21622907 1.02927851 0.43039700 -1.24557402 -0.60272849 0.66006939
## [91] 2.05074953 0.49080818 -1.73147942 0.71088366 0.01382291 -1.40104160
## [97] 1.25912367 -0.12747752 -0.72938651 -1.21136136
hist(data,breaks=15,freq=FALSE,main="Histograma de frecuencias relativas")
curve(dnorm(x),add=TRUE,col="red")
plot(ecdf(data),do.points=FALSE,verticals=TRUE,main="Distribución empírica",ylab="Sn(x)")
curve(pnorm(x),col="red",add=TRUE)
#calculo de D_n
<-sort(data) # Segunda columna, se ordenan los datos
data<-pnorm(data,0,1) # Tercera columna, hacer F(xi)
Fx<-seq(0.01,1,0.01) # Distribución empírica (no hay empates)
Sn<-abs(Sn-Fx) # Cuarta columna
aux1<-c(Fx,0)
Fx1<-c(0,Sn)
Sn1<-abs(Sn1-Fx1)[1:100] # Quinta columna
aux2max(aux1,aux2) # Encontrar Dn
## [1] 0.06014782
#Gráfica de S_n vs F_n
plot(Fx,Sn,type="s")
points(Sn,Sn,type="s",col="green")
#realizar la prueba con el comando
ks.test(data,"pnorm",0,1)
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: data
## D = 0.060148, p-value = 0.8623
## alternative hypothesis: two-sided
#cargamos una variable cualitativa nominal
=as.factor(c("H","M","H","H","M","M","H","M","M","H","M","M","H","M","H","H","M","M","H","M","M","H","M","M","H","M","H","H","M","M","H","M","M","H","M","M","H","M","H","H","M","M","H","M","M","H","M","M"))
sexo
sexo
## [1] H M H H M M H M M H M M H M H H M M H M M H M M H M H H M M H M M H M M H M
## [39] H H M M H M M H M M
## Levels: H M
#cargamos una variable cualitativa nominal
=as.factor(c("No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí"))
fuma
fuma
## [1] No Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí No
## [26] Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí
## Levels: No Sí
#para indicar a R que los datos cargados están relacionados
=data.frame(sexo,fuma)
datos#datos
table(datos)
## fuma
## sexo No Sí
## H 12 8
## M 4 24
mosaicplot(table( datos$sexo,datos$fuma),xlab = "Sexo", ylab = "Fumador",main ="Mosaico para fumadores por sexo",color = 2:3)
Prueba chi de independencia
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(datos$sexo, datos$fuma)
## X-squared = 9.0107, df = 1, p-value = 0.002684
Algunos ejemplos más
Pruebas de ajuste