setwd("D:/OD/OneDrive/FACEN_nivelacion_master")

1 Introducción

Las herramientas tecnológicas para el estudio y la enseñanza de la estadística en la actualidad están ampliamente extendidas y disponibles incluso de manera gratuita. El estudio de los conceptos estadísticos teóricos, sus propiedades y teoremas relacionados, pueden verificarse fácilmente mediante la generación de ensayos y simulaciones de variables aleatorias. Programas estadísticos de licencia gratuita como el R-project se constituyen en un aliado estratégico que facilitan y simplifican al docente la transferencia de conocimiento y al estudiante su asimilación. El presente trabajo recopila el fruto de varios años de experiencia enseñando inferencia estadística apoyado en las simulaciones y ejercicios prácticos realizados usando este programa. La experiencia se concretó en el diseño y socialización de esta página web generado y publicado mediante la plataforma RStudio Cloud. En esta página se organizan los contenidos en varias secciones, que incluyen los códigos necesarios para realizar los ensayos de simulaciones que permiten verificar las propiedades y teoremas de los tópicos tratados en el curso de Probabilidades. Los estudiantes matriculados al curso pueden copiar los códigos para ejecutarlos en su propio ordenador, para verificar el efecto que tienen los cambios en los parámetros de los modelos de probabilidad estudiados, sobre los resultados de las simulaciones. Adicionalmente se incluyen una serie de estudios de casos con datos provenientes de registros administrativos y encuestas nacionales para aplicar los conceptos abordados en la solución de problemas sobre algunas variables relevantes. Actualmente, resulta imprescindible que todo estudiante de Estadística culmine la carrera con el manejo de un programa para el análisis estadístico, y R es una excelente opción que se puede disponer para el efecto.

2 El programa R-project y RStudio

R es un programa de código abierto, que tuvo inicios aproximadamente en el año 2000, como continuación de programa S. De acuerdo con la página oficial de R-project, este es un lenguaje y entorno para computación estadística y gráficos. Es un proyecto GNU que es similar al lenguaje y entorno S por lo que puede considerarse como una implementación diferente de S. El programa fue desarrollado en Bell Laboratories por John Chambers y sus colegas. Hay algunas diferencias importantes, pero gran parte del código escrito para S se ejecuta sin cambios en R. R proporciona una amplia variedad de técnicas estadísticas (modelado lineal y no lineal, pruebas estadísticas clásicas, análisis de series temporales, clasificación, agrupamiento, …) y técnicas gráficas, y es altamente extensible. El lenguaje S suele ser el vehículo elegido para la investigación en metodología estadística, y R proporciona una ruta de código abierto para participar en esa actividad. (usingrsa?)

2.1 Descargar e instalar el programa R-project y R-studio

R-project Enlace para descargar el programa R-project

R-studio Enlace para descargar el programa R-studio

Instalar R por primera vez

2.2 Enlaces de interés

A continuación te dejamos algunos enlaces interesantes para aprender a usar R como herramienta para el análisis estadístico

R para principiantes

Una introducción a R

2.3 Primeros pasos con R

Puede resultar de mucha utilidad trabajar y guardar los comandos usados en un “script” de R. El script es básicamente un documento de texto donde uno puede ir escribiendo todos los comandos a ejecutar. Considerando el hecho de que si se antepone a una línea de comando el signo #, este no será ejecutado y el programa lo considerará como un comentario.

Script en R

Script en R

2.3.1 Librerías

Paquetes que usualmente son necesarios instalar. Elimine los signos # para instalarlos por primera vez.

# install.packages("hrbrthemes")
# install.packages("viridis")
# install.packages("dplyr")
# install.packages("data.table")
# install.packages("bookdown")
# install.packages("agricolae")
# install.packages("fastmap")
# install.packages("grDevices")
# install.packages("PNG")
# install.packages("readpng")
# install.packages("sandwich")
# install.packages("reticulate")
# install.packages("tidyverse")
# install.packages("crosstable")
# install.packages("prettydoc")
# install.packages("rmdformats")
# install.packages("DescTools")
# install.packages("kableExtra")
# install.packages("expss")
# install.packages('descr')
# install.packages("gtools")

2.3.2 Ayuda del R

Una de las cosas más importantes a la hora de trabajar con R es aprender a usar la ayuda. Para obtener la ayuda sobre alguna función o comando de R basta con escribir el comando help() y dentro del paréntesis incluir el nombre de la función o comando

#help("seq")
La ayuda de R

La ayuda de R

2.3.3 R como calculadora

Puedes usar el programa R como una calculadora, basta con conocer cuáles son los signos y comandos a utilizar para realizar las opereaciones. Copia los comandos en tu script de R y ejecútalos para ver los resultados.

#suma
2+2
## [1] 4
#multiplicación
2*2
## [1] 4
#división
2/2
## [1] 1
#potencia
4^2
## [1] 16
#raíz cuadrada
sqrt(16)
## [1] 4

2.3.4 Carga de datos

Un primer paso para usar R en el estudio de la Estadística se relaciona con el proceso de cargar datos, que luego puedan ser analizados. Considera las variables “Edad del estudiante” y su “Altura”, carga los datos para luego realizar algunas operaciones estadísticas con ellos.

#cargamos una variable cuantitativa discreta
edad<-c(11,12,12,15,12,41)
edad
## [1] 11 12 12 15 12 41
#cargamos una variable cuantitativa contínua
altura=c(50,65,120,156,60,182)
altura
## [1]  50  65 120 156  60 182
#cargamos una variable cualitativa nominal
sexo=as.factor(c("Hombre","Mujer","Mujer","Hombre","Mujer","Mujer"))
sexo
## [1] Hombre Mujer  Mujer  Hombre Mujer  Mujer 
## Levels: Hombre Mujer
#cargamos una variable cualitativa ordinal
#niveleducativo=as.factor(c("Sin instrucción","Educ. Básica","Educ.Básica","Unviversitaria","Unviversitaria","Educ. Básica"))
#niveleducativo

2.3.5 Data frame

#para indicar a R que los datos cargados están relacionados
#datos=data.frame(edad,altura,sexo,niveleducativo)
#datos

2.3.6 Tablas de frecuencia

Usando la función table()

# Tablas de frecuencias para sexo
tab_sexo <- table(sexo)
tab_sexo
## sexo
## Hombre  Mujer 
##      2      4
# Tablas de frecuencias para edad
tab_edad <- table(edad)
tab_edad
## edad
## 11 12 15 41 
##  1  3  1  1
# Tablas de frecuencias de doble entrada
tab_sexo_edad <- table(sexo,edad)
tab_sexo_edad
##         edad
## sexo     11 12 15 41
##   Hombre  1  0  1  0
##   Mujer   0  3  0  1
# Proporción por sexo y edades
tab_sexo_edad <- table(sexo,edad)
prop.table(tab_sexo_edad, margin = 1)
##         edad
## sexo       11   12   15   41
##   Hombre 0.50 0.00 0.50 0.00
##   Mujer  0.00 0.75 0.00 0.25
# la función summary
#summary(datos)
#Usando la función table.freq()
tab_Edad <- hist(edad, plot=FALSE)
tab_Edad2=table.freq(tab_Edad); tab_Edad2 
##   Lower Upper Main Frequency Percentage CF   CPF
## 1    10    20   15         5       83.3  5  83.3
## 2    20    30   25         0        0.0  5  83.3
## 3    30    40   35         0        0.0  5  83.3
## 4    40    50   45         1       16.7  6 100.0

2.4 Representaciones graficas

2.4.1 Graficas circulares o de sectores

Algunas gráficas estadísticas con los datos cargados

# una gráfica para sexo
pie(table(sexo),labels = c("Hombres","Mujeres"), main="Pie Chart",edges = 200)

2.4.2 Gráficos de barras

# una gráfica de barras
barplot(tab_edad)

# Histograma de las edades
hist(edad)

2.4.3 Histogramas de frecuencias y de porcentajes

# Histograma de las edades
hist(edad)

2.5 Generación de sequencias

#X es el conjunto de los números del 1 al 5
x <- seq (1, 5)
x
## [1] 1 2 3 4 5
#X es un conjunto formado por la secuencia de números desde el -6 hasta el valor 6 con saltos de valor 0,1
# help(seq)
x <- seq ( -6, 6,by=0.1)
x
##   [1] -6.0 -5.9 -5.8 -5.7 -5.6 -5.5 -5.4 -5.3 -5.2 -5.1 -5.0 -4.9 -4.8 -4.7 -4.6
##  [16] -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1
##  [31] -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6
##  [46] -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1
##  [61]  0.0  0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4
##  [76]  1.5  1.6  1.7  1.8  1.9  2.0  2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9
##  [91]  3.0  3.1  3.2  3.3  3.4  3.5  3.6  3.7  3.8  3.9  4.0  4.1  4.2  4.3  4.4
## [106]  4.5  4.6  4.7  4.8  4.9  5.0  5.1  5.2  5.3  5.4  5.5  5.6  5.7  5.8  5.9
## [121]  6.0
#X es un conjunto formado por la secuencia de 100 números desde el -6 hasta el valor 6 redondeado con tres valores decimales
x <- round(seq ( -6, 6, len=100 ),3)
x
##   [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
##  [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
##  [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
##  [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
##  [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
##  [51]  0.061  0.182  0.303  0.424  0.545  0.667  0.788  0.909  1.030  1.152
##  [61]  1.273  1.394  1.515  1.636  1.758  1.879  2.000  2.121  2.242  2.364
##  [71]  2.485  2.606  2.727  2.848  2.970  3.091  3.212  3.333  3.455  3.576
##  [81]  3.697  3.818  3.939  4.061  4.182  4.303  4.424  4.545  4.667  4.788
##  [91]  4.909  5.030  5.152  5.273  5.394  5.515  5.636  5.758  5.879  6.000

2.6 Abrir una base y resumir

R ya incorpora una serie de bases de datos que te pueden resultar de utilidad para empezar a explorar las posibilidades de análisis estadístico que te ofrece este programa.

Como ejemplo vamos a explorara la base de datos llamada cars.

#cargar la base
data(cars)
#visualizar los encabezados
head(cars)
##   speed dist
## 1     4    2
## 2     4   10
## 3     7    4
## 4     7   22
## 5     8   16
## 6     9   10
#resumir con algunas estadísticas las variables de la base 
summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

2.7 Funciones con R

En R existen funciones ya establecidas y de uso muy común como el que te permite calcular el valor promedio (mean()), o el que te permite calcular la varianza (var()), pero tambien es posible crear tus propias funciones, basta con usar el comando “function”, como se muestra en los ejemplos siguientes:

#una función de las variables o argumentos x,y,z que multiplica sus valores

z=function(x,y,z){
x*y*z
}
# aplicamos la función creada sobre algunos datos

a=z(2,5,10)
a
## [1] 100
#función que reproduce el valor de la varianza de un conjunto de datos d

d=c(1,2,3)

vari=function(x){
sum((x-mean(x))^2)/(length(x))
}

vari(d)
## [1] 0.6666667

3 Análisis combinatorio

3.1 Definiciónes

En matemáticas, una permutación de un conjunto es, en términos generales, una disposición de sus miembros en una secuencia u orden lineal, o si el conjunto ya está ordenado, una variación del orden o posición de los elementos de un conjunto ordenado o una tupla. La palabra “permutación” también se refiere al acto o proceso de cambiar el orden lineal de un conjunto ordenado.

Problema 1: Cuántas posibilidades de resultados ocurre cuando se extraen simultáneamente de una urna dos canicas, si en la urna existen 5 de color negro y 2 de color blanco, sin que importe el orden y b) si consideramos el orden

#librería para análisis combinatorio
library("gtools")
## Warning: package 'gtools' was built under R version 4.2.2
#a
combinations(2,2,c("b","n"),repeats=TRUE)
##      [,1] [,2]
## [1,] "b"  "b" 
## [2,] "b"  "n" 
## [3,] "n"  "n"
#b
permutations(2,2,c("b","n"),repeats=TRUE)
##      [,1] [,2]
## [1,] "b"  "b" 
## [2,] "b"  "n" 
## [3,] "n"  "b" 
## [4,] "n"  "n"

Para obtener ayuda de R al respecto de las permutaciones

#help(permutations)

Otros ejemplos

P=permutations(4,3)
P
##       [,1] [,2] [,3]
##  [1,]    1    2    3
##  [2,]    1    2    4
##  [3,]    1    3    2
##  [4,]    1    3    4
##  [5,]    1    4    2
##  [6,]    1    4    3
##  [7,]    2    1    3
##  [8,]    2    1    4
##  [9,]    2    3    1
## [10,]    2    3    4
## [11,]    2    4    1
## [12,]    2    4    3
## [13,]    3    1    2
## [14,]    3    1    4
## [15,]    3    2    1
## [16,]    3    2    4
## [17,]    3    4    1
## [18,]    3    4    2
## [19,]    4    1    2
## [20,]    4    1    3
## [21,]    4    2    1
## [22,]    4    2    3
## [23,]    4    3    1
## [24,]    4    3    2
combinations(3,2,letters[1:3])
##      [,1] [,2]
## [1,] "a"  "b" 
## [2,] "a"  "c" 
## [3,] "b"  "c"
combinations(3,2,letters[1:3],repeats=TRUE)
##      [,1] [,2]
## [1,] "a"  "a" 
## [2,] "a"  "b" 
## [3,] "a"  "c" 
## [4,] "b"  "b" 
## [5,] "b"  "c" 
## [6,] "c"  "c"
permutations(3,2,letters[1:3])
##      [,1] [,2]
## [1,] "a"  "b" 
## [2,] "a"  "c" 
## [3,] "b"  "a" 
## [4,] "b"  "c" 
## [5,] "c"  "a" 
## [6,] "c"  "b"
permutations(3,2,letters[1:3],repeats=TRUE)
##       [,1] [,2]
##  [1,] "a"  "a" 
##  [2,] "a"  "b" 
##  [3,] "a"  "c" 
##  [4,] "b"  "a" 
##  [5,] "b"  "b" 
##  [6,] "b"  "c" 
##  [7,] "c"  "a" 
##  [8,] "c"  "b" 
##  [9,] "c"  "c"

Desafío 1: Consideramos un tablero de ajedréz y dos puntos: A situado en el vértices inferior izquierda y B un punto situado en el vértice superior derecha. Se tratará de averiguar cuál es el número de caminos mínimos que hay de A a B. Aquí un camino mínimo de A a B es uno que sigue las líneas de la retícula y avanza siempre a hacia la izquierda ó hacia arriba, nunca a la derecha ni hacia abajo. Generalize para cualquier tablero de m filas y n columnas

Grafica del tablero de ajedréz con R

library('tidyverse')
# https://stackoverflow.com/questions/58769722/plotting-a-chessboard-in-r-how-to-name-columns-and-rows
chessboard = function(n){
  if(n > 26){
    stop('Ya board too big!')
  }
  board = expand_grid(X = 1:n, Y = 1:n)
  board = board %>% 
    mutate(color = ifelse((X - Y) %% 2 == 0, 'black', 'white')) %>% 
    mutate_all(factor)
  letter_labs = LETTERS[1:n]


  ggplot(data = board, aes(x = X, y = Y, fill = color)) +
    geom_tile() +
    scale_fill_manual(values = c('black' = "#FFFFFF", 'white' = "#000000")) +
    scale_x_discrete(labels = letter_labs, name = '') +
    scale_y_discrete(labels = letter_labs, name = '') +
    theme(legend.position = 'none')

}
chessboard(8)

Desafío 2: Dada la ecuación X + Y + Z + T = 13, determinar cuántas soluciones tiene en el conjunto N de los números naturales.

  • Ver respuesta:

    Este problema se puede interpretar como colocar un total de 13 bolas en cuatro cajas: U1, U2, U3 y U4, y como hemos visto, el número de posibles distribuciones en el número de combinaciones con repetición de cuatro elementos tomados de 13 en 13. El valor es:

    \[ \frac{(13+4-1)}{4-1} = \frac{(13+4-1)}{13} \]

4 Operaciones con conjuntos

4.1 Unión e intersección de conjuntos

Creando el vector i en R:

i=1:15
i
##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15

Creando el vector j en R:

j=10:25
j
##  [1] 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Creando la unión de los vectores i, j con la función union:

k<-union(i,j)
k
##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

También podemos crear la intersección de los vectores i, j con la función intersect:

l=intersect(i,j)
l
## [1] 10 11 12 13 14 15

Podemos saber la diferencia entre los vectores i, j (elementos que aparecen en i y no aparecen en j), con la función setdiff:

n<-setdiff(j,i)
n
##  [1] 16 17 18 19 20 21 22 23 24 25

Podemos comprobar si los vectores i, j son iguales mediante la función setequal:

o<-setequal(i,j)
o
## [1] FALSE

Graficamos los conjuntos

4.2 Diagrama de Benn

#install.packages("venn")
library("venn")
## Warning: package 'venn' was built under R version 4.2.2
a=venn(3)

venn("010",zcolor="blue",opacity=0.5)

Tres conjuntos con rótulos.

a=c(2,4,6,8,10,11)
b=c(1,2,3,4,5,6)
c=c(5,6,7,8,9,10)
d=list(a,b,c)
d
## [[1]]
## [1]  2  4  6  8 10 11
## 
## [[2]]
## [1] 1 2 3 4 5 6
## 
## [[3]]
## [1]  5  6  7  8  9 10
venn(d)

Con la librería ggVennDiagram

ggVennDiagram(list(i,j), label_alpha = 0)

5 Experimentos Aleatorios y Determinísticos.

Cuando hablamos de un experimento aleatorio estamos hablando de variables que pueden tomar un valor de manera aleatoria, es decir, donde interviene el azar y, por lo tanto, no podemos estar seguros de cual va a ser el valor siguiente que se obtendrá, solo podemos suponer una cierta probabilidad. En econometría y series de tiempo a este tipo de sucesos aleatorios se les suele denominar random walk. Dentro de las variables aleatorias, se les puede clasificar en dos principales:

[1] Aleatorias discretas: No pueden tomar ciertos valores de un conjunto.

[2] Aleatorias continuas: pueden tomar infinitos valores.

Un ejemplo clásico para entender lo que es un evento aleatorio es el lanzamiento de una moneda. Cuando lanzamos la moneda ésta solo puede adquirir dos valores posibles: cara o cruz, ¿qué probabilidad tenemos de obtener alguno de los dos lados de la moneda? En este caso tenemos dos opciones posibles, por lo que podríamos decir que la probabilidad es del 50%, pero cuando hagamos un experimento lanzando monedas de manera indefinida, por ejemplo, unas 100 veces, es posible que no obtengamos 50 caras y 50 cruces, ya que es un evento aleatorio. Vamos a replicar el experimento en la consola de R, esto lo podemos hacer de la siguiente manera:

Ejemplo de las dos monedas Espacio muestral: conjunto de todos los posibles resultados EM=(CC,C+,+C,++) nroEM=2*2=4

Lanzamiendo de dos dados EM=((1,1);(1,2);….;(6,5);(6,6)) EM=6*6=36

Lanzamiento de 100 dados? nroEM=6666…..*6=

nroEM=6^100
nroEM
## [1] 6.533186e+77

6 Sucesos y eventos

Puedes realizar el experimento en casa: toma una moneda y lanzala 20 veces. Anota tus resultados y luego transcribelos en R dandole valores a cara y sello. Resultado de tirar n = 20 veces la monada donde: Cara = 1 y Sello = 0.

moneda = c(0,1,0,0,1,0,1,1,0,0,1,0,0,1,1,0,0,1,0,1)

fr = table(moneda)/length(moneda)
print(fr)
## moneda
##    0    1 
## 0.55 0.45
# Call vtree and give the root node a title
vtree(edges1b,"from to",title="Lanzamiento de una moneda")
## Warning in knitr::include_graphics(fullpath): It is highly recommended to use
## relative paths for images. You had absolute paths: "C:/Users/Diego/AppData/
## Local/Temp/RtmpUfKOHO/vtree001.png"

7 Probabilidades

Definición clásica y frecuentista

Demostrar por definición de probabilidad clásica y frecuentista (simulaciones) los puntos a) La suma más probable al lanzar dos dados a) La suma más probable al lanzar cuatro dados a) La suma más probable al lanzar n dados

Cuando se lanza un solo dado

dado1=seq(1:36)
dado1
##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
## [26] 26 27 28 29 30 31 32 33 34 35 36
muestra1=sample(dado1, 30, replace = TRUE, prob = NULL)
muestra1
##  [1] 24 18 21 33 18 16 28 26 28 25 18 18 12 27 21 19 31 32  2 28 15 27 15  9 27
## [26] 34 33 13 36 34

Definir una funcion en R

media=function(x){sum(x)/length(x)}
x=c(1,2,3)
media(x)
## [1] 2

Cuando se lanza tres dados y se mide la suma de los tres resultados

t<-sapply(1:3000, function(x){sum(sample(1:6,3,rep=T))})
t
##    [1] 10 12  6 11  7 10 11 10 12 11 11  8 15  8  9 13  9  8 10  8  9 10 11  6
##   [25] 11 11 11 17  8  7  9 13 12 16 10  8 11 10  7 13 14  7  7 12 13 12 13 12
##   [49]  8 10 10  5 12 17 12 11 10  7 11 16 10 10 10 15 11  3 13 11 12 11  9  9
##   [73] 12 14  6  8 16 12  8  8 15 14 12  9  8 12  6  8 12 12  8 14 17  8 11 11
##   [97] 13 12  6  5 10  9 15  9  9 10 13 11  9 15 10  9  9  9 10  9 11  7 13  4
##  [121] 12 12 17 11 10  7 14  8  7 13  5 13 12 10  8 13 14 13 14 11 14 14 13 12
##  [145] 11 16  7  9 12  8  8  8  9  6 17 12 10 13 15 10 10  7  8  9 14  9 11  8
##  [169]  9  9 15  7  8  7  8  6 15 14 12  8 11 12  9 12 10  8  5 11 14 11 13  7
##  [193] 13  7 13  7  9 12  8  8 12 12 10 12 10 10 11  7 15  4 13  9 10 10 12  8
##  [217]  7  9 12 12  8  9 13  9 12  9 15  8  9  7 13 12  3 11 12  8  9  6 13  8
##  [241] 13  9 16  9 11 13 10 17  8  9  8 10  5 12 10  8 10 10 13 10  5 12 10 16
##  [265]  9 10 13 11  9  4 14  7 10  6  7 13  7 10  5 15  6 12  7 11 11 11  8 14
##  [289] 14 14  9  8 10  7  8 13  8  6  6  9 14 12 14 10 10  9 12  9 16  8 12  9
##  [313] 11  7  8  6 10 13  6 10 12  6  6 12 16 14 15 11 10  9 12  6  6 12 13  8
##  [337] 16 16  8  9  8  6  7 15 15  7 13  9  8 13 16 11 12 17 14  8 10 10  8 12
##  [361]  6 12 11 11 11 10 10 13 10 12  8 16  4 10  8 13 18 10 16 11 13 12  9  9
##  [385] 11 11 12 11  8 11  9 11 13 12  5  6 13  8  9 12  6 13 12  7 14 14  5 16
##  [409] 13 13 10 10  4  8  7 10  9  9  9 16  5 11  9  7 17 15  7 11 11 11 10  8
##  [433]  8 11 13 11 10  6 13 12  6 10  9 11  8 14  8 10 11 14 10 15 12 12 11  6
##  [457] 10 16 11 11 14  6 17 13 12  7  6  9 13  7  6 10 11  7  7 14 12 10 10 12
##  [481]  4 11 11 12  8 11  8 13  8 14 15 12 15  7 13 11 16  8  8 12 10  4 15 14
##  [505] 14  9  9 14 10  7 12 14  8 13 11 11 12  8 12  4 12 10  7  7 10  8 10 14
##  [529]  6 13  9  6  8 17 13 14 12 11  5 12 11  7  9 12 13  7 10 14 12 12  8 15
##  [553] 17 12 11  8  7 13  9 10 13 14 16  9 13 10 12 11 10  6  7 12  8  5 10 10
##  [577] 14 12 14 15  7  8 12 11  4 12 10 11 15  8  8 12 11  9  8 13  6 16 11 15
##  [601] 11  6 12  5  9  7  8  6  8 12  8 11  4 12 18  9  9  9  7 10 13  8  8 11
##  [625] 13  5  9 15  9 12 11 17 13  9 12  7 10 13  8  5  8 13  8 13 13 11 13 15
##  [649] 14  9 15  8  9 12  9 12  5 10 16  7  9  9  9 14 11 16 12 11  9 16  7  7
##  [673]  7 13  8 12 11  7  9 14 11 14  7  9 12 11  6 10  8  9  9 12  9  8 10 10
##  [697] 11 12  9 11 12  9 12 12  9 12 15 11  7 14  8 11 15  9 14  4  7 10  8  7
##  [721]  8 15 11 13 15 12  6 15 15 17 11  9  3 17  7 14 13  5  8 13 13  8 12  9
##  [745] 11  8 10  8 16 11 11 10 11 10  6 17 10 13 11 10 12  9  8 17 11  7 14  7
##  [769]  9  7 16 14 10  9  8  9 15 14  7  9 13 10 13 14 12 12  9  7 12 15  8 10
##  [793]  8  9 12 12 10 15  7 12  8 11 10  7 13 13  7 12 15  7 12 12 14  6  7 11
##  [817] 11  8 11  8  9  8 12  9 10 10 14 14  9  8  7 14  9 10 12 12 15 11 11 11
##  [841] 11  5  9 11  7  8  9 12 10  8 11  9  6  5 14  7  7 12 13 11 18  8  7 15
##  [865] 12  8 16 11  8 13 14 14 13 15  6 13 12  7 12 11  6 13 15  7 14 11  5  8
##  [889] 18 10  9 16 11  9 13  8 11  9 16 11 13  9  8  7  6 10  9  6  7  6 12 10
##  [913] 10  9 11 16  8 10 13 12 13 10 12 13 13  7 11  9  7  5  6 14 13 10 13  7
##  [937]  5  8  9 11  9  6 14  9 10 13 11 11  7  8  9 14 15 14  8 12  9 14 15  7
##  [961] 12 13  7 16 15 11 10 11  8 16 12 14  7 13  7  5 11  8  8  8 18  8 11 16
##  [985] 14 12 13 11  9 12 14 10 12 10  4  6  8 12  9 10 15  8 15 14  8 14 17 16
## [1009] 12 16 12  8 11  5 16 10  9 11  7 15  4 13 13  8 10 14 18 11  9 12 10  7
## [1033]  7 12 13  9 11  9  9 11  9  5 15 11 12 11  5  8 13  7 12 15  6 15 12 11
## [1057]  9 13 12  8 11  9 12  6  7 17 15  9 11 11  9 11 12 10  8 12 12  8 14  7
## [1081]  8 14 10 11 14 15 14  6 10 14 14  7 11 17 15 13 10 11 12 15 10  9 14 11
## [1105] 10  6 10 12 12  6  6 11  9  8 13  8 11 16 16  7 13  9  8 16 17 11 11 17
## [1129] 12  6  7 10  9 12 15 10  8 13 10 14  9 11  8 15 16  9  9 16 11 13 10 10
## [1153]  8  5 14 17  5  8  6  6 14 10  8 10  8 14 15 12 14 14 10 10  8  9  9 10
## [1177] 10  7 12 11 13  6 14 13 14 10 14 14 17 14 12 13 14  7  9  8 11 13 10 12
## [1201] 10 11  4 18 11 14 12 13 15  9  9 14 13 15  7 13 14 14 14  9  9 12  7 11
## [1225]  8  7  9 12  8 13 17  5 12  9 17 12 11 12 11  9 15 17 14 10  7 17  9 11
## [1249] 11 13 13 14 10 12  6 12 11  8  8  6 10  4 11  4 11  4  9  7 17  7 13  9
## [1273] 14 11 15 14  6 11  8 14 12 10 12 10 11 13  6 15  6 15  6  5 15 12 15  4
## [1297] 11 12 11 12 14  7 13 13 13 13 16 13 13  6 11 13  9  7  9 12 10 15 10 12
## [1321] 11 12  5 13 11 15  7 12 14 17 11  9  9 16 13 12 14 14 10 10 11  7  6 13
## [1345] 11 12 12 10 10  7  8 11  8  7  5 14 14 10 11  8  7 11 11 13 10  7  7  7
## [1369]  9  9 10 11  9 15 10 14  7 10 10 10 14 15 11 12  9 10  9 15  9 11 10  7
## [1393]  6  7 10 15 14  8  6  8  8 12 14 11  8  8  7 14  8  9  9  4  8  8 10 15
## [1417] 12 10  9 11 18  9 10 14  9 13 16 12 11 16 12  9  9 11  7  6  9  7 13 11
## [1441]  7  7  7  6 11 10  7 11 11 11 15 10 11  7  9 17  6  7 10 13  9 11 13 14
## [1465]  8 11 14 10  8 11  9  6  9 11  8  9 13 13 11 10 10  9 11  9 14  7 13  9
## [1489] 17 10 10  9  9  9  9 11 12  9  9 11  8 11 12 15 10  7  8  8 10  8 10 11
## [1513]  8 13  9 10 11 10  8 14 10  8 14 13  8  9 11 16 10 16 12 10 11  9 10  3
## [1537] 11  5  7 11 16 10 10 12  8 14 12 15 10 11  6  9  8 15 15 10 10  4 10 15
## [1561] 11  9 16 10 10  4 13  6 12 11  9 10 12  7 13  7  4 10  8 15 13  9 12 14
## [1585] 15  6 11 12  5 13  9 17 10  6  9  9 11  7 10 15  8 10  7 12 12 10 11 13
## [1609] 16 12 10 12 10 11 15  5 11 14 11 16 12 16  9 12 12  9 10 13  6 10  7 18
## [1633]  8 15  9  6 10 11 15 11  6 13 10  8  7  4  5 13 11  9  4  6 13 14 13 11
## [1657] 15 10 12 15 11 13  9 14 12 15  8 13 10 13  8 11  6  5 18 12 16 11  9 10
## [1681] 11 10  8 10  9 13 12  8 15  4 15 12 13 11  8  4  9  8 12 13 13 11 14 15
## [1705] 13 12 12  9 17 10  7 12 14 11 10  6 11 13  9 13 10 12 12 13 14 12  8 11
## [1729]  4 12 13 11 10 12 12 11  8  8 11 17  9  9 16  9  8  8 10 14 10 13 10 13
## [1753] 12  8  5  9 12  5 15  3 12 15  9 10 12 13  8 14 10  6 14 10 12 12 14 12
## [1777] 10 10  6 12  9 12  9 12  9 14 12 11  7  7 11  7 11 10 11  6 14  8  8 11
## [1801] 12 10  7 11 14 16 11 10 14 16 17  9 10 14 11 10 11 15 12 13 11 11  8  9
## [1825] 10 13 16 14 12 13 10 12 11  7 10  7 10 11 11 11 10 10 10 11  9  5  8 13
## [1849] 13 11  7  6 13  6 14 12 12 12 14 12 13  6  8 15 10  7 12 11  6 11 11 11
## [1873] 12  8  7 14 11 11 16  9 12  7 10 10 13 12 10  5 12 13 11 11  9 11  5 12
## [1897] 14 10  6 13 10 12 12 12 11  9  6  7  9  9 11  9  9 14 15 12 16 12 15  7
## [1921] 13 16 15  7 11 10 11 17  7 15 14 15 14 14  6 12  8 17 11 15 11 11 12 10
## [1945]  4  7 13  8  8  9  8  9  9 11  5 10  4 14  9  9  8 11 12 14 15 16 12 13
## [1969] 14  8  7 16 10 11  9 14 15  9  7  7  9 11 15 13  8  7 11 10 11  6 10 12
## [1993] 10 12  6  5  7 14  9  8 11  7  4  7 10 16 11  9  8  9 10 15 10 12  6 13
## [2017]  9  9 10  8 13 13 11 15 15 11 11  8 10 10 11 10 10  6 15 15 10 12 10 13
## [2041]  9  7  8  7  7 11 11  9 10 11 12 15 11 11 12 13 14 10  8 13 13  9 17  9
## [2065] 10 14 11 15 12 10 15 11  9  8 10  6 11 14 11  8 15 10 10  8 12  7  7 14
## [2089] 12 11 13  7 12 15  9 12 12 14 13 14 12 12 11  8 15  5 13  8 12 11 12 10
## [2113] 15  8 10 12 12  6 15 12 16 10 12  4  5  3 11 14  9  7 10 15 12  7 10  7
## [2137] 11 12 12 15 15  3  6 11 11 10  9 17 10 11 16 10 13 10 14 10 11  8 14 13
## [2161] 14 11 10  9 12 13  5 10 13 14  8 13 12 17  9  8  4 11 12  7 13 15 12  8
## [2185]  8 14  8 12 11  8 10  7  5 13 12 11  5  9  7 11 13  9  8 10  9 12 15 14
## [2209]  7 15 11 10 14 10 12 13  7 15  8 10 12 14 12 11  7 10 11 16  7 13  9  6
## [2233]  8 10  7 12  9 10 14  7 12 11 12  9 12  7 11 13 10  9 12 13  9 15 15 13
## [2257] 16 12  9  6 10 14 10 10  9 10  9 13 10 17 11 11 15 14  5 12  6 10 12 15
## [2281] 12  8 12 10  8 12  9 17 11  4 11 13 14  8 14 11  7 15 12  8 11 11  6 12
## [2305] 15 11  3 12 11 13 10  9 12 13 13  7 11  7  7 11 13 12  9 17  4  9  6  9
## [2329]  9 12 10  8  9 11  7 12  7 11 11 10 16 10 12  7  8 10 11 12 12  9 16 10
## [2353] 11 13  6  7  6 11  7 10  3 13 10 16  9 15  9 10  8  9  3 10  7 11 11  7
## [2377]  9 13 13 16  8 10 17 11  9 11  8 13  7  8 10 10 12  6  9 17 13 16 14 12
## [2401]  5 11 15 12  7  9 12  5  7 10  8 11 12 11  8 11  9  6  8  8  6  5  8  8
## [2425]  5 12 11 13 12 13 11  4  9 11 11 15 13  6  8  9 10 11 12 10  9 12 16 12
## [2449]  9  9 11  9 13  9  6  8 16 13 13  9  7 13  9 11 10 12 11  9  9  9 13 12
## [2473]  8 12 10  5 11 14 13 11  9  8  9 12 10  8 11 15 16 14  6 15 11  9 10 12
## [2497] 17 12 10  9  9  9 11 11  6 16 15 15  9  9  8 13 16 14 12 10  6  9 11 12
## [2521]  6  8  5 18  7  4  7  9  8  5  9 15 10  9 11 15  8 11 12 13  7 15 16 12
## [2545]  9  9  9 12 11  8  6  9  8  7 16  9  9 14  8 12 14 14 11 11  9  8 12 13
## [2569] 12 12 10  5  8  9 12 11 10  9  4 10  7 10 11  7 12 11 18 11  6 11  5  5
## [2593]  8 10 13 10  8 11  6  9 11  9 14  8 12  7  9 14  6 10 12  9  8  7 13  9
## [2617] 11 10 11 16 14  9 16 12 10 14 10  6  7 13 14  3  6  9  8  6 11 15 10  5
## [2641] 10 11 15 14  7  8 14  9 10 13  9  6 12 14  9 11 14  9  8 12 15  7  7 14
## [2665] 12 14 11 15 13  5 14 10 12 11  9 11  5  9 13 13 12  5 11  5  9 14  4 12
## [2689]  6 12  8  7 11 14  6 10 10 10  8  9 16 10 12 10 16 13  5 13 15 11  8 11
## [2713]  7 14  5  7  9 11  6  8 13  8  7 13 16 12  6  6  8 16 12 10  7 12  8 13
## [2737] 11 12 10 11  8  9  5  9  5 12  7 16 16  9 16 15  8 12  7 11  8  7  9 13
## [2761] 11 12 12 12 11 12 12 11  6 14 14 10 13  4  5 11  8  8 11  9  8 11  5 10
## [2785] 13 11 13 11  8 12  9 13 11 15 11 12 11 11 11 12  4 17 12  8  7 11  8  7
## [2809] 11 14  8  6  9  8 10 13 11 10 11 12 13 15  6 11 12  6 11 15 13 13  4 10
## [2833] 14 11 12 12  8 10 16 11  7 12  5  7  9  7 10  7  6 13 12 11 16 15 12 11
## [2857] 12  9  6 15 12 15 10  5  9 10 10  9  9  6 11  7 15 16  7  7 17 12 15  7
## [2881] 16  7  9 10 12 15 15  9  5 14  8 16 11  8  9 12 12  9 13 14 13  8  9 14
## [2905]  9  5  8 15 11  3  8  9 14  9  6 16 16 11  8  3 11 13 14  9 13  9 10  5
## [2929] 13 11  9 12 13 12 17  8  7  7 11 13 17  7  9  8  6  8 16 11 12 11 10 10
## [2953] 12 13 11  4  9 11  7 11  9 13  5  8 14 11 15  9 12  7 10 10 10 11 12  9
## [2977] 12 14 15  9 15 12  6 14 11 15 11 10 13 12 16  7  7  9  5 12  7 10  5  8
plot(table(t))

Desafío: Determinar la suma más probable al lanzar 6 dados simultáneamente

8 Probabilidad condicional

8.1 Probabilidad condicional

Es un concepto crucial en teoría de la probabilidad y subyace al propósito principal del análisis de regresión logística.

La probabilidad de un evento A después de que nos enteramos de que se ha producido el evento B se denomina probabilidad condicional de A dado B. Formalmente:

\[\mathbb{P}(A \mid B)\]

Ejemplo: - Experimento: tirar un dado “justo” - Espacio muestral, \(\Omega: \{1,2,3,4,5,6\}\) - A es el evento de obtener un cuatro o más, \(A: \{4,5,6\}\) - B es el evento de obtener un número par, \(B: \{2,4,6\}\)

Supongamos que tiramos el dado pero no miramos el resultado todavía. Una tercera persona nos dice que obtuvimos un número par.

Pregunta: ¿Cuál es la probabilidad de obtener un cuatro o más una vez que sabemos que el resultado es un número par?

Formalmente, nuestra pregunta se expresa del siguiente modo: \(\mathbb{P}(A \mid B )\). Para calcular esta probabilidad utilizamos la siguiente fórmula:

\[\mathbb{P}(A \mid B ) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)}\] Intuitivamente, queremos saber en qué proporción de los casos en que B ocurre, A también ocurre.

\[\mathbb{P}(A \mid B ) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)}\]

Donde, - \(\mathbb{P}(B)\) es la probabilidad de que B ocurra: obtener un número - \(\mathbb{P}(A,B)\) es la probabilidad de que A y B ocurran conjuntamente: obtener un número .bold[par, igual o superior a 4

\[\begin{align} \mathbb{P}(A | B ) &= \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)} \\ \\ &= \frac{\mathbb{P}(\text{dado=4 o dado=6}) }{\mathbb{P}(\text{dado=2 o dado=4 o dado=6})} \\ \\ &= \frac{2/6}{3/6} = \frac{1}{3} \times 2 \end{align}\]

8.2 Teorema de Bayes

La probabilidad de A dado B está definida como:

\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad (1)\]

Por tanto, la probabilidad de B dado A está definida como:

\[\mathbb{P}(B \mid A) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(A)} \quad \quad \quad \quad \quad (2)\]

Por tanto:

\[\mathbb{P}(A,B) = \mathbb{P}(B \mid A)\mathbb{P}(A) \quad \quad \quad \quad (3)\]

Reemplazando (3) en (1) obtenemos:

\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(B \mid A)\mathbb{P}(A)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad \] Entonces, si

\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(B \mid A)\mathbb{P}(A)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad \]

re-ordenando la expresión encontramos …

Teorema de Bayes: \[\mathbb{P}(B \mid A) = \frac{\mathbb{P}(A \mid B)\mathbb{P}(B)}{\mathbb{P}(A)} \quad \quad \quad \quad \quad \]

Bayes’ theorem in three panels

https://www.r-bloggers.com/2020/03/bayes-theorem-in-three-panels

Problema: Supongamos que un 5% de la población son mujeres (M) con estudios universitarios completos (U). Las mujeres representan un 55% de la población. Un 20% de la población tiene estudios universitarios completos. Pregunta:

  1. ¿Cuál es la probabilidad de que una mujer tenga estudios universitarios completos?

\[ \begin{align} \mathbb{P}(U \mid M) = \frac{\mathbb{P}(U,M)}{\mathbb{P}(M)} = \frac{0.05}{0.55} \approx 0.09 \end{align} \]

  1. ¿Cuál es la probabilidad de que una persona con estudios universitarios completos sea mujer?

\[ \begin{align} \mathbb{P}(M \mid U) = \frac{\mathbb{P}(U,M)}{\mathbb{P}(U)} = \frac{0.05}{0.2} = 0.25 \end{align} \]

  1. ¿Cuál es la probabilidad de que una persona con estudios universitarios completos sea hombre (H)? $$ \[\begin{align} \mathbb{P}(H \mid U) = \frac{\mathbb{P}(U,H)}{\mathbb{P}(U)} = 1- \mathbb{P}(M | U) = 1 - 0.25 = 0.75 \end{align}\]

$$

  1. ¿Cuál es la probabilidad de que un hombre tenga estudios universitarios completos?

Problema: Supongamos que enviamos una encuesta a 300 personas preguntándoles qué deporte les gusta más: Voleibol, Basket, Fútbol o Tenis. a) Calcular la probabilidad de que sea mujer, dado que el individuo prefiere el básket b) Calcular la probabilidad de que sea hombre, dado que el individuo prefiere el fútbol c) Calcular la probabilidad de que sea mujer, dado que el individuo prefiere el básket d) Calcular la probabilidad de que el individuo prefiera el tenis c) Calcular la probabilidad de que el individuo prefiere el Voleibol

Problema: Calcular y demostrar la probabilidad medante teorema de Bayes del siguiente ejercicio: Un fabricante de teléfonos celulares compra un microchip en particular denominado “LS-24” a 3 proveedores Hall Electronics, Schuller Sales,y Crawford Components. Del total de piezas 30% la adquiere Hall Electronics; 20% de Schuller Sales y el restante 50% de crawford. El fabricante cuenta con amplias historiales con los 3 proveedores y reconoce los porcentajes de defecto de los dispositivos de cada proveedores: 3% Hall Electronics 5% Schuller sales 4% Crawford Componens Cuando el fabricante recibe el material y lo lleva directamente a un depósito y no lo inspecciona ni lo identifica con el nombre de proveedor. Un trabajador selecciona un microchip para instalarlo y lo encontró defectuoso. ¿Cual es la probabibilidad que lo hayan fabricado Schuler Sales?

8.3 Encuesa Permanente de Hogares

define data frame

df1 <- data.frame(var1=c(4, 13, 7, 8),
                  var2=c(15, 9, 9, 13),
                  var3=c(12, 12, 7, 5))
df1
##   var1 var2 var3
## 1    4   15   12
## 2   13    9   12
## 3    7    9    7
## 4    8   13    5

define second data frame

df2 <- data.frame(var1=c(4, 13),
                  var2=c(9, 12),
                  var3=c(6, 6))
df2
##   var1 var2 var3
## 1    4    9    6
## 2   13   12    6

append the rows of the second data frame to end of first data frame

df3 <- rbind(df1, df2)
df3
##   var1 var2 var3
## 1    4   15   12
## 2   13    9   12
## 3    7    9    7
## 4    8   13    5
## 5    4    9    6
## 6   13   12    6

9 Importar los microdatos de la EPH

9.1 Descargar los microdatos

#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2021/data/9e824reg02_ephc2021.csv"
#download.file(url,"EPH2021.csv")

9.2 Leer los microdatos

eph2021=read.csv("EPH2021.csv",sep =";")
#str(eph2021)
names(eph2021)
##   [1] "UPM"                 "NVIVI"               "NHOGA"              
##   [4] "DPTOREP"             "AREA"                "L02"                
##   [7] "P02"                 "P03"                 "P04"                
##  [10] "P04A"                "P04B"                "P05C"               
##  [13] "P05P"                "P05M"                "P06"                
##  [16] "P08D"                "P08M"                "P08A"               
##  [19] "P09"                 "P10A"                "P10AB"              
##  [22] "P10Z"                "P11A"                "P11AB"              
##  [25] "P11Z"                "P12"                 "A01"                
##  [28] "A01A"                "A02"                 "A03"                
##  [31] "A04"                 "A04B"                "A04A"               
##  [34] "A05"                 "A07"                 "A08"                
##  [37] "A10"                 "A11A"                "A11M"               
##  [40] "A11S"                "A12"                 "A13REC"             
##  [43] "A14REC"              "A15"                 "A16"                
##  [46] "A17A"                "A17M"                "A17S"               
##  [49] "A18"                 "A18A"                "B01REC"             
##  [52] "B02REC"              "B03LU"               "B03MA"              
##  [55] "B03MI"               "B03JU"               "B03VI"              
##  [58] "B03SA"               "B03DO"               "B04"                
##  [61] "B05"                 "B05A"                "B06"                
##  [64] "B07A"                "B07M"                "B07S"               
##  [67] "B08"                 "B09A"                "B09M"               
##  [70] "B09S"                "B10"                 "B11"                
##  [73] "B12"                 "B12A"                "B12B"               
##  [76] "B12C"                "B13"                 "B14"                
##  [79] "B15"                 "B16G"                "B16U"               
##  [82] "B16D"                "B16T"                "B17"                
##  [85] "B18AG"               "B18AU"               "B18BG"              
##  [88] "B18BU"               "B19"                 "B20G"               
##  [91] "B20U"                "B20D"                "B20T"               
##  [94] "B21"                 "B22"                 "B23"                
##  [97] "B24"                 "B25"                 "B26"                
## [100] "B271"                "B272"                "B28"                
## [103] "B29"                 "B30"                 "B31"                
## [106] "C01REC"              "C02REC"              "C03"                
## [109] "C04"                 "C05"                 "C06"                
## [112] "C07"                 "C08"                 "C09"                
## [115] "C101"                "C102"                "C11G"               
## [118] "C11U"                "C11D"                "C11T"               
## [121] "C12"                 "C13AG"               "C13AU"              
## [124] "C13BG"               "C13BU"               "C14"                
## [127] "C14A"                "C14B"                "C14C"               
## [130] "C15"                 "C16REC"              "C17REC"             
## [133] "C18"                 "C18A"                "C18B"               
## [136] "C19"                 "D01"                 "D02"                
## [139] "D03"                 "D04"                 "D05"                
## [142] "E01A"                "E01B"                "E01C"               
## [145] "E01D"                "E01E"                "E01F"               
## [148] "E01G"                "E01H"                "E01I"               
## [151] "E01J"                "E01K"                "E01L"               
## [154] "E01M"                "E02D1"               "E02D2"              
## [157] "E02B"                "ED01"                "ED02"               
## [160] "ED03"                "ED0504"              "ED06C"              
## [163] "ED08"                "ED09"                "ED10"               
## [166] "ED11F1"              "ED11F1A"             "ED11GH1"            
## [169] "ED11GH1A"            "ED12"                "ED13"               
## [172] "ED14"                "ED14A"               "ED15"               
## [175] "S01A"                "S01B"                "S02"                
## [178] "S03"                 "S03A"                "S03B"               
## [181] "S03C"                "S04"                 "S05"                
## [184] "S06"                 "S07"                 "S08"                
## [187] "S09"                 "CATE_PEA"            "TAMA_PEA"           
## [190] "OCUP_PEA"            "RAMA_PEA"            "HORAB"              
## [193] "HORABC"              "HORABCO"             "PEAD"               
## [196] "PEAA"                "TIPOHOGA"            "FEX"                
## [199] "NJEF"                "NCON"                "NPAD"               
## [202] "NMAD"                "TIC01"               "TIC02"              
## [205] "TIC03"               "TIC0401"             "TIC0402"            
## [208] "TIC0403"             "TIC0404"             "TIC0405"            
## [211] "TIC0406"             "TIC0407"             "TIC0408"            
## [214] "TIC0409"             "TIC0501"             "TIC0502"            
## [217] "TIC0503"             "TIC0504"             "TIC0505"            
## [220] "TIC0506"             "TIC0507"             "TIC0508"            
## [223] "TIC0509"             "TIC0510"             "TIC0511"            
## [226] "TIC0512"             "TIC0513"             "TIC06"              
## [229] "TIC07"               "añoest"              "ra06ya09"           
## [232] "e01aimde"            "e01bimde"            "e01cimde"           
## [235] "e01dde"              "e01ede"              "e01fde"             
## [238] "e01gde"              "e01hde"              "e01ide"             
## [241] "e01jde"              "e01kde"              "e01lde"             
## [244] "e01mde"              "e01kjde"             "e02bde"             
## [247] "ingrevasode"         "ingrepytyvõde"       "ingresect_privadode"
## [250] "ipcm"                "pobrezai"            "pobnopoi"           
## [253] "quintili"            "decili"              "quintiai"           
## [256] "decilai"             "informalidad"
#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2020/data/55f07reg02_ephc2020.csv"
#download.file(url,"EPH2020.csv")
eph2020=read.csv("EPH2020.csv",sep =";")
#head(eph2020)
#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2019/data/4edb7reg02_ephc2019.csv"
#download.file(url,"EPH2019.csv")
eph2019=read.csv("EPH2019.csv",sep =";")
#head(eph2019)
#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2018/data/3493ereg02_ephc2018.csv"
#download.file(url,"EPH2018.csv")
eph2018=read.csv("EPH2018.csv",sep =";")
#head(eph2018)
eph2018s=subset(eph2018,P02>14,select=c("AREA","P06","P02","e01aimde","PEAA","FEX","CATE_PEA"))
eph2018s$year <- 2018
#head(eph2018s)
names(eph2018s)
## [1] "AREA"     "P06"      "P02"      "e01aimde" "PEAA"     "FEX"      "CATE_PEA"
## [8] "year"

9.3 Se seleccionan algunas variables de interes

# select variables v1, v2, v3
eph2019s <- subset(eph2019, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX","CATE_PEA"))
eph2019s$year <- 2019
names(eph2019s)
## [1] "AREA"     "P06"      "PEAA"     "P02"      "e01aimde" "FEX"      "CATE_PEA"
## [8] "year"
eph2020s <- subset(eph2020, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX","CATE_PEA"))
eph2020s$year <- 2020
names(eph2020s)
## [1] "AREA"     "P06"      "PEAA"     "P02"      "e01aimde" "FEX"      "CATE_PEA"
## [8] "year"
eph2021s <- subset(eph2021, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX","CATE_PEA"))
eph2021s$year <- 2021
names(eph2021s)
## [1] "AREA"     "P06"      "PEAA"     "P02"      "e01aimde" "FEX"      "CATE_PEA"
## [8] "year"

9.4 Juntar las bases en una sola

eph2018a2021 <- rbind(eph2018s, eph2019s,eph2020s,eph2021s)
#head(eph2018a2021)

9.4.1 Exploramos la base compilada

str(eph2018a2021)
## 'data.frame':    51664 obs. of  8 variables:
##  $ AREA    : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ P06     : int  6 1 6 6 1 6 1 6 6 1 ...
##  $ P02     : int  60 21 36 79 26 20 21 72 30 33 ...
##  $ e01aimde: chr  "0" "2657944,294" "1005870,841" "170998,043" ...
##  $ PEAA    : int  3 1 1 1 1 1 2 1 1 1 ...
##  $ FEX     : int  393 393 393 519 519 519 519 225 343 416 ...
##  $ CATE_PEA: int  NA 2 6 4 2 2 2 4 3 3 ...
##  $ year    : num  2018 2018 2018 2018 2018 ...
eph2018a2021$e01aimdec = as.numeric(gsub(",", ".", as.character(eph2018a2021$e01aimde)))
summary(eph2018a2021$e01aimdec)
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##         0         0    500000   1358883   2000000 323372117
hist(eph2018a2021$e01aimdec )

PEAA condición de ocupación

table(eph2018a2021$PEAA)
## 
##     1     2     3 
## 34704  1965 14995
eph2018a2021$PEAA <- factor(eph2018a2021$PEAA, labels = c("Ocupados", "Desocupados", "Inactivos"))

table(eph2018a2021$PEAA,eph2018a2021$year)
##              
##               2018 2019 2020 2021
##   Ocupados    9013 9046 8587 8058
##   Desocupados  460  478  531  496
##   Inactivos   3880 3745 3765 3605
addmargins(table(eph2018a2021$PEAA,eph2018a2021$year),c(1,2))
##              
##                2018  2019  2020  2021   Sum
##   Ocupados     9013  9046  8587  8058 34704
##   Desocupados   460   478   531   496  1965
##   Inactivos    3880  3745  3765  3605 14995
##   Sum         13353 13269 12883 12159 51664

Edad

summary(eph2018a2021$P02)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   15.00   25.00   38.00   40.64   54.00  106.00
boxplot(eph2018a2021$P02)

hist(eph2018a2021$P02)

AREA (AREA)

table(eph2018a2021$AREA)
## 
##     1     6 
## 28200 23464

Eliminar de los ingresos los valores nulos y mayores a 100.000.000

ephing <- subset(eph2018a2021, e01aimdec > 0 & e01aimdec < 100000000 & P02   >=  15  & PEAA == "Ocupados")
head(ephing)
##    AREA P06 P02    e01aimde     PEAA FEX CATE_PEA year e01aimdec
## 2     1   1  21 2657944,294 Ocupados 393        2 2018 2657944.3
## 8     1   6  36 1005870,841 Ocupados 393        6 2018 1005870.8
## 9     1   6  79  170998,043 Ocupados 519        4 2018  170998.0
## 10    1   1  26 2124964,517 Ocupados 519        2 2018 2124964.5
## 11    1   6  20 1810567,515 Ocupados 519        2 2018 1810567.5
## 14    1   6  72  804696,673 Ocupados 225        4 2018  804696.7
eph2018a2021$AREA <- factor(eph2018a2021$AREA, labels = c("Urbana", "Rural"))

table(eph2018a2021$AREA)
## 
## Urbana  Rural 
##  28200  23464

9.4.2 Sexo (P06)

# una gráfica para sexo
pie(table(eph2018a2021$P06),labels = c("Hombres","Mujeres"), main="Pie Chart",edges = 200)

eph2018a2021$P06 <- factor(eph2018a2021$P06, labels = c("Hombres", "Mujeres"))

table(eph2018a2021$P06)
## 
## Hombres Mujeres 
##   25351   26313
addmargins(table(eph2018a2021$P06,eph2018a2021$AREA),c(1,2))
##          
##           Urbana Rural   Sum
##   Hombres  13232 12119 25351
##   Mujeres  14968 11345 26313
##   Sum      28200 23464 51664

Cuál es la probabilidad de que una encuestado resulte ser Hombre y vivir en el área Rural

P_RyH=12119/51664
P_RyH
## [1] 0.2345734

\[P_RdadoqH_=P(RyH)/P(H)\]

P_RdadoqH_=(12119/51664)/(25351/51664)
P_RdadoqH_=(12119)/(25351)
P_RdadoqH_
## [1] 0.4780482

\[P(H/R)=P(HyR)/P(R)\]

P_HdadoqR_=13232/25351
P_HdadoqR_
## [1] 0.5219518

¿La probabilidad de estar desocupado dado que el entrevistado es un hombre?

addmargins(table(eph2018a2021$P06,eph2018a2021$PEAA),c(1,2))
##          
##           Ocupados Desocupados Inactivos   Sum
##   Hombres    20434         869      4048 25351
##   Mujeres    14270        1096     10947 26313
##   Sum        34704        1965     14995 51664

P_DESdadoqH

P_DESdadoqH=866/25351
P_DESdadoqH
## [1] 0.03416039

P_DESdadoqM

P_DESdadoqM=1096/26313
P_DESdadoqM
## [1] 0.04165242

Obtener la probb de que una persona menor de 30 años y que vive en el área rural esté ocupada

Ingreso en la ocupación principal

ephing <- subset(eph2018a2021, e01aimdec > 0 & e01aimdec < 100000000 & P02   >=  15  & PEAA == "Ocupados")
head(ephing)
##      AREA     P06 P02    e01aimde     PEAA FEX CATE_PEA year e01aimdec
## 2  Urbana Hombres  21 2657944,294 Ocupados 393        2 2018 2657944.3
## 8  Urbana Mujeres  36 1005870,841 Ocupados 393        6 2018 1005870.8
## 9  Urbana Mujeres  79  170998,043 Ocupados 519        4 2018  170998.0
## 10 Urbana Hombres  26 2124964,517 Ocupados 519        2 2018 2124964.5
## 11 Urbana Mujeres  20 1810567,515 Ocupados 519        2 2018 1810567.5
## 14 Urbana Mujeres  72  804696,673 Ocupados 225        4 2018  804696.7
summary(ephing$e01aimdec)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      125   800000  1790674  2248055  2612195 99581213
boxplot(ephing$e01aimdec,ephing$P06)

hist(ephing$e01aimdec)

#Media ponderada de "E01AIMDE" total Nivel País en miles de guaraníes (a un decimal)
round(mean(ephing$e01aimdec),1)
## [1] 2248055
round(weighted.mean(ephing$e01aimdec , ephing$FEX),1)
## [1] 2342233
#library(ggplot2)

10 Estadísticas por categorías de variables

10.1 AREA

ephing <- ephing %>%
  group_by(AREA) %>%
  mutate(ingresoprom=mean(e01aimdec))
ephing %>%
  group_by(AREA) %>%
  summarise(ingresoprom=mean(e01aimdec),
            edadprom=mean(P02))
## # A tibble: 2 × 3
##   AREA   ingresoprom edadprom
##   <fct>        <dbl>    <dbl>
## 1 Urbana    2629456.     39.3
## 2 Rural     1729959.     42.1

10.2 CATE_PEA

table(ephing$CATE_PEA)
## 
##     1     2     3     4     6 
##  3286 11472  1695 12015  2295
ephing$CATE_PEA <- factor(ephing$CATE_PEA, labels = c("F. Públicos", "Privados","Empleadores","Cuenta propia","Domésticos"))

table(ephing$CATE_PEA)
## 
##   F. Públicos      Privados   Empleadores Cuenta propia    Domésticos 
##          3286         11472          1695         12015          2295
addmargins(prop.table(table(ephing$CATE_PEA,ephing$year),margin=2),c(1,2))
##                
##                       2018       2019       2020       2021        Sum
##   F. Públicos   0.10961634 0.11020002 0.10795829 0.09860740 0.42638206
##   Privados      0.37580967 0.37892906 0.36294048 0.37347025 1.49114945
##   Empleadores   0.05929248 0.05938626 0.05318728 0.04754537 0.21941138
##   Cuenta propia 0.37830095 0.37246863 0.40688927 0.40751161 1.56517045
##   Domésticos    0.07698057 0.07901603 0.06902468 0.07286538 0.29788666
##   Sum           1.00000000 1.00000000 1.00000000 1.00000000 4.00000000
  ephing2<-subset(ephing,year=2021)
ephing2 %>%
  group_by(CATE_PEA) %>%
  summarise(ingpromCATE=mean(e01aimdec),
            edadpromcate=mean(P02))
## # A tibble: 5 × 3
##   CATE_PEA      ingpromCATE edadpromcate
##   <fct>               <dbl>        <dbl>
## 1 F. Públicos      3972580.         41.2
## 2 Privados         2360321.         33.6
## 3 Empleadores      5696315.         46.2
## 4 Cuenta propia    1374130.         47.0
## 5 Domésticos       1246180.         35.9

10.3 Simulación Estadística

Simulación es una técnica numérica para conducir experimentos en una computadora digital. Estos experimentos comprenden ciertos tipos de relaciones matemáticas y lógicas, las cuales son necesarias para describir el comportamiento y la estructura de sistemas complejos del mundo real a través de largos períodos de tiempo (naylor1982?).

Otra definición de simulación la realiza Robert E. Shannon como: Es el proceso de diseñar y desarrollar un modelo computarizado de un sistema o proceso y conducir experimentos con este modelo con el propósito de entender el comportamiento del sistema o evaluar varias estrategias con las cuales se puede operar el sistema (shannon1975?).

Una simulación en el programa R consiste básicamente en escribir los códigos necesarios para reproducir las condiciones de un experimento aleatorio, donde se procura replicar el comportamiento de una variable aleatoria mediante un modelo matemático, con el fin de obtener una estimación al respecto de un resultado o un conjunto de resultados de interés y el valor de su probabilidad de ocurrencia.

En el Ejemplo dado a continuación se desarrolla la simulación del experimento aleatorio que consiste en obtener una muestra de tamaño 5 con reposición a partir de una población P que consiste en los primeros 10 números naturales (sin el cero). En este caso, los posibles resultados del experimento son todas las muestras posibles de tamaño 5 que puedan resultar de la población P, si no se repone el número extraído en cada extracción sucesiva.

10.4 Muestras aleatorio simple con R

# Muestra aleatoria extraída CON REPOSICIÓN de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
P
##  [1]  1  2  3  4  5  6  7  8  9 10
# Muestra aleatoria extraída CON REPOSICIÓN de la población P
muestra1=sample(P,8,rep=T)
muestra1
## [1] 7 5 9 6 9 9 6 5

Repetir el muestro varias veces

muestras10=sapply(1:50,function(y){(sample(P,25,rep=T))})
muestras10
##       [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12] [,13]
##  [1,]    9    6    9    7    8    4    3    7    6     6     8     5     8
##  [2,]    9   10    9    3    4    9    6    1    4     4     8     4     2
##  [3,]    4    8   10   10    4    8    1    8    9     6     3     9     9
##  [4,]    8    5    9    3    6    5    9    1    6     9     6     4     3
##  [5,]    6    5    2    1    6    6    9    7    2     7     6     1     2
##  [6,]    6    6    1    7    7    4   10    7    5     5     8     5     6
##  [7,]    1    8    8    6    3    9    5    5    5     5     2     5    10
##  [8,]    2    6    6    8    3    3    9    5    9     1     1     3     7
##  [9,]    7    7    7    7    3    2    4    4    9     1     3    10     2
## [10,]    6   10    4    3    3    8    9    8    5    10    10     6     3
## [11,]    5    5    7    1    4    3    8    4    7     9     5     9     2
## [12,]    7   10    2    3    1    4    5    1   10     3     2     7     2
## [13,]    4    4    3   10    2    6    3    6    8     8     9     9     3
## [14,]    6    3    4    4   10    8   10    3    2     4     4     9     4
## [15,]    5   10    1    2    7    6    9    6   10     6    10    10     5
## [16,]    2    4    5    5    5    7    2    1    6     6     4     6     2
## [17,]    9    3    5    1   10   10    7    5    5     8     4    10     3
## [18,]    5    7    9    2    2    2    5    1    5     8     2     6     5
## [19,]    8   10    6    2    1    3    7   10    3     1     3    10    10
## [20,]    5    5    2   10    6    4    7    7    9     7     7     3    10
## [21,]    1    8    6    5    1    5    1    3    2     2     4     6     4
## [22,]    9    6    7    1    2    5    1    8   10     1     3     3     6
## [23,]    8    4    8    4    8    4   10   10    2     9    10     2     7
## [24,]    8    6   10    6    3    3    2    4    5     8     6     5     9
## [25,]    1    5    6    5    5    2    3    8    6     8     8     2     2
##       [,14] [,15] [,16] [,17] [,18] [,19] [,20] [,21] [,22] [,23] [,24] [,25]
##  [1,]     3     7     9     2     4     4     8     1     6     3     5     2
##  [2,]     6     3     8     5     9     7     4     3    10     7     4     4
##  [3,]     7     8     5     9     7     9     5     1     3     9     3     5
##  [4,]     7     3     2    10     8     6     4    10     6    10    10     1
##  [5,]     1     9     8     8     1     7     9    10     5     5     7    10
##  [6,]     7     5     1     9     7     6     8     7     4     1     1     5
##  [7,]     3     6    10     3     7     4     4     8     2     9    10     5
##  [8,]     8     9     5     4     1     6     6     6    10     5     1    10
##  [9,]     7     6     2     1     2     9     5     9     9     6     4     1
## [10,]     3     2     1     4     2     6     4     6     4     1     6     5
## [11,]     9     7     8     9     2     2     6     5     8     9     4     7
## [12,]     5     2     6     6     1     4    10     6     2     6     4     2
## [13,]    10     2     7     7    10     6     1     6     2     1     9    10
## [14,]     5     7     6     4     5     3     1     8    10     9     6     4
## [15,]     4     2     6     5    10     7     3     2     6     3     1     2
## [16,]     2     3    10     6    10     3    10     3     7     9    10     9
## [17,]     1     5     4     5     3     4     6     9     8     4     7     2
## [18,]    10     7     2     5     1     5     4     1     8     5     2     6
## [19,]    10     9     9     2     9     1     6     2     7     6     5     4
## [20,]     5    10     5    10     1     8     3     2    10    10     2     3
## [21,]     2     6     2     2     8     7     3     7     3     5     6     8
## [22,]    10     8     8    10     2     8     3     3     5     4     8     2
## [23,]     7     4     8     9     2     1     6     2    10     7     8     8
## [24,]    10    10     4     9     1     4     2     4     3     6     7     3
## [25,]     3     3     8     6     9     5     1    10    10     7     8     1
##       [,26] [,27] [,28] [,29] [,30] [,31] [,32] [,33] [,34] [,35] [,36] [,37]
##  [1,]     4     4     7     2    10     6     1     8     2     5     1     9
##  [2,]     2     5     7     2     7    10     8     5     8     2     1     9
##  [3,]     1     3     8     7    10     1     1     1     9     6     9     8
##  [4,]     5     6     6     3     7     2     9     7     8     9    10     7
##  [5,]     6     4     6     4     5     1     7     8     2     1    10     3
##  [6,]     6     9     7    10     3     4     5     1     6     7     7     2
##  [7,]     1     5     8     6    10     8     9     4     8     5     8     3
##  [8,]     2     8     8     4     2     4     2     3     4     7    10     1
##  [9,]     6     8     9     2     2     9     8     6     3     4     5     3
## [10,]     1     7     6     5     1    10     2     4     2    10     5     8
## [11,]     7     5     5     8     9     7     8     4     8     1     6     9
## [12,]     1     3     9    10     1     6     2     2     7     7     8     4
## [13,]    10     3     6     8    10     9     3     1     9     5     9     5
## [14,]    10     1     2     4     4     5     9     2    10     6     1     8
## [15,]     8    10     5     1     7     8    10     1     1     4     5     6
## [16,]     4    10     3     1     6     9     5     2     9     6     2     4
## [17,]     8     9     9     4    10     5     7     2     2     3     4     2
## [18,]     7     7     3     7     4     3     5    10     3     7     9     4
## [19,]     2     6     4    10     2     5     5     3     1    10     6     7
## [20,]     3     1     8     4     4     1     3     4     9     3     2     3
## [21,]     7     3     1     6     3     9     7     2     9     6     6     5
## [22,]     1    10     4     5     4     8     6     2     6     6     9     5
## [23,]     8     1     4     8    10     8     5     8    10    10    10     3
## [24,]     5    10     5     3     2     8     7     1     6    10     2     3
## [25,]     7     3     6     3     3     6     6     1     2     7     9     7
##       [,38] [,39] [,40] [,41] [,42] [,43] [,44] [,45] [,46] [,47] [,48] [,49]
##  [1,]    10     3     7     7     2     6     8     6     8     7    10     4
##  [2,]     3    10     2     1     8    10     7     4     4     8     3     8
##  [3,]     3     8     5     5     3     7     8     5     7    10     3     9
##  [4,]     6     7     4     8     6     3     2     2     3     9     3    10
##  [5,]     5     3     9     5     8     8     1    10     5     4     4     9
##  [6,]     2     8     9     5     6     5     1     1    10     6     5    10
##  [7,]     8     7     8     7     6     8     1     7     2     5    10    10
##  [8,]    10     2     1     7     1    10     2     2     4     9     9     2
##  [9,]     7     6     7     9    10     1     8     9     1     6     4     9
## [10,]     6     8     5     5     9     7     1     2     4     9    10     6
## [11,]    10    10     6     7     9    10     8     2     1     1     5     6
## [12,]     7     3     8    10     3    10     9     6    10    10    10    10
## [13,]     1     2     1     8     7     6     1     1     9     3     6     2
## [14,]     4     2     8    10     3     7     1     3     7     2     9    10
## [15,]     3     6     2     2     6     4     4     5     6     1     8     5
## [16,]     4     9     7    10     5     1     8    10     6     6     1     4
## [17,]     2     8     9     9     8     9     9     8     2    10     3     5
## [18,]     7     8     3     6     3    10     9     5     5     2     5     7
## [19,]     5    10     1     7     3     3     5     7     9     3     8     4
## [20,]    10    10     6     6     4     9     8     2     1     2     7     3
## [21,]     8     1     7     7     1     1     6     1     1     7     6     5
## [22,]     1     6     4     5    10     3     5     4     4     2     3     5
## [23,]    10     4     5     7     1    10     5     2     9     8     1     7
## [24,]     8     4     6     8     1     8    10     6     3     2     6     5
## [25,]     6     1     4     4     2     6     4     6     2     5     6     3
##       [,50]
##  [1,]     7
##  [2,]     1
##  [3,]     7
##  [4,]    10
##  [5,]     5
##  [6,]     3
##  [7,]     7
##  [8,]     9
##  [9,]     2
## [10,]    10
## [11,]     6
## [12,]     1
## [13,]     5
## [14,]    10
## [15,]     6
## [16,]     3
## [17,]     5
## [18,]     1
## [19,]     1
## [20,]     7
## [21,]    10
## [22,]     7
## [23,]     1
## [24,]     4
## [25,]     4

Qué ocurre con la probabilidad de obtener el valor 5?

frecrel=(table(muestras10))/length(muestras10)
frecrel
## muestras10
##      1      2      3      4      5      6      7      8      9     10 
## 0.0984 0.1024 0.0952 0.0936 0.1056 0.1144 0.0968 0.0976 0.0872 0.1088
barplot(frecrel)

#las identificaciones de 1000 trabajadores de una empresa
ide=seq(1001,2000,1)
set.seed(333)
n <- 1000
s_size <- round(.01*n,0)
s_size
## [1] 10
#la muestra 
psuedoData <- ide[sample(x=1:n,size=s_size,replace=T)]
table(psuedoData)
## psuedoData
## 1002 1067 1295 1311 1316 1425 1556 1578 1646 1910 
##    1    1    1    1    1    1    1    1    1    1

¿si en la empresa 80% son mujeres, será representativa la muestra aleatoria simple?

#p es la proporciòn de mujeres en la poblaciòn
p=0.8
sexo=rbinom(1000,1,p)
sexo
##    [1] 1 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 0 0 1 1 1 1
##   [38] 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0
##   [75] 1 0 1 1 1 0 0 1 1 1 1 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1
##  [112] 0 0 1 0 1 1 0 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1
##  [149] 1 1 1 1 0 1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 1 0 1 1 1 0 0 0 1 1 1 1 1 1 1 1
##  [186] 1 1 1 1 1 1 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1
##  [223] 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 0 0 1 1 0 1 1 1 0 1 1 1 0 1 1 1 0 1 1 1
##  [260] 1 1 1 1 1 1 0 1 1 0 1 1 1 0 1 1 1 0 1 1 0 0 0 0 1 1 1 1 1 1 1 0 0 1 0 1 1
##  [297] 1 1 1 0 1 1 1 1 0 1 1 1 1 1 0 1 1 0 1 1 0 0 0 1 1 1 1 0 1 0 1 1 1 0 1 1 0
##  [334] 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1
##  [371] 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 0 1 0 0 1 0 1
##  [408] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 0 0 0 1 1 1 1 0 1 1 1 1 0
##  [445] 1 1 1 0 1 0 1 1 1 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1
##  [482] 1 1 1 1 1 1 1 1 0 0 1 1 0 1 0 0 1 1 0 1 1 1 0 0 1 1 1 1 0 0 1 1 1 0 1 1 1
##  [519] 1 1 1 1 1 0 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1
##  [556] 0 0 1 1 1 1 0 1 1 1 1 0 1 1 0 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 0 1 1 1 1 1
##  [593] 0 1 0 1 0 1 0 1 0 0 0 1 1 1 1 1 0 1 1 1 1 1 0 0 1 1 0 1 1 1 1 1 1 1 0 0 1
##  [630] 0 1 0 0 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1
##  [667] 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1
##  [704] 0 1 1 1 1 1 1 0 0 1 1 0 1 1 1 1 0 1 1 1 1 1 1 0 1 0 1 0 1 1 1 1 1 1 1 1 1
##  [741] 1 1 1 0 0 1 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 1
##  [778] 1 1 0 1 1 0 1 1 1 0 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [815] 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 0 1
##  [852] 1 1 1 1 1 1 0 1 1 1 0 1 1 1 0 1 1 1 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 0 1
##  [889] 1 1 0 1 1 1 1 0 1 1 0 0 1 0 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 0 1 0 1 1 1
##  [926] 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1
##  [963] 1 1 0 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0
## [1000] 0
head(sexo)
## [1] 1 1 0 1 1 0
tail(sexo)
## [1] 1 1 0 1 0 0
summary(sexo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   1.000   1.000   0.794   1.000   1.000
sexo=factor(sexo, levels = c(0,1),labels = c("Hombre", "Mujer"))
plot(sexo)

datos=data.frame(ide,sexo)
#datos
#install.packages("crayon")
library("crayon")
## Warning: package 'crayon' was built under R version 4.2.2
## 
## Attaching package: 'crayon'
## The following object is masked from 'package:gtools':
## 
##     chr
## The following object is masked from 'package:ggplot2':
## 
##     %+%
library("ggplot2")
datos$idesex=chr(datos$ide) %+% "-" %+% chr(datos$sexo)
#datos
# sample(x, size, replace = FALSE, prob = NULL)

idesexsam<- data.frame(var=((sample(datos$idesex,size=100))))

str(idesexsam)
## 'data.frame':    100 obs. of  1 variable:
##  $ var: chr  "1881-Mujer" "1527-Hombre" "1370-Mujer" "1186-Mujer" ...
#View(idesexsam)
idesexsam[c("id", "sex")] <- str_split_fixed(idesexsam$var, '-', 2)
 
# Rearrange columns and remove original name column
idesexsam <- idesexsam[c('id', 'sex', 'var')]
 
print(" Data frame after splitting: ")
## [1] " Data frame after splitting: "
#idesexsam
table(idesexsam$sex)
## 
## Hombre  Mujer 
##     24     76
barplot(prop.table(table(idesexsam$sex)))

10.4.1 Distribución Bernoulli

Definiciòn

Una variable aleatoria discreta \(X\) tiene distribución de Bernoulli de parámetro \(p\) si su función de probabilidad es

\[ \begin{equation} f(x;p) = \left\{ \begin{array}{cc} p & \mathrm{si\ } x=1 \\ 1-p & \mathrm{si\ } x=0 \\ \end{array} \right. \end{equation} \]

\[ P(X = 1) = p, P(X = 0) = 1-p \] \[ p^x(1-p)^{1-x} \]

\[ E(X) = \mu_X = p \]

\[ Var(X) = \sigma^2_X = p(1-p) \]

10.4.2 Distribución binomial

Definición

Una variable aleatoria discreta \(X\) tiene una distribución binomial de parámetro \(p\) si su función de probabilidad es

\[P(X = k) = \left\{ \begin{array}{cl} \displaystyle{\binom{n}{k}} p^k (1-p)^{n-k} & \text{si } x=0,1,...,n \\ 0 & \text{en cualquier otro caso} \end{array} \right.\]

donde

\[ \binom{n}{k} = \frac{n!}{k!(n - k)!} = {n}C_{k} = C_{k}^n \]

where A is the permutation

\[\frac{A_n^k}{k!} = \binom{n}{k}\] donde: \[A_n^k = \frac{n!}{(n-k)!}\] are the different ordered arrangements of a k-element subset of an n-set

Triángulo de Pascal

\[\binom{n}{k} = \binom{n-1}{k-1} +\binom{n-1}{k}\]

Estudio de caso

Simular una población de 100 personas donde la variable de interés es el sexo y se sabe que el 80% son mujeres.

#EXPERIMENTO DE LANZAR UNA MONEDA
#rbinom(n, size, prob)
#p es la proporciòn de mujeres en la poblaciòn
p=0.8
sexo=rbinom(100,1,p)
sexo
##   [1] 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1
##  [38] 1 1 1 0 0 1 0 1 1 1 0 1 1 1 1 1 0 1 1 0 0 1 0 0 0 1 1 1 1 1 0 1 1 1 1 1 1
##  [75] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1
barplot(table(sexo))

NRO DE EXITOS

p=1/5
# La probabilidad de tener x aciertos en 6 lanzamientos de un dado
dado=rbinom(10000,5,p)
dado
##     [1] 1 2 1 0 3 0 1 0 1 1 0 2 1 2 1 1 1 3 1 1 0 1 1 1 0 2 0 1 1 0 2 1 1 0 2 1
##    [37] 2 1 3 1 0 3 2 1 1 1 2 1 1 3 1 0 0 0 0 0 1 2 1 2 1 1 1 0 1 3 0 1 1 0 1 1
##    [73] 0 0 1 1 1 1 1 1 1 2 0 0 0 1 0 1 2 1 1 0 0 2 1 1 1 1 1 0 2 1 0 2 3 1 1 0
##   [109] 1 1 1 2 1 1 1 0 2 0 0 1 2 0 1 0 1 1 0 1 2 1 1 2 2 0 1 2 1 2 1 1 2 2 1 0
##   [145] 1 0 1 2 1 0 0 1 1 1 0 2 3 1 1 1 2 1 1 0 2 0 0 2 1 0 1 0 0 0 1 2 2 1 1 0
##   [181] 1 2 0 1 2 3 2 2 0 0 2 1 1 2 1 0 2 0 2 2 2 1 1 0 0 1 1 3 0 0 1 0 1 0 2 1
##   [217] 2 1 1 0 1 1 1 1 0 1 1 1 1 0 0 1 1 0 3 2 0 0 1 2 1 0 1 2 1 2 2 0 1 2 0 0
##   [253] 0 0 0 2 0 0 2 0 2 0 1 0 0 0 1 0 1 0 1 1 1 1 1 1 0 1 2 1 0 2 0 2 2 1 2 1
##   [289] 2 0 2 0 2 0 1 0 0 1 2 0 0 1 0 2 2 2 2 3 2 0 1 2 1 0 1 1 1 1 1 1 3 0 1 2
##   [325] 0 1 0 0 1 1 1 0 1 1 2 1 0 1 2 1 1 1 0 1 1 2 2 0 1 3 2 0 1 1 2 1 2 0 0 1
##   [361] 1 2 0 0 1 1 2 1 1 1 0 0 0 0 2 2 1 2 1 1 2 0 3 0 1 1 0 0 0 0 0 2 1 1 1 2
##   [397] 1 0 2 2 2 1 1 1 0 0 2 0 0 1 0 4 1 0 1 1 1 0 1 1 0 1 0 2 0 1 1 0 2 3 1 1
##   [433] 0 4 0 0 1 0 2 0 1 1 1 0 2 0 0 0 0 0 0 1 2 0 1 2 0 2 1 1 0 2 1 0 0 1 1 3
##   [469] 1 3 0 1 2 0 1 1 2 3 1 0 1 0 2 0 0 4 1 3 2 1 3 1 1 1 1 0 1 1 1 1 1 0 2 1
##   [505] 2 1 1 1 0 1 4 0 1 0 0 0 1 1 1 0 1 0 1 1 1 2 2 1 2 2 1 2 0 0 2 2 1 0 1 0
##   [541] 1 1 3 0 2 0 1 1 1 2 0 1 1 0 0 0 0 1 2 1 2 2 0 0 0 0 0 1 1 1 2 3 1 0 0 0
##   [577] 1 2 0 0 2 1 1 1 1 1 0 0 1 1 0 1 1 1 0 0 2 1 0 0 1 1 3 0 2 0 2 1 2 2 2 0
##   [613] 0 0 1 0 1 1 1 1 1 2 2 3 0 1 1 2 1 1 1 0 1 0 1 1 1 2 2 0 1 1 0 1 0 0 0 1
##   [649] 1 2 0 1 3 0 2 1 1 1 1 0 2 2 2 1 2 1 1 2 2 2 2 1 2 0 3 2 0 2 1 1 1 1 0 1
##   [685] 0 2 2 0 1 2 2 1 1 2 0 2 1 2 0 2 0 2 1 2 0 1 1 0 2 1 2 0 1 1 0 0 1 1 1 1
##   [721] 1 1 2 1 0 1 1 3 0 2 1 1 2 1 3 0 1 0 2 0 0 1 1 1 1 0 3 0 0 1 1 1 1 1 0 1
##   [757] 3 1 1 1 1 1 1 0 0 0 2 2 1 0 2 0 2 0 0 1 2 1 0 1 1 2 2 2 1 1 1 0 0 1 1 2
##   [793] 0 2 0 2 2 2 1 0 1 1 1 1 0 0 0 1 1 0 1 0 1 2 1 0 1 0 2 1 0 0 0 2 0 2 0 1
##   [829] 1 3 0 0 1 1 0 1 2 0 1 2 0 2 0 0 1 0 0 1 1 0 1 1 1 1 0 1 1 0 0 0 1 1 1 1
##   [865] 1 0 1 2 1 0 0 0 0 0 0 1 1 0 2 1 1 0 0 0 0 0 2 1 1 1 2 0 2 1 0 1 3 0 3 2
##   [901] 1 0 0 0 1 0 0 4 0 1 2 1 2 0 1 0 0 0 3 2 2 1 2 1 0 1 2 1 0 0 1 1 0 1 1 1
##   [937] 1 0 2 3 2 2 1 1 0 1 2 0 0 1 1 1 1 2 0 1 1 0 3 0 3 1 0 2 1 0 1 0 0 1 2 1
##   [973] 2 0 1 0 1 2 0 2 1 1 2 2 2 1 2 1 0 0 1 1 0 2 2 1 2 1 1 0 1 0 1 1 1 1 2 0
##  [1009] 0 2 3 2 0 1 0 4 3 0 3 2 3 1 2 3 1 2 1 1 0 1 1 1 2 1 1 2 0 1 2 0 0 3 1 1
##  [1045] 2 0 1 1 2 1 1 1 2 3 2 3 0 0 0 0 1 2 1 2 1 1 2 0 0 2 0 0 0 1 2 0 3 1 0 1
##  [1081] 1 1 0 2 0 1 1 1 0 1 1 1 2 1 1 0 1 0 0 1 0 1 2 1 0 2 0 1 2 2 0 2 1 1 1 0
##  [1117] 0 1 2 1 0 1 1 2 1 0 1 1 0 0 1 1 2 2 0 1 1 2 1 1 2 0 1 0 2 1 4 0 1 1 0 1
##  [1153] 0 0 2 1 1 0 2 3 2 2 2 2 0 0 1 1 4 1 2 0 1 0 1 1 2 1 1 1 0 2 1 1 0 0 2 1
##  [1189] 1 2 2 1 1 2 0 3 0 2 3 0 0 0 3 2 1 0 2 3 1 2 1 0 1 3 1 0 2 1 0 1 0 2 1 0
##  [1225] 2 1 0 0 1 1 1 2 1 0 1 1 2 0 1 0 0 1 1 2 1 2 1 1 0 1 1 1 0 1 0 1 0 2 0 1
##  [1261] 0 1 1 0 1 1 4 1 1 1 1 1 2 0 1 2 0 1 1 0 1 1 1 0 0 1 1 0 0 2 0 1 2 2 3 1
##  [1297] 1 2 0 0 1 1 0 1 1 0 2 0 0 1 3 1 1 1 1 1 1 1 1 2 0 0 1 1 0 0 1 1 1 3 0 1
##  [1333] 1 1 0 0 0 0 1 1 1 1 0 1 2 1 1 1 2 0 1 0 0 1 0 2 1 0 0 1 1 1 0 0 2 0 1 0
##  [1369] 0 0 2 2 2 0 1 1 1 2 2 1 0 0 1 0 1 0 1 1 3 0 2 1 2 2 0 1 2 2 2 2 0 1 1 2
##  [1405] 1 0 0 2 2 0 1 0 2 1 2 0 1 0 1 1 3 1 0 3 0 3 0 2 2 0 1 2 1 1 1 1 0 0 0 1
##  [1441] 0 3 0 1 3 2 4 1 1 0 0 0 2 0 1 1 2 3 2 2 0 1 0 1 1 1 1 1 3 1 2 1 2 2 2 1
##  [1477] 1 1 1 1 1 2 2 1 1 2 1 1 3 1 3 3 2 1 0 1 1 1 2 3 1 0 1 2 0 1 1 2 1 1 1 0
##  [1513] 0 1 2 2 3 0 0 3 1 0 2 2 4 0 0 1 0 3 0 0 0 0 2 2 1 1 1 2 2 2 2 1 2 0 0 1
##  [1549] 1 0 0 0 0 2 0 0 2 1 0 1 0 0 1 2 3 3 0 0 2 2 0 0 2 2 1 2 1 1 1 1 0 0 1 1
##  [1585] 0 3 1 2 0 2 0 2 1 1 1 0 0 1 4 1 1 1 1 1 1 0 2 3 0 0 0 2 1 0 2 0 1 1 2 2
##  [1621] 1 2 3 0 0 3 0 2 1 3 0 1 0 1 3 3 0 0 0 2 2 1 1 1 2 1 0 0 1 0 1 1 2 0 0 0
##  [1657] 1 0 2 1 2 0 3 0 3 1 2 0 0 1 1 2 3 0 1 2 3 0 0 2 1 2 2 1 0 1 0 2 1 0 0 2
##  [1693] 0 2 1 1 1 0 0 2 1 0 2 1 0 0 0 1 1 0 0 2 1 1 1 3 1 0 1 2 1 1 0 0 3 1 0 2
##  [1729] 0 1 1 2 1 2 1 0 0 0 1 1 3 1 1 1 0 0 1 0 1 1 1 2 1 1 1 0 1 1 1 1 1 1 4 2
##  [1765] 0 2 1 1 2 1 0 3 1 1 1 1 1 2 1 0 3 0 2 0 2 0 2 1 0 1 1 0 0 1 1 0 0 1 2 1
##  [1801] 1 1 1 0 0 0 1 0 0 0 0 1 1 1 1 0 1 1 1 1 1 0 2 1 1 2 0 0 1 1 3 0 3 1 0 0
##  [1837] 1 1 2 1 0 1 0 2 1 1 1 0 0 2 1 2 0 1 2 2 2 1 3 1 2 1 2 1 1 0 0 1 2 1 1 2
##  [1873] 1 1 1 1 1 1 1 1 2 1 0 3 2 0 1 1 2 3 0 1 1 1 0 1 0 1 2 1 1 2 0 1 3 1 1 2
##  [1909] 4 1 1 1 1 0 3 1 1 3 3 3 2 0 1 1 1 2 2 0 2 1 1 0 2 1 3 0 2 0 2 2 0 2 0 3
##  [1945] 4 0 3 1 1 0 3 2 1 1 3 1 1 1 3 3 2 0 1 0 1 0 1 1 3 3 1 1 0 1 2 0 2 1 0 1
##  [1981] 1 0 0 0 1 1 2 1 2 1 1 1 0 2 1 0 1 1 3 2 0 1 1 2 3 1 0 0 2 3 1 0 1 1 2 1
##  [2017] 1 2 2 1 0 1 2 1 1 0 0 0 0 0 1 2 0 0 2 1 0 2 2 2 2 2 0 2 2 3 0 1 0 1 0 0
##  [2053] 1 0 2 0 1 1 1 2 2 2 1 0 3 1 0 0 1 1 0 2 1 1 0 2 0 0 1 2 1 1 2 0 0 2 0 0
##  [2089] 1 0 2 2 2 2 1 1 0 1 0 0 0 2 0 1 3 1 2 0 2 0 0 0 0 0 0 2 1 1 0 1 2 1 0 0
##  [2125] 0 0 1 2 0 1 3 0 1 0 2 2 2 1 1 0 0 1 3 0 0 1 1 3 2 1 0 1 0 2 1 1 1 1 2 1
##  [2161] 1 0 0 0 1 0 2 1 1 0 1 0 1 3 0 1 1 0 0 0 1 0 0 1 1 4 1 1 2 0 0 0 1 2 0 0
##  [2197] 0 0 1 1 0 1 0 2 0 0 1 1 0 1 0 0 1 2 0 1 1 1 3 1 2 0 0 2 0 1 0 0 1 2 0 0
##  [2233] 3 1 2 0 1 2 0 1 2 2 2 0 2 2 0 1 1 1 2 1 1 0 0 1 1 0 1 0 2 0 0 2 0 0 2 1
##  [2269] 2 1 1 1 1 1 0 2 0 1 1 0 1 1 1 1 3 1 1 2 4 0 1 2 0 0 1 1 0 1 2 2 0 1 0 0
##  [2305] 0 3 1 1 1 0 0 0 1 2 1 1 1 2 1 3 1 0 1 2 0 0 1 3 0 1 0 1 2 1 0 1 0 1 1 1
##  [2341] 0 1 1 0 0 1 2 0 0 1 1 4 1 1 0 2 1 0 0 1 0 2 1 1 1 0 1 1 2 1 0 0 0 0 1 1
##  [2377] 2 1 3 0 2 0 0 2 1 0 1 1 1 0 0 3 0 2 0 1 2 1 1 1 1 3 1 1 3 1 2 1 3 2 3 2
##  [2413] 1 1 0 0 1 0 1 2 0 0 0 2 3 1 1 2 0 0 0 1 1 0 0 2 0 1 1 1 3 1 0 3 0 2 2 2
##  [2449] 1 1 1 1 2 2 1 1 3 2 0 4 2 0 1 1 2 0 2 2 1 2 1 1 1 1 2 1 3 3 0 3 1 2 1 3
##  [2485] 0 2 1 0 2 2 0 4 1 1 0 0 1 1 0 1 2 1 0 1 0 1 0 1 2 1 1 0 1 2 1 1 0 1 0 2
##  [2521] 0 1 2 1 1 0 1 2 1 3 1 2 1 0 0 1 0 1 1 2 1 1 0 0 1 0 1 1 0 1 2 1 0 1 0 2
##  [2557] 0 0 0 1 1 2 0 1 0 1 2 0 0 1 2 2 1 2 1 0 3 0 2 1 2 0 1 2 0 0 1 0 0 1 1 1
##  [2593] 1 1 2 0 0 3 1 0 1 3 1 1 1 2 0 1 0 2 1 0 1 0 0 0 0 1 3 0 1 2 1 1 0 1 0 0
##  [2629] 1 2 1 2 1 0 1 2 0 2 1 0 3 1 1 0 0 2 0 1 1 1 3 0 0 2 1 2 1 1 1 1 0 0 0 1
##  [2665] 0 2 1 0 2 2 0 0 0 1 0 1 1 2 2 2 2 0 0 0 1 0 2 2 1 1 1 1 1 2 1 1 1 2 1 2
##  [2701] 0 1 0 0 1 0 2 0 1 2 2 2 0 2 0 0 0 0 0 2 0 0 1 1 1 2 0 1 0 0 2 0 0 1 0 2
##  [2737] 1 1 0 0 0 0 1 0 3 0 1 1 1 0 3 1 1 0 0 0 1 1 1 2 1 0 2 1 0 2 0 1 1 2 3 0
##  [2773] 2 1 3 0 2 1 1 2 2 1 2 3 1 3 0 2 2 0 0 1 2 2 1 1 2 0 1 1 1 0 1 0 0 0 1 2
##  [2809] 1 2 2 1 1 0 2 0 1 2 2 1 0 0 0 0 0 3 2 0 2 2 0 1 0 1 1 0 2 1 0 1 0 0 0 1
##  [2845] 1 0 1 3 0 1 1 0 3 4 1 2 0 2 3 0 1 2 3 1 1 0 0 0 4 2 1 2 0 2 2 2 0 1 1 2
##  [2881] 1 0 1 2 1 0 1 2 2 4 1 1 2 0 0 1 1 0 0 1 1 1 0 0 1 3 1 2 1 1 1 0 2 1 3 1
##  [2917] 2 1 1 0 2 1 1 2 2 1 1 2 1 2 2 0 1 1 1 1 0 2 1 0 1 2 1 1 1 2 0 2 1 0 1 1
##  [2953] 0 0 2 2 2 0 1 2 2 0 0 0 2 1 0 0 0 1 2 1 2 0 0 1 1 1 0 1 1 2 1 1 2 0 0 2
##  [2989] 1 0 0 1 0 1 1 0 2 3 2 1 1 1 1 3 2 2 0 2 1 0 1 2 1 2 1 1 1 1 1 1 0 1 1 0
##  [3025] 1 0 0 0 1 1 1 1 1 1 0 1 0 1 0 2 0 1 2 2 0 0 0 1 2 1 1 1 1 1 0 1 0 2 3 0
##  [3061] 0 1 0 1 0 2 1 1 0 2 1 2 1 1 2 0 2 2 0 0 0 0 1 0 2 2 1 0 1 1 1 0 1 2 0 0
##  [3097] 0 1 1 1 1 0 1 0 1 0 0 0 1 0 0 0 2 0 2 2 0 0 1 2 0 2 1 1 0 3 0 4 1 0 2 3
##  [3133] 2 0 3 0 0 0 1 0 1 0 0 1 0 2 2 1 2 0 3 1 1 2 1 0 2 0 0 2 0 2 0 1 0 1 2 2
##  [3169] 0 1 2 0 0 0 0 3 2 1 1 2 1 3 1 0 3 1 1 2 0 2 2 2 1 2 1 4 0 1 0 0 1 0 3 2
##  [3205] 2 1 1 0 1 1 1 0 2 2 1 1 1 1 1 1 0 1 0 0 0 2 0 2 2 1 1 2 1 1 0 3 0 2 2 0
##  [3241] 3 2 0 0 1 3 1 1 0 1 1 0 0 0 0 0 0 0 0 0 2 1 0 1 0 1 0 1 1 1 1 3 2 1 1 1
##  [3277] 2 0 0 1 2 3 1 0 1 1 0 1 0 1 0 1 1 0 2 2 2 2 0 1 0 1 0 1 0 1 1 1 2 0 0 0
##  [3313] 2 0 1 1 1 2 1 1 4 1 1 1 1 0 1 2 0 2 0 0 1 1 1 0 0 1 2 0 1 3 2 2 0 2 1 2
##  [3349] 2 0 1 0 0 0 2 2 2 1 0 1 0 1 1 3 1 1 1 0 2 2 2 1 0 1 2 2 0 3 0 0 0 2 1 1
##  [3385] 0 2 0 1 2 0 2 2 3 0 0 1 2 0 1 1 1 1 0 1 1 1 0 1 1 1 0 1 0 4 2 1 1 2 1 0
##  [3421] 2 0 1 3 0 0 1 1 1 0 0 1 1 2 2 1 2 1 2 1 0 0 1 0 1 1 1 0 1 1 2 1 1 2 1 2
##  [3457] 2 2 1 3 0 1 0 3 0 1 1 0 1 1 1 0 0 1 4 1 0 0 0 1 3 2 1 1 0 0 2 1 0 1 2 1
##  [3493] 1 2 0 1 0 1 0 0 1 2 2 2 1 1 0 0 1 1 1 1 0 2 1 0 1 0 0 1 1 3 2 0 2 0 0 0
##  [3529] 1 0 1 0 0 1 1 0 1 1 1 0 0 1 1 2 2 2 1 0 1 2 0 2 1 2 0 1 1 1 2 3 3 2 2 0
##  [3565] 0 2 0 2 0 1 0 1 0 0 3 3 2 3 2 2 1 1 1 0 1 1 0 0 0 1 2 0 0 1 0 0 0 0 0 2
##  [3601] 1 0 0 1 2 1 0 1 1 1 0 0 1 1 1 2 1 2 1 3 1 1 0 1 0 2 1 1 0 2 0 0 2 0 2 1
##  [3637] 1 2 2 1 0 2 1 3 0 1 1 1 2 3 0 1 0 0 1 1 1 0 0 2 0 2 1 1 2 0 1 2 2 0 1 2
##  [3673] 0 0 0 1 0 1 0 2 1 0 4 1 1 0 2 0 2 1 1 0 0 3 2 0 1 0 1 0 0 2 1 1 1 1 2 0
##  [3709] 2 1 1 1 1 0 0 1 1 1 1 3 1 1 0 0 1 1 0 2 2 1 2 1 2 1 2 0 1 0 2 0 0 1 1 3
##  [3745] 0 1 1 1 1 0 0 1 0 1 1 0 2 1 1 0 0 0 2 1 2 2 1 0 0 1 1 0 1 3 1 1 1 1 0 3
##  [3781] 1 1 0 1 0 0 0 0 2 1 1 3 1 1 0 1 2 0 2 1 0 1 0 0 0 3 1 0 2 1 2 1 2 0 0 0
##  [3817] 0 1 1 1 1 1 2 0 2 2 1 1 1 1 1 3 1 1 1 1 1 1 0 1 0 1 2 3 1 1 1 1 1 1 1 0
##  [3853] 1 3 0 2 0 0 2 1 1 0 0 1 3 1 3 0 0 4 0 0 1 1 1 2 1 0 1 0 0 0 1 0 2 2 0 1
##  [3889] 1 1 2 2 0 2 0 0 1 0 1 1 0 0 1 1 0 1 1 1 1 0 0 2 2 1 2 1 1 1 0 0 0 2 2 2
##  [3925] 2 1 1 2 3 1 0 2 1 0 1 3 1 0 0 0 1 2 0 1 1 2 3 2 1 0 1 0 0 1 2 0 1 3 1 0
##  [3961] 1 0 1 1 0 1 2 2 0 0 0 0 0 1 1 2 0 2 2 2 1 1 2 0 1 1 2 1 1 3 2 2 2 0 0 0
##  [3997] 0 0 2 0 1 0 0 1 3 0 1 0 1 1 1 1 2 1 1 1 0 3 2 2 1 1 1 2 1 0 1 1 0 1 1 2
##  [4033] 1 1 1 0 1 1 2 1 3 0 1 1 1 1 1 1 2 1 0 3 1 0 2 0 0 0 1 1 3 2 1 1 1 0 2 2
##  [4069] 0 1 1 1 1 1 2 1 1 1 2 1 4 0 1 0 0 2 3 1 1 3 1 0 0 1 0 0 1 0 0 0 2 0 2 1
##  [4105] 1 0 2 1 1 2 0 1 2 2 2 0 2 1 1 3 1 1 0 0 2 1 1 1 1 0 1 1 0 2 1 2 1 0 1 0
##  [4141] 1 1 2 1 1 1 0 0 0 0 2 1 1 1 1 1 1 1 0 0 3 0 1 1 1 0 0 2 0 0 2 0 1 1 0 0
##  [4177] 1 1 2 1 1 0 1 1 0 1 2 0 1 2 1 1 1 2 1 1 1 1 2 2 2 2 1 0 3 2 1 0 2 1 0 1
##  [4213] 1 0 1 0 1 3 1 2 0 1 1 1 0 0 1 1 0 1 1 2 1 0 2 2 1 0 1 1 2 0 0 2 1 0 1 0
##  [4249] 1 1 1 0 0 3 1 1 0 2 2 0 1 1 0 2 2 0 0 4 0 1 1 1 3 1 0 0 0 1 1 0 1 1 0 1
##  [4285] 0 0 1 1 0 2 3 2 1 1 0 2 0 1 0 1 2 2 0 1 1 1 1 0 1 1 0 1 0 0 1 1 2 0 3 2
##  [4321] 0 0 2 1 1 0 2 0 0 2 1 2 0 1 0 1 0 1 0 0 1 0 0 1 1 1 0 0 1 1 0 2 1 2 0 0
##  [4357] 2 2 2 1 2 2 0 0 0 1 1 3 0 1 3 0 1 0 1 2 0 1 2 1 0 0 0 0 1 1 0 0 1 3 1 1
##  [4393] 0 5 1 0 2 1 1 2 1 1 1 1 0 2 2 0 2 1 1 0 0 1 4 1 0 0 3 1 1 0 0 2 2 0 1 1
##  [4429] 0 2 0 2 0 2 0 0 0 0 0 0 1 2 2 1 2 0 1 0 3 2 1 1 1 2 1 1 2 1 0 0 1 1 0 0
##  [4465] 1 0 0 1 1 2 0 1 1 0 0 1 0 1 1 0 2 0 0 2 0 1 0 2 2 3 2 2 1 1 0 3 1 2 1 2
##  [4501] 0 1 1 0 0 0 0 0 1 2 1 2 1 0 0 0 0 3 1 0 0 1 1 2 1 1 0 1 3 2 1 0 1 0 0 1
##  [4537] 2 0 0 1 1 1 2 2 1 2 1 1 1 3 1 1 2 0 1 2 0 1 1 1 0 0 0 1 2 0 1 0 1 0 2 1
##  [4573] 3 1 1 0 1 0 0 1 3 1 3 0 2 0 0 1 2 3 0 0 0 1 4 1 1 0 1 0 0 3 2 0 1 0 1 1
##  [4609] 1 0 0 1 0 2 1 1 1 0 1 1 1 0 1 0 1 1 1 0 1 1 3 1 3 1 0 0 3 1 1 2 1 2 1 1
##  [4645] 1 2 1 0 4 3 0 1 2 0 1 1 0 3 2 1 1 1 1 4 1 1 1 1 3 1 2 2 0 3 2 2 0 1 2 0
##  [4681] 2 1 1 0 1 1 0 0 2 1 2 1 0 0 0 1 1 0 0 1 1 2 0 1 1 2 0 2 2 1 1 1 0 1 1 2
##  [4717] 3 0 1 1 3 1 0 1 1 2 1 1 1 1 1 2 1 0 2 1 1 0 2 1 0 1 1 1 1 3 0 0 0 0 1 1
##  [4753] 2 0 1 1 0 2 1 1 0 0 0 0 0 1 1 1 1 1 0 1 0 1 2 1 1 1 1 3 2 1 1 3 0 0 0 2
##  [4789] 2 0 1 0 1 1 0 1 1 2 2 3 1 0 0 2 1 1 0 0 1 1 0 0 1 3 0 1 0 2 1 1 1 0 1 0
##  [4825] 3 3 0 0 2 1 0 0 0 0 1 3 3 1 1 0 1 1 0 2 0 0 0 1 1 2 1 1 2 1 2 1 3 1 2 0
##  [4861] 2 1 1 0 1 0 2 0 2 1 2 2 1 1 1 1 1 1 0 1 0 0 2 1 0 2 0 1 0 3 3 1 0 0 0 2
##  [4897] 0 1 1 1 2 0 0 1 1 1 0 0 3 0 1 1 2 0 0 2 1 1 1 0 1 2 0 1 1 1 0 2 2 2 1 2
##  [4933] 1 1 1 0 2 1 2 0 1 1 2 0 2 0 1 1 2 1 1 1 1 3 0 2 0 0 0 1 0 0 3 1 2 0 1 1
##  [4969] 1 0 2 1 1 2 1 0 1 3 0 0 3 3 2 1 1 2 2 1 1 2 1 3 1 0 2 1 0 1 2 0 1 1 0 2
##  [5005] 0 1 2 0 1 2 0 1 2 1 1 0 0 0 2 1 0 2 2 2 0 0 1 0 1 0 2 1 2 1 2 0 0 0 4 2
##  [5041] 0 1 0 0 0 1 2 3 0 4 1 1 1 0 0 2 0 0 0 1 2 0 1 2 1 1 0 1 1 1 1 1 0 1 3 0
##  [5077] 1 1 0 3 0 1 0 1 0 0 0 0 3 1 3 2 1 1 0 1 1 0 0 0 2 0 0 1 0 2 1 1 2 1 1 2
##  [5113] 0 0 1 0 0 1 0 1 1 0 3 0 3 0 1 1 0 1 1 2 1 1 0 0 0 2 0 0 1 3 2 1 2 1 0 2
##  [5149] 1 0 0 1 2 0 1 1 0 1 1 2 3 2 3 0 1 1 2 1 1 1 1 1 2 1 2 2 0 1 0 1 1 1 2 2
##  [5185] 1 1 1 1 1 1 1 2 1 3 3 1 0 3 2 1 1 1 2 1 1 0 1 1 1 1 1 0 2 1 1 1 1 2 2 0
##  [5221] 1 0 0 0 3 0 0 1 2 0 1 2 0 1 0 1 2 1 2 1 1 2 0 1 2 0 2 0 0 1 0 0 1 1 1 3
##  [5257] 1 1 0 2 1 0 2 1 0 2 1 2 0 2 0 1 0 0 2 0 0 0 1 0 2 1 1 1 0 0 1 1 1 3 1 3
##  [5293] 2 0 2 1 0 0 0 1 1 1 3 1 1 1 0 1 2 0 1 0 1 0 2 1 0 2 2 2 1 2 1 1 0 1 0 1
##  [5329] 3 2 0 2 3 0 1 1 0 1 2 1 1 2 1 1 0 3 1 0 1 1 4 2 1 2 0 0 1 1 2 1 0 3 2 2
##  [5365] 2 0 0 1 2 0 2 1 2 2 1 1 0 3 0 2 2 0 1 0 2 0 0 2 0 0 0 2 1 3 1 0 0 2 2 0
##  [5401] 1 0 0 2 0 1 1 3 2 0 2 0 2 1 1 1 2 2 2 0 0 1 1 1 0 2 2 1 3 1 3 1 0 2 0 1
##  [5437] 1 0 1 0 2 3 1 2 0 2 1 2 1 0 0 2 1 1 1 0 4 3 1 0 2 1 1 0 1 1 0 1 1 1 0 0
##  [5473] 0 0 0 1 1 1 0 0 2 0 1 0 2 0 2 2 0 0 1 2 2 2 1 0 0 0 0 0 0 0 3 1 0 1 1 1
##  [5509] 1 1 0 2 1 0 0 0 1 1 0 0 1 0 0 0 1 1 2 0 2 0 1 1 0 0 2 1 2 1 0 1 1 1 0 0
##  [5545] 1 0 0 0 1 0 1 2 3 1 1 0 1 1 1 0 0 2 0 0 2 1 1 2 0 3 0 1 0 2 1 1 0 1 2 2
##  [5581] 0 1 0 1 1 1 0 2 0 1 1 0 1 1 0 1 0 0 2 2 0 0 0 2 2 0 0 1 2 0 1 1 1 1 0 0
##  [5617] 0 1 2 1 1 2 2 2 2 2 1 2 2 1 2 0 1 1 0 0 0 1 1 1 0 2 2 0 1 1 3 2 2 1 2 2
##  [5653] 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 0 0 1 1 1 0 1 1 2 3 1 0 1 1 1
##  [5689] 1 2 1 0 4 2 0 1 1 2 1 1 2 0 0 1 2 2 0 1 0 1 3 1 1 3 1 2 0 0 1 1 1 1 2 1
##  [5725] 1 0 2 1 0 1 2 0 2 3 1 1 0 3 2 0 1 0 2 2 0 0 0 1 0 0 2 0 2 1 2 2 0 1 1 2
##  [5761] 1 1 1 1 1 4 1 1 1 1 2 1 1 0 1 1 0 2 2 0 3 0 1 1 2 1 1 2 1 0 2 1 1 2 2 0
##  [5797] 0 1 2 1 0 1 0 1 1 1 3 2 1 1 2 2 1 1 1 2 2 2 0 1 1 0 1 1 1 2 1 0 0 0 1 2
##  [5833] 1 1 1 2 0 0 1 1 0 0 1 0 1 0 1 0 1 1 1 1 0 1 0 0 0 0 1 2 0 0 2 3 0 0 1 1
##  [5869] 1 1 2 2 3 2 2 1 1 2 1 1 1 1 1 3 2 2 1 0 1 1 0 1 2 1 2 0 1 0 2 0 0 0 1 0
##  [5905] 1 3 2 0 0 1 2 0 0 2 0 0 1 0 0 1 0 1 2 1 0 1 0 1 0 3 0 0 0 1 0 1 0 2 1 0
##  [5941] 2 1 1 0 0 1 3 1 1 0 2 1 2 0 1 1 2 1 0 2 0 0 1 0 2 1 1 0 0 0 0 3 1 1 1 1
##  [5977] 1 0 2 2 0 1 0 1 2 0 1 1 0 2 1 0 2 1 1 0 1 2 1 2 1 0 1 0 1 0 0 2 0 1 0 2
##  [6013] 1 0 3 0 2 1 1 0 2 2 3 2 1 1 0 0 2 0 1 1 0 2 2 1 0 2 0 2 0 2 0 2 1 1 0 1
##  [6049] 0 1 1 0 1 0 0 0 1 0 1 1 1 0 2 2 0 2 1 1 1 1 2 2 2 1 2 0 2 2 3 0 2 0 2 1
##  [6085] 0 1 1 1 2 1 1 1 1 0 2 1 0 1 0 0 2 0 0 1 1 0 0 2 2 1 0 0 1 1 1 1 3 1 0 1
##  [6121] 2 1 0 1 1 0 0 3 1 0 3 1 2 1 1 2 1 0 0 0 2 0 0 0 0 0 2 0 2 2 1 0 2 0 0 0
##  [6157] 0 1 2 2 2 0 1 2 1 2 1 3 1 1 2 1 1 1 1 3 0 2 2 2 0 1 1 0 0 1 0 2 5 0 2 0
##  [6193] 2 1 0 2 0 1 1 2 2 1 2 1 2 1 1 1 2 1 1 0 0 2 0 2 2 1 0 1 2 0 0 1 1 1 0 1
##  [6229] 1 3 1 2 0 1 1 1 1 3 0 1 1 1 0 1 0 2 1 1 0 2 1 1 1 1 0 1 1 3 2 1 0 1 1 0
##  [6265] 1 1 0 0 2 2 1 1 1 0 0 1 2 1 1 2 1 2 1 2 1 2 1 0 0 0 2 2 0 1 2 1 0 1 1 3
##  [6301] 0 3 1 1 2 1 3 1 0 1 2 1 1 0 1 2 1 1 0 1 1 1 1 2 1 2 1 2 1 2 1 0 2 1 1 1
##  [6337] 2 2 2 0 0 1 0 1 1 0 1 1 2 1 0 2 2 2 3 3 0 3 1 1 1 0 3 2 2 1 1 1 1 2 1 0
##  [6373] 1 1 1 1 2 1 0 0 2 1 1 1 1 1 1 0 0 2 1 2 2 1 0 0 0 1 1 2 1 1 1 2 0 1 2 0
##  [6409] 0 0 1 3 0 1 3 1 1 1 0 1 1 1 3 2 0 1 3 0 1 0 0 0 3 0 1 1 1 1 0 1 0 1 2 1
##  [6445] 0 0 1 0 2 1 1 1 0 0 0 0 1 1 1 2 1 0 1 1 0 2 1 2 2 0 2 0 1 1 0 1 0 3 1 3
##  [6481] 1 0 3 0 1 2 1 0 2 4 1 0 1 3 0 1 1 0 1 0 1 0 1 1 1 3 1 0 2 0 0 2 0 2 0 4
##  [6517] 2 1 0 1 0 1 0 0 2 1 1 4 0 0 0 1 3 1 0 2 1 1 0 1 0 2 0 1 0 1 0 2 1 2 3 2
##  [6553] 1 2 1 1 1 1 1 0 1 1 1 1 1 0 1 1 0 1 0 2 2 1 0 3 0 0 1 1 1 2 2 1 2 2 0 0
##  [6589] 0 1 1 1 0 1 0 2 3 2 2 1 0 2 1 3 2 1 1 0 1 2 1 0 1 2 1 1 0 1 2 0 2 0 0 0
##  [6625] 1 2 0 2 2 1 1 1 1 0 1 2 1 0 1 0 1 1 0 2 2 2 1 0 2 0 1 0 1 3 0 0 1 1 0 3
##  [6661] 3 1 1 2 0 2 3 0 1 2 2 1 3 2 3 1 1 2 2 0 0 0 0 2 1 2 1 2 0 1 1 1 2 0 3 1
##  [6697] 0 1 1 2 2 1 0 1 1 1 1 1 1 0 1 0 0 1 2 0 0 1 0 4 1 1 2 0 1 2 1 2 0 0 0 3
##  [6733] 1 1 1 1 0 0 0 1 0 1 4 1 0 0 0 1 1 1 0 0 1 0 3 0 1 2 1 1 1 1 2 1 1 1 1 1
##  [6769] 2 1 1 0 3 1 2 1 1 0 1 1 1 1 3 1 0 1 2 3 0 1 0 1 1 2 0 1 1 2 0 3 0 0 1 1
##  [6805] 2 0 1 0 1 0 2 2 1 2 0 2 1 1 1 1 0 0 0 2 1 1 2 1 1 1 1 2 0 2 1 0 0 1 0 0
##  [6841] 1 1 0 2 1 0 2 2 0 2 0 1 2 1 2 0 1 1 3 0 0 1 1 0 1 1 1 0 0 0 3 0 1 1 0 3
##  [6877] 2 2 1 1 1 0 1 2 1 1 1 0 0 1 1 0 0 0 0 1 1 0 1 0 2 0 0 1 0 3 1 0 0 3 1 1
##  [6913] 2 1 1 0 2 0 1 0 0 0 0 2 2 0 0 2 0 1 2 0 2 3 2 0 0 3 3 3 0 1 1 1 2 1 0 3
##  [6949] 0 1 0 0 3 0 2 1 1 2 0 0 1 0 4 1 1 1 1 0 1 2 1 1 2 1 1 1 0 2 0 2 1 1 0 2
##  [6985] 2 1 0 0 3 3 0 0 2 0 0 2 1 1 1 1 1 1 1 1 1 1 1 0 1 3 0 1 4 0 2 0 0 1 0 2
##  [7021] 1 3 1 3 0 1 1 0 1 0 0 1 1 0 2 2 0 0 1 0 1 0 0 1 1 1 4 1 1 1 2 1 0 0 1 0
##  [7057] 0 1 1 4 2 0 1 1 0 1 1 0 2 1 1 0 3 0 0 0 2 0 1 2 1 1 1 2 1 0 1 0 0 0 3 0
##  [7093] 0 2 0 1 0 0 0 0 2 2 0 2 1 2 0 0 1 1 1 2 1 2 0 1 0 1 0 2 0 2 0 1 1 0 1 1
##  [7129] 1 0 0 0 1 1 0 0 2 2 1 2 1 2 0 0 0 0 2 1 1 3 2 0 0 0 1 0 1 0 0 2 1 1 2 0
##  [7165] 0 1 2 1 1 2 0 1 2 1 2 1 1 0 1 1 0 0 1 0 1 1 2 2 2 2 1 1 1 3 0 2 2 1 0 0
##  [7201] 1 0 2 1 1 2 0 2 0 0 4 3 3 0 0 2 1 3 2 0 0 0 1 1 2 3 2 2 0 1 0 1 2 2 0 2
##  [7237] 2 1 0 1 1 1 0 2 0 2 0 1 1 1 1 2 0 2 2 0 1 2 2 2 1 0 3 1 2 0 0 0 0 0 3 1
##  [7273] 1 1 0 0 1 1 1 3 1 0 1 2 0 1 3 1 1 2 0 0 1 1 1 1 2 2 0 1 1 3 0 1 0 1 0 0
##  [7309] 1 1 1 2 0 1 0 1 2 0 0 3 1 0 2 2 2 1 0 2 2 3 0 1 0 3 1 1 1 2 1 2 2 2 1 1
##  [7345] 0 2 1 2 1 2 3 2 0 0 0 0 1 2 1 1 1 1 0 0 1 0 2 0 3 3 1 1 1 1 0 0 0 0 1 2
##  [7381] 1 0 1 2 0 1 0 0 1 1 1 1 2 0 2 0 0 0 2 3 1 0 0 1 1 1 2 1 0 0 0 1 2 2 0 3
##  [7417] 2 1 1 0 3 2 2 1 0 0 2 2 1 1 1 0 0 1 1 2 1 1 1 1 1 2 2 0 2 2 2 3 1 1 0 3
##  [7453] 1 2 0 1 2 0 0 1 2 1 1 0 1 1 0 2 1 1 0 0 0 1 1 0 2 4 1 1 1 2 1 4 0 1 1 1
##  [7489] 2 2 0 1 1 1 1 1 0 1 0 3 1 0 1 0 1 1 1 1 2 2 3 0 1 1 1 0 0 1 1 0 0 1 0 1
##  [7525] 0 1 0 0 0 1 0 2 0 0 2 0 0 2 0 1 0 3 2 0 1 2 0 0 2 2 1 1 1 0 0 2 2 1 1 3
##  [7561] 1 1 0 2 1 1 1 3 1 1 1 1 0 1 0 2 1 1 0 2 0 0 2 1 0 1 1 0 1 1 0 1 1 0 1 0
##  [7597] 0 0 1 1 2 2 1 2 0 1 2 1 1 2 2 0 1 2 0 2 3 0 2 1 2 1 2 3 2 0 1 0 1 1 1 1
##  [7633] 1 0 0 3 1 0 1 2 0 1 2 1 0 1 2 2 1 2 1 2 0 2 1 1 1 2 3 2 0 1 2 2 1 0 1 2
##  [7669] 1 0 0 0 0 3 0 0 1 1 1 0 0 0 0 1 2 2 1 1 1 1 1 0 0 4 1 2 0 0 0 0 0 1 1 0
##  [7705] 0 1 0 2 0 3 1 2 1 2 0 1 2 2 1 3 0 1 0 2 0 1 0 1 0 1 0 0 0 1 2 2 1 2 0 0
##  [7741] 1 2 1 0 1 3 1 1 0 1 3 3 3 0 0 1 2 3 1 0 2 2 1 0 2 0 0 2 1 1 2 3 1 0 0 1
##  [7777] 2 0 2 2 2 2 2 0 1 2 3 3 1 0 1 0 3 2 1 0 1 2 1 2 2 2 0 1 1 0 1 1 1 1 1 0
##  [7813] 0 1 0 1 0 2 2 2 1 1 2 0 1 1 0 0 2 0 0 2 1 2 1 1 0 0 0 0 3 1 2 0 1 0 0 1
##  [7849] 0 1 2 1 1 1 2 0 0 1 1 1 0 3 0 0 3 1 1 0 0 2 1 0 1 1 0 2 4 1 4 2 0 1 3 1
##  [7885] 0 0 1 1 0 0 1 2 1 1 0 0 1 1 1 0 0 2 1 1 1 2 2 1 1 1 3 1 2 2 3 1 0 3 1 1
##  [7921] 1 2 0 0 1 1 1 0 2 0 1 1 0 2 2 1 2 1 2 0 1 0 0 0 2 1 0 1 0 1 1 0 0 1 2 1
##  [7957] 1 1 1 1 1 3 2 1 0 1 0 0 1 2 0 0 1 2 3 1 0 2 1 0 0 1 0 1 0 1 2 0 1 0 3 2
##  [7993] 2 1 3 1 1 1 1 2 0 2 1 0 1 0 0 1 1 1 0 1 0 1 1 1 2 2 1 0 0 1 1 2 0 0 1 1
##  [8029] 1 1 1 1 0 1 0 0 2 1 2 2 3 0 2 3 2 1 0 0 1 0 1 1 0 1 0 3 2 1 0 1 2 3 1 2
##  [8065] 1 2 0 0 0 1 1 1 2 0 1 2 2 1 0 1 1 1 3 2 1 1 0 1 1 1 1 0 0 1 1 0 3 1 0 0
##  [8101] 3 2 2 0 0 1 0 2 0 1 0 0 1 2 0 0 3 1 1 1 1 0 0 2 2 1 1 1 0 0 1 0 2 2 1 1
##  [8137] 0 1 2 2 1 0 1 0 1 0 1 1 3 1 2 0 1 0 3 0 1 2 1 2 0 1 2 2 0 1 2 2 1 1 1 0
##  [8173] 2 3 2 1 1 0 1 3 1 1 2 0 2 1 1 2 1 1 2 0 0 3 2 1 1 1 2 1 0 1 1 2 0 3 2 1
##  [8209] 2 1 0 0 1 0 2 0 1 1 0 1 0 1 0 1 0 1 2 0 1 0 1 3 0 0 1 1 1 1 1 1 2 0 1 0
##  [8245] 1 3 2 1 1 0 2 1 0 0 2 2 1 1 1 1 1 1 1 1 1 1 2 2 0 1 1 1 1 2 0 1 0 2 0 1
##  [8281] 1 2 3 2 1 0 1 2 0 2 1 1 0 0 2 1 3 1 0 0 4 0 2 1 1 3 1 0 1 2 2 1 1 0 3 1
##  [8317] 2 0 1 1 0 2 1 0 3 0 1 1 1 1 0 0 2 1 4 0 1 0 3 2 0 0 1 0 1 1 2 1 1 1 1 1
##  [8353] 2 3 0 2 0 0 1 1 0 0 2 0 0 3 2 2 2 1 0 1 1 0 0 1 1 2 1 1 0 2 1 1 2 0 3 1
##  [8389] 0 1 3 2 2 2 1 0 1 1 1 0 1 1 1 0 2 1 1 0 0 0 3 2 1 0 1 0 0 0 3 1 1 1 2 3
##  [8425] 1 2 0 0 0 2 3 1 2 1 1 2 1 0 0 1 2 2 1 1 2 2 0 1 1 1 2 0 0 0 0 1 1 2 1 0
##  [8461] 1 2 0 0 2 0 0 1 1 2 1 1 0 1 1 2 1 0 0 2 1 1 1 0 1 0 1 0 1 1 0 0 3 1 3 1
##  [8497] 1 1 3 4 0 0 1 2 3 2 0 2 1 1 1 2 1 0 2 0 0 1 0 1 0 0 0 3 1 1 1 0 0 1 1 0
##  [8533] 1 1 1 0 1 2 0 1 1 1 0 1 0 0 1 0 0 1 0 2 2 0 1 1 2 1 1 0 0 1 2 1 0 0 2 3
##  [8569] 2 2 3 2 3 1 0 0 1 1 0 1 0 2 1 1 1 1 1 2 0 1 1 1 1 1 1 1 3 1 2 0 2 1 1 1
##  [8605] 1 0 1 1 1 2 0 0 1 1 0 1 1 2 1 2 2 2 0 0 2 0 0 1 1 0 0 0 2 0 0 0 0 2 3 1
##  [8641] 2 1 2 0 1 1 2 0 1 1 1 3 1 1 2 1 1 2 1 1 1 2 1 1 0 1 0 0 0 2 1 1 0 1 0 0
##  [8677] 1 0 1 0 1 1 2 1 1 2 0 2 1 0 1 0 1 2 1 2 0 1 2 1 2 1 0 2 1 1 2 1 2 2 1 1
##  [8713] 1 0 0 0 1 0 0 0 1 2 5 3 1 1 1 0 0 1 0 1 0 1 0 1 1 2 1 2 0 1 0 1 0 0 1 3
##  [8749] 1 0 1 0 0 0 3 1 0 2 1 1 1 0 1 2 2 0 1 1 2 1 0 3 1 1 2 2 0 2 1 2 1 0 0 1
##  [8785] 2 1 1 2 0 2 0 1 1 1 0 0 1 2 2 0 1 1 0 0 0 2 1 0 0 0 0 1 1 0 0 1 1 1 3 2
##  [8821] 0 0 1 0 0 0 2 1 0 0 2 1 0 1 0 2 0 0 0 0 2 1 0 1 1 0 1 0 1 1 0 3 0 1 0 0
##  [8857] 2 0 2 5 1 0 1 2 3 1 1 1 0 0 0 1 2 1 2 1 1 1 1 1 2 0 2 0 2 1 2 1 1 1 1 1
##  [8893] 2 0 0 2 2 1 1 3 0 1 2 1 1 1 2 1 2 0 0 1 0 1 3 1 0 0 1 0 1 1 1 0 1 0 3 2
##  [8929] 1 0 1 0 0 1 2 1 0 0 0 0 3 1 1 1 1 0 1 3 0 1 1 1 1 2 2 1 0 2 0 1 0 0 1 1
##  [8965] 3 2 1 1 3 1 1 1 0 0 0 0 1 1 0 0 0 2 0 1 2 0 1 2 1 0 2 0 1 2 0 1 1 0 0 1
##  [9001] 2 1 0 0 0 1 0 0 0 1 0 0 0 1 2 0 3 0 0 0 0 0 2 1 1 0 1 0 0 0 0 1 0 1 0 1
##  [9037] 2 1 1 0 1 2 0 2 1 0 1 2 1 2 1 2 2 1 0 1 2 1 2 2 1 1 0 0 1 1 0 1 0 0 1 0
##  [9073] 0 0 1 2 1 0 3 0 0 1 0 0 2 0 0 1 1 1 0 0 1 0 1 2 2 1 1 1 2 1 2 0 1 0 0 0
##  [9109] 0 3 1 1 2 0 1 0 0 0 1 2 1 0 0 1 2 1 1 0 1 2 0 2 2 1 1 0 3 3 2 1 1 2 0 2
##  [9145] 0 1 0 0 0 1 1 1 1 0 1 1 1 3 1 0 0 2 2 1 0 0 0 3 0 0 0 1 2 0 1 1 0 0 0 1
##  [9181] 1 1 0 2 1 1 1 3 0 1 0 0 2 0 0 1 1 0 0 0 2 0 0 3 2 2 1 1 1 2 2 0 1 0 1 1
##  [9217] 0 0 0 2 2 0 2 2 0 0 1 2 1 2 0 1 0 1 1 2 2 1 1 2 0 0 2 0 0 0 2 0 1 2 0 2
##  [9253] 3 2 2 1 0 1 0 0 0 3 1 1 1 1 0 0 0 1 0 0 0 2 2 1 0 1 1 0 0 1 1 1 1 2 1 2
##  [9289] 1 1 1 0 1 1 0 1 1 1 1 1 1 1 2 0 0 1 1 2 0 3 2 2 2 1 0 2 2 1 0 1 1 0 0 2
##  [9325] 0 0 1 0 1 1 0 0 2 1 1 0 1 1 0 0 1 1 1 2 0 3 2 1 1 1 1 4 2 2 1 1 1 3 1 2
##  [9361] 1 2 2 1 1 1 0 0 2 1 0 1 0 1 1 1 0 0 1 0 3 1 0 0 0 1 4 2 1 0 0 3 1 0 0 0
##  [9397] 0 1 3 1 0 0 1 2 0 1 1 1 1 1 2 0 1 4 0 0 2 0 1 0 2 1 0 0 0 1 1 1 3 2 1 0
##  [9433] 3 1 2 1 0 1 1 1 1 2 0 1 0 1 0 1 0 1 0 1 1 0 0 1 1 2 1 1 0 0 1 0 1 0 2 0
##  [9469] 1 0 0 0 0 1 0 1 2 0 0 0 0 0 0 1 1 1 1 1 4 0 0 2 1 0 0 1 1 0 0 0 0 0 2 0
##  [9505] 0 1 1 0 0 0 0 0 3 1 0 1 0 0 2 1 4 0 0 1 1 2 0 0 1 1 0 1 3 0 0 2 0 1 0 0
##  [9541] 2 2 0 0 0 0 1 2 1 0 0 3 1 1 0 1 1 0 2 1 1 1 1 0 2 2 0 1 0 3 1 0 2 0 1 1
##  [9577] 2 2 1 1 0 0 2 1 2 1 0 2 2 0 2 1 2 1 4 0 1 1 0 1 2 0 1 1 1 0 2 1 0 1 1 0
##  [9613] 0 1 3 2 0 1 1 0 1 0 2 0 2 1 2 2 1 1 2 0 1 0 1 1 1 0 0 0 1 1 1 1 1 1 0 2
##  [9649] 3 1 1 2 1 1 0 1 2 0 0 1 0 1 0 1 0 2 1 0 0 1 2 0 2 0 2 0 2 0 2 2 2 1 1 1
##  [9685] 3 1 2 1 1 1 3 1 0 1 1 0 3 2 0 2 0 1 0 1 2 1 1 1 1 1 2 3 3 1 1 1 0 0 2 0
##  [9721] 0 3 2 2 0 2 3 2 0 3 1 0 1 1 1 2 0 1 2 1 1 1 1 0 2 3 0 1 2 1 1 2 1 1 3 2
##  [9757] 0 3 1 1 1 1 1 1 1 1 0 0 1 1 0 0 0 1 2 0 0 1 2 1 2 0 1 0 0 1 1 0 2 0 1 0
##  [9793] 0 2 1 1 1 0 0 2 0 2 1 0 0 1 1 2 1 1 2 1 1 1 1 1 0 0 1 1 3 1 0 1 1 1 3 0
##  [9829] 2 2 1 2 0 1 2 1 0 0 0 0 0 2 2 1 0 0 0 1 1 3 0 0 0 1 2 0 1 1 1 0 2 3 1 0
##  [9865] 0 0 3 1 2 1 0 0 1 0 2 1 1 0 2 0 3 0 1 1 1 0 1 1 2 2 0 0 2 1 3 0 1 1 1 0
##  [9901] 0 2 0 1 2 1 1 1 1 1 1 1 0 0 1 1 1 0 1 1 0 3 1 2 2 1 1 1 0 1 2 0 1 1 0 2
##  [9937] 0 1 3 3 0 2 0 1 2 1 1 0 0 0 0 1 1 0 3 1 1 1 2 1 0 0 0 1 0 0 1 0 0 1 0 0
##  [9973] 1 0 1 1 0 1 2 0 0 1 0 0 2 0 0 1 0 0 1 2 1 1 3 1 0 1 3 2
barplot(table(dado))

> Estudio de caso

Simula la distribución de la cantidad de caras que salen al lanzar dos monedas. Suponga que se repite el experimento 30 veces.

#X: NRO DE CARAS OBTENIDAS EN LAS N MONEDAS 
#X:0,1,2
x=c(0,1,2)
x
## [1] 0 1 2
Px=dbinom(x,30,0.5)
Px
## [1] 9.313226e-10 2.793968e-08 4.051253e-07
#X: NRO DE CARAS OBTENIDAS EN LAS N MONEDAS 
#X:0,1,2

barplot(Px,names=x)

> Estudio de caso

Simula la distribució de la suma de los números que salen al lanzar dos dados

#VA es la suma de las caras x=2,3,4,5,6,7,8,9,10,11,12

sample(2:12,10,rep=T)
##  [1] 12  9 12 12  9  7 11  4  9  8
psuma2dados<-sapply(1:10000, function(x){sum(sample(1:6,35,rep=T))})
pcaraen2mon<-sapply(1:10000, function(x){sum(sample(0:1,35,rep=T))})
barplot(c(table(psuma2dados),table(pcaraen2mon)))

10.4.3 Variable aleatoria con distribución poisson

Una variable aleatoria \(X\) se dice que es de Poisson de parámetro \(\lambda>0\) si su función de probabilidad está definida como

\[ P(X=x) = \begin{cases} \dfrac{e^{-\lambda}\lambda^x}{x!} & \text{si } x=0,1,2,... \\ 0 & \text{en cualquier otro caso} \end{cases} \]

En la distribución la media y la varianza coinciden, es decir, \(E(X)=Var(X)=\lambda\).

10.5 Variable aleatoria con distribución contínua

If a random variable \(X\) can take on any of a continuum of values, say, any value between \(0\) and \(1\), then we cannot define it by listing values \(x_i\) and giving the probability \(p_i\) that \(X= x_i\); for any single value \(x_i\), \(\mbox{Prob}(X = x_i )\) is zero! Instead we can define the cumulative distribution function:

\(F(x) \equiv \mbox{Prob}(X < x ) ,\)

or the probability density function (pdf):

\(\rho (x)\,dx \equiv \mbox{Prob}( X \in [ x, x+\,dx ] ) = F(x+\,dx ) - F(x) .\)

Letting \(dx \rightarrow 0\), we find

\(\rho (x) = F'(x) ,~~~F(x) = \int_{- \infty}^{x} \rho (t)\,dt .\)

(For a more formal mathematical derivation, take a course in probability or measure theory. This will suffice for our purposes.)

The expected value of a continuous random variable \(X\) is then defined by

\(E(X) = \int_{- \infty}^{\infty} x \rho (x)\,dx .\)

Note that by definition, \(\int_{- \infty}^{\infty} \rho (x)\,dx = 1\). The expected value of \(X^2\) is

\(E( X^2 ) = \int_{- \infty}^{\infty} x^2 \rho (x)\,dx ,\)

and the variance is again defined as \(E( X^2 ) - (E(X) )^2\).

Example: Uniform Distribution in \([0,1]\).

\[F(x) = \left\{ \begin{array}{cl} 0 & \mbox{if } x < 0 \\ x & \mbox{if } 0 \leq x \leq 1 \\ 1 & \mbox{if } x > 1 \end{array} \right. ,~~~ \rho (x) = \left\{ \begin{array}{cl} 0 & \mbox{if } x < 0 \\ 1 & \mbox{if } 0 \leq x \leq 1 \\ 0 & \mbox{if } x > 1 \end{array} \right.\]

\(E(X) = \int_{- \infty}^{\infty} x \rho (x)\,dx = \int_{0}^{1} x\,dx = \frac{1}{2} ,\)

\(\mbox{var}(X) = \int_{0}^{1} x^2\,dx - \left( \frac{1}{2} \right)^2 =\frac{1}{3} - \frac{1}{4} = \frac{1}{12} .\)

Example: Normal (Gaussian) Distribution, Mean \(\mu\), Variance \(\sigma^2\).

\(\rho (x) = \frac{1}{\sigma \sqrt{2 \pi}}~\exp \left( - \frac{(x - \mu )^2}{2 \sigma^2} \right) ,\)

\(F(x) = \frac{1}{\sigma \sqrt{2 \pi}}~\int_{- \infty}^{x} \exp \left( -\frac{(t - \mu )^2}{2 \sigma^2} \right) \,dt\)

10.5.1 Distribución uniforme

\[X_i \stackrel{iid}{\sim} U[0, 1]\]

mu10=sample(runif(100,0,1),50,rep=T)
mu10
##  [1] 0.34674598 0.57642729 0.77702253 0.80099495 0.56244551 0.64201017
##  [7] 0.97564571 0.72209475 0.92972864 0.64960414 0.22568721 0.77702253
## [13] 0.53323531 0.90136325 0.63971785 0.14601320 0.78795589 0.92717878
## [19] 0.65761668 0.62356629 0.41677717 0.37109234 0.34674598 0.33900256
## [25] 0.47320203 0.36865203 0.65761668 0.66628086 0.69707377 0.62541766
## [31] 0.69216202 0.41677717 0.12853043 0.98142253 0.34674598 0.33900256
## [37] 0.89383504 0.13247495 0.82503757 0.09959355 0.21415623 0.82503757
## [43] 0.95373571 0.46946444 0.33900256 0.45626973 0.69180057 0.69216202
## [49] 0.34674598 0.46031912
hist(mu10)

mu1000=sample(runif(100,0,1),1000,rep=T)
head(mu1000)
## [1] 0.39686799 0.06221089 0.99719242 0.07350654 0.32415599 0.49205659
tail(mu1000)
## [1] 0.722788352 0.440998590 0.079085133 0.707271611 0.008467293 0.500011446
hist(mu1000)

10.5.2 Variable aleatoria con distribución exponencial

Una variable aleatoria \(X\) se dice que tiene una distribución exponencial de parámetro \(\lambda>0\) si su función de densidad de probabilidad es

\[ f(x) = \begin{cases} \lambda e^{-\lambda x} & \text{si } x>0\\ 0 & \text{si } x\le 0 \end{cases} \]

La media y la varianza de una variable exponencial son respectivamente \(E(X)=\dfrac{1}{\lambda}\) y \(Var(X)=\dfrac{1}{\lambda^2}\).

Ejemplo: Sea una variable \(X\) que mide el tiempo de duración de un cierto tipo de artefacto eléctrico. Se sabe que esta variable tiene una distribución exponencial de parámetro \(\lambda=5\). Su función de densidad de probabilidad es entonces

\[ f(x) = \begin{cases} 5 e^{-5 x} & \text{si } x>0\\ 0 & \text{si } x\le 0 \end{cases} \]

y su gráfica es

#install.packages("RcmdrMisc")
library("RcmdrMisc")
## Warning: package 'RcmdrMisc' was built under R version 4.2.2
## Loading required package: car
## Warning: package 'car' was built under R version 4.2.2
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.2.2
## 
## Attaching package: 'car'
## The following object is masked from 'package:ggVennDiagram':
## 
##     ellipse
## The following object is masked from 'package:gtools':
## 
##     logit
## The following object is masked from 'package:expss':
## 
##     recode
## The following object is masked from 'package:DescTools':
## 
##     Recode
## The following object is masked from 'package:purrr':
## 
##     some
## The following object is masked from 'package:dplyr':
## 
##     recode
## Registered S3 methods overwritten by 'Hmisc':
##   method                 from 
##   [.labelled             expss
##   print.labelled         expss
##   as.data.frame.labelled expss
x <- seq(0, 2, length.out = 1000)
RcmdrMisc::plotDistr(x, dexp(x, rate = 5), ylab="f(x)",
                     main = expression(paste("Distribución exponencial de parámetro ",lambda==5)), las=1)

set.seed(333)
n<-10000
lambda<-10
x<- -log(runif(n,0,1))/lambda
hist(x)

10.5.3 Variable aleatoria con distribución normal

Una variable aleatoria \(X\) tiene una distribución normal de parámetros \(\mu\) y \(\sigma\) si su función de densidad de probabilidad es

\[ f(x; \mu, \sigma) = \dfrac{1}{\sigma\sqrt{2\pi}}\exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)\ \ \text{ si }\ \ x \in \mathbb{R} \]

donde \(E(X)=\mu\) y \(Var(X)=\sigma^2\).

Contraste entre varias curvas normales con diferentes parámetros de media y desvío estándar

Veamos algunos perfiles de la distribución normal para ciertos valores de \(\mu\) y \(\sigma\).

x <- round(seq(-6, 6, len=100),3)
x
##   [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
##  [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
##  [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
##  [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
##  [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
##  [51]  0.061  0.182  0.303  0.424  0.545  0.667  0.788  0.909  1.030  1.152
##  [61]  1.273  1.394  1.515  1.636  1.758  1.879  2.000  2.121  2.242  2.364
##  [71]  2.485  2.606  2.727  2.848  2.970  3.091  3.212  3.333  3.455  3.576
##  [81]  3.697  3.818  3.939  4.061  4.182  4.303  4.424  4.545  4.667  4.788
##  [91]  4.909  5.030  5.152  5.273  5.394  5.515  5.636  5.758  5.879  6.000
#f1 es la función de densidad para cada valor posible de X, si esta sigue una distribución normal de media 0 y varianza 1
f1=dnorm(x, 0, 1)
f1
##   [1] 6.075883e-09 1.246602e-08 2.520507e-08 5.050535e-08 9.915803e-08
##   [6] 1.918491e-07 3.657912e-07 6.873030e-07 1.279056e-06 2.333645e-06
##  [11] 4.195867e-06 7.434472e-06 1.304050e-05 2.243639e-05 3.804111e-05
##  [16] 6.356163e-05 1.046594e-04 1.704959e-04 2.726012e-04 4.295197e-04
##  [21] 6.669293e-04 1.020512e-03 1.543994e-03 2.294109e-03 3.359111e-03
##  [26] 4.847033e-03 6.912039e-03 9.684748e-03 1.337248e-02 1.819604e-02
##  [31] 2.439965e-02 3.231510e-02 4.207679e-02 5.399097e-02 6.827176e-02
##  [36] 8.507513e-02 1.046445e-01 1.266217e-01 1.509878e-01 1.774258e-01
##  [41] 2.054627e-01 2.347138e-01 2.639280e-01 2.924649e-01 3.193770e-01
##  [46] 3.438839e-01 3.646466e-01 3.810430e-01 3.923894e-01 3.982007e-01
##  [51] 3.982007e-01 3.923894e-01 3.810430e-01 3.646466e-01 3.438839e-01
##  [56] 3.193770e-01 2.924649e-01 2.639280e-01 2.347138e-01 2.054627e-01
##  [61] 1.774258e-01 1.509878e-01 1.266217e-01 1.046445e-01 8.507513e-02
##  [66] 6.827176e-02 5.399097e-02 4.207679e-02 3.231510e-02 2.439965e-02
##  [71] 1.819604e-02 1.337248e-02 9.684748e-03 6.912039e-03 4.847033e-03
##  [76] 3.359111e-03 2.294109e-03 1.543994e-03 1.020512e-03 6.669293e-04
##  [81] 4.295197e-04 2.726012e-04 1.704959e-04 1.046594e-04 6.356163e-05
##  [86] 3.804111e-05 2.243639e-05 1.304050e-05 7.434472e-06 4.195867e-06
##  [91] 2.333645e-06 1.279056e-06 6.873030e-07 3.657912e-07 1.918491e-07
##  [96] 9.915803e-08 5.050535e-08 2.520507e-08 1.246602e-08 6.075883e-09
y <- cbind(round(f1,3), round(dnorm(x, -2, 1), 3),
           round(dnorm(x, 0, 2), 3), round(dnorm( x, 0, .5),3),
           round(dnorm(x, 2, .3), 3), round(dnorm(x, -.5, 3 ),3))
valores=data.frame(x,y)
head(valores)
##        x X1    X2    X3 X4 X5    X6
## 1 -6.000  0 0.000 0.002  0  0 0.025
## 2 -5.879  0 0.000 0.003  0  0 0.027
## 3 -5.758  0 0.000 0.003  0  0 0.029
## 4 -5.636  0 0.001 0.004  0  0 0.031
## 5 -5.515  0 0.001 0.004  0  0 0.033
## 6 -5.394  0 0.001 0.005  0  0 0.035
matplot(x, y, type="l", col=c(1,2,3,4,5,6), las = 1, ylab = "f(x)")
legend(-6, 1.3, expression(paste(mu==0," ; ", sigma==1),
                           paste(mu==-2," ; ", sigma==1),
                           paste(mu==0," ; ", sigma==2),
                           paste(mu==0," ; ", sigma==0.5),
                           paste(mu==2," ; ", sigma==0.3),
                           paste(mu==-0.5," ; ", sigma==3)),
       lty = 1:6, cex = 0.7, col=c(1,2,3,4,5,6))
matplot dnomr

matplot dnomr

10.5.3.1 Cálculo de probabilidades con la distribución normal

# la probabilidad de que una variable aleatoria normal estándar tenga un valor menor a 1.5
pbb=pnorm(1.5,mean=0,sd=1)
pbb
## [1] 0.9331928
x <- seq(-3.5, 3.5, length.out = 1000)
RcmdrMisc::plotDistr(x,dnorm(x,0,1), 
                     regions = list(c(-3.5,1.5)), 
                     legend = F, bty = "n", las = 1,
                     xlab="x", ylab="f(x)")

# la probabilidad de que una variable aleatoria normal de media 20 y desvío estándar 2 tenga un valor mayor a 18 y menor 21
area=pnorm(21,20,2)-pnorm(18,20,2)
area
## [1] 0.5328072
x <- seq(13, 27, length.out = 1000)
RcmdrMisc::plotDistr(x,dnorm(x,20,2), 
                     regions = list(c(18, 21)),
                     legend = F, bty = "n", las = 1,
                     xlab="x", ylab="f(x)")

Si aplicamos barplot() al objeto f1 tenemos un histograma cuya apariencia en la siguiente:

# Gráfica de la función f1
barplot(f1, las=1)
Barplot f1

Barplot f1

La tabla de la distribución normal

q=round(seq(-4,4,length=100),3)
q
##   [1] -4.000 -3.919 -3.838 -3.758 -3.677 -3.596 -3.515 -3.434 -3.354 -3.273
##  [11] -3.192 -3.111 -3.030 -2.949 -2.869 -2.788 -2.707 -2.626 -2.545 -2.465
##  [21] -2.384 -2.303 -2.222 -2.141 -2.061 -1.980 -1.899 -1.818 -1.737 -1.657
##  [31] -1.576 -1.495 -1.414 -1.333 -1.253 -1.172 -1.091 -1.010 -0.929 -0.848
##  [41] -0.768 -0.687 -0.606 -0.525 -0.444 -0.364 -0.283 -0.202 -0.121 -0.040
##  [51]  0.040  0.121  0.202  0.283  0.364  0.444  0.525  0.606  0.687  0.768
##  [61]  0.848  0.929  1.010  1.091  1.172  1.253  1.333  1.414  1.495  1.576
##  [71]  1.657  1.737  1.818  1.899  1.980  2.061  2.141  2.222  2.303  2.384
##  [81]  2.465  2.545  2.626  2.707  2.788  2.869  2.949  3.030  3.111  3.192
##  [91]  3.273  3.354  3.434  3.515  3.596  3.677  3.758  3.838  3.919  4.000
pbb1=round(pnorm(q,0,1),3)
pbb1
##   [1] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.001 0.001
##  [13] 0.001 0.002 0.002 0.003 0.003 0.004 0.005 0.007 0.009 0.011 0.013 0.016
##  [25] 0.020 0.024 0.029 0.035 0.041 0.049 0.058 0.067 0.079 0.091 0.105 0.121
##  [37] 0.138 0.156 0.176 0.198 0.221 0.246 0.272 0.300 0.329 0.358 0.389 0.420
##  [49] 0.452 0.484 0.516 0.548 0.580 0.611 0.642 0.671 0.700 0.728 0.754 0.779
##  [61] 0.802 0.824 0.844 0.862 0.879 0.895 0.909 0.921 0.933 0.942 0.951 0.959
##  [73] 0.965 0.971 0.976 0.980 0.984 0.987 0.989 0.991 0.993 0.995 0.996 0.997
##  [85] 0.997 0.998 0.998 0.999 0.999 0.999 0.999 1.000 1.000 1.000 1.000 1.000
##  [97] 1.000 1.000 1.000 1.000
plot(pbb1, las=1)

#Funcion de densidad
dens1=dnorm(q,0,1)
dens1
##   [1] 0.0001338302 0.0001844340 0.0002525098 0.0003421640 0.0004623895
##   [6] 0.0006207721 0.0008279556 0.0010970653 0.0014393027 0.0018824088
##  [11] 0.0024458305 0.0031571075 0.0040485822 0.0051578315 0.0065093281
##  [16] 0.0081853400 0.0102255782 0.0126908181 0.0156473918 0.0191194138
##  [21] 0.0232682262 0.0281321274 0.0337903327 0.0403211541 0.0477011853
##  [26] 0.0561831419 0.0657405705 0.0764207874 0.0882551672 0.1010880830
##  [31] 0.1152298404 0.1304909983 0.1468069922 0.1640829751 0.1819646151
##  [36] 0.2007428520 0.2200107141 0.2395510977 0.2591212881 0.2784573054
##  [41] 0.2970512687 0.3150817868 0.3320211746 0.3475832643 0.3614951936
##  [46] 0.3733695746 0.3832824734 0.3908855264 0.3960324870 0.3986232542
##  [51] 0.3986232542 0.3960324870 0.3908855264 0.3832824734 0.3733695746
##  [56] 0.3614951936 0.3475832643 0.3320211746 0.3150817868 0.2970512687
##  [61] 0.2784573054 0.2591212881 0.2395510977 0.2200107141 0.2007428520
##  [66] 0.1819646151 0.1640829751 0.1468069922 0.1304909983 0.1152298404
##  [71] 0.1010880830 0.0882551672 0.0764207874 0.0657405705 0.0561831419
##  [76] 0.0477011853 0.0403211541 0.0337903327 0.0281321274 0.0232682262
##  [81] 0.0191194138 0.0156473918 0.0126908181 0.0102255782 0.0081853400
##  [86] 0.0065093281 0.0051578315 0.0040485822 0.0031571075 0.0024458305
##  [91] 0.0018824088 0.0014393027 0.0010970653 0.0008279556 0.0006207721
##  [96] 0.0004623895 0.0003421640 0.0002525098 0.0001844340 0.0001338302
tablaZ=data.frame(q,pbb1,dens1)
tablaZ
##          q  pbb1        dens1
## 1   -4.000 0.000 0.0001338302
## 2   -3.919 0.000 0.0001844340
## 3   -3.838 0.000 0.0002525098
## 4   -3.758 0.000 0.0003421640
## 5   -3.677 0.000 0.0004623895
## 6   -3.596 0.000 0.0006207721
## 7   -3.515 0.000 0.0008279556
## 8   -3.434 0.000 0.0010970653
## 9   -3.354 0.000 0.0014393027
## 10  -3.273 0.001 0.0018824088
## 11  -3.192 0.001 0.0024458305
## 12  -3.111 0.001 0.0031571075
## 13  -3.030 0.001 0.0040485822
## 14  -2.949 0.002 0.0051578315
## 15  -2.869 0.002 0.0065093281
## 16  -2.788 0.003 0.0081853400
## 17  -2.707 0.003 0.0102255782
## 18  -2.626 0.004 0.0126908181
## 19  -2.545 0.005 0.0156473918
## 20  -2.465 0.007 0.0191194138
## 21  -2.384 0.009 0.0232682262
## 22  -2.303 0.011 0.0281321274
## 23  -2.222 0.013 0.0337903327
## 24  -2.141 0.016 0.0403211541
## 25  -2.061 0.020 0.0477011853
## 26  -1.980 0.024 0.0561831419
## 27  -1.899 0.029 0.0657405705
## 28  -1.818 0.035 0.0764207874
## 29  -1.737 0.041 0.0882551672
## 30  -1.657 0.049 0.1010880830
## 31  -1.576 0.058 0.1152298404
## 32  -1.495 0.067 0.1304909983
## 33  -1.414 0.079 0.1468069922
## 34  -1.333 0.091 0.1640829751
## 35  -1.253 0.105 0.1819646151
## 36  -1.172 0.121 0.2007428520
## 37  -1.091 0.138 0.2200107141
## 38  -1.010 0.156 0.2395510977
## 39  -0.929 0.176 0.2591212881
## 40  -0.848 0.198 0.2784573054
## 41  -0.768 0.221 0.2970512687
## 42  -0.687 0.246 0.3150817868
## 43  -0.606 0.272 0.3320211746
## 44  -0.525 0.300 0.3475832643
## 45  -0.444 0.329 0.3614951936
## 46  -0.364 0.358 0.3733695746
## 47  -0.283 0.389 0.3832824734
## 48  -0.202 0.420 0.3908855264
## 49  -0.121 0.452 0.3960324870
## 50  -0.040 0.484 0.3986232542
## 51   0.040 0.516 0.3986232542
## 52   0.121 0.548 0.3960324870
## 53   0.202 0.580 0.3908855264
## 54   0.283 0.611 0.3832824734
## 55   0.364 0.642 0.3733695746
## 56   0.444 0.671 0.3614951936
## 57   0.525 0.700 0.3475832643
## 58   0.606 0.728 0.3320211746
## 59   0.687 0.754 0.3150817868
## 60   0.768 0.779 0.2970512687
## 61   0.848 0.802 0.2784573054
## 62   0.929 0.824 0.2591212881
## 63   1.010 0.844 0.2395510977
## 64   1.091 0.862 0.2200107141
## 65   1.172 0.879 0.2007428520
## 66   1.253 0.895 0.1819646151
## 67   1.333 0.909 0.1640829751
## 68   1.414 0.921 0.1468069922
## 69   1.495 0.933 0.1304909983
## 70   1.576 0.942 0.1152298404
## 71   1.657 0.951 0.1010880830
## 72   1.737 0.959 0.0882551672
## 73   1.818 0.965 0.0764207874
## 74   1.899 0.971 0.0657405705
## 75   1.980 0.976 0.0561831419
## 76   2.061 0.980 0.0477011853
## 77   2.141 0.984 0.0403211541
## 78   2.222 0.987 0.0337903327
## 79   2.303 0.989 0.0281321274
## 80   2.384 0.991 0.0232682262
## 81   2.465 0.993 0.0191194138
## 82   2.545 0.995 0.0156473918
## 83   2.626 0.996 0.0126908181
## 84   2.707 0.997 0.0102255782
## 85   2.788 0.997 0.0081853400
## 86   2.869 0.998 0.0065093281
## 87   2.949 0.998 0.0051578315
## 88   3.030 0.999 0.0040485822
## 89   3.111 0.999 0.0031571075
## 90   3.192 0.999 0.0024458305
## 91   3.273 0.999 0.0018824088
## 92   3.354 1.000 0.0014393027
## 93   3.434 1.000 0.0010970653
## 94   3.515 1.000 0.0008279556
## 95   3.596 1.000 0.0006207721
## 96   3.677 1.000 0.0004623895
## 97   3.758 1.000 0.0003421640
## 98   3.838 1.000 0.0002525098
## 99   3.919 1.000 0.0001844340
## 100  4.000 1.000 0.0001338302
curvagauss=plot(data.frame(q,dens1))

10.6 Muestreo e Inferencia Estadística

Muestra aleatoria

Es una porción o un subconjunto de la población que es obtenido por un mecanismo de selección probabilística. De una manera más formal, una muestra aleatoria es una colección de \(n\) variables aleatorias (\(X_1, X_2,...,X_n\)) independientes e idénticamente distribuidas. Esto implica que la función de probabilidad o de densidad de probabilidad conjunta se puede escribir como

\[f(x_1, x_2, ..., x_n) = f(x_1)f(x_2)\cdots f(x_n)\]

Proceso inferencial

Proceso inferencial

Razones para obtener una muestra

En muchas situaciones el análisis exhaustivo de la población es difícil o es imposible de realizarlo. Esto puede deberse a:

a- El alto costo a que se incurre si se realiza una recolección de datos de todos los elementos o individuos que forman parte de la población.

b- La accesibilidad a cada uno de los elementos de la población puede verse obstaculizada por las regiones o momentos donde se quiera realizar la investigación.

c- En algunas ocasiones, las investigaciones disponen de un tiempo relativamente corto para poder recabar los datos de cada uno de los individuos, entre otras.

Es por todo esto que se recurre al muestreo. Si obtenemos una muestra no necesitamos de tanta inversión económica como en un censo ya que solo se toma una parte de la población. Además, podemos realizar procedimientos en donde se tenga una muestra representativa de la población sin la necesidad de acceder a lugares difíciles ni destruir la naturaleza del estudio.

10.7 Distribuciones muestrales

10.7.1 Teorema central del límite

Sean \(X_1, X_2,...,X_n\) \(n\) variables aleatorias IID con una distribución de probabilidad no especificada y que tienen una media \(\mu\) y una varianza \(\sigma^2\) finita. El promedio muestral \(\bar{X} =(X_1+X_2+...+X_n)/n\) tiene una distribución con media \(\mu\) y varianza \(\sigma^2/n\) que tiende hacia una distribución normal conforme \(n\) tiende a \(\infty\). En otras palabras, la variable aleatoria \((\bar{X}-\mu)/(\sigma/\sqrt{n})\) tiene como límite una distribución normal estándar

La siguiente simulación te muestra como funciona el teorema central del límite.

En primer lugar, simula 300 muestra de tamaño 5 de una variable aleatoria con distribución uniforme de parámetros \(a=0\) y \(b=1\).

u5<-sapply(1:300, function(x){mean(sample(runif(10000),5,rep=F))})
round(u5, 3)
##   [1] 0.491 0.690 0.610 0.516 0.739 0.615 0.696 0.575 0.562 0.616 0.469 0.300
##  [13] 0.673 0.292 0.602 0.278 0.385 0.345 0.378 0.660 0.598 0.600 0.362 0.436
##  [25] 0.521 0.600 0.565 0.392 0.704 0.324 0.667 0.558 0.436 0.723 0.338 0.516
##  [37] 0.642 0.402 0.531 0.572 0.622 0.467 0.602 0.530 0.463 0.233 0.492 0.488
##  [49] 0.637 0.348 0.558 0.754 0.385 0.577 0.637 0.513 0.476 0.499 0.567 0.710
##  [61] 0.694 0.709 0.678 0.427 0.556 0.139 0.516 0.659 0.492 0.603 0.662 0.388
##  [73] 0.559 0.580 0.519 0.520 0.529 0.415 0.510 0.518 0.409 0.411 0.498 0.375
##  [85] 0.623 0.441 0.595 0.426 0.548 0.517 0.530 0.617 0.636 0.356 0.596 0.540
##  [97] 0.699 0.512 0.428 0.493 0.737 0.488 0.410 0.476 0.539 0.567 0.449 0.622
## [109] 0.643 0.596 0.639 0.305 0.606 0.584 0.421 0.588 0.412 0.481 0.573 0.409
## [121] 0.564 0.592 0.276 0.445 0.569 0.557 0.565 0.444 0.487 0.611 0.511 0.500
## [133] 0.499 0.640 0.681 0.355 0.290 0.451 0.576 0.426 0.518 0.622 0.601 0.400
## [145] 0.677 0.652 0.387 0.560 0.627 0.697 0.319 0.513 0.573 0.668 0.439 0.584
## [157] 0.644 0.497 0.297 0.504 0.424 0.347 0.490 0.414 0.513 0.656 0.395 0.369
## [169] 0.439 0.605 0.693 0.501 0.433 0.816 0.223 0.262 0.619 0.475 0.571 0.604
## [181] 0.642 0.285 0.379 0.573 0.391 0.511 0.391 0.357 0.144 0.661 0.625 0.352
## [193] 0.516 0.554 0.632 0.684 0.390 0.344 0.594 0.571 0.319 0.436 0.561 0.559
## [205] 0.490 0.504 0.382 0.505 0.595 0.701 0.525 0.480 0.638 0.431 0.651 0.592
## [217] 0.425 0.428 0.400 0.510 0.545 0.625 0.473 0.533 0.584 0.364 0.600 0.455
## [229] 0.513 0.458 0.518 0.610 0.289 0.451 0.472 0.543 0.471 0.434 0.602 0.550
## [241] 0.755 0.574 0.566 0.347 0.561 0.493 0.558 0.282 0.566 0.323 0.351 0.495
## [253] 0.556 0.578 0.418 0.591 0.641 0.239 0.700 0.585 0.553 0.512 0.897 0.534
## [265] 0.431 0.560 0.368 0.444 0.564 0.709 0.594 0.655 0.500 0.444 0.397 0.555
## [277] 0.789 0.592 0.536 0.497 0.525 0.585 0.628 0.566 0.341 0.566 0.462 0.528
## [289] 0.514 0.303 0.629 0.583 0.539 0.553 0.309 0.434 0.544 0.480 0.456 0.473
histU5=hist(u5)

En primer lugar, simula 300 muestra de tamaño 100 de una variable aleatoria con distribución uniforme de parámetros a=0 y b=1.

u100<-sapply(1:300, function(x){mean(sample(runif(10000),100,rep=F))})
round(u100, 3)
##   [1] 0.546 0.572 0.580 0.509 0.487 0.475 0.485 0.484 0.481 0.480 0.527 0.525
##  [13] 0.490 0.488 0.491 0.459 0.491 0.456 0.480 0.504 0.452 0.476 0.460 0.494
##  [25] 0.475 0.564 0.521 0.498 0.473 0.509 0.475 0.513 0.448 0.433 0.512 0.473
##  [37] 0.510 0.527 0.524 0.471 0.525 0.505 0.469 0.469 0.527 0.510 0.517 0.499
##  [49] 0.521 0.466 0.462 0.516 0.493 0.490 0.490 0.513 0.463 0.505 0.498 0.487
##  [61] 0.530 0.548 0.557 0.476 0.500 0.501 0.500 0.512 0.476 0.527 0.540 0.485
##  [73] 0.497 0.478 0.498 0.547 0.504 0.478 0.487 0.538 0.493 0.516 0.510 0.530
##  [85] 0.521 0.448 0.476 0.516 0.528 0.540 0.483 0.529 0.516 0.466 0.520 0.463
##  [97] 0.466 0.488 0.471 0.449 0.507 0.491 0.456 0.426 0.501 0.508 0.484 0.533
## [109] 0.505 0.464 0.487 0.469 0.523 0.452 0.533 0.537 0.478 0.488 0.554 0.482
## [121] 0.467 0.542 0.523 0.511 0.457 0.450 0.482 0.530 0.485 0.488 0.523 0.512
## [133] 0.523 0.498 0.514 0.520 0.496 0.500 0.547 0.465 0.553 0.447 0.489 0.493
## [145] 0.553 0.464 0.484 0.581 0.502 0.583 0.454 0.498 0.490 0.510 0.550 0.509
## [157] 0.490 0.533 0.487 0.486 0.533 0.509 0.441 0.455 0.474 0.472 0.554 0.447
## [169] 0.477 0.513 0.535 0.516 0.512 0.476 0.488 0.463 0.467 0.535 0.532 0.535
## [181] 0.447 0.497 0.540 0.486 0.498 0.464 0.475 0.457 0.471 0.529 0.494 0.453
## [193] 0.484 0.579 0.473 0.493 0.513 0.533 0.528 0.518 0.513 0.553 0.504 0.477
## [205] 0.531 0.460 0.528 0.474 0.535 0.504 0.475 0.507 0.487 0.477 0.517 0.487
## [217] 0.534 0.528 0.473 0.482 0.528 0.490 0.535 0.444 0.546 0.489 0.463 0.473
## [229] 0.484 0.460 0.460 0.482 0.500 0.489 0.476 0.511 0.455 0.515 0.502 0.509
## [241] 0.513 0.520 0.473 0.465 0.457 0.525 0.445 0.448 0.527 0.506 0.467 0.485
## [253] 0.501 0.504 0.491 0.537 0.502 0.548 0.454 0.477 0.519 0.534 0.478 0.506
## [265] 0.510 0.514 0.504 0.534 0.489 0.504 0.461 0.494 0.534 0.484 0.498 0.488
## [277] 0.531 0.502 0.524 0.456 0.482 0.525 0.488 0.471 0.472 0.491 0.477 0.508
## [289] 0.511 0.439 0.483 0.442 0.516 0.483 0.498 0.543 0.492 0.422 0.531 0.446
histU100=hist(u100)

Grafíca ambos resultados con dos histogramas para compararlos.

plot(histU5, col = "lightgray",main = "Histogram of U5 and U100") # Plot 1st histogram using a transparent color
plot(histU100, col = "blue", add = TRUE) # Add 2nd histogram using different color

Calcula los valores estandarizados para cada media y grafica un histograma para verificar que la distribución de las medias muestrales estandarizadas es efectivamente normal.

#media y varianza de la distribución uniforme con parámetros a=0 y b=1
n=100
a=0
b=1
munif=(a+b)/2
munif
## [1] 0.5
varunif=(b-a)^2/12
varunif
## [1] 0.08333333
u100z=(u100-munif)/(sqrt(varunif)/sqrt(n))
hist(u100z,col = "green", breaks=10, freq = F, xlim=c(-4,4))
lines(seq(-4, 4, by=.1), dnorm(seq(-4, 4, by=.1),0, 1), col="blue")

Realiza la mísma simulación con una variable aleatoria con distribución Poisson de parámetro igual a 2.

p5<-sapply(1:300, function(x){mean(sample(rpois(10000,2),5,rep=F))})
p5
##   [1] 2.0 2.6 1.2 1.6 2.4 1.8 2.2 3.0 1.4 4.0 1.0 2.0 3.8 1.8 3.2 2.0 2.6 1.4
##  [19] 3.2 1.2 2.6 1.4 2.0 1.2 1.6 2.0 1.2 1.4 2.0 2.4 2.6 1.6 2.4 1.4 1.8 2.4
##  [37] 1.2 1.6 3.2 2.2 2.2 1.4 2.4 2.0 1.4 2.6 4.0 1.4 2.6 2.2 2.4 2.8 3.0 1.6
##  [55] 1.8 1.0 2.8 2.0 1.4 1.6 1.4 1.6 1.2 1.6 2.0 1.8 1.2 1.6 2.0 2.2 3.0 2.6
##  [73] 2.2 1.8 1.6 2.0 1.8 1.6 2.2 1.8 1.2 1.6 2.0 2.4 1.8 3.2 2.0 2.2 2.0 2.8
##  [91] 3.4 1.8 2.4 2.2 2.0 1.2 1.6 1.0 1.0 2.4 1.0 1.8 2.0 2.0 2.4 1.0 1.8 2.2
## [109] 2.8 2.8 2.2 2.6 2.2 2.0 1.8 0.4 1.8 1.4 2.0 2.8 2.2 1.2 2.4 1.8 2.2 1.2
## [127] 3.0 3.6 2.4 1.2 2.2 2.0 1.8 2.0 1.6 2.2 1.8 3.0 2.4 2.4 1.8 2.8 1.0 3.2
## [145] 3.0 1.8 2.0 1.8 0.6 2.6 2.2 1.6 2.4 2.6 1.4 2.2 1.4 2.6 2.0 1.6 2.0 2.0
## [163] 1.6 2.8 2.2 2.0 1.6 1.4 2.2 1.8 2.6 1.0 2.4 1.2 2.4 2.2 2.6 1.6 2.2 2.0
## [181] 3.2 2.2 2.4 1.2 2.2 3.0 2.2 2.4 2.4 2.0 1.2 2.0 1.4 1.0 1.6 1.8 1.2 2.0
## [199] 1.6 2.6 2.4 2.6 2.4 2.2 1.0 2.4 2.4 1.4 1.8 1.2 2.0 1.6 3.2 1.2 2.2 1.4
## [217] 2.8 1.0 2.0 3.6 1.0 2.2 2.6 1.6 1.2 2.2 2.2 2.0 1.6 2.0 2.6 2.0 1.8 1.2
## [235] 2.8 1.4 2.4 1.4 2.0 2.0 2.6 1.0 3.0 1.2 0.8 2.8 1.8 1.6 1.2 2.0 2.2 0.4
## [253] 1.6 1.8 1.6 1.6 1.6 1.4 1.6 1.8 2.8 3.8 3.4 3.4 3.8 1.8 1.6 1.0 1.8 1.8
## [271] 1.8 2.6 2.0 2.2 2.8 2.0 1.4 1.6 2.2 1.4 1.2 2.0 1.4 1.6 1.8 2.2 1.8 2.2
## [289] 2.2 1.0 2.0 2.8 1.8 2.6 1.6 0.8 2.4 2.2 1.6 1.4
p100<-sapply(1:300, function(x){mean(sample(rpois(10000,2),100,rep=F))})
p100
##   [1] 1.85 1.86 1.97 2.17 1.85 1.89 2.02 1.91 1.69 2.06 2.04 1.86 2.00 1.69 2.09
##  [16] 1.93 2.13 2.01 1.96 2.11 2.15 1.70 1.83 1.93 1.91 2.02 2.00 1.83 1.91 1.90
##  [31] 1.97 1.85 2.07 2.20 2.07 2.15 1.96 2.00 2.10 2.11 2.22 2.30 2.18 2.31 2.21
##  [46] 1.99 2.05 1.95 1.76 2.07 2.12 1.89 1.95 1.86 1.97 2.03 2.09 2.01 1.98 1.94
##  [61] 2.05 2.10 2.12 1.80 2.03 2.02 1.93 1.99 2.05 2.11 2.08 2.17 1.79 1.73 2.00
##  [76] 1.89 1.90 1.95 2.08 1.94 2.06 1.99 2.06 1.96 1.97 1.96 2.04 1.69 2.20 1.99
##  [91] 1.97 2.16 1.96 2.01 1.85 1.95 1.91 1.82 2.13 1.96 1.94 2.02 2.09 2.08 1.91
## [106] 2.15 1.98 2.11 2.19 2.11 2.01 1.95 1.73 2.01 2.00 2.01 2.06 1.87 1.95 1.87
## [121] 2.08 2.25 1.99 1.99 1.82 2.06 2.03 1.96 1.99 2.13 2.33 2.09 2.16 2.00 2.16
## [136] 2.16 1.96 2.03 1.91 1.84 1.91 1.90 2.19 2.08 2.11 1.92 2.00 1.97 2.20 2.07
## [151] 1.78 2.22 2.06 1.98 2.22 1.92 2.05 1.90 1.96 1.96 2.11 1.84 1.84 2.04 2.03
## [166] 2.05 1.92 2.18 1.77 1.85 1.84 1.74 1.94 2.03 2.05 1.96 2.15 2.00 1.79 1.86
## [181] 2.18 2.04 1.82 2.04 1.95 1.74 2.23 1.89 2.01 2.01 2.03 2.03 1.96 1.82 2.02
## [196] 1.84 2.18 1.99 1.87 2.00 2.08 1.87 2.17 2.03 1.93 1.96 1.78 1.99 2.26 1.81
## [211] 2.14 1.85 1.83 1.76 2.02 2.17 2.31 2.10 1.99 2.22 2.17 1.95 2.04 1.67 1.84
## [226] 2.10 1.98 2.15 2.08 2.11 1.94 1.90 2.22 1.93 1.77 1.94 1.97 1.98 2.01 2.06
## [241] 1.75 2.19 1.86 2.10 2.04 1.92 1.98 1.86 2.16 1.95 2.02 2.20 1.78 1.96 2.19
## [256] 2.02 1.93 1.81 1.87 2.08 2.00 1.83 1.98 1.84 2.00 2.04 2.13 1.99 1.94 1.95
## [271] 2.05 1.85 2.08 2.04 1.92 1.94 2.01 2.09 2.05 2.09 1.95 1.95 1.70 1.96 2.16
## [286] 2.02 1.98 1.89 1.88 1.73 1.90 2.03 2.17 2.06 2.19 1.97 1.94 1.98 1.88 2.23
par(mfrow=c(1,2))
hist(p5,col = "lightgreen", breaks=20, freq = TRUE, xlim=c(0,6))
hist(p100,col = "green", breaks=20, freq = TRUE, xlim=c(0,6))

Calcula los valores estandarizados para cada media y gráfica un histograma para verificar que la distribución es efectivamente normal estándar.

p100z=(p100-2)/(sqrt(2)/sqrt(100))
hist(p100z,col = "green", breaks=10, freq = F, xlim=c(-4,4))
lines(seq(-4, 4, by=.1), dnorm(seq(-4, 4, by=.1),0, 1), col="blue")

10.7.2 Distribución muestral de la media

Como ya se ha visto, la media muestral tiene esperanza \(\mu\) y varianza \(\sigma^{2}/n\); además por ser combinación lineal de variables Normales es a su vez Normal, es decir: \[\overline{X} \sim N\left(\mu,\frac{\sigma}{\sqrt{n}}\right).\] Lo anterior también sería, aproximadamente, cierto para una variable \(X\) no Normal siempre que \(n\) sea suficientemente grande, como garantiza el Teorema Central del Límite.

10.7.2.1 Varianza Poblacional conocida

\[\overline{X} \sim Nor \left( \mu, \frac{\sigma^2}{n}\right)\] > Estudio de caso

Para una población con distribución normal con media igual a 4.5 y varianza igual a 2. Se realiza un muestreo aleatorio simple de tamaño 35. ¿Cuál es la probabilidad de que la media muestral sea al menos igual a 5?

  • \(P(\overline{X}\geq 5)=P\left( Z \geq \dfrac{5-4.5}{\sqrt{2}/\sqrt{35}} \right)=0.0182\)
mu = 4.5
sigma = 2
n = 35
sigma_mu = sigma/n
pnorm(5, mean = mu, sd = sqrt(sigma_mu), lower.tail = F)
## [1] 0.01823492
# o también
pnorm((5-4.5)/(sqrt(2/35)),lower.tail = F) #Normal estándar
## [1] 0.01823492
#Gráfico
library(RcmdrMisc)
x1 <- seq(3.5, 5.5, length.out=1000)  
  plotDistr(x1, dnorm(x1, mean=mu, sd=sqrt(sigma_mu)), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(5, 5.5)), legend.pos=F, bty="n")

10.7.2.2 Varianza Poblacional desconocida

\[\frac{\overline{X}-\mu}{\hat{S}/\sqrt{n}} \sim t_{n-1}\] > Estudio de caso

Supongamos el ejemplo anterior pero donde la varianza poblacional es desconocida. Sin embargo, se conoce la varianza muestral \(\hat{s}\) que es igual a 2.25.

  • \(P(\overline{X}\geq 5)=P\left( T \geq \dfrac{5-4.5}{\sqrt{2.25}/\sqrt{35}} \right)=0.0284\)
mu = 4.5
s2 = 2.25
n = 35
s2_mu = s2/n
pt((5-mu)/sqrt(s2_mu), df = 34,lower.tail = F)
## [1] 0.02839295
#Gráfico

x2 <- seq(-3.5, 3.5, length.out=1000)  
  plotDistr(x2, dt(x2, df = 34), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(1.97, 3.5)), legend=F, bty="n")

** Estudio de caso ** Probabilidades t student vs la normal

q<-c(seq(from=-4, to=+4, by=0.1))
q
##  [1] -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 -2.7 -2.6
## [16] -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1
## [31] -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1  0.0  0.1  0.2  0.3  0.4
## [46]  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4  1.5  1.6  1.7  1.8  1.9
## [61]  2.0  2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9  3.0  3.1  3.2  3.3  3.4
## [76]  3.5  3.6  3.7  3.8  3.9  4.0
gl<-5
pstu<-pt(q,gl)
pstu
##  [1] 0.005161708 0.005704646 0.006314241 0.006999703 0.007771628 0.008642216
##  [7] 0.009625522 0.010737750 0.011997588 0.013426592 0.015049624 0.016895352
## [13] 0.018996812 0.021392032 0.024124727 0.027245050 0.030810396 0.034886235
## [19] 0.039546949 0.044876625 0.050969739 0.057931652 0.065878792 0.074938393
## [25] 0.085247616 0.096951840 0.110201940 0.125150317 0.141945528 0.160725410
## [31] 0.181608734 0.204685600 0.230007033 0.257574474 0.287330144 0.319149436
## [37] 0.352836557 0.388124521 0.424680257 0.462115071 0.500000000 0.537884929
## [43] 0.575319743 0.611875479 0.647163443 0.680850564 0.712669856 0.742425526
## [49] 0.769992967 0.795314400 0.818391266 0.839274590 0.858054472 0.874849683
## [55] 0.889798060 0.903048160 0.914752384 0.925061607 0.934121208 0.942068348
## [61] 0.949030261 0.955123375 0.960453051 0.965113765 0.969189604 0.972754950
## [67] 0.975875273 0.978607968 0.981003188 0.983104648 0.984950376 0.986573408
## [73] 0.988002412 0.989262250 0.990374478 0.991357784 0.992228372 0.993000297
## [79] 0.993685759 0.994295354 0.994838292
pnorm<-pnorm(q)
pnorm
##  [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
##  [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01
datos=data.frame(pstu,pnorm)
matplot (q,datos, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal),paste(student)), cex = 0.7,lty = 1:2)

con muestras de tamaño 15

gl<-15
pstu15<-pt(q,gl)
pstu15
##  [1] 0.0005796584 0.0007106144 0.0008716145 0.0010695443 0.0013128305
##  [6] 0.0016117655 0.0019788916 0.0024294533 0.0029819242 0.0036586153
## [11] 0.0044863687 0.0054973399 0.0067298632 0.0082293928 0.0100495006
## [16] 0.0122529016 0.0149124647 0.0181121487 0.0219477876 0.0265276281
## [21] 0.0319725036 0.0384155129 0.0460010591 0.0548831055 0.0652225098
## [26] 0.0771833302 0.0909280407 0.1066116606 0.1243748937 0.1443364788
## [31] 0.1665850680 0.1911710668 0.2180989696 0.2473207913 0.2787312176
## [36] 0.3121650568 0.3473974679 0.3841472673 0.4220833885 0.4608343100
## [41] 0.5000000000 0.5391656900 0.5779166115 0.6158527327 0.6526025321
## [46] 0.6878349432 0.7212687824 0.7526792087 0.7819010304 0.8088289332
## [51] 0.8334149320 0.8556635212 0.8756251063 0.8933883394 0.9090719593
## [56] 0.9228166698 0.9347774902 0.9451168945 0.9539989409 0.9615844871
## [61] 0.9680274964 0.9734723719 0.9780522124 0.9818878513 0.9850875353
## [66] 0.9877470984 0.9899504994 0.9917706072 0.9932701368 0.9945026601
## [71] 0.9955136313 0.9963413847 0.9970180758 0.9975705467 0.9980211084
## [76] 0.9983882345 0.9986871695 0.9989304557 0.9991283855 0.9992893856
## [81] 0.9994203416
pnorm15<-pnorm(q)
pnorm15
##  [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
##  [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01
datos15=data.frame(pstu15,pnorm15)
matplot (q,datos15, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal15),paste(student15)), cex = 0.7,lty = 1:2)

con muestras de tamaño 30

gl<-30

pstu30<-pt(q,gl)
pstu30
##  [1] 0.0001909228 0.0002511250 0.0003297791 0.0004322999 0.0005655892
##  [6] 0.0007384037 0.0009617981 0.0012496537 0.0016193009 0.0020922424
## [11] 0.0026949820 0.0034599551 0.0044265547 0.0056422333 0.0071636508
## [16] 0.0090578245 0.0114032185 0.0142906936 0.0178242200 0.0221212356
## [21] 0.0273125225 0.0335414620 0.0409625343 0.0497389378 0.0600392338
## [26] 0.0720329646 0.0858852546 0.1017504793 0.1197651754 0.1400404590
## [31] 0.1626543077 0.1876441434 0.2150002049 0.2446602217 0.2765058798
## [36] 0.3103615024 0.3459952583 0.3831230526 0.4214150785 0.4605048059
## [41] 0.5000000000 0.5394951941 0.5785849215 0.6168769474 0.6540047417
## [46] 0.6896384976 0.7234941202 0.7553397783 0.7849997951 0.8123558566
## [51] 0.8373456923 0.8599595410 0.8802348246 0.8982495207 0.9141147454
## [56] 0.9279670354 0.9399607662 0.9502610622 0.9590374657 0.9664585380
## [61] 0.9726874775 0.9778787644 0.9821757800 0.9857093064 0.9885967815
## [66] 0.9909421755 0.9928363492 0.9943577667 0.9955734453 0.9965400449
## [71] 0.9973050180 0.9979077576 0.9983806991 0.9987503463 0.9990382019
## [76] 0.9992615963 0.9994344108 0.9995677001 0.9996702209 0.9997488750
## [81] 0.9998090772
pnorm30<-pnorm(q)
pnorm30
##  [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
##  [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01
datos30=data.frame(pstu30,pnorm30)
matplot (q,datos30, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal),paste(student)), cex = 0.7,lty = 1:2)

10.7.3 Distribución!de la varianza muestral

La relación que existe entre la media y la varianza muestral viene dada por el {}:

Se obviará la demostración de lo anterior, que de forma equivalente y en función de la cuasivarianza muestral, puede expresarse como: \[\begin{equation} \frac{(n-1) S_c^2}{\sigma^2} \sim \chi_{n-1}^2 .\label{Chidos} \end{equation}\] De los momentos de una Chi–cuadrado se puede deducir: \[\E[S^2] = \frac{n-1}{n} \sigma^2\qquad \Var[S^2] = \frac{2(n-1)}{n^2}\sigma^4.\]

Esto indica, como ya se estudió, que \(S^2\) no es un estimador insesgado de \(\sigma^2\), por lo que en la mayoría de los casos se toma como estimador de la varianza poblacional la cuasivarianza muestral, \(S_c^2\), también denominada {}. La razón de no elegir siempre la cuasivarianza es que su ECM es mayor que el de la varianza.

Por otro lado, puesto que \(\frac{\overline{X}-\mu}{\sigma}\sqrt{n}\sim N(0,1)\) y y como además estos estadísticos son independientes, se tiene que \[\frac{\frac{\overline{X}-\mu}{\sigma}\sqrt{n}} {\sqrt{\frac{(n-1)S^2_c}{(n-1)\sigma^2}}} =\frac{\overline{X}-\mu}{S_c}\sqrt{n}\sim t_{n-1}.\]

10.7.4 Distribución muestral de la diferencia de medias

\[\overline{X}_1-\overline{X}_2 \sim Nor\left(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}\right)\] > Estudio de caso

Las distribuciones de ciertas mediciones tienen distribuciones normales. Se cuentan con dos poblaciones con los siguientes valores: \(\mu_1=25\), \(\sigma_1=5\), \(\mu_2=26\) y \(\sigma_2=6\). Si se extraen muestras aleatorias de tamaños \(n_1=n_2=100\), ¿cuál es la probabilidad de que la media muestral \(\overline{x}_1\) supere a la otra media en al menos 1 unidad?

  • \(P(\overline{x}_1 \ge \overline{x}_2+1)=P(\overline{x}_1-\overline{x}_2 \ge 1)=P \left(Z \ge \dfrac{1-(25-26)}{\sqrt{\frac{5^2}{100}+\frac{6^2}{100}}} \right)\approx 0.005\)
mu_1 = 25
mu_2 = 26
sigma_1 = 5
sigma_2 = 6
n_1 = 100
n_2 = 100
sigma_dmu = sqrt((sigma_1^2)/n_1+(sigma_2^2)/n_2)
pnorm(1, mean = mu_1-mu_2, sd = sigma_dmu, lower.tail = F)
## [1] 0.005222511
#Gráfico
library(RcmdrMisc)
x1 <- seq(-4, 2, length.out=1000)  
  plotDistr(x1, dnorm(x1, mean=mu_1-mu_2, sd=sigma_dmu), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions =  list(c(1,2)), legend=F, bty="n")

En una clase de ciencias, se toma una m.a.s. de 51 alumnos que se presentaron al examen de matemáticas y otra, independiente de la anterior, de 19 alumnos presentados al examen de física. Se sabe que las notas de los alumnos tanto en matemáticas como en física siguen una Normal con la misma dispersión. Se pretende averiguar cuál es la probabilidad de que la varianza observada en la primera muestra sea al menos el doble de la segunda.

Sea \(S_M^2\) la varianza muestral de las notas correspondientes a matemáticas y \(S_F^2\) la varianza muestral de las notas de física. Puesto que se trata de muestras independientes y teniendo en cuenta que se tiene que Así pues,

10.7.5 Distribución muestral de proporciones

Utilizando una particularización del Teorema Central del Límite, se sabe que de forma a-sin-tó-ti-ca, para una población Bernouilli, B(p), se tiene que la distribución de la proporción muestral \(\stackrel{\wedge} p = \overline{X}\) puede aproximar por una Normal, tal que \[\stackrel{\wedge} p \quad \cong \quad N\left(p,\sqrt{\frac{p q}{n}}\,\right) .\]

Si se tienen dos poblaciones Bernouilli, entonces: \[\stackrel{\wedge} p_1 - \stackrel{\wedge} p_2 \quad \cong\quad N\left(p_1 -p_2,\sqrt{\frac{p_1q_1}{n_1} + \frac{p_2q_2}{n_2}}\,\right).\]

\[\hat{p} \sim Nor\left(p,\frac{pq}{n}\right)\]

Estudio de caso

En la asignatura de Estadística I, históricamente se sabe que el porcentaje de alumnos que aprueban es del 75%. En un cierto año, se tomó una muestra aleatoria de 35 estudiantes de la asignatura. Calcula la probabilidad de que el porcetaje de aprobados sea entre 70 y 80%.

  • \(P(0.70 \le \hat{p} \le 0.80)=P\left( \dfrac{0.70-0.75}{\sqrt{\frac{0.75(0.25)}{35}}} \le Z \le \dfrac{0.80-0.75}{\sqrt{\frac{0.75(0.25)}{35}}} \right)=0.5055\)
p = 0.75
n = 35
Z1 = (0.70-0.75)/sqrt(0.75*0.25/35)
Z2 = (0.80-0.75)/sqrt(0.75*0.25/35)
Probabilidad = pnorm(Z2)-pnorm(Z1)
Probabilidad
## [1] 0.5054753
#Gráfico
x1 <- seq(-3.5, 3.5, length.out=1000)  
  plotDistr(x1, dnorm(x1), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(Z1, Z2)), legend=F, bty="n")

10.7.6 Distribución muestral para la diferencia de proporciones

\[\hat{p}_1-\hat{p}_2 \sim Nor\left(p_1-p_2,\frac{p_1q_1}{n_1}+\frac{p_2q_2}{n_2}\right)\] > Estudio de caso

Sea \(p_1=0.5\), \(p_2=0.45\), \(n_1=60\) y \(n_2=50\). Calcula \(P(|\hat{p}_2-\hat{p}_1| \ge 0.1)\).

  • \(P(|\hat{p}_2-\hat{p}_1| \ge 0.1)=P \left( \dfrac{-0.1-(0.45-0.5)}{\sqrt{\frac{0.5(0.5)}{60}+\frac{0.45(0.55)}{50}}} > Z > \dfrac{0.1-(0.45-0.5)}{\sqrt{\frac{0.5(0.5)}{60}+\frac{0.45(0.55)}{50}}} \right)=0.3412\)
p1 = 0.5
p2 = 0.45
n1 = 60
n2 = 50
Z1 = (-0.1-(0.45-0.5))/sqrt(0.5*0.5/60+0.45*0.55/60)
Z2 = (0.1-(0.45-0.5))/sqrt(0.5*0.5/60+0.45*0.55/60)
Probabilidad = pnorm(Z1) + pnorm(Z2, lower.tail = F)
Probabilidad
## [1] 0.3412186
#Gráfico
x1 <- seq(-4, 4, length.out=1000)  
  plotDistr(x1, dnorm(x1), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(-4, Z1),c(Z2,4)), legend=F, bty="n")

10.7.7 Distribución muestral de la varianza

** Simulation of empirical distribution of sample variance(cheang?) **

set.seed(238) 
n <- 30 
mu <- 2 # mu = sigma for exponential 
sigma <- 2 
r <- 10000 # No. of samples 
Vstat <- rep(NA,r) 
for (i in 1:r) { x <- rnorm(n,mu,sigma) # Normal population 
# x <- rexp(n,rate=1/mu) # Exponential population 
 s2 <- var(x) 
# V-statistic 
 Vstat[i] <- (n - 1)*s2/sigma^2 }
upper <- 8*sqrt(2*(n-1)) 
chisqpdf <- dchisq(seq(0,upper,0.1),n-1) 
Npdf <- dnorm(seq(0,upper,0.1),n-1,sqrt(2*(n-1))) 
# Plot density histogram of V-statistic 
hist(Vstat,breaks=seq(min(Vstat),max(Vstat)+1,1),prob=T,right=T, 
main="",xlim=c(0,upper),ylim=c(0,max(chisqpdf)),mgp=c(2,0.5,0),cex=0.7) 
# Plot chisq-pdf 
lines(seq(0,upper,0.1),chisqpdf,lty=1,col="red") 
# Plot normal pdf 
lines(seq(0,upper,0.1),Npdf,lty=2,col="blue") 
mtext(side=3,line=1,outer=F,"(a) Normal population in blue",cex=1.0) 
# mtext(side=3,line=1,outer=F,"(b) Exponential population",cex=1.0) 
mtext(side=3,line=0,outer=F,paste("m = ",mu,", s = ",sigma,sep=""),font=5,cex=1.0) 

\[\frac{(n-1)\hat{S}^2}{\sigma^2} \sim \chi^2_{n-1}\] > Estudio de caso

En una población normal con varianza igual a 4. Calcula la probabilidad de que en una muestra de tamaño 20 se obtenga una varianza muestra inferior a 3.5.

  • \(P(\hat{s}^2<3.5)=P \left(\chi^2 < \dfrac{(20-1)3.5}{4} \right)=0.3847\)
sigma2 = 4
n = 20
s2 = 3.5
X2 = (n-1)*s2/sigma2
pchisq(X2, df = n-1)
## [1] 0.3847433
#Gráfico
x <- seq(0, 45, length.out=1000)  
  plotDistr(x, dchisq(x, df=19), cdf=FALSE, xlab="x", ylab="Densidad", main="",
            regions=list(c(0, (19*3.5)/4)), legend=F, bty = "n", las = 1)

10.7.8 Distribución muestral del cociente de varianzas

\[\frac{\hat{S}_1^2/\sigma_1^2}{\hat{S}_2^2/\sigma^2_2} \sim F_{n_1-1,n_2-1}\] > Estudio de caso

Sunponga dos variables aleatorias provenientes de dos poblaciones normales: \(X_1 \sim Nor(\mu_1,\sigma_1^2)\) y \(X_2 \sim Nor(\mu_2,\sigma_2^2)\). Se sabe que las varianzas poblacionales son desconocidas pero iguales. Si al seleccionar muestras aleatorios de tamaño 10 de cada población, ¿cuál es la probabilidad de que la varianza muestral de la primera sea menor a la otra?

  • \(P(\hat{s}_1<\hat{s}_2)=P\left( \dfrac{\hat{s}_1}{\hat{s}_2} <1 \right)=P(F<1)=0.5\)
n1 = 10
n2 = 10
pf(1, df1=n1-1, df2=n2-1)
## [1] 0.5
#Gráfico
x <- seq(0, 7, length.out=1000)  
plotDistr(x, df(x, df1=n1-1, df2=n2-1), cdf=FALSE, xlab="x", ylab="Densidad",
          main="", regions=list(c(0, 1)), legend=F, bty = "n", las = 1)

10.8 Propiedades deseables de un buen estimador

10.8.1 Insesgadez

Un estimador \(\hat{\theta}\) es insesgado si su valor esperado coincide con el verdadero valor del parámetro poblacional \(\theta\). Es decir, si

\[E(\hat{\theta})=\theta\]

10.8.2 Eficiencia o de varianza mínima

Un estimador \(\hat{\theta}_i\) es más eficiente que otro estimador \(\hat{\theta}_j\), para \(i \neq j\), si la varianza de \(\hat{\theta}_i\) es más pequeña que la de \(\hat{\theta}_j\), para todo \(j\). Es decir

\[Var(\hat{\theta}_i)<Var(\hat{\theta}_j)\]

10.8.3 Consistencia

Un estimador es consistente si se verifican los siguientes dos límites.

\[\lim_{n \rightarrow \infty}E(\hat{\theta})=\theta \ \ \ \ \ \text{y} \ \ \ \ \ \lim_{n \rightarrow \infty}Var(\hat{\theta})=0\]

10.8.4 Suficiencia

Un estimador \(t=T(X_1,X_2,...,X_n )\) es suficiente para \(\theta\) si y solo si la función de probabilidad conjunta o de densidad de probabilidad conjunta \(f(x;\theta)\) puede descomponerse de la siguiente manera:

\[f(x_1,x_2,...,x_n;\theta)=h(T(x_1,x_2,…,x_n );\theta) g(x_1,x_2,...,x_n )\] donde \(h(T(x_1,x_2,...,x_n );\theta)=h(t;\theta)\) es una función que solo depende del parámetro \(\theta\) por medio del estadístico \(T(x_1,x_2,...,x_n )\) y la función \(g(x_1,x_2,...,x_n)\) solo depende de la muestra. Esta definición en realidad es el conocido Teorema de Factorización de Fisher-Neyman.

10.8.5 Invarianza

Un estimador \(\hat{\theta}\) del parámetro \(\theta\) es invariante si se satisface la siguiente igualdad.

\[g(\hat{\theta})=g(\theta)\] siempre y cuando \(g\) sea una función inyectiva.

10.9 Intervalos de confianza

La siguiente simulación te ayudará a entender el significado de los intervalos de confianza.

En primer lugar tienes la simulación de una muestra compuesta por 15 valores de una variable aleatoria con distribución Poisson

lambda=10
dato<-rexp(15,1/lambda)
dato
##  [1]  0.2435025 26.0434048  1.4366231  2.3303827  3.6095980 12.7836887
##  [7] 32.0869472  5.5728353 16.2726650  6.4611285  7.1815878  6.2297677
## [13]  0.7943495  3.3261231 14.9900427

Dibuja el resultado con un histograma

hist(dato)

En segundo lugar, genera 100 muestras de tamaño 15 para la misma variable aleatoria

datos <- replicate(100, rexp(15,1/lambda))
datos
##             [,1]       [,2]      [,3]       [,4]       [,5]       [,6]
##  [1,]  9.5451899 20.8949177  1.013007 54.6322362 11.3044565  0.4607965
##  [2,]  0.3967766 21.4572658  7.939961  6.9135422  4.7177860  0.2598764
##  [3,]  0.1781101  2.4996551 31.630806  1.2504170  5.5049044 18.8986924
##  [4,]  1.4911985 20.4306841  5.242121  6.0939670  9.9779103  4.7635952
##  [5,] 15.2462630  8.1034601  5.765820 11.0216721  3.6980450  7.1912970
##  [6,]  7.2164652  0.5492389 20.152769 36.2581729  9.0795401  0.3378809
##  [7,]  0.6575281 21.2498903 15.047762 13.1729983  9.8970141  2.2281653
##  [8,]  7.6183392  4.1684510 39.060745  5.4327339 10.3798175  4.0889986
##  [9,]  1.5965536 19.2990120 26.926921  6.8613451  0.5606447  0.9698772
## [10,]  0.3686128 12.0062897  7.668129  7.4388884  1.5589739  5.6691653
## [11,]  4.6494415  0.2565260  9.432154  6.2732521 34.7250665  2.2712383
## [12,] 21.7067078 11.3177919 20.962817 16.7538895  9.1235828  0.6367037
## [13,] 15.2417377  2.3067193  8.404674 22.5783695  4.6690863  8.1038548
## [14,] 11.3913296  2.6261951  1.224507  0.3503567 53.4809219  4.7000880
## [15,]  0.8407563 74.0792225 23.916355  5.8163910  3.2375408  4.2906680
##             [,7]       [,8]       [,9]      [,10]      [,11]     [,12]
##  [1,]  3.4579613 12.2675370 35.4015318  3.2925457  3.8285160  7.210223
##  [2,]  4.0105715 37.7783496 12.8772890 49.9073224 10.7150643  1.163238
##  [3,]  0.4225920 10.0854348  0.6723831  0.3438940  9.7799437  3.604041
##  [4,] 20.8372401 31.0729805 10.3111477 22.2444660 16.8271342 15.823140
##  [5,]  7.3493794  5.2351114  6.2348386  8.0758747  7.2829869  3.794872
##  [6,] 14.0581092  4.7477872  1.5740438 10.3432819 38.2250785  1.322335
##  [7,] 21.0827407  0.6025558 39.9407845 16.5445027 25.7746528 13.454016
##  [8,] 13.3991524  1.1536819  6.8750129 15.1984012  1.2394361  9.123106
##  [9,]  7.7202764  1.1303024 26.7092214 12.3356608 18.3570754  3.432505
## [10,]  0.9957492  4.6316559  5.2332920  5.0799161  9.2928035 18.758640
## [11,]  6.8131352 25.2129098 21.7780124  9.2760302  0.2015191 16.137103
## [12,]  6.8262209  9.2684552 28.3254361 25.2987873 13.9553917  2.361855
## [13,]  9.4933512 12.1506377 14.4208029  0.7872462  8.6233416  7.431411
## [14,]  9.5899556  0.1530644  2.8490546  7.4864003  3.6250638  3.646919
## [15,]  0.1886567  9.7696599 15.1850536  0.4925385  3.6179433  4.848662
##           [,13]      [,14]      [,15]      [,16]      [,17]      [,18]
##  [1,]  8.336891  5.4110985  7.5383037 10.8974472 14.0141968  2.6015811
##  [2,] 16.145951  7.6321925  1.5423510  3.8637970  2.4494533  2.1844859
##  [3,]  6.764324  4.8779863 10.6219196 12.9449208  0.7244977 17.0901512
##  [4,]  8.557213  9.1850421 12.2013460  0.8641065  5.1740957 38.9862519
##  [5,]  1.961973 19.7720071 24.4487121  4.8137614  0.9974570  0.9206458
##  [6,] 17.757275  0.2123820  2.9471261 23.7204334 19.7767903 22.8082871
##  [7,]  3.017391 16.3768506  6.4587739  8.9321408  0.1044970  4.8193145
##  [8,] 26.790791  6.5269333 27.2091199 10.7478779  0.4950400  4.0966533
##  [9,] 12.326249  0.5116637  6.6340661  0.8044327 17.4050909  2.0180741
## [10,] 49.892947  7.1656555  8.4202061  6.9606945  2.8176739  0.3890604
## [11,]  3.118900  0.2073028 14.6287808 20.0726996 19.2871260  0.8968012
## [12,]  5.515236  0.6176375 17.7178830  6.4509875 12.1514430  3.6611026
## [13,] 15.759904 11.5389589  5.8360611 30.1374429 31.2709260 25.8827024
## [14,]  4.871985 11.3811363 19.2233979  7.9533454  0.5284276 13.1454968
## [15,]  4.618653 11.3849888  0.2689092  6.4441739  2.1308904 10.9327237
##           [,19]       [,20]      [,21]      [,22]      [,23]      [,24]
##  [1,]  4.657853  2.58951651 14.7353674  0.6994185  3.9282378  7.8416013
##  [2,] 20.770292  9.00951245  0.3123775 15.9215122 20.7913803  4.6794259
##  [3,]  4.794517  2.85182601 46.1591091 13.1081865 15.9739523  0.9617368
##  [4,] 22.176550 14.96777199 11.5659022  2.3814398  5.0978833 17.9561228
##  [5,]  4.458344  1.45391852  4.9337423  1.3466330 16.1893095  4.5421892
##  [6,] 51.876852 13.06228358 17.9112041 15.0006390 29.4024787  9.0467280
##  [7,]  0.392376  3.52594441  3.0976118  1.1696575  7.3617415  6.9577801
##  [8,]  3.537116  6.96703399 16.8530731  0.8243491  2.7997272  6.1695758
##  [9,] 24.071569  3.99684861  5.1739097 21.6555764  0.9383953 10.4145484
## [10,]  9.850327  7.65287644 10.6670949 75.9956358 13.2225980  4.5785658
## [11,]  9.657503  0.01254701  6.5248878  6.8905862 20.6199912  4.7253892
## [12,] 10.103974 26.24356178  9.0181219 25.8574127  2.2935020  2.6064369
## [13,] 28.099944  4.74431750  9.4271080 16.3451245  2.8804521  6.6983704
## [14,]  3.840318  3.03735991  8.2788763  0.7032174  7.8173167  2.0380860
## [15,]  0.430643  2.20060164  7.8927607 16.1202422  9.4955758  0.3471863
##           [,25]     [,26]      [,27]      [,28]      [,29]     [,30]      [,31]
##  [1,]  5.350893  7.439706  2.3008197 25.8073988 21.5567136 12.525789  8.2503342
##  [2,]  1.801007 35.882429 10.8710531  7.9641463  3.6826328  0.569150  4.1052788
##  [3,] 24.765581  6.557349  4.8284197  0.5030273 13.4873843  3.830502 25.2897559
##  [4,] 14.482942  1.910591  4.0861622  1.4398323  5.9948898 10.957606  2.2342960
##  [5,]  7.774791  1.534542  3.7744625  9.2505156  6.7968489  8.805642 11.0193722
##  [6,]  9.059533 18.089637  7.1644741 17.4762559  7.2946419  7.107502  1.3017023
##  [7,] 10.870651 11.632465  1.6721129  2.9298290 16.1688189  9.289617  1.1211330
##  [8,] 16.433475  8.550204  1.1338652  2.7691370  7.5037030 13.376845  1.3429482
##  [9,] 14.735195 18.854622  4.5901504  1.9939223  0.5810336 14.006820  8.3990885
## [10,]  4.345075  5.887753 20.8050448 29.2571786 23.6051978 10.111656  1.1847325
## [11,] 14.344472 22.959403 12.3000464  2.2596403 15.5726955  9.456032  8.5364004
## [12,]  8.416116 14.739049  0.7217423 20.4533574  5.2668049  8.214309  4.2470247
## [13,]  2.275077  7.898504  2.8191341  4.5836548  1.8234088  4.812558 20.1650507
## [14,]  3.497133  9.762593  1.6659849  1.4826537 18.5564327  7.877432  4.9617999
## [15,] 44.251999  4.858118 15.9868637 23.1538757  0.3483378  2.163610  0.6505169
##           [,32]      [,33]      [,34]     [,35]      [,36]      [,37]     [,38]
##  [1,]  5.267593  5.2965642  0.5480608  7.792280 13.7435403 16.8327439 58.741939
##  [2,]  1.821630  3.0151184 11.3196987  0.564115 28.5252274  0.1738678  3.942944
##  [3,]  1.219886 13.8932880 19.7869627  0.634536  2.2198644  0.8715265  4.031059
##  [4,]  2.452847 17.3254236 32.0002317  2.024766  1.4730109 26.8022251  6.437748
##  [5,]  9.266498  0.4192359  0.2333739 16.829225  0.6765151  7.8514666  9.129914
##  [6,] 10.655416 12.4901908  1.0273412  9.302212  4.6913671  1.8306449  2.681042
##  [7,]  1.575328 21.3378621  4.7513119 20.362187  3.8499487  2.3450242 31.917985
##  [8,]  2.026178  5.4249395  0.8740669  5.478009  9.5288868 12.3801046 14.227780
##  [9,]  5.830000  4.8470926 12.2957629 10.938134  2.9447796  3.2952974  6.128107
## [10,]  5.240565 29.2014442 11.5348657  8.687278  6.5613444 26.3365072  2.639150
## [11,]  6.063143  0.7543487 10.7249029 12.195364  3.2750423  0.2538200  1.387335
## [12,]  1.071268  1.1114888 11.0372640  7.017503  7.1176576  3.7719643 10.612117
## [13,]  2.976410  0.3020327  1.6733403 11.476648 24.8462641  0.7169509  9.079896
## [14,]  4.623770 10.3021328 19.6470329  4.538375 16.7594466  0.2429605 12.413001
## [15,] 19.473498 13.0351243  2.1639052  6.147488  3.4429808  3.5518474 49.914015
##           [,39]     [,40]      [,41]       [,42]     [,43]      [,44]
##  [1,]  6.272881  3.382130  5.7514043  0.04355816 18.584344 47.7854447
##  [2,] 39.232973  7.613041  0.3380348 26.17939984  5.513243  4.9806469
##  [3,]  5.334416 10.420904  3.0792208  3.14960931  4.793045  6.0958789
##  [4,] 30.413578 10.847702 44.6856208 20.67508470  1.927321  2.3141741
##  [5,] 15.011450  4.827515 11.0175833 17.57061828 21.358551  6.6913903
##  [6,] 15.204362  9.357353  2.2126720 13.83970874  6.584179  3.9028238
##  [7,]  4.684284 16.497140  8.5515082  0.39493314  2.044435  0.9279247
##  [8,]  1.374509  4.423160 15.0132314  7.88509059 25.461397 31.4504906
##  [9,] 16.916083 21.853552 20.5351184 13.14060054 10.884218  3.1864883
## [10,]  9.540266  3.004524 10.2952002 18.92523499  3.944209 10.9133975
## [11,]  7.305538 13.000791  1.8091090 12.60801150 19.993990 35.9265954
## [12,]  1.924798 28.470381  0.3814116  3.44144419 22.243846  8.2748003
## [13,]  4.335925  9.690624  9.2738711  1.46414212 22.590081 16.3654236
## [14,] 28.445601 18.310122  0.4791250  1.25081623  4.983235 13.6224569
## [15,]  9.486777  8.419540 10.7743218 13.75251940  8.778408 18.9816828
##            [,45]     [,46]      [,47]      [,48]      [,49]     [,50]
##  [1,] 25.5200516  5.080924  0.7222984  6.9492248 13.2138068  7.340806
##  [2,]  4.5283159 17.720616 24.7398116  4.7255993 14.9248039 18.203613
##  [3,] 23.4848800  6.143886  5.6984731  9.2167846 19.5306232  1.330634
##  [4,]  1.2638569 12.149495 16.6738670  6.7052012 12.3531179  5.283884
##  [5,]  0.4378342 14.677056 13.2615331  0.1083747 13.0243702 14.467271
##  [6,]  0.5976580  5.290469 36.6006633  2.2549834  0.1959731 10.779387
##  [7,]  3.4920743 11.204320  5.1708348  4.4904571 21.3477251 19.145334
##  [8,]  2.3500471  6.965261  0.1873086  7.7397519 12.9746070  1.825461
##  [9,]  0.3736500 27.017407 14.5205023  4.1413831 14.4907990  6.569199
## [10,]  0.9963403 11.691138 26.0119426  7.5455833 13.6070891 10.097584
## [11,]  5.2760137  8.526442 25.0931894 15.3242481  1.9394325 10.897397
## [12,]  5.5502751  3.410312  0.9055720  4.0780748  2.8852663  4.824790
## [13,]  5.3269957  1.141202 12.3671228 10.9393592  5.4934213 12.897425
## [14,]  6.3218936  5.989252 31.2625421 14.2220154  8.8025080 14.175222
## [15,]  2.3822359  4.700244 38.2357990 22.1658364  9.3414741 13.829207
##            [,51]     [,52]     [,53]     [,54]     [,55]      [,56]      [,57]
##  [1,] 30.5087296  1.071277  6.003144  0.613012 15.027267  0.3570743 20.0788100
##  [2,] 14.5359118  5.870321  2.896002  7.374250  4.950948 12.0314546  1.7440737
##  [3,]  1.1835190  7.662672  3.370422  1.859120 25.395254  4.5731353 39.2041673
##  [4,]  8.4146921  2.702133 41.933131  2.684091 12.603592  0.5681169 34.5369844
##  [5,]  5.7521214  1.095777 19.633084  5.693254  3.759690  5.0456635  4.3522648
##  [6,]  0.1657392  5.299591  6.348549  1.997487 16.071255  2.2175840 14.0702762
##  [7,] 16.1303127 12.195404 21.298570 22.471964  9.543856 14.6850955  6.3708149
##  [8,] 23.9613654  7.836965 12.683228  3.953265 20.837417  2.3221713 14.1694536
##  [9,] 15.6381892 16.883309 11.499397  4.401766  9.659735  8.8213690  7.0540872
## [10,]  4.3109463 34.474312  5.527738  1.763113 26.193113 10.9802112  6.1600040
## [11,]  9.8524011  3.520503 37.607721  2.216111  8.853132 10.7257423 16.1033100
## [12,] 10.5849154  3.064696  7.233516  4.273997  6.938514  3.2822428  4.5242113
## [13,]  1.7357471 30.472033 30.710491  2.542823 22.168837 14.0769388 10.3980831
## [14,] 17.8517875  1.298601  3.724153  3.257005  5.505391 12.4164424 18.5796726
## [15,]  1.1307301  2.566144 25.510329 10.052456  5.989995 21.4255292  0.3001218
##            [,58]      [,59]      [,60]      [,61]      [,62]      [,63]
##  [1,]  5.5782110  0.1996211  4.3329384  5.8840271 27.9340846 46.9143518
##  [2,]  7.5491155  6.4303881 11.8294724  8.7403191  9.1873230  1.6478447
##  [3,] 11.2201416 16.8517351  1.7178627  0.8249535 43.1852518  4.0375944
##  [4,]  4.1697172  0.4316938  0.4058404  7.0160090  0.2861341  5.9942892
##  [5,] 12.6456136  3.2503815 14.6111926  3.4302318  6.1501733  0.5852099
##  [6,]  0.2703783  9.1896393  5.3645959 17.3372709  3.8258732 22.0455277
##  [7,] 16.4394190  6.8638462 17.1590508  8.5659852 14.8126364 12.2241924
##  [8,] 13.1544481  0.6592846  5.3392065  2.6232290  5.1583474 20.4208413
##  [9,]  0.9753879 47.1135526  1.3484173  6.8911324  0.6885385  7.1892100
## [10,] 10.4231873  5.0464441  6.9242458  7.9475626  1.1880967 18.2842644
## [11,]  2.1448828  4.3950036  0.1404677 15.8374313 16.2109755  6.4556814
## [12,]  4.5601603 10.3894082  1.6798642 12.5550936 32.6571228  2.8666142
## [13,] 11.1262662  2.1483807 10.9706831  1.3554648 11.3428719 44.0842794
## [14,] 27.3407923  3.2414009 19.9966155  0.7355850 11.0949855 47.8586795
## [15,]  9.8222657  8.1618281 14.6732076  2.6728084 12.0969852  6.6235643
##            [,64]      [,65]     [,66]      [,67]      [,68]     [,69]     [,70]
##  [1,]  6.9407705 11.8274885 21.517196  1.5784432 19.5462438  8.814651 21.653758
##  [2,]  5.3632754  2.7811970  6.786645  6.5515748 38.4313559  1.880315  2.157972
##  [3,]  4.3298605  3.6879501  2.029038  2.0262765 17.9164785 36.405445  3.629108
##  [4,] 10.0254744 19.9860580  3.704896  8.6904693  6.6071912 17.753025 19.136782
##  [5,] 22.9973193 13.1493040 23.342244  3.2815039  8.8270370 18.833014  8.765031
##  [6,] 17.6263338 10.2842593  3.890505  0.3519459 11.7109958  5.199505 12.231922
##  [7,]  0.1735939  3.7075733  3.681582  8.1935418 25.0265726  5.477850  7.951040
##  [8,]  2.6426128 38.3882392 40.857557 13.8608708  0.6496657 21.896894  1.921419
##  [9,]  9.6514608  1.0399208 22.625359  2.4372366  6.4657752  7.253930 11.625327
## [10,]  5.0504286  1.3592037 44.541349 10.7862594  1.3436741  8.528164  5.029714
## [11,] 13.4329643 10.3696272  6.341383  7.9664728  0.3001590  5.056271 19.581448
## [12,]  3.4578527  0.4327706 25.949302 18.3515139 10.8551959  9.808133  8.586843
## [13,]  0.7435359  9.3460401 11.747602 14.1055821 46.3434776  3.060119 20.256366
## [14,]  0.5953435 23.9441496 14.282661  5.2798541  1.7965492 11.549506 31.025896
## [15,] 20.2633865  7.9908874  6.480851  1.3823134  0.8474050 10.170342  3.310071
##            [,71]       [,72]     [,73]      [,74]     [,75]      [,76]
##  [1,]  1.9474576  0.03274736  2.628334  7.7958300 24.774154 12.8336246
##  [2,]  0.5292518  5.50825829  2.681152  8.7773683 10.874236  7.9233177
##  [3,]  6.8145433 10.09903432  4.013918  7.9530002  2.431216  0.4061617
##  [4,] 25.1414817 20.86894290 39.207797 34.3627183  1.959909  1.9450411
##  [5,]  5.6472606  5.42393691  5.883605  4.9982306  4.984241  1.4508198
##  [6,]  6.0826043 21.70818327  2.549919  3.3393170 49.071006  3.3576586
##  [7,]  1.3735112  2.49651425  1.410737  8.8515964  8.535997  5.7551952
##  [8,] 11.8190943  2.46799024 11.649279 26.4018937  5.435589  1.6937200
##  [9,]  1.7604034  2.64970600  5.658066 22.3805162  4.958166  4.6836147
## [10,]  7.9189564  1.73259152  6.931016  2.5599988 33.107223  4.9115044
## [11,]  1.7387362 15.88712485 31.680433  0.5250619 16.430478  5.2140134
## [12,]  2.0700440  3.54553745  7.921727  3.5208417  1.259529  9.4816478
## [13,]  4.3886890 11.90237489  6.627607  1.8849040  5.597167  5.0375431
## [14,]  8.0263890 26.04964001 10.983543  2.2622433  5.380050  2.0667178
## [15,]  2.3337256 16.52319071  3.124076 17.3411503  1.388236  0.2294297
##           [,77]      [,78]      [,79]       [,80]      [,81]      [,82]
##  [1,] 20.767150 20.4818950  1.7630576  7.36637686 14.9896260  1.0832436
##  [2,]  3.121318  4.6502120  6.1601139  3.01781442  2.6006011  0.1460431
##  [3,]  4.003531 35.5212474  1.8591719  0.03879467  2.5461265  6.0955377
##  [4,]  3.951855 42.6514240 39.0419137  2.08087366 26.7175721  1.3094389
##  [5,] 19.640521  4.9861992 24.4000695 22.79026117  1.0971134 22.4628351
##  [6,]  7.199893 17.5828786  4.6777596 42.51289058 15.1592210 13.6667951
##  [7,]  4.015377  5.1182754  0.6015401  8.15393122  1.4740529 14.7312361
##  [8,]  8.267598  5.2790544 22.1056122  6.42914935 16.3695397  2.1326866
##  [9,]  1.260009  7.9330603  8.6006893  3.22734053  0.5750511  6.0377052
## [10,] 11.615593  4.1462081 66.2365101 34.00918469  4.8302246 29.2241698
## [11,]  1.157383  9.8350799 14.8795259 16.04062680  8.4335238 19.3344488
## [12,]  9.199382  4.4181306  1.7073048  4.37318171 25.3840742  0.3954045
## [13,]  1.428050  0.7522836 10.7129374 19.37398473 20.8802712  4.4806095
## [14,]  2.806353 12.4414692  0.5646720  9.55298165  3.4419235  3.6559669
## [15,]  9.297737 12.5428191 18.7486568 14.93569940 19.8710203  6.6367312
##             [,83]     [,84]     [,85]      [,86]      [,87]       [,88]
##  [1,]  8.94205350  7.790683  5.234871  8.8665273  0.4760459 26.50265993
##  [2,]  4.67835458 18.907101  1.703646  0.7431614 13.2555311 17.19699578
##  [3,]  0.07451782  1.425931  6.956308  1.9406627  4.2651771  2.49843784
##  [4,]  4.57750873  8.164973 10.721654  2.8686652 10.2760199  4.07149931
##  [5,] 19.31752348 22.465824 13.558881 28.7863707  7.9126113 18.09399757
##  [6,]  4.27482479  2.328068 19.272825  6.8043180  5.4511805 17.45637126
##  [7,] 25.42114673  1.639767 14.251512  4.0603611  3.0843775 13.80707187
##  [8,]  9.40804252  8.828895 10.587065  5.7834109  2.4810010  7.44450347
##  [9,]  5.49918302  6.069570  2.353156  0.6260708  8.6329550 18.35227834
## [10,] 20.69768390  1.914853  1.054147  8.0873396  0.3052255 14.01213839
## [11,] 16.37025176  7.100912 24.643293  3.4969959  5.0307189  9.17989792
## [12,] 16.14153996  3.212463  5.096421 13.4011940 16.4737378  0.02454052
## [13,]  3.06152016 65.283060  7.101406  9.0714599  4.9872325 20.71536820
## [14,] 10.19139645  2.824004  2.220887  6.0128517  4.4928164 15.56116275
## [15,]  6.00965947  5.485839 23.912334 17.8990321  4.7290471 10.52140882
##           [,89]      [,90]      [,91]      [,92]      [,93]      [,94]
##  [1,]  3.799930  2.9654561  3.7765035  0.9420328 19.7342105 46.3733690
##  [2,] 14.115252  5.8879831 19.8603091  2.8342594 15.2927550 20.7382801
##  [3,]  3.799664 21.7677714  6.0663514  4.2716767  8.3179241  5.9109074
##  [4,]  9.931706  7.0234010  6.5175499  3.4853702  7.6369889  4.6071256
##  [5,] 10.746834 18.8116652  8.7259553  9.9104642 10.5012300  6.6650541
##  [6,]  5.439586  0.6450732 18.0579559  2.5857993 10.5064510  7.2035858
##  [7,]  8.191272 11.1980266 15.4630213  0.9880933 18.0586924  2.8290877
##  [8,]  6.350635 11.6830173 11.8234279  5.9787315  2.8799323 14.2704519
##  [9,]  7.910844  1.0445465 12.0771113  2.0796869 10.1315615  1.8118187
## [10,] 15.101419 26.4559280  6.8505306  7.6346809  0.3681795  0.4850623
## [11,] 18.691719  7.7524776 36.1800062  0.8007808 30.7288848  3.9755102
## [12,]  9.942406  0.8652901  5.7863472  2.3037440 24.3534539 19.7389590
## [13,] 13.144289  6.3316066 10.7566817 16.5639799  1.7724065  1.2947828
## [14,]  1.803925  2.7880037  4.6788687  2.5512745 21.0917134  8.0354607
## [15,] 17.725293  2.9811557  0.2274664 13.4459321  4.5597222 10.7479674
##           [,95]     [,96]        [,97]      [,98]      [,99]     [,100]
##  [1,]  6.457446  6.062731  2.155588077  4.9553898  4.3400413  4.9200068
##  [2,] 14.682869 11.836578  2.666937620 28.5075105  3.2064010  0.3370152
##  [3,] 23.573610 10.891466  6.272505550  4.0469197  7.0072669 22.4205450
##  [4,] 32.599895 10.975870  3.116659629  2.6570405  1.6645382 10.4528640
##  [5,]  7.890144 12.370094  0.339468140  0.9247689  0.5805245  8.0933216
##  [6,] 10.492895  1.785807  5.414871383  4.8087873  0.5448254  4.8579274
##  [7,] 22.691250 17.344439 23.611458297  6.9789106  6.7746693  1.0696238
##  [8,] 15.045993  2.755842  1.968132164  6.3868545  8.4312384  6.6071051
##  [9,] 36.485491 44.542451  1.870144228  0.4897293 29.3686394  6.4202214
## [10,]  1.318565 35.484819  0.007399047  7.6065714 11.6954659  5.7979778
## [11,] 11.055464  6.397347 14.988959300 14.2715897  7.3624360  0.7912876
## [12,] 26.364688  6.005383  8.817416969  0.4069145 25.1412330  6.5346828
## [13,] 26.408286 14.554445  2.663890487  2.3695359 14.1930027  8.4064869
## [14,]  3.805421 13.215352 32.546221687  0.1347722 22.9213865 20.8009228
## [15,] 22.114759  8.002583  4.001872619  5.4461080  3.7494559  1.7510952

Construye los intervalos de confianza asociados a cada una de las 100 medias obtenidas para cada muestra, con un nivel de confianza del 95%.

tint <- matrix(NA, nrow = 100, ncol = 2)
for (i in 1:100){
    temp <- t.test(datos[, i], conf.level = 0.95)
    tint[i, ] <- temp$conf.int
    }
tint
##             [,1]      [,2]
##   [1,]  2.762015 10.323986
##   [2,]  4.563177 24.936199
##   [3,]  8.536248 21.382225
##   [4,]  5.300640 21.479124
##   [5,]  3.635385 19.286653
##   [6,]  1.685788  6.963665
##   [7,]  4.757040 12.075639
##   [8,]  4.628610 17.406073
##   [9,]  8.289539 22.162181
##  [10,]  5.333019 19.561230
##  [11,]  5.787680 17.058447
##  [12,]  4.228689 10.719587
##  [13,]  5.455786 19.268972
##  [14,]  4.232178 10.808067
##  [15,]  6.543820 15.549107
##  [16,]  5.751157 14.996611
##  [17,]  3.244083 13.999598
##  [18,]  3.651617 16.406160
##  [19,]  5.507081 20.988676
##  [20,]  3.031189 10.610934
##  [21,]  5.546952 17.459868
##  [22,]  3.703908 24.832043
##  [23,]  5.902965 15.272041
##  [24,]  3.545279  8.396553
##  [25,]  6.137588 18.182937
##  [26,]  6.718264 16.822665
##  [27,]  2.981972  9.647406
##  [28,]  4.442501 15.734089
##  [29,]  5.634556 14.130717
##  [30,]  6.010977 10.403032
##  [31,]  2.812760 10.895164
##  [32,]  2.610136  7.998401
##  [33,]  4.473151 14.027687
##  [34,]  4.216337 14.399413
##  [35,]  5.167536 11.364213
##  [36,]  3.870202 13.417249
##  [37,]  2.042131 12.258796
##  [38,]  5.069370 24.701835
##  [39,]  6.723393 19.341066
##  [40,]  7.328315 15.354149
##  [41,]  3.313816 15.912508
##  [42,]  5.626121 14.949982
##  [43,]  7.199539 16.758395
##  [44,]  6.371368 21.817915
##  [45,]  1.515123 10.205160
##  [46,]  5.779425 13.114979
##  [47,]  9.572866 23.953995
##  [48,]  4.884210 11.196707
##  [49,]  7.529587 14.353749
##  [50,]  7.069064 13.153231
##  [51,]  5.802853 15.764762
##  [52,]  3.259718 14.875447
##  [53,]  8.512685 22.951245
##  [54,]  2.014535  8.005960
##  [55,]  8.663573 17.136160
##  [56,]  4.809253 11.661250
##  [57,]  6.878181 19.474663
##  [58,]  5.306134 13.016531
##  [59,]  1.855396 14.727619
##  [60,]  4.109480 11.423009
##  [61,]  3.931801  9.723813
##  [62,]  6.110764 19.998490
##  [63,]  7.183252 25.781034
##  [64,]  4.161178 12.278051
##  [65,]  4.837190 16.268766
##  [66,]  8.313862 23.389894
##  [67,]  3.979383  9.999798
##  [68,]  5.279324 20.943046
##  [69,]  6.446057 16.445565
##  [70,]  6.966675 16.615018
##  [71,]  2.388002  9.290951
##  [72,]  5.088153 14.497950
##  [73,]  3.419244 15.640917
##  [74,]  4.535485 15.858471
##  [75,]  4.109690 19.381937
##  [76,]  2.511061  6.420940
##  [77,]  3.743360 10.620873
##  [78,]  5.847697 19.264334
##  [79,]  4.831677 24.776261
##  [80,]  6.098021 19.755724
##  [81,]  5.759764 16.156228
##  [82,]  3.753528 13.765518
##  [83,]  6.149061 14.472967
##  [84,]  1.895863 19.896396
##  [85,]  5.576654 14.245801
##  [86,]  3.770570 12.022553
##  [87,]  3.629455  8.617702
##  [88,]  8.970273 17.088171
##  [89,]  6.918448 12.640855
##  [90,]  4.092568 13.000952
##  [91,]  6.245506 16.000906
##  [92,]  2.434775  7.748759
##  [93,]  7.464471 17.326743
##  [94,]  3.793254 16.831736
##  [95,] 11.479621 23.318616
##  [96,]  6.988077 19.975283
##  [97,]  2.178911 12.546626
##  [98,]  1.996496 10.002357
##  [99,]  4.704182 14.893301
## [100,]  3.662123 10.906022

Asigna los nombres a las columnas de la matriz.

colnames(tint) <- c("lim.inf", "lim.sup")
tint <- data.frame(tint)

Genera un índice para identificar cuál de los intervalos construidos contienen al parámetro poblacional, y cuál de ellos no lo contiene.

indx <- (tint$lim.inf <= lambda) & (tint$lim.sup >= lambda)
indx
##   [1]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [13]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE
##  [25]  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE
##  [37]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [49]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [61] FALSE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE FALSE  TRUE
##  [73]  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [85]  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE FALSE  TRUE
##  [97]  TRUE  TRUE  TRUE  TRUE
sum(indx)
## [1] 88

Dibuja los resultados para identificar visualmente como la mayoría de los intervalos resultantes contienen al valor del parámetro poblacional.

plot(range(tint), c(0,1 + 100), type = "n", xlab = "Medias muestrales", ylab = "Muestra")
for (i in 1:100) {lines(tint[i, ], rep(i, 2), lwd = 1)
}
abline(v = 10, lwd = 2, lty = 2)

Finalmente, agrega a la tabla de resultados los valores del índice.

tint <- data.frame(tint,indx)
tint
##       lim.inf   lim.sup  indx
## 1    2.762015 10.323986  TRUE
## 2    4.563177 24.936199  TRUE
## 3    8.536248 21.382225  TRUE
## 4    5.300640 21.479124  TRUE
## 5    3.635385 19.286653  TRUE
## 6    1.685788  6.963665 FALSE
## 7    4.757040 12.075639  TRUE
## 8    4.628610 17.406073  TRUE
## 9    8.289539 22.162181  TRUE
## 10   5.333019 19.561230  TRUE
## 11   5.787680 17.058447  TRUE
## 12   4.228689 10.719587  TRUE
## 13   5.455786 19.268972  TRUE
## 14   4.232178 10.808067  TRUE
## 15   6.543820 15.549107  TRUE
## 16   5.751157 14.996611  TRUE
## 17   3.244083 13.999598  TRUE
## 18   3.651617 16.406160  TRUE
## 19   5.507081 20.988676  TRUE
## 20   3.031189 10.610934  TRUE
## 21   5.546952 17.459868  TRUE
## 22   3.703908 24.832043  TRUE
## 23   5.902965 15.272041  TRUE
## 24   3.545279  8.396553 FALSE
## 25   6.137588 18.182937  TRUE
## 26   6.718264 16.822665  TRUE
## 27   2.981972  9.647406 FALSE
## 28   4.442501 15.734089  TRUE
## 29   5.634556 14.130717  TRUE
## 30   6.010977 10.403032  TRUE
## 31   2.812760 10.895164  TRUE
## 32   2.610136  7.998401 FALSE
## 33   4.473151 14.027687  TRUE
## 34   4.216337 14.399413  TRUE
## 35   5.167536 11.364213  TRUE
## 36   3.870202 13.417249  TRUE
## 37   2.042131 12.258796  TRUE
## 38   5.069370 24.701835  TRUE
## 39   6.723393 19.341066  TRUE
## 40   7.328315 15.354149  TRUE
## 41   3.313816 15.912508  TRUE
## 42   5.626121 14.949982  TRUE
## 43   7.199539 16.758395  TRUE
## 44   6.371368 21.817915  TRUE
## 45   1.515123 10.205160  TRUE
## 46   5.779425 13.114979  TRUE
## 47   9.572866 23.953995  TRUE
## 48   4.884210 11.196707  TRUE
## 49   7.529587 14.353749  TRUE
## 50   7.069064 13.153231  TRUE
## 51   5.802853 15.764762  TRUE
## 52   3.259718 14.875447  TRUE
## 53   8.512685 22.951245  TRUE
## 54   2.014535  8.005960 FALSE
## 55   8.663573 17.136160  TRUE
## 56   4.809253 11.661250  TRUE
## 57   6.878181 19.474663  TRUE
## 58   5.306134 13.016531  TRUE
## 59   1.855396 14.727619  TRUE
## 60   4.109480 11.423009  TRUE
## 61   3.931801  9.723813 FALSE
## 62   6.110764 19.998490  TRUE
## 63   7.183252 25.781034  TRUE
## 64   4.161178 12.278051  TRUE
## 65   4.837190 16.268766  TRUE
## 66   8.313862 23.389894  TRUE
## 67   3.979383  9.999798 FALSE
## 68   5.279324 20.943046  TRUE
## 69   6.446057 16.445565  TRUE
## 70   6.966675 16.615018  TRUE
## 71   2.388002  9.290951 FALSE
## 72   5.088153 14.497950  TRUE
## 73   3.419244 15.640917  TRUE
## 74   4.535485 15.858471  TRUE
## 75   4.109690 19.381937  TRUE
## 76   2.511061  6.420940 FALSE
## 77   3.743360 10.620873  TRUE
## 78   5.847697 19.264334  TRUE
## 79   4.831677 24.776261  TRUE
## 80   6.098021 19.755724  TRUE
## 81   5.759764 16.156228  TRUE
## 82   3.753528 13.765518  TRUE
## 83   6.149061 14.472967  TRUE
## 84   1.895863 19.896396  TRUE
## 85   5.576654 14.245801  TRUE
## 86   3.770570 12.022553  TRUE
## 87   3.629455  8.617702 FALSE
## 88   8.970273 17.088171  TRUE
## 89   6.918448 12.640855  TRUE
## 90   4.092568 13.000952  TRUE
## 91   6.245506 16.000906  TRUE
## 92   2.434775  7.748759 FALSE
## 93   7.464471 17.326743  TRUE
## 94   3.793254 16.831736  TRUE
## 95  11.479621 23.318616 FALSE
## 96   6.988077 19.975283  TRUE
## 97   2.178911 12.546626  TRUE
## 98   1.996496 10.002357  TRUE
## 99   4.704182 14.893301  TRUE
## 100  3.662123 10.906022  TRUE

10.9.1 Intervalo de confianza para una media con distribución normal de varianza poblacional conocida

Sea \(X\) una variable aleatoria con distribución normal de media \(\mu\) desconocida y varianza \(\sigma^2\) conocida. Entonces, el intervalo de confianza para la media \(\mu\) considerando un \(100(1-\alpha)\%\) de confianza y un tamaño muestral \(n\) es

\[ IC(\mu)=\left[\bar{x}-z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}},\bar{x}+z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}\right] \]

donde \(z_{\alpha/2}\) es tal que \(P(-\infty < Z \leq z_{\alpha/2})=\dfrac{\alpha}{2}\).

Se podría construir una función que permita calcular un intervalo de confianza para la media.

IC_media_var_conocida <- function(media,sigma,n,NC=0.95){
  LI = media-abs(qnorm((1-NC)/2))*sigma/sqrt(n)
  LS = media+abs(qnorm((1-NC)/2))*sigma/sqrt(n)
  return(paste0("[",round(LI,2),",",round(LS,2),"]"))}

Por ejemplo, supongamos que en una población normal la varianza es igual a 9. Se selecciona aleatoriamente una muestra aleatoria de tamaño 100 de esa población teniendo como media 35. Entonces el intervalo asociado al 95% de confianza se calcula como

IC_media_var_conocida(35,sqrt(9),100) #sqrt calcula la raíz cuadrada
## [1] "[34.41,35.59]"

Por defecto, la función toma un nivel

Estudio de caso

Germán, que realizó sus prácticas en la empresa de transportes LAMP S.A., se enfrentó con la siguiente situación. Su tutor en la empresa, le dio un informe técnico en el que hace seis meses, de una muestra aleatoria de 64 colectivos que prestan servicio en la ciudad de Asunción, se obtuvo el intervalo [ 3,8011 ; 4,3989 ] como estimación de la verdadera media del número de pasajeros por kilómetro, al nivel de confianza del 95%. La primera consigna para Germán fue que construyera, con los datos obtenidos en la muestra de 64 colectivos, un nuevo intervalo, tal que, el error máximo de la estimación fuera de 0,15 pasajeros por kilómetro

  1. El intervalo que debe construir es de menor precisión que el construido hace seis meses?
n1=64
linf1=3.8011
lsup1=4.3989

NC1=0.95
alfa1=1-NC1

z1=qnorm(1-alfa1/2)
z1
## [1] 1.959964
media1=(linf1+lsup1)/2
media1
## [1] 4.1

El error asociado al intervalo del 1er estudio

error1=lsup1-media1
error1
## [1] 0.2989
sigma1=(error1*sqrt(n1))/z1
sigma1
## [1] 1.220022

El intervalo que debe construir es de mayor precisión porque se reduce el error

error2=0.15

if(error2>error1) print("IC2 con menor precision") else print("IC2 con mayor precisión")
## [1] "IC2 con mayor precisión"
  1. El error estándar de la media muestral se modificará?
eem1=error1/z1
eem1
## [1] 0.1525028
eem2=error2/z1
eem2
## [1] 0.07653202
if (eem1==eem2) print("Permanece") else print("Se modifica")
## [1] "Se modifica"
  1. Es posible construir el nuevo IC con la información disponible disminuyendo el NC?
n2=64
NC2=0.90
alfa2=1-NC2
z2=qnorm(1-alfa2/2)
z2
## [1] 1.644854

la misma información muestral implica la misma media muestral

media2=media1
linf2=media2-error2
linf2
## [1] 3.95
lsup2=media2+error2  
lsup2
## [1] 4.25
  1. Germán recibió luego la indicación de construir un nuevo intervalo de confianza, al nivel del 99%, tal que el error máximo de la estimación no excediera de 0,2. Para obtenerlo, Germán debe informar que se debe incrementar el tamaño muestral de 64 a 254 casos?
NC3=0.99
alfa3=1-NC2
z3=qnorm(1-alfa2/2)
z3
## [1] 1.644854
error3=0.2
sigma3=sigma1
n3=(z3)^2*sigma3/error3^2
n3
## [1] 82.52059

Estudio de caso

Una compañía de seguros desea estudiar los hábitos respecto al riesgo de los residentes de Asunción. Se selecciona una muestra aleatoria de 40 participantes y se les pide que mantengan un registro detallado de las actividades riesgosas que realizan durante la semana. Se determinó que el número promedio de actividades riesgosas realizadas (suponiendo que dicen la verdad) es 15,3 horas y que presenta una desviación estándar muestral de 3,8 actividades.

Obtenga el IC al 98% de confianza para la media

mean=15.3
sd=3.8
n1=40
NC1=0.98
alfa1=1-NC1
alfa1
## [1] 0.02
z1=qnorm(1-alfa1/2, mean = 0, sd = 1)
z1
## [1] 2.326348
liminf1=mean-z1*sd/sqrt(n1)
liminf1
## [1] 13.90225
limsup1=mean+z1*sd/sqrt(n1)
limsup1
## [1] 16.69775

Caso 1.2

de=3.8
NC2=0.98
alfa2=1-NC2
alfa2
## [1] 0.02
e=1
z2=qnorm(1-alfa2/2,0,1)
z2
## [1] 2.326348
n2=((de*z2)/e)^2
n2
## [1] 78.14776

Caso 1.3

liminf2=mean-z2*sd/sqrt(n2)
liminf2
## [1] 14.3
limsup2=mean+z2*sd/sqrt(n2)
limsup2
## [1] 16.3

10.10 Pruebas de hipótesis

10.10.1 Conceptos básicos

Este capítulo está dedicado al estudio de los contrastes de hi-pó-te-sis, sin lugar a dudas, la técnica más utilizada para tratar problemas de Inferencia Estadística. En primer lugar, con el objetivo de conseguir una primera aproximación a la metodología empleada en los contrastes de hipótesis, se propone un ejemplo, en el que de forma natural e intuitiva se van a usar técnicas de resolución de dichos problemas que posteriormente se justificarán desde un punto de vista teórico.

Este capítulo trata los contrastes paramétricos de una y dos muestras, dejando para el tema siguiente los contrastes no paramétricos.

A continuación, se define lo que se entiende por hipótesis estadística y contraste de hipótesis, observando que en la literatura se pueden encontrar sinónimos de este último término tales como {}.

10.10.1.1 Las Hipótesis

Una {} es una afirmación o conjetura sobre la distribución de una o más variables aleatorias, o bien, sobre alguna característica de las mismas.

La hipótesis que se desea contrastar se denomina {}, mientras que la que se acepta cuando la evidencia muestral está claramente en contra de ésta se denomina {}.

Si se quisiera contrastar la hipótesis de que un cierto pa-rá-me-tro \(\theta\) de una población toma un valor dentro de una región \(\Theta_0\) siendo \(\Theta\) el campo de variación de dicho parámetro, la Hipótesis Alternativa debe contemplar que el parámetro tome valores en una región \(\Theta_1\).

Cuando los subconjuntos \(\Theta_0\) y \(\Theta_1\) se componen de un único elemento las hipótesis correspondientes se denominan {} y, en caso contrario, hipótesis {}.

Se define {} como un procedimiento inferencial consistente en rechazar o no, una hipótesis de tipo estadístico sobre una población, teniendo en cuenta la Hipótesis Alternativa y la evidencia experimental proporcionada por una muestra particular obtenida de dicha población.

En otras palabras, un contraste de hipótesis supone una partición del espacio muestral en dos regiones, región de aceptación y región crítica o de rechazo, de forma que si la muestra considerada se encuentra dentro de la región crítica se rechaza la Hipótesis Nula, mientras que en el caso contrario no se rechaza dicha hipótesis al no existir evidencias para rechazarlas.

Debe tenerse en cuenta que el no rechazo de la Hipótesis Nula no supone ninguna garantía de la certeza de ésta, sino la falta de evidencia en contra de su veracidad. Se podría asimilar la Hipótesis Nula a una persona que está siendo juzgada según el principio de presunción de inocencia, de forma que sólo se rechaza su inocencia, es decir, la Hipótesis Nula, en caso de encontrar pruebas suficientes en contra.

A la vista de la definición, se podría decir que un contraste es una regla de decisión, pero dado que a la hora de adoptar dicha decisión y, como se verá en el desarrollo del capítulo, no se estará a la misma distancia de ambas hipótesis, sino que se dará mucho mayor crédito a la Hipótesis Nula, se trata más bien de una regla de decisión–confirmación. Por ello, teniendo en cuenta el desequilibrio entre las hipótesis, sólo se debería contrastar aquello sobre lo que se tuviera una justificada sospecha de su certeza.

10.10.2 Clasificación de los contrastes

Dependiendo del grado de conocimiento de la distribución de la población bajo estudio, se distingue entre contrastes paramétricos y no paramétricos. En el caso de que dicha distribución sea conocida salvo parámetros, los tipos de contrastes que se realizan son del tipo paramétrico, siendo su objetivo intentar obtener información sobre los parámetros desconocidos de la distribución de la población bajo estudio. En el caso de que dicha distribución sea desconocida, los contrastes son de tipo no paramétrico, siendo su objetivo intentar determinar alguna característica de la población o de la muestra bajo estudio.

Puesto que los contrastes paramétricos utilizan más información que los no paramétricos, ofrecen mejores resultados. Por ello, siempre que sea posible se debe recurrir a los primeros.

10.10.2.1 Tipos de contraste sobre parámetros

En primer lugar, se distingue entre contrastes con Hipótesis Nula y Alternativa simples y aquellos que tienen alguna de estas hipótesis compuestas. En segundo lugar, dentro de estos últimos, dependiendo de la estructura de sus hipótesis, se distingue entre los siguientes tipos de contrastes:

Se puede observar que en todos los casos el signo igual está incluido en la Hipótesis Nula, el motivo de ello se encuentra en el enfoque que se va a utilizar para realizar el contraste.

10.11 Los errores de un contraste

A continuación y relacionado con la cuestión anterior, se detallan las consecuencias derivadas de la decisión que se adopte sobre el rechazo o no de la Hipótesis Nula. Antes de ello, véase el siguiente ejemplo:

Tal como está planteado el contraste del ejemplo no viola ninguna de las exigencias requeridas. Sin embargo, presenta ciertas carencias, la principal de ellas es que no se puede dar ninguna medida que garantice la bondad de la decisión adoptada.

%{

10.12 Actuaciones asociadas a un contraste de hipótesis

El cuadro siguiente refleja las repercusiones que se derivan de la decisión que se adopte en la realización de un contraste:

Trasladando a términos probabilísticos los resultados de las actuaciones se tiene:

{.33ex \[\begin{array}{ll} P[\mbox{Rechazar }H_0/H_0 \mbox{ cierta}]&= \alpha, \mbox{ se denomina \em nivel de significación}\\ &\quad \quad \mbox{{ \em del contraste}.}\\ P[\mbox{No rechazar } H_0/H_0 \mbox{ cierta}] &= 1-\alpha, \mbox{ denominado \em nivel de confianza.}\\ P[\mbox{Rechazar } H_0/H_0 \mbox{ falsa}]&= 1-\beta, \mbox{ será la \em potencia del contraste.}\\ P[\mbox{No rechazar } H_0/H_0 \mbox{ falsa}]&= \beta, \mbox{ será el {\em riesgo del contraste}.} \end{array}\]}

Puesto que en la práctica no se sabrá si la decisión adoptada es correcta o no, habrá que elegir contrastes que minimicen las probabilidades de error de tipo I y II. Sin embargo, esto no es posible ya que dichas probabilidades son, en cierto sentido, complementarias, ya que cuando disminuye una aumenta la otra. Por ello, el criterio que se utiliza es el de fijar el nivel de significación, eligiendo de entre todos los test posibles con ese nivel de significación aquel que haga mínimo el riesgo o, lo que es lo mismo, máxima la potencia.

En general, la potencia del test dependerá de la realidad de la situación, que será desconocida, por lo que lo ideal será utilizar, si es que existe, el test denominado {}, es decir, aquel que se comporta mejor que el resto en cualquier situación.

Por último, la reducción simultánea de los dos errores, una vez seleccionado el contraste a utilizar, sólo será factible si se dispone de una mayor información, es decir, si se aumenta el tamaño de la muestra.

El enfoque de Neyman–Pearson proporciona un procedimiento para la obtención de los test más potentes en el caso de que las hipótesis consideradas (Nula y Alternativa) sean simples. Sin embargo, desgraciadamente los resultados que se obtienen no siempre son óptimos, debido a la complejidad de aplicación del método.

10.12.1 Diferencia de medias con muestras de poblaciones normales con varianzas desconocidas

#mu1-mu2=delta
delta=-2
alfa=0.01

nivel1=c(14,12,15,15,11,16,17,12,14,13,18,13,18,15,16,11)
nivel1
##  [1] 14 12 15 15 11 16 17 12 14 13 18 13 18 15 16 11
nivel2=c(20,22,18,18,19,15,18,15,22,18,19,15,21,22,18,16)
nivel2
##  [1] 20 22 18 18 19 15 18 15 22 18 19 15 21 22 18 16
plot (nivel1)

Solución

n1=16
n2=16
gl=n1+n2-2

xbar1=mean(nivel1)
xbar1
## [1] 14.375
xbar2=mean(nivel2)
xbar2
## [1] 18.5
xbardif=xbar1-xbar2
xbardif
## [1] -4.125
S1=sd(nivel1)
S1
## [1] 2.276694
S2=sd(nivel2)
S2
## [1] 2.44949

REGLA: Rechazar H0 si tcalc<tcrit

Sp=sqrt(((n1-1)/(n1+n2-2))*S1^2+((n2-1)/(n1+n2-2))*S2^2)
Sp
## [1] 2.364671
tcrit=qt(alfa,gl)
tcrit
## [1] -2.457262
tcal=((xbar1-xbar2)-(delta))/(Sp*sqrt(1/n1+1/n2))
tcal
## [1] -2.541753

ENFOQUE CON PVALOR

Pvalor=pt(tcal,gl)
Pvalor
## [1] 0.008216869

CON FUNCIÓN DE R-PROJECT

t.test(nivel1,nivel2,mu=-2,alternative = c("less"), conf.level =1-alfa)
## 
##  Welch Two Sample t-test
## 
## data:  nivel1 and nivel2
## t = -2.5418, df = 29.841, p-value = 0.008232
## alternative hypothesis: true difference in means is less than -2
## 99 percent confidence interval:
##       -Inf -2.070023
## sample estimates:
## mean of x mean of y 
##    14.375    18.500

Estudio de caso

Alejandra es una alumna egresada de la carrera de Estadística en la FACEN que realizó su pasantía en una empresa conservera que tiene sede en Asunción y varias filiales en el país. Cuando Alejandra llegó a la empresa su tutor estaba realizando un estudio para tomar la decisión de producir una nueva marca extra condimentada de salsa de tomates. El departamento de investigación de mercado de la empresa realizó una encuesta telefónica nacional de 1.000 hogares y encontró que la salsa de tomates extra condimentada sería comprada por 330 de ellos. Hace dos años, un estudio mucho más extenso mostraba que el 25% de los hogares en ese entonces habrían comprado el producto. Su tutor le preguntó si opinaba que el interés por comprar la nueva marca había crecido significativamente.

  1. Al nivel de significancia del 2%, debe concluir que actualmente existe un mayor interés en el sabor de la salsa de tomates extra condimentad?

H0: p = 0,25 H1: p > 0,25

n=1000
PH0=0.25
NC=0.98
alfa=1-NC
zcrit=qnorm(1-alfa)
zcrit
## [1] 2.053749
Pest=330/1000
zcal=(Pest-PH0)/sqrt((PH0*(1-PH0))/n)
zcal
## [1] 5.842374
Pvalor=1-pbinom(330,1000,0.25,log = FALSE)
Pvalor
## [1] 5.82433e-09
binom.test(x=330,n=1000,p=0.25,alternative="greater",conf.level = 0.98)
## 
##  Exact binomial test
## 
## data:  330 and 1000
## number of successes = 330, number of trials = 1000, p-value = 8.708e-09
## alternative hypothesis: true probability of success is greater than 0.25
## 98 percent confidence interval:
##  0.299546 1.000000
## sample estimates:
## probability of success 
##                   0.33

Debe rechazar la H0, y Debe concluir que actualmente existe un mayor interes

  1. Una vez tomada la decisión de no rechazar la vigencia del estudio extenso de hace dos años, la probabilidad de cometer un error de tipo I es igual a cero?

Error de tipo I

xcrit=qbinom((1-0.02),1000,0.25)
xcrit
## [1] 278
alfa=1-pbinom(xcrit,1000,0.25)
alfa
## [1] 0.01958826
  1. Con los datos disponibles, no se puede calcular la potencia de la prueba?

Error de tipo II: Asumida una H1 alternativa P=0.30

beta=pbinom(xcrit,1000,0.30)
beta
## [1] 0.06818224

Estudio de caso

De acuerdo con los resultados de la encuesta a egresados de la FACEN del año 2005, un estudiante de tecnología de producción puede esperar un salario promedio igual al egresar que los estudiantes de la carrera de estadística. Marcos, un estudiante del último año de la carrera de estadística, decide verificar si dicha hipótesis se mantenía luego de 10 años. Para ello relevó datos de dos muestras aleatorias de egresados de ambas carreras del año 2015 para realizar una prueba de hipótesis. Los datos recabados sobre los salarios percibidos (en millones de Gs. en la actualidad) y los resultados de la prueba fueron los siguientes:

tecnol <-c(5,4.1,3,2.5,2.6,2.1,2.0,5,7,2,2.1,2.3,2.6,3.5)
estad <-c(5.1,5.2,2.0,3.0,4,6,2,8,8.1,10,2.0)
  1. De acuerdo con los resultados, Marcos puede rechazar la hipótesis nula de que un egresado de la carrera de tecnología puede esperar un ingreso igual que un egresado de la carrera de estadística?

  2. Dado el intervalo de confianza obtenido por Marcos, es correcto decir que la probabilidad de que el verdadero valor de la diferencia de ingresos medios esté entre -0,2134 y 3,7433 es de 95%?

  3. El Pvalor obtenido por Marcos significa que existe un 7,652% de probabilidad de obtener una diferencia de medias mayor que +1,764935?

mean(estad)
## [1] 5.036364
mean(tecnol)
## [1] 3.271429
test <- t.test(estad,tecnol,mu = 0,alternative="greater", conf.level = 0.95)
test
## 
##  Welch Two Sample t-test
## 
## data:  estad and tecnol
## t = 1.9068, df = 14.529, p-value = 0.03826
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  0.1388691       Inf
## sample estimates:
## mean of x mean of y 
##  5.036364  3.271429
difmean=mean(estad)-mean(tecnol)
difmean
## [1] 1.764935

10.13 Pruebas de bondad de ajuste

Cuando realizamos cierto tipo de experimento, nos encontramos en la situación de que los valores obtenidos en la muestra difieren de los valores que se esperan bajo cierto modelo de probabilidad. Por esa razón es importante analizar si estas diferencias son significativas o no.

Utilizaremos primeramente pruebas de bondad de ajuste basadas en la Chi-cuadrada. Esta prueba requiere que las frecuencias esperadas sean mayores o iguales a 5.

10.13.1 Prueba Chi-cuadrada para bondad de ajuste

10.13.1.1 Ajuste a una distribución uniforme

Ejemplo: En un comedor asisten semanalmente personas de diferentes ciudades. El dueño del comedor, en su afán de conocer si la cantidad de personas que vienen por semana es la misma en cada semana, realiza un estudio anotando la cantidad de personas que vienen a su comedor durante 5 semanas. Sus anotaciones son las siguientes:

Semana Cantidad de Personas
1 120
2 110
3 116
4 99
5 105

¿Qué se puede concluir?

Solución

#Definimos una variable que cuente con la cantidad de personas
cantidad_personas <- c(120, 110, 116, 99, 105)
#Contamos la cantidad total de personas
total <- sum(cantidad_personas)
total
## [1] 550
#Calculamos las frecuencias esperadas
esperadas <- rep(total/5, 5)
esperadas
## [1] 110 110 110 110 110
#Aplicando la formula de la chi cuadrada sería
chi_cal <- sum((cantidad_personas-esperadas)^2/esperadas)
chi_cal
## [1] 2.563636
#El p valor asociado es
pchisq(chi_cal, df=4, lower.tail = F)
## [1] 0.6332781

Podemos también usar directamente la función chisq.test() definiendo antes las probabilidades de cada clase o categoría

#Calculamos las probabilidades asociadas a cada categoría
probabilidades <- rep(1/5,5)
probabilidades
## [1] 0.2 0.2 0.2 0.2 0.2
#Aplicamos la prueba Chi con chisq.test()
chisq.test(x=cantidad_personas,p=probabilidades)
## 
##  Chi-squared test for given probabilities
## 
## data:  cantidad_personas
## X-squared = 2.5636, df = 4, p-value = 0.6333

10.13.1.2 Ajuste a una distribución Binomial

Ejemplo: Considera la siguiente tabla de frecuencia:

x frecuencia
0 18
1 56
2 110
3 88
4 40
5 8

¿Se ajustan los datos a una distribución binomial con \(p=0,5\)? Utiliza un \(\alpha=0,01\).

Solución

#Definimos la variable X
x <- 0:5
#Creamos la variable frecuencia observada
f_observada <- c(18, 56, 110, 88, 40, 8)
#Calculamos la suma de frecuencias, el total
total <- sum(f_observada)
total
## [1] 320
#Calculamos las probabilidades binomiales con dbinom()
#en donde size=5 es el número de ensayos de Bernoulli,
#y prob=5 es la probabilidad de éxito
probabilidades <- dbinom(x, size = 5, prob = 0.5)
probabilidades
## [1] 0.03125 0.15625 0.31250 0.31250 0.15625 0.03125
#Ahora aplicamos la función chisq.test()
chisq.test(x = f_observada, p = probabilidades)
## 
##  Chi-squared test for given probabilities
## 
## data:  f_observada
## X-squared = 11.96, df = 5, p-value = 0.03534

10.13.1.3 Ajuste a una distribución de Poisson

Ejemplo: En una cierta región de un país se dividió en secciones rectangulares de 0,5 km^^2 para hacer un conteo de la cantidad de bombas caídas durante una guerra. Los conteos se muestran en la siguiente tabla:

Cantidad de impactos Frecuencia
0 229
1 211
2 93
3 35
4 7
5 1

¿Sugieren los datos que la aparición de bombas se distribuye según la ley de Poisson?

Solución

#Definimos la variable X
x <- 0:5
#Creamos la variable frecuencia observada
f_observada <- c(229, 211, 93, 35, 7, 1)
#Calculamos la suma de frecuencias, el total
total <- sum(f_observada)
total
## [1] 576
#Se estima primeramente el valor de lambda, pues es desconocido
lambda <- sum(x*f_observada)/total
lambda
## [1] 0.9288194
#Calculamos las probabilidades de Poisson con dpois()
probabilidades <- dpois(x,lambda = lambda)
probabilidades
## [1] 0.39501978 0.36690205 0.17039288 0.05275474 0.01224991 0.00227559
#Calculamos las frecuencias esperadas
f_esperada <- probabilidades*total
f_esperada
## [1] 227.531392 211.335581  98.146299  30.386730   7.055946   1.310740
#La última casilla tiene un valor esperado inferior a 5. Juntamos los dos últimos
f_observada_nueva <- c(229, 211, 93, 35, 8)
f_esperada_nueva <- c(f_esperada[-(5:6)],f_esperada[5]+f_esperada[6])
f_esperada_nueva
## [1] 227.531392 211.335581  98.146299  30.386730   8.366687
#Usamos la formula de la chi cuadrada
chi_cal <- sum((f_observada_nueva-f_esperada_nueva)^2/f_esperada_nueva)
chi_cal
## [1] 0.9963088
#Calculamos el p valor, con 3 grados de libertad
pvalor <- pchisq(chi_cal, 3, lower.tail = F)
pvalor
## [1] 0.8021451

10.13.1.4 Ajuste a una distribución exponencial

Ejemplo: En un estudio sobre la vida en años de 70 máquinas electrónicas se obtuvieron los siguientes resultados:

Años de vida Frecuencia
0-1 30
1-2 23
2-3 6
3-4 5
más de 4 6

Demostrar que estos datos se ajustan a una distribución exponencial, utilizando 5% de nivel de significancia.

10.13.2 Prueba K-S

Simulación

Genera 100 valores aleatorios de una distribuci?n normal de media 3 y desviación típica 2 (utiliza la semilla 111).

options(width=80)
set.seed(111)
data<-rnorm(100,0,1)
data
##   [1]  0.23522071 -0.33073587 -0.31162382 -2.30234566 -0.17087604  0.14027823
##   [7] -1.49742666 -1.01018842 -0.94847560 -0.49396222 -0.17367413 -0.40659878
##  [13]  1.84563626  0.39405411  0.79752850 -1.56666536 -0.08585101 -0.35913948
##  [19] -1.19360897  0.36418674  0.36166245  0.34696437  0.18973653 -0.15957681
##  [25]  0.32654924  0.59825420 -1.84153430  2.71805560  0.19124439 -1.30129607
##  [31] -3.11321730 -0.94135740  1.40025878 -1.62047003 -2.26599596  1.16299359
##  [37] -0.11615504  0.33425601 -0.62085811 -1.30984491 -1.17572604 -1.12121553
##  [43] -1.36190448  0.48112458  0.74197163  0.02782463  0.33137971  0.64411413
##  [49]  2.48566156  1.95998171  0.19166338  1.55254427  0.91424229  0.35862537
##  [55]  0.17509564 -0.84726777  0.97823166  1.80586826  0.12291480 -0.12977203
##  [61] -0.21642866  1.44647817  0.40970980  0.91091657  1.43035817 -0.38129196
##  [67]  0.20230718 -0.80619919  0.29463418  1.40488308  1.02376685  0.47612606
##  [73] -0.67033033  0.15923432 -0.38271538  0.93576259 -0.63153227 -0.09830608
##  [79]  1.03198498  0.38780843 -1.25612931 -0.78695273  0.42981155 -0.37641622
##  [85] -1.21622907  1.02927851  0.43039700 -1.24557402 -0.60272849  0.66006939
##  [91]  2.05074953  0.49080818 -1.73147942  0.71088366  0.01382291 -1.40104160
##  [97]  1.25912367 -0.12747752 -0.72938651 -1.21136136
hist(data,breaks=15,freq=FALSE,main="Histograma de frecuencias relativas")

curve(dnorm(x),add=TRUE,col="red")

plot(ecdf(data),do.points=FALSE,verticals=TRUE,main="Distribución empírica",ylab="Sn(x)")
curve(pnorm(x),col="red",add=TRUE)

#calculo de D_n

data<-sort(data) # Segunda columna, se ordenan los datos
Fx<-pnorm(data,0,1) # Tercera columna, hacer F(xi)
Sn<-seq(0.01,1,0.01) # Distribución empírica (no hay empates)
aux1<-abs(Sn-Fx) # Cuarta columna
Fx1<-c(Fx,0)
Sn1<-c(0,Sn)
aux2<-abs(Sn1-Fx1)[1:100] # Quinta columna
max(aux1,aux2) # Encontrar Dn
## [1] 0.06014782
#Gráfica de S_n vs F_n

plot(Fx,Sn,type="s")
points(Sn,Sn,type="s",col="green")

#realizar la prueba con el comando

ks.test(data,"pnorm",0,1)
## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  data
## D = 0.060148, p-value = 0.8623
## alternative hypothesis: two-sided

10.13.3 Prueba Chi-cuadrada para tablas de contingencia

#cargamos una variable cualitativa nominal

sexo=as.factor(c("H","M","H","H","M","M","H","M","M","H","M","M","H","M","H","H","M","M","H","M","M","H","M","M","H","M","H","H","M","M","H","M","M","H","M","M","H","M","H","H","M","M","H","M","M","H","M","M"))

sexo
##  [1] H M H H M M H M M H M M H M H H M M H M M H M M H M H H M M H M M H M M H M
## [39] H H M M H M M H M M
## Levels: H M
#cargamos una variable cualitativa nominal

fuma=as.factor(c("No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí"))

fuma
##  [1] No Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí No
## [26] Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí
## Levels: No Sí
#para indicar a R que los datos cargados están relacionados

datos=data.frame(sexo,fuma)
#datos
table(datos)
##     fuma
## sexo No Sí
##    H 12  8
##    M  4 24
mosaicplot(table( datos$sexo,datos$fuma),xlab = "Sexo", ylab = "Fumador",main ="Mosaico para fumadores por sexo",color = 2:3)

Prueba chi de independencia

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table(datos$sexo, datos$fuma)
## X-squared = 9.0107, df = 1, p-value = 0.002684

Algunos ejemplos más

Pruebas de ajuste

11 Referencias