1 Introducción

Las herramientas tecnológicas para el estudio y la enseñanza de la estadística en la actualidad están ampliamente extendidas y disponibles incluso de manera gratuita. El estudio de los conceptos estadísticos teóricos, sus propiedades y teoremas relacionados, pueden verificarse fácilmente mediante la generación de ensayos y simulaciones de variables aleatorias. Programas estadísticos de licencia gratuita como el R-project se constituyen en un aliado estratégico que facilitan y simplifican al docente la transferencia de conocimiento y al estudiante su asimilación. El presente trabajo recopila el fruto de varios años de experiencia enseñando inferencia estadística apoyado en las simulaciones y ejercicios prácticos realizados usando este programa. La experiencia se concretó en el diseño y socialización de esta página web generado y publicado mediante la plataforma RStudio Cloud. En esta página se organizan los contenidos en varias secciones, que incluyen los códigos necesarios para realizar los ensayos de simulaciones que permiten verificar las propiedades y teoremas de los tópicos tratados en el curso de Probabilidades. Los estudiantes matriculados al curso pueden copiar los códigos para ejecutarlos en su propio ordenador, para verificar el efecto que tienen los cambios en los parámetros de los modelos de probabilidad estudiados, sobre los resultados de las simulaciones. Adicionalmente se incluyen una serie de estudios de casos con datos provenientes de registros administrativos y encuestas nacionales para aplicar los conceptos abordados en la solución de problemas sobre algunas variables relevantes. Actualmente, resulta imprescindible que todo estudiante de Estadística culmine la carrera con el manejo de un programa para el análisis estadístico, y R es una excelente opción que se puede disponer para el efecto.

2 El programa R-project y RStudio

R es un programa de código abierto, que tuvo inicios aproximadamente en el año 2000, como continuación de programa S. De acuerdo con la página oficial de R-project, este es un lenguaje y entorno para computación estadística y gráficos. Es un proyecto GNU que es similar al lenguaje y entorno S por lo que puede considerarse como una implementación diferente de S. El programa fue desarrollado en Bell Laboratories por John Chambers y sus colegas. Hay algunas diferencias importantes, pero gran parte del código escrito para S se ejecuta sin cambios en R. R proporciona una amplia variedad de técnicas estadísticas (modelado lineal y no lineal, pruebas estadísticas clásicas, análisis de series temporales, clasificación, agrupamiento, …) y técnicas gráficas, y es altamente extensible. El lenguaje S suele ser el vehículo elegido para la investigación en metodología estadística, y R proporciona una ruta de código abierto para participar en esa actividad. (‘Using RStudio projects,’ n.d.)

2.1 Descargar e instalar el programa R-project y R-studio

R-project Enlace para descargar el programa R-project

R-studio Enlace para descargar el programa R-studio

Instalar R por primera vez

2.2 Enlaces de interés

A continuación te dejamos algunos enlaces interesantes para aprender a usar R como herramienta para el análisis estadístico

R para principiantes

Una introducción a R

2.3 Primeros pasos con R

Puede resultar de mucha utilidad trabajar y guardar los comandos usados en un “script” de R. El script es básicamente un documento de texto donde uno puede ir escribiendo todos los comandos a ejecutar. Considerando el hecho de que si se antepone a una línea de comando el signo #, este no será ejecutado y el programa lo considerará como un comentario.

Script en R

2.3.1 Librerías

Paquetes que usualmente son necesarios instalar. Elimine los signos # para instalarlos por primera vez.

# install.packages("hrbrthemes")
# install.packages("viridis")
# install.packages("dplyr")
# install.packages("data.table")
# install.packages("bookdown")
# install.packages("agricolae")
# install.packages("fastmap")
# install.packages("grDevices")
# install.packages("PNG")
# install.packages("readpng")
# install.packages("sandwich")
# install.packages("reticulate")
# install.packages("tidyverse")
# install.packages("crosstable")
# install.packages("prettydoc")
# install.packages("rmdformats")
# install.packages("DescTools")
# install.packages("kableExtra")
# install.packages("expss")
# install.packages('descr')
# install.packages("gtools")

2.3.2 Ayuda del R

Una de las cosas más importantes a la hora de trabajar con R es aprender a usar la ayuda. Para obtener la ayuda sobre alguna función o comando de R basta con escribir el comando help() y dentro del paréntesis incluir el nombre de la función o comando

help("seq")

## starting httpd help server ... done

La ayuda de R

2.3.3 R como calculadora

Puedes usar el programa R como una calculadora, basta con conocer cuáles son los signos y comandos a utilizar para realizar las opereaciones. Copia los comandos en tu script de R y ejecútalos para ver los resultados.

#suma
2+2

## [1] 4

#multiplicación
2*2

## [1] 4

#división
2/2

## [1] 1

#potencia
4^2

## [1] 16

#raíz cuadrada
sqrt(16)

## [1] 4

2.3.4 Carga de datos

Un primer paso para usar R en el estudio de la Estadística se relaciona con el proceso de cargar datos, que luego puedan ser analizados. Considera las variables “Edad del estudiante” y su “Altura”, carga los datos para luego realizar algunas operaciones estadísticas con ellos.

#cargamos una variable cuantitativa discreta
edad<-c(11,12,12,15,12,41)
edad

## [1] 11 12 12 15 12 41

#cargamos una variable cuantitativa contínua
altura=c(50,65,120,156,60,182)
altura

## [1]  50  65 120 156  60 182

#cargamos una variable cualitativa nominal
sexo=as.factor(c("Hombre","Mujer","Mujer","Hombre","Mujer","Mujer"))
sexo

## [1] Hombre Mujer  Mujer  Hombre Mujer  Mujer 
## Levels: Hombre Mujer

#cargamos una variable cualitativa ordinal
niveleducativo=as.factor(c("Sin instrucción","Educ. Básica","Educ.Básica","Unviversitaria","Unviversitaria","Educ. Básica"))
niveleducativo

## [1] Sin instrucción Educ. Básica    Educ.Básica     Unviversitaria 
## [5] Unviversitaria  Educ. Básica   
## Levels: Educ. Básica Educ.Básica Sin instrucción Unviversitaria

2.3.5 Data frame

#para indicar a R que los datos cargados están relacionados
datos=data.frame(edad,altura,sexo,niveleducativo)
datos

##   edad altura   sexo  niveleducativo
## 1   11     50 Hombre Sin instrucción
## 2   12     65  Mujer    Educ. Básica
## 3   12    120  Mujer     Educ.Básica
## 4   15    156 Hombre  Unviversitaria
## 5   12     60  Mujer  Unviversitaria
## 6   41    182  Mujer    Educ. Básica

2.3.6 Tablas de frecuencia

Usando la función table()

# Tablas de frecuencias para sexo
tab_sexo <- table(sexo)
tab_sexo

## sexo
## Hombre  Mujer 
##      2      4

# Tablas de frecuencias para edad
tab_edad <- table(edad)
tab_edad

## edad
## 11 12 15 41 
##  1  3  1  1

# Tablas de frecuencias de doble entrada
tab_sexo_edad <- table(sexo,edad)
tab_sexo_edad

##         edad
## sexo     11 12 15 41
##   Hombre  1  0  1  0
##   Mujer   0  3  0  1

# Proporción por sexo y edades
tab_sexo_edad <- table(sexo,edad)
prop.table(tab_sexo_edad, margin = 1)

##         edad
## sexo       11   12   15   41
##   Hombre 0.50 0.00 0.50 0.00
##   Mujer  0.00 0.75 0.00 0.25

# la función summary
summary(datos)

##       edad           altura           sexo           niveleducativo
##  Min.   :11.00   Min.   : 50.00   Hombre:2   Educ. Básica   :2     
##  1st Qu.:12.00   1st Qu.: 61.25   Mujer :4   Educ.Básica    :1     
##  Median :12.00   Median : 92.50              Sin instrucción:1     
##  Mean   :17.17   Mean   :105.50              Unviversitaria :2     
##  3rd Qu.:14.25   3rd Qu.:147.00                                    
##  Max.   :41.00   Max.   :182.00

#Usando la función table.freq()
tab_Edad <- hist(edad, plot=FALSE)
tab_Edad2=table.freq(tab_Edad); tab_Edad2

##   Lower Upper Main Frequency Percentage CF   CPF
## 1    10    20   15         5       83.3  5  83.3
## 2    20    30   25         0        0.0  5  83.3
## 3    30    40   35         0        0.0  5  83.3
## 4    40    50   45         1       16.7  6 100.0

2.4 Representaciones graficas

2.4.1 Graficas circulares o de sectores

Algunas gráficas estadísticas con los datos cargados

# una gráfica para sexo
pie(table(sexo),labels = c("Hombres","Mujeres"), main="Pie Chart",edges = 200)

2.4.2 Gráficos de barras

# una gráfica de barras
barplot(tab_edad)

# Histograma de las edades
hist(edad)

2.4.3 Histogramas de frecuencias y de porcentajes

# Histograma de las edades
hist(edad)

2.5 Generación de sequencias

#X es el conjunto de los números del 1 al 5
x <- seq (1, 5)
x

## [1] 1 2 3 4 5

#X es un conjunto formado por la secuencia de números desde el -6 hasta el valor 6 con saltos de valor 0,1
# help(seq)
x <- seq ( -6, 6,by=0.1)
x

##   [1] -6.0 -5.9 -5.8 -5.7 -5.6 -5.5 -5.4 -5.3 -5.2 -5.1 -5.0 -4.9 -4.8 -4.7 -4.6
##  [16] -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1
##  [31] -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6
##  [46] -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1
##  [61]  0.0  0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4
##  [76]  1.5  1.6  1.7  1.8  1.9  2.0  2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9
##  [91]  3.0  3.1  3.2  3.3  3.4  3.5  3.6  3.7  3.8  3.9  4.0  4.1  4.2  4.3  4.4
## [106]  4.5  4.6  4.7  4.8  4.9  5.0  5.1  5.2  5.3  5.4  5.5  5.6  5.7  5.8  5.9
## [121]  6.0

#X es un conjunto formado por la secuencia de 100 números desde el -6 hasta el valor 6 redondeado con tres valores decimales
x <- round(seq ( -6, 6, len=100 ),3)
x

##   [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
##  [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
##  [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
##  [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
##  [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
##  [51]  0.061  0.182  0.303  0.424  0.545  0.667  0.788  0.909  1.030  1.152
##  [61]  1.273  1.394  1.515  1.636  1.758  1.879  2.000  2.121  2.242  2.364
##  [71]  2.485  2.606  2.727  2.848  2.970  3.091  3.212  3.333  3.455  3.576
##  [81]  3.697  3.818  3.939  4.061  4.182  4.303  4.424  4.545  4.667  4.788
##  [91]  4.909  5.030  5.152  5.273  5.394  5.515  5.636  5.758  5.879  6.000

2.6 Abrir una base y resumir

R ya incorpora una serie de bases de datos que te pueden resultar de utilidad para empezar a explorar las posibilidades de análisis estadístico que te ofrece este programa.

Como ejemplo vamos a explorara la base de datos llamada cars.

#cargar la base
data(cars)
#visualizar los encabezados
head(cars)

##   speed dist
## 1     4    2
## 2     4   10
## 3     7    4
## 4     7   22
## 5     8   16
## 6     9   10

#resumir con algunas estadísticas las variables de la base 
summary(cars)

##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

2.7 Funciones con R

En R existen funciones ya establecidas y de uso muy común como el que te permite calcular el valor promedio (mean()), o el que te permite calcular la varianza (var()), pero tambien es posible crear tus propias funciones, basta con usar el comando “function”, como se muestra en los ejemplos siguientes:

#una función de las variables o argumentos x,y,z que multiplica sus valores

z=function(x,y,z){
x*y*z
}

# aplicamos la función creada sobre algunos datos

a=z(2,5,10)
a

## [1] 100

#función que reproduce el valor de la varianza de un conjunto de datos d

d=c(1,2,3)

vari=function(x){
sum((x-mean(x))^2)/(length(x))
}

vari(d)

## [1] 0.6666667

3 Análisis combinatorio

3.1 Definiciónes

En matemáticas, una permutación de un conjunto es, en términos generales, una disposición de sus miembros en una secuencia u orden lineal, o si el conjunto ya está ordenado, una variación del orden o posición de los elementos de un conjunto ordenado o una tupla. La palabra “permutación” también se refiere al acto o proceso de cambiar el orden lineal de un conjunto ordenado.

Problema 1: Cuántas posibilidades de resultados ocurre cuando se extraen simultáneamente de una urna dos canicas, si en la urna existen 5 de color negro y 2 de color blanco, sin que importe el orden y b) si consideramos el orden

#librería para análisis combinatorio
library("gtools")

## Warning: package 'gtools' was built under R version 4.2.2

#a
combinations(2,2,c("b","n"),repeats=TRUE)

##      [,1] [,2]
## [1,] "b"  "b" 
## [2,] "b"  "n" 
## [3,] "n"  "n"

#b
permutations(2,2,c("b","n"),repeats=TRUE)

##      [,1] [,2]
## [1,] "b"  "b" 
## [2,] "b"  "n" 
## [3,] "n"  "b" 
## [4,] "n"  "n"

Para obtener ayuda de R al respecto de las permutaciones

#help(permutations)

Otros ejemplos

P=permutations(4,3)
P

##       [,1] [,2] [,3]
##  [1,]    1    2    3
##  [2,]    1    2    4
##  [3,]    1    3    2
##  [4,]    1    3    4
##  [5,]    1    4    2
##  [6,]    1    4    3
##  [7,]    2    1    3
##  [8,]    2    1    4
##  [9,]    2    3    1
## [10,]    2    3    4
## [11,]    2    4    1
## [12,]    2    4    3
## [13,]    3    1    2
## [14,]    3    1    4
## [15,]    3    2    1
## [16,]    3    2    4
## [17,]    3    4    1
## [18,]    3    4    2
## [19,]    4    1    2
## [20,]    4    1    3
## [21,]    4    2    1
## [22,]    4    2    3
## [23,]    4    3    1
## [24,]    4    3    2

combinations(3,2,letters[1:3])

##      [,1] [,2]
## [1,] "a"  "b" 
## [2,] "a"  "c" 
## [3,] "b"  "c"

combinations(3,2,letters[1:3],repeats=TRUE)

##      [,1] [,2]
## [1,] "a"  "a" 
## [2,] "a"  "b" 
## [3,] "a"  "c" 
## [4,] "b"  "b" 
## [5,] "b"  "c" 
## [6,] "c"  "c"

permutations(3,2,letters[1:3])

##      [,1] [,2]
## [1,] "a"  "b" 
## [2,] "a"  "c" 
## [3,] "b"  "a" 
## [4,] "b"  "c" 
## [5,] "c"  "a" 
## [6,] "c"  "b"

permutations(3,2,letters[1:3],repeats=TRUE)

##       [,1] [,2]
##  [1,] "a"  "a" 
##  [2,] "a"  "b" 
##  [3,] "a"  "c" 
##  [4,] "b"  "a" 
##  [5,] "b"  "b" 
##  [6,] "b"  "c" 
##  [7,] "c"  "a" 
##  [8,] "c"  "b" 
##  [9,] "c"  "c"

Desafío 1: Consideramos un tablero de ajedréz y dos puntos: A situado en el vértices inferior izquierda y B un punto situado en el vértice superior derecha. Se tratará de averiguar cuál es el número de caminos mínimos que hay de A a B. Aquí un camino mínimo de A a B es uno que sigue las líneas de la retícula y avanza siempre a hacia la izquierda ó hacia arriba, nunca a la derecha ni hacia abajo. Generalize para cualquier tablero de m filas y n columnas

Grafica del tablero de ajedréz con R (chessR?)

library('tidyverse')
# https://stackoverflow.com/questions/58769722/plotting-a-chessboard-in-r-how-to-name-columns-and-rows
chessboard = function(n){
  if(n > 26){
    stop('Ya board too big!')
  }
  board = expand_grid(X = 1:n, Y = 1:n)
  board = board %>% 
    mutate(color = ifelse((X - Y) %% 2 == 0, 'black', 'white')) %>% 
    mutate_all(factor)
  letter_labs = LETTERS[1:n]


  ggplot(data = board, aes(x = X, y = Y, fill = color)) +
    geom_tile() +
    scale_fill_manual(values = c('black' = "#FFFFFF", 'white' = "#000000")) +
    scale_x_discrete(labels = letter_labs, name = '') +
    scale_y_discrete(labels = letter_labs, name = '') +
    theme(legend.position = 'none')

}
chessboard(8)

Ver respuesta:
(Ejercicio 2.20) https://www.ugr.es/~anillos/textos/pdf/2014/Combinatoria.pdf \[ \frac{(n+m)}{n!m!} = {{n+m}\choose{n}} \]

Desafío 2: Dada la ecuación X + Y + Z + T = 13, determinar cuántas soluciones tiene en el conjunto N de los números naturales.

Ver respuesta:

Este problema se puede interpretar como colocar un total de 13 bolas en cuatro cajas: U1, U2, U3 y U4, y como hemos visto, el número de posibles distribuciones en el número de combinaciones con repetición de cuatro elementos tomados de 13 en 13. El valor es:

\[ \frac{(13+4-1)}{4-1} = \frac{(13+4-1)}{13} \]

4 Operaciones con conjuntos

4.1 Unión e intersección de conjuntos

Creando el vector i en R:

i=1:15
i

##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15

Creando el vector j en R:

j=10:25
j

##  [1] 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Creando la unión de los vectores i, j con la función union:

k<-union(i,j)
k

##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

También podemos crear la intersección de los vectores i, j con la función intersect:

l=intersect(i,j)
l

## [1] 10 11 12 13 14 15

Podemos saber la diferencia entre los vectores i, j (elementos que aparecen en i y no aparecen en j), con la función setdiff:

n<-setdiff(j,i)
n

##  [1] 16 17 18 19 20 21 22 23 24 25

Podemos comprobar si los vectores i, j son iguales mediante la función setequal:

o<-setequal(i,j)
o

## [1] FALSE

Graficamos los conjuntos

4.2 Diagrama de Benn

#install.packages("venn")
library("venn")

## Warning: package 'venn' was built under R version 4.2.2

a=venn(3)

venn("010",zcolor="blue",opacity=0.5)

Tres conjuntos con rótulos.

a=c(2,4,6,8,10,11)
b=c(1,2,3,4,5,6)
c=c(5,6,7,8,9,10)
d=list(a,b,c)
d

## [[1]]
## [1]  2  4  6  8 10 11
## 
## [[2]]
## [1] 1 2 3 4 5 6
## 
## [[3]]
## [1]  5  6  7  8  9 10

venn(d)

Con la librería ggVennDiagram

ggVennDiagram(list(i,j), label_alpha = 0)

5 Experimentos Aleatorios y Determinísticos.

Cuando hablamos de un experimento aleatorio estamos hablando de variables que pueden tomar un valor de manera aleatoria, es decir, donde interviene el azar y, por lo tanto, no podemos estar seguros de cual va a ser el valor siguiente que se obtendrá, solo podemos suponer una cierta probabilidad. En econometría y series de tiempo a este tipo de sucesos aleatorios se les suele denominar random walk. Dentro de las variables aleatorias, se les puede clasificar en dos principales:

[1] Aleatorias discretas: No pueden tomar ciertos valores de un conjunto.

[2] Aleatorias continuas: pueden tomar infinitos valores.

Un ejemplo clásico para entender lo que es un evento aleatorio es el lanzamiento de una moneda. Cuando lanzamos la moneda ésta solo puede adquirir dos valores posibles: cara o cruz, ¿qué probabilidad tenemos de obtener alguno de los dos lados de la moneda? En este caso tenemos dos opciones posibles, por lo que podríamos decir que la probabilidad es del 50%, pero cuando hagamos un experimento lanzando monedas de manera indefinida, por ejemplo, unas 100 veces, es posible que no obtengamos 50 caras y 50 cruces, ya que es un evento aleatorio. Vamos a replicar el experimento en la consola de R, esto lo podemos hacer de la siguiente manera:

Ejemplo de las dos monedas Espacio muestral: conjunto de todos los posibles resultados EM=(CC,C+,+C,++) nroEM=2*2=4

Lanzamiendo de dos dados EM=((1,1);(1,2);….;(6,5);(6,6)) EM=6*6=36

Lanzamiento de 100 dados? nroEM=6666…..*6=

nroEM=6^100
nroEM

## [1] 6.533186e+77

6 Sucesos y eventos

Puedes realizar el experimento en casa: toma una moneda y lanzala 20 veces. Anota tus resultados y luego transcribelos en R dandole valores a cara y sello. Resultado de tirar n = 20 veces la monada donde: Cara = 1 y Sello = 0.

moneda = c(0,1,0,0,1,0,1,1,0,0,1,0,0,1,1,0,0,1,0,1)

fr = table(moneda)/length(moneda)
print(fr)

## moneda
##    0    1 
## 0.55 0.45

# Call vtree and give the root node a title
vtree(edges1b,"from to",title="Lanzamiento de una moneda")

## Warning in knitr::include_graphics(fullpath): It is highly recommended to use
## relative paths for images. You had absolute paths: "C:/Users/Diego/AppData/
## Local/Temp/RtmpyiIkNG/vtree001.png"

7 Probabilidades

Definición clásica y frecuentista

Demostrar por definición de probabilidad clásica y frecuentista (simulaciones) los puntos a) La suma más probable al lanzar dos dados a) La suma más probable al lanzar cuatro dados a) La suma más probable al lanzar n dados

Cuando se lanza un solo dado

dado1=seq(1:36)
dado1

##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
## [26] 26 27 28 29 30 31 32 33 34 35 36

muestra1=sample(dado1, 30, replace = TRUE, prob = NULL)
muestra1

##  [1] 16  1 23 26 11  9 21 31 27 35 24 26  1 25 32  1 30 27  2  6 35 32 23  5 11
## [26] 28 28 33  2  5

Definir una funcion en R

media=function(x){sum(x)/length(x)}
x=c(1,2,3)
media(x)

## [1] 2

Cuando se lanza tres dados y se mide la suma de los tres resultados

t<-sapply(1:3000, function(x){sum(sample(1:6,3,rep=T))})
t

##    [1]  7 11 13  9  9  9  6 10  9 13 16  6 13  7 13 11 14  6  5 15 15 10  9 12
##   [25]  7 14  7 17  8  9 16  9  9 10 14 14  8 14 11 11 12 13 14 14 17 17  8  9
##   [49]  9  8 14 14 14 10 11 15  7  8 12 15  9 13  8  9  6  7  8 10 11 14  8  8
##   [73]  8 16 14 13 10  8  9 14 11  7 11  8 10 11  6 10 12  9 12 11 12 13 10  6
##   [97]  9 10  8 14  7 15  7  4  6  8 10 11  9 11  5  9  7 13  5  9 10 13  3  3
##  [121] 10  7 11 12  9 11 16 10  8 15 14 16 12 15  8  7 13 14 12 18  7 11 16 14
##  [145]  6 11  4 15 11 16 17 10 12  9  6 12 10 13 15  8 10 12  9  7 13  7 16  8
##  [169]  9 13  6 11 11 11  6 15  6 10  7  9  5 18 12  5  6  7 10 12  7 10 13  9
##  [193] 12  9 14 13 10 16  7  6 16 14  7 15 14  9  8  8  9  9 12  6  5  8  4 11
##  [217]  9 11  9  9  4 10 11 11  8  7 13 12  8  9  9 10 10 11  8  7  8 10 11 15
##  [241] 11  4 11 14 14 10 17  9  8  9 10 16 10  8 14 16  9 15 12 11 15 15 11  6
##  [265] 13  6 15  9  9 14  8 12  5  7  8  8  8 13  9 15 10  7  9  8  9 12 12 10
##  [289]  7 14 11 10 10  4 13  9  7 12 10  5 14 12 11 17 16  8  6  4 12 10 13 11
##  [313] 14  4 13  6 12  6  6 11 14 14 10  9 14  4  9 10 11 12 10 11 10 10  7 11
##  [337] 13 11  8  7 10 13  8  8 11 12  8  8 15 13 14  9  9 13 11  6 11 14 13 14
##  [361] 12 11  8 12 15 17 13  9 13 13 13 10 14 12  4 15  6 14 15 13 17  9 10 15
##  [385] 13  6 10 13 11 12  9 10 11 12  7 10  7 13  9 13 10  8 15 12 15 16 10  5
##  [409]  8  8  6  6 17  9 11 13 11  7 12 11  7 13 11  5  9 11  7  8  4 10 15 18
##  [433]  6 12 15  9  9 14 11  9 10 10 10  8 11  9  9  9 13  7 12 16 11 10 16  7
##  [457] 16  7  7 12  9 12  8 14  8 11 14 10 11  9 10 11 16  9 10 10 10 12 10  6
##  [481] 12  7  9 12  9  9 13 10 15  9 11 12 10 11  8  9  6 14 12 13 11 13  7 14
##  [505] 12 12  4  8 11 16 11 12  9 10  9 10 10 10  8 16 11 11 15  8  9  7 10  9
##  [529]  7 15 13 11 16  9  6 15  9 14  7 13  8  5 13 15  5 11 15 10 12 11 11  7
##  [553]  4 18  9 11  7  5 13 13  6 12 18  8 13 11  9 10 13 14 11 12 14 16 13 11
##  [577]  7 13 16 10 12 10 13 10  4 17 13 11 14  7  8 11 13 12 11  8 12 12 11  6
##  [601] 10 11 11 11 12 10  7 12 15  8 10  9 11 13  7  7 15  8 12  9 14  9 12  8
##  [625]  8 12 14 10  7 11  5  5 13 12 13 15 12  7 12  9  7 13  8  9 15 10 12 10
##  [649]  9  9  4 12 13 12 12 11 15 12 11  7 13  8 18  8 14 14  8  7  6 14 10 14
##  [673] 14 13  9 12  5 10 12 15 10 17 13  9 11  9 11 15 10  9  6 18  5  9 11  9
##  [697] 11 12 15 14 10  8 12 13 16  9 13 13 10  7  9  6  8 10  6 12  8  7  7  8
##  [721] 10  9 12  5 10  9  7  7 10 11  7 10  7 14  8 11  7 14 13 11 13 12  4  7
##  [745] 12 14 14  9  8  9 12 10 11 13  9  8 10  8  6  9 13  7  6 16 15 11 10 11
##  [769] 10  9 12  6 13 11 10 11 11 10 14 10  9 11 11 10 13 13 10 10 14  9  3 12
##  [793]  9 12  7 14 15  8 13  9  9 14 11 15 16 11 13  9  8 11  7 10  7 13 12  6
##  [817]  5  9 10 10 17 11  7 14 11 11 15 13  7  6 17  9 14 10 13 10 15  8  9 10
##  [841] 10 11  8  6  9 14 12 10  6 18 11 13 15 16 11  8 10 13 14 13 12  3 12  3
##  [865]  6 10  6 14  5 13 14 13  9  4  7  9 13  9  4  6  8  9  9 11  9  8 12 15
##  [889] 12 10 12 11 18 12 12  8  9  9 14  6 17  9  7  7  6  8 14 14 11  7  4  9
##  [913] 11 15  8 14 13  9  8 11 17 12 11 12 13  6  8 16  8 10 10  9 11 11 11 10
##  [937] 10  9  5 12 11  7 10 11 11 14 11 11 10 11 14  8  6  8  8 10 12  5 15 10
##  [961] 16  9 16  8  5 11  9 11 12  5 11 12 12 15 10 13 17  9  9 12  7 13 15 12
##  [985] 10  9 10 13  7 14  9 10 13  9 14  9  7  8 11  6  8 12 15 12 13 12  8 10
## [1009]  8 18 13 15 14 15  8 12  4 14 10 12  9 14 10  5 13  7 11 10 11 10 15 10
## [1033]  4  6 13  9  8 12 12  8 15  5  9 14 11  5 11  9 14 11 10  3 14  5 12 15
## [1057] 14 12 12 12  8 13 14 11 17 11 13 15  6 13 14 15 14 15  4  9 14 12 10  7
## [1081] 17  6 12 11  7 10 14  8 10 14  8 11  9 10 16  9  8 12 13  9  8 14  7  6
## [1105] 15  7 13 10 12 10  7 14  9  9  9 12 11 10 13 12  6 14 17  9 10 10  6 10
## [1129] 13  9  6 15 12 12 13 10 14 14 11  8 10  6  8 11  9 10 14  9 12  9 16 10
## [1153]  7  8 17  9 15  9 12  7 12  9  9 10 11 18  7  3 11 13  9 14  8  9 13  9
## [1177] 11 10 13  8 11 15  9 13 12  9 13  9 12 16 12 17 10 13  5 10 14 12 18 13
## [1201] 13  8 13 14  6 10 16 13  9 11 13 10  9  7  8 15  8 12  8 12 13  7  7  7
## [1225]  8 11 16  7  9  4 11 11 12  8 13 11  5 12 14 11 12  6  7 13 15  8 12  5
## [1249] 12  9  6 10 13 13  9 12 11 10 17 14  7 15  7 10  9 14 10  6  4 13 11 10
## [1273] 14  5  8 14 10  6  8 10  9 10 14 16 13 12 11 12 17 13 11 10 11 11 13 13
## [1297]  8  8 10 13 14  8 13  7  8 12 10  9  9 13 11 11 15  9 13 12  9 16  7 12
## [1321] 13 10 11 11 11 10  6 11 11  8  4  8 13  8  6 11 12 10  8 14  7 14 12 16
## [1345]  5 11  7 10  9  9  8 15 15  7 14  9  8 10 12  5  6 11 13 11  9 10 12  9
## [1369] 13 12 11  6  8  6 10 10 12 11 13  8 14  4 16  5  7 13  8 10 11 13 12 10
## [1393] 13 11 10 12  9  7 17  8 12  9 11  6 10  9  7  6 10 11 10 11  8 11  7  9
## [1417]  9  4 11 10 13 10  9 13 10  9  9 10 12  9 13  9 11  4 13 14 10 11 12 11
## [1441]  7  9 11  9 13 10 14 10 13  4 11 14 10 14  7 14 10 16  9 11  8  5 14 13
## [1465] 11 15 16  6 13 14 10  9 10 10  9  9 10 13  7 14 14 14  9 11 12 11 13  8
## [1489] 11 10 14  7 16 16 11 14 16 12 11  9 10  8  7 11  7  9 13 12  7  5 15 10
## [1513] 16  7 14  6 10  8 10 11  9  8 11 15 10 12  8  4 11 14  7 11  9 11  6  8
## [1537] 17 12 10 10 12  8 15 10 10 13  5 15  6 11  9 14  7 11  8 14 10  8 10 10
## [1561] 12 11 13  8 16 11 17 11 17 12  7 13 11 11 10 10  6  9 13 12  7 13  8 17
## [1585] 12 10 16 12 13 11 12  6 13 12  8  8 11 12  6  5 12  7 10  8 15 13 12  7
## [1609] 16 10  9  9  7  8 11 14 13 10  9  5  6  9 10  6 11 14 13  9 14 12 10  9
## [1633]  7 12 10 12 11  9 15  6 14 11 11  9 11 16  9  9 13  3  9 12 10  7 11 17
## [1657] 13 13  6 13 14 14  5 15 14 12  9 10 13 15 15 12 13  7 11 10  8 16 15 13
## [1681]  9 13  7  9 14  6 12 10 14  8 11 10 12  7 14  8 10 10 10  5 10 11 12  8
## [1705]  9 10 10 10 12 13 10 11 11  9 14 11 15 16 10 11  9 14  9 12  5  8 11 11
## [1729] 11 12  9 15 14  3  9  7 11  8 10 13  9  9  6 11 11  8 10  9 13  8 15 11
## [1753]  9  7 14 13  7  5 14 12 14 12  8 16  7 13 11 11 10 11  7 11 12  5 11  7
## [1777] 13  6  9 12  8  9 10 12  8 14  8 11  9 12 11 10  9  9  6 12  9 10  8 11
## [1801]  9  5  5 12 11  7 12 12 13  8 11  8 18 10 15 14 16  6 11 13 15 10  9  6
## [1825] 11 10 11  8 10 14 12 12 12 10  8 11 12 15 14 12 11  8  9  8 12  8  8  6
## [1849] 10 11  8 12 13 10 12 12  7 13 14  8 11 12 13 15  8 15 14 12  9  5 10 11
## [1873]  8 10 14 13 15 11 11 14 11  7 13 14 12  9 12 11 15 10 13 10  8  6 10  7
## [1897] 10 10  7 14  7  9  8  5 14 11 11 13  9 11  9 10  9  5 13 12 12  6  9 14
## [1921]  6 10  9  9 13 10  4 14  7 12  8 16 11 12  8 10  8 14 14 14  5  5 13 14
## [1945] 15 11 10 12  9 17  7 15 12 12 10  5 13  7 10  9  7  7 12 12  9  7 17  9
## [1969] 11 10 10  8 10  7 16 12 12 10 15 11  9  6 11 11 12  7 13  9 17 12 11 10
## [1993]  9  5 12 11 10 12 10 14 12  5  8 10  8  8  4  5 15  8 11 14 14 15 12  9
## [2017] 13  6 12  6  7  9 13  7  4  9  8 10 11  3 10  6  5 15  5 12  8 14 13 12
## [2041] 12 16 13 13  9  8 12  8 12 13 14 12 12  9  8  7  8  9  8 10 11  5 16 12
## [2065]  9  5  9  9 10  8 13 13 11 13  3  8  9  3 11 12  8 11 11 13 10 13  9 10
## [2089] 11 13 18  8  7  6  7 11 16 10  9 10 17 17  9 14  9  5 12  5  5 10 11  6
## [2113] 10  9 15 12  6 17  8  7 10 12 13 17 14 15  7 12 17 16 13 14 14 10 10  7
## [2137] 12 12  8 10 13 13  8 13 12  7  6 13 12 14 10  7  6  6 12  9 14 15 14  5
## [2161] 11 15 11  4  9  9  8 13 12  9  9  9  9  7  8 11 15  8  6 13  8  4  4 13
## [2185] 12  8  9  3 13 10 11  6  6  9  7 12 11 11  9  8 10 12 10  6 10 17 11 13
## [2209] 14 10 12 14  8  7 12  8 12 12 14 10 13 10  8  7 13 10 13 11 12 10 15  8
## [2233] 10  7  9 15  9 10 13 11 11 12 14 12 11 11 13 15  8  9 11  5 15  9 13  7
## [2257] 15 15  6 14  5 12 11  5 11  9  7  8 14 14 12 13 12  8  4  9  7  8 12  7
## [2281] 11 10  9 13 13 11  9 18 15  7 10 11  8  8 12 13 12 11 15 17  9  7 11  9
## [2305] 10  6 16  8  9 13  7  9 11  9 12  8  7  9 13 13  4 10  7  6 12 15  5  6
## [2329] 11 16 10 10  5 15 13 16 11  7 10  5 14  9  7  9 13  8 11 10  6 11 15 12
## [2353] 11 11 13  8 12  7  6 13  8 12  9 12 11  9  8  7 11  6 15  7 13 10 10  8
## [2377]  5 10 14 15 10 13 12 10 14 15  8 14 10 10 11 14 12 10 11 11 11  4 10 10
## [2401] 13 12 14  4  9  8  8 12  7  7  9 10 12 15 11 11 11 10 12 10 11 17 15 12
## [2425] 14  6 10  7  9  5 13  9  8 13 16 13 12  9 11  7 13  8  4 11 12 11  6  8
## [2449] 11  3 11 10 14 15  7  9 15  9 10 10 11  6 11 10  9 16 10 11 11  7 10  5
## [2473]  7 15 16  7  9  8 13 13  8 15  8 14  6  9 13  5  3  7 11 16 13 11 15 10
## [2497] 10  8 11  8  8 10  8 10  7  9 13 11 15 10  5  8 10 10  9 11  8  4 13 14
## [2521]  9 14 11  6 13 11  7 13 13  8  6  9 11 10  6 12  7 13  9 15  5 12 11 16
## [2545] 11 13 12  5  7 10 15 10 10 11 14  7  9  7 13 13 12 11 14  4 12  7 15 10
## [2569] 12 11 10  5  8 10 13 13 15 14 11 10 12 11 11  9 10  8 10 10  9  8  6  7
## [2593] 12 11  9  5 10 10 14  9 10 11 13 12  9  8  8 14 14 10  9 13 13  7  9 13
## [2617]  8  7  9 12 15 15 15 10  6 13 12 11  8 10  9 14  8 13 10 14  9 11  9 12
## [2641]  9 13 14  8  6 12 15 12 14 10 11 10 12  6 12  4 15 12 18 10  6  8  8 10
## [2665] 11 12 13 10  7 12  9  6  8 15 16 13  9 11  7  8 13  9  8  9 11  9 10 10
## [2689] 11  5 10  6  8  6  9  9 15 10 11 10 15 15 12  7 11  9 10  8  9  8 12 14
## [2713]  9 14 11  4 13  8  7  7 10  7 16  6  5 10  7  8  8  7 11 11 10 10  8  8
## [2737] 13  9 14 12  7 10 10 12 11  8 16  7 13 12 13 11  6 10 10 10  9  7 11 10
## [2761]  7  8 15 11  7 10 14  9  9  6  7 10  8 10 13 11  7 11 13 11  9 13 12 14
## [2785] 10 16  8  9 10  9 14 13  8  9 12 10  4 13  6  8 12  8 10 10 16 12 12 12
## [2809]  5 13 12 11  8 10  7 10 11  8  9 12 11  9 15  6  9  5  8 15 11 15  9 10
## [2833]  7 11  8 15  8 11  8 10 13  4  9 15 12 10 13 13 12 12  8 11  5 13 12 13
## [2857]  9 14 13 11 13  9  4  8 14 16  8 15  9 11  8 10 15 12 11 15 10  4 14  8
## [2881]  8  9 11 13  9  8  4 15 10  5 10 13 14 14 15 15  7  9 13  9  6  5 14 13
## [2905] 13  7 14 11  9 10 10  9 15 14  8 11 10 11  8 14 12 11  7 10 12 13 12 15
## [2929] 10 14 11 15 12 12  6  8 10 12 12 10 16  7 13 11  7  8 16 17  8 14 15  4
## [2953] 12 17  6  8 11  9 13 12 12  5 13  8 11 14 10  9  8  4 10  9 11 11  9 12
## [2977] 15  7 14 13  7  8  9 12 12 11 11 13 16 10 13 14  7 11 13  8  5 10  8  5

plot(table(t))

Desafío: Determinar la suma más probable al lanzar 6 dados simultáneamente

8 Probabilidad condicional

8.1 Probabilidad condicional

Es un concepto crucial en teoría de la probabilidad y subyace al propósito principal del análisis de regresión logística.

La probabilidad de un evento A después de que nos enteramos de que se ha producido el evento B se denomina probabilidad condicional de A dado B. Formalmente:

\[\mathbb{P}(A \mid B)\]

Ejemplo: - Experimento: tirar un dado “justo” - Espacio muestral, $\Omega: \{1,2,3,4,5,6\}$ - A es el evento de obtener un cuatro o más, $A: \{4,5,6\}$ - B es el evento de obtener un número par, $B: \{2,4,6\}$

Supongamos que tiramos el dado pero no miramos el resultado todavía. Una tercera persona nos dice que obtuvimos un número par.

Pregunta: ¿Cuál es la probabilidad de obtener un cuatro o más una vez que sabemos que el resultado es un número par?

Formalmente, nuestra pregunta se expresa del siguiente modo: $\mathbb{P}(A \mid B )$. Para calcular esta probabilidad utilizamos la siguiente fórmula:

\[\mathbb{P}(A \mid B ) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)}\] Intuitivamente, queremos saber en qué proporción de los casos en que B ocurre, A también ocurre.

\[\mathbb{P}(A \mid B ) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)}\]

Donde, - $\mathbb{P}(B)$ es la probabilidad de que B ocurra: obtener un número - $\mathbb{P}(A,B)$ es la probabilidad de que A y B ocurran conjuntamente: obtener un número .bold[par, igual o superior a 4

\[\begin{align} \mathbb{P}(A | B ) &= \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)} \\ \\ &= \frac{\mathbb{P}(\text{dado=4 o dado=6}) }{\mathbb{P}(\text{dado=2 o dado=4 o dado=6})} \\ \\ &= \frac{2/6}{3/6} = \frac{1}{3} \times 2 \end{align}\]

8.2 Teorema de Bayes

La probabilidad de A dado B está definida como:

\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad (1)\]

Por tanto, la probabilidad de B dado A está definida como:

\[\mathbb{P}(B \mid A) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(A)} \quad \quad \quad \quad \quad (2)\]

Por tanto:

\[\mathbb{P}(A,B) = \mathbb{P}(B \mid A)\mathbb{P}(A) \quad \quad \quad \quad (3)\]

Reemplazando (3) en (1) obtenemos:

\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(B \mid A)\mathbb{P}(A)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad \] Entonces, si

\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(B \mid A)\mathbb{P}(A)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad \]

re-ordenando la expresión encontramos …

Teorema de Bayes: \[\mathbb{P}(B \mid A) = \frac{\mathbb{P}(A \mid B)\mathbb{P}(B)}{\mathbb{P}(A)} \quad \quad \quad \quad \quad \]

Bayes’ theorem in three panels

https://www.r-bloggers.com/2020/03/bayes-theorem-in-three-panels

Problema: Supongamos que un 5% de la población son mujeres (M) con estudios universitarios completos (U). Las mujeres representan un 55% de la población. Un 20% de la población tiene estudios universitarios completos. Pregunta:

¿Cuál es la probabilidad de que una mujer tenga estudios universitarios completos?

\[ \begin{align} \mathbb{P}(U \mid M) = \frac{\mathbb{P}(U,M)}{\mathbb{P}(M)} = \frac{0.05}{0.55} \approx 0.09 \end{align} \]

¿Cuál es la probabilidad de que una persona con estudios universitarios completos sea mujer?

\[ \begin{align} \mathbb{P}(M \mid U) = \frac{\mathbb{P}(U,M)}{\mathbb{P}(U)} = \frac{0.05}{0.2} = 0.25 \end{align} \]

¿Cuál es la probabilidad de que una persona con estudios universitarios completos sea hombre (H)? $$ \[\begin{align} \mathbb{P}(H \mid U) = \frac{\mathbb{P}(U,H)}{\mathbb{P}(U)} = 1- \mathbb{P}(M | U) = 1 - 0.25 = 0.75 \end{align}\]

¿Cuál es la probabilidad de que un hombre tenga estudios universitarios completos?

Problema: Supongamos que enviamos una encuesta a 300 personas preguntándoles qué deporte les gusta más: Voleibol, Basket, Fútbol o Tenis. a) Calcular la probabilidad de que sea mujer, dado que el individuo prefiere el básket b) Calcular la probabilidad de que sea hombre, dado que el individuo prefiere el fútbol c) Calcular la probabilidad de que sea mujer, dado que el individuo prefiere el básket d) Calcular la probabilidad de que el individuo prefiera el tenis c) Calcular la probabilidad de que el individuo prefiere el Voleibol

Problema: Calcular y demostrar la probabilidad medante teorema de Bayes del siguiente ejercicio: Un fabricante de teléfonos celulares compra un microchip en particular denominado “LS-24” a 3 proveedores Hall Electronics, Schuller Sales,y Crawford Components. Del total de piezas 30% la adquiere Hall Electronics; 20% de Schuller Sales y el restante 50% de crawford. El fabricante cuenta con amplias historiales con los 3 proveedores y reconoce los porcentajes de defecto de los dispositivos de cada proveedores: 3% Hall Electronics 5% Schuller sales 4% Crawford Componens Cuando el fabricante recibe el material y lo lleva directamente a un depósito y no lo inspecciona ni lo identifica con el nombre de proveedor. Un trabajador selecciona un microchip para instalarlo y lo encontró defectuoso. ¿Cual es la probabibilidad que lo hayan fabricado Schuler Sales?

8.3 Encuesa Permanente de Hogares

define data frame

df1 <- data.frame(var1=c(4, 13, 7, 8),
                  var2=c(15, 9, 9, 13),
                  var3=c(12, 12, 7, 5))
df1

##   var1 var2 var3
## 1    4   15   12
## 2   13    9   12
## 3    7    9    7
## 4    8   13    5

define second data frame

df2 <- data.frame(var1=c(4, 13),
                  var2=c(9, 12),
                  var3=c(6, 6))
df2

##   var1 var2 var3
## 1    4    9    6
## 2   13   12    6

append the rows of the second data frame to end of first data frame

df3 <- rbind(df1, df2)
df3

##   var1 var2 var3
## 1    4   15   12
## 2   13    9   12
## 3    7    9    7
## 4    8   13    5
## 5    4    9    6
## 6   13   12    6

9 Importar los microdatos de la EPH

Descargar los microdatos

#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2021/data/9e824reg02_ephc2021.csv"
#download.file(url,"EPH2021.csv")

Leer los microdatos

eph2021=read.csv("EPH2021.csv",sep =";")
#str(eph2021)

names(eph2021)

##   [1] "UPM"                 "NVIVI"               "NHOGA"              
##   [4] "DPTOREP"             "AREA"                "L02"                
##   [7] "P02"                 "P03"                 "P04"                
##  [10] "P04A"                "P04B"                "P05C"               
##  [13] "P05P"                "P05M"                "P06"                
##  [16] "P08D"                "P08M"                "P08A"               
##  [19] "P09"                 "P10A"                "P10AB"              
##  [22] "P10Z"                "P11A"                "P11AB"              
##  [25] "P11Z"                "P12"                 "A01"                
##  [28] "A01A"                "A02"                 "A03"                
##  [31] "A04"                 "A04B"                "A04A"               
##  [34] "A05"                 "A07"                 "A08"                
##  [37] "A10"                 "A11A"                "A11M"               
##  [40] "A11S"                "A12"                 "A13REC"             
##  [43] "A14REC"              "A15"                 "A16"                
##  [46] "A17A"                "A17M"                "A17S"               
##  [49] "A18"                 "A18A"                "B01REC"             
##  [52] "B02REC"              "B03LU"               "B03MA"              
##  [55] "B03MI"               "B03JU"               "B03VI"              
##  [58] "B03SA"               "B03DO"               "B04"                
##  [61] "B05"                 "B05A"                "B06"                
##  [64] "B07A"                "B07M"                "B07S"               
##  [67] "B08"                 "B09A"                "B09M"               
##  [70] "B09S"                "B10"                 "B11"                
##  [73] "B12"                 "B12A"                "B12B"               
##  [76] "B12C"                "B13"                 "B14"                
##  [79] "B15"                 "B16G"                "B16U"               
##  [82] "B16D"                "B16T"                "B17"                
##  [85] "B18AG"               "B18AU"               "B18BG"              
##  [88] "B18BU"               "B19"                 "B20G"               
##  [91] "B20U"                "B20D"                "B20T"               
##  [94] "B21"                 "B22"                 "B23"                
##  [97] "B24"                 "B25"                 "B26"                
## [100] "B271"                "B272"                "B28"                
## [103] "B29"                 "B30"                 "B31"                
## [106] "C01REC"              "C02REC"              "C03"                
## [109] "C04"                 "C05"                 "C06"                
## [112] "C07"                 "C08"                 "C09"                
## [115] "C101"                "C102"                "C11G"               
## [118] "C11U"                "C11D"                "C11T"               
## [121] "C12"                 "C13AG"               "C13AU"              
## [124] "C13BG"               "C13BU"               "C14"                
## [127] "C14A"                "C14B"                "C14C"               
## [130] "C15"                 "C16REC"              "C17REC"             
## [133] "C18"                 "C18A"                "C18B"               
## [136] "C19"                 "D01"                 "D02"                
## [139] "D03"                 "D04"                 "D05"                
## [142] "E01A"                "E01B"                "E01C"               
## [145] "E01D"                "E01E"                "E01F"               
## [148] "E01G"                "E01H"                "E01I"               
## [151] "E01J"                "E01K"                "E01L"               
## [154] "E01M"                "E02D1"               "E02D2"              
## [157] "E02B"                "ED01"                "ED02"               
## [160] "ED03"                "ED0504"              "ED06C"              
## [163] "ED08"                "ED09"                "ED10"               
## [166] "ED11F1"              "ED11F1A"             "ED11GH1"            
## [169] "ED11GH1A"            "ED12"                "ED13"               
## [172] "ED14"                "ED14A"               "ED15"               
## [175] "S01A"                "S01B"                "S02"                
## [178] "S03"                 "S03A"                "S03B"               
## [181] "S03C"                "S04"                 "S05"                
## [184] "S06"                 "S07"                 "S08"                
## [187] "S09"                 "CATE_PEA"            "TAMA_PEA"           
## [190] "OCUP_PEA"            "RAMA_PEA"            "HORAB"              
## [193] "HORABC"              "HORABCO"             "PEAD"               
## [196] "PEAA"                "TIPOHOGA"            "FEX"                
## [199] "NJEF"                "NCON"                "NPAD"               
## [202] "NMAD"                "TIC01"               "TIC02"              
## [205] "TIC03"               "TIC0401"             "TIC0402"            
## [208] "TIC0403"             "TIC0404"             "TIC0405"            
## [211] "TIC0406"             "TIC0407"             "TIC0408"            
## [214] "TIC0409"             "TIC0501"             "TIC0502"            
## [217] "TIC0503"             "TIC0504"             "TIC0505"            
## [220] "TIC0506"             "TIC0507"             "TIC0508"            
## [223] "TIC0509"             "TIC0510"             "TIC0511"            
## [226] "TIC0512"             "TIC0513"             "TIC06"              
## [229] "TIC07"               "añoest"              "ra06ya09"           
## [232] "e01aimde"            "e01bimde"            "e01cimde"           
## [235] "e01dde"              "e01ede"              "e01fde"             
## [238] "e01gde"              "e01hde"              "e01ide"             
## [241] "e01jde"              "e01kde"              "e01lde"             
## [244] "e01mde"              "e01kjde"             "e02bde"             
## [247] "ingrevasode"         "ingrepytyvõde"       "ingresect_privadode"
## [250] "ipcm"                "pobrezai"            "pobnopoi"           
## [253] "quintili"            "decili"              "quintiai"           
## [256] "decilai"             "informalidad"

#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2020/data/55f07reg02_ephc2020.csv"
#download.file(url,"EPH2020.csv")
eph2020=read.csv("EPH2020.csv",sep =";")
#head(eph2020)

#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2019/data/4edb7reg02_ephc2019.csv"
#download.file(url,"EPH2019.csv")
eph2019=read.csv("EPH2019.csv",sep =";")
#head(eph2019)

#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2018/data/3493ereg02_ephc2018.csv"
#download.file(url,"EPH2018.csv")
eph2018=read.csv("EPH2018.csv",sep =";")
#head(eph2018)

eph2018s=subset(eph2018,P02>14,select=c("AREA","P06","P02","e01aimde","PEAA","FEX"))
eph2018s$year <- 2018
#head(eph2018s)
names(eph2018s)

## [1] "AREA"     "P06"      "P02"      "e01aimde" "PEAA"     "FEX"      "year"

# select variables v1, v2, v3
eph2019s <- subset(eph2019, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX"))
eph2019s$year <- 2019
names(eph2019s)

## [1] "AREA"     "P06"      "PEAA"     "P02"      "e01aimde" "FEX"      "year"

eph2020s <- subset(eph2020, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX"))
eph2020s$year <- 2020
names(eph2020s)

## [1] "AREA"     "P06"      "PEAA"     "P02"      "e01aimde" "FEX"      "year"

eph2021s <- subset(eph2021, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX"))
eph2021s$year <- 2021
names(eph2021s)

## [1] "AREA"     "P06"      "PEAA"     "P02"      "e01aimde" "FEX"      "year"

Juntar las bases en una sola

eph2018a2021 <- rbind(eph2018s, eph2019s,eph2020s,eph2021s)
#head(eph2018a2021)

Exploramos la base compilada

str(eph2018a2021)

## 'data.frame':    51664 obs. of  7 variables:
##  $ AREA    : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ P06     : int  6 1 6 6 1 6 1 6 6 1 ...
##  $ P02     : int  60 21 36 79 26 20 21 72 30 33 ...
##  $ e01aimde: chr  "0" "2657944,294" "1005870,841" "170998,043" ...
##  $ PEAA    : int  3 1 1 1 1 1 2 1 1 1 ...
##  $ FEX     : int  393 393 393 519 519 519 519 225 343 416 ...
##  $ year    : num  2018 2018 2018 2018 2018 ...

eph2018a2021$e01aimdec = as.numeric(gsub(",", ".", as.character(eph2018a2021$e01aimde)))
summary(eph2018a2021$e01aimdec)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##         0         0    500000   1358883   2000000 323372117

hist(eph2018a2021$e01aimdec )

PEAA condición de ocupación

table(eph2018a2021$PEAA)

## 
##     1     2     3 
## 34704  1965 14995

eph2018a2021$PEAA <- factor(eph2018a2021$PEAA, labels = c("Ocupados", "Desocupados", "Inactivos"))

table(eph2018a2021$PEAA,eph2018a2021$year)

##              
##               2018 2019 2020 2021
##   Ocupados    9013 9046 8587 8058
##   Desocupados  460  478  531  496
##   Inactivos   3880 3745 3765 3605

addmargins(table(eph2018a2021$PEAA,eph2018a2021$year),c(1,2))

##              
##                2018  2019  2020  2021   Sum
##   Ocupados     9013  9046  8587  8058 34704
##   Desocupados   460   478   531   496  1965
##   Inactivos    3880  3745  3765  3605 14995
##   Sum         13353 13269 12883 12159 51664

Edad

summary(eph2018a2021$P02)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   15.00   25.00   38.00   40.64   54.00  106.00

boxplot(eph2018a2021$P02)

hist(eph2018a2021$P02)

AREA (AREA)

table(eph2018a2021$AREA)

## 
##     1     6 
## 28200 23464

Eliminar de los ingresos los valores nulos y mayores a 100.000.000

ephing <- subset(eph2018a2021, e01aimdec > 0 & e01aimdec < 100000000 & P02   >=  15  & PEAA == "Ocupados")
head(ephing)

##    AREA P06 P02    e01aimde     PEAA FEX year e01aimdec
## 2     1   1  21 2657944,294 Ocupados 393 2018 2657944.3
## 8     1   6  36 1005870,841 Ocupados 393 2018 1005870.8
## 9     1   6  79  170998,043 Ocupados 519 2018  170998.0
## 10    1   1  26 2124964,517 Ocupados 519 2018 2124964.5
## 11    1   6  20 1810567,515 Ocupados 519 2018 1810567.5
## 14    1   6  72  804696,673 Ocupados 225 2018  804696.7

eph2018a2021$AREA <- factor(eph2018a2021$AREA, labels = c("Urbana", "Rural"))

table(eph2018a2021$AREA)

## 
## Urbana  Rural 
##  28200  23464

9.0.1 Sexo (P06)

# una gráfica para sexo
pie(table(eph2018a2021$P06),labels = c("Hombres","Mujeres"), main="Pie Chart",edges = 200)

eph2018a2021$P06 <- factor(eph2018a2021$P06, labels = c("Hombres", "Mujeres"))

table(eph2018a2021$P06)

## 
## Hombres Mujeres 
##   25351   26313

addmargins(table(eph2018a2021$P06,eph2018a2021$AREA),c(1,2))

##          
##           Urbana Rural   Sum
##   Hombres  13232 12119 25351
##   Mujeres  14968 11345 26313
##   Sum      28200 23464 51664

Cuál es la probabilidad de que una encuestado resulte ser Hombre y vivir en el área Rural

P_RyH=12119/51664
P_RyH

## [1] 0.2345734

\[P_RdadoqH_=P(RyH)/P(H)\]

P_RdadoqH_=(12119/51664)/(25351/51664)
P_RdadoqH_=(12119)/(25351)
P_RdadoqH_

## [1] 0.4780482

\[P(H/R)=P(HyR)/P(R)\]

P_HdadoqR_=13232/25351
P_HdadoqR_

## [1] 0.5219518

¿La probabilidad de estar desocupado dado que el entrevistado es un hombre?

addmargins(table(eph2018a2021$P06,eph2018a2021$PEAA),c(1,2))

##          
##           Ocupados Desocupados Inactivos   Sum
##   Hombres    20434         869      4048 25351
##   Mujeres    14270        1096     10947 26313
##   Sum        34704        1965     14995 51664

P_DESdadoqH

P_DESdadoqH=866/25351
P_DESdadoqH

## [1] 0.03416039

P_DESdadoqM

P_DESdadoqM=1096/26313
P_DESdadoqM

## [1] 0.04165242

Obtener la probb de que una persona menor de 30 años y que vive en el área rural esté ocupada

Ingreso en la ocupación principal

ephing <- subset(eph2018a2021, e01aimdec > 0 & e01aimdec < 100000000 & P02   >=  15  & PEAA == "Ocupados")
head(ephing)

##      AREA     P06 P02    e01aimde     PEAA FEX year e01aimdec
## 2  Urbana Hombres  21 2657944,294 Ocupados 393 2018 2657944.3
## 8  Urbana Mujeres  36 1005870,841 Ocupados 393 2018 1005870.8
## 9  Urbana Mujeres  79  170998,043 Ocupados 519 2018  170998.0
## 10 Urbana Hombres  26 2124964,517 Ocupados 519 2018 2124964.5
## 11 Urbana Mujeres  20 1810567,515 Ocupados 519 2018 1810567.5
## 14 Urbana Mujeres  72  804696,673 Ocupados 225 2018  804696.7

summary(ephing$e01aimdec)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      125   800000  1790674  2248055  2612195 99581213

boxplot(ephing$e01aimdec,ephing$P06)

hist(ephing$e01aimdec)

#Media ponderada de "E01AIMDE" total Nivel País en miles de guaraníes (a un decimal)
round(mean(ephing$e01aimdec),1)

## [1] 2248055

round(weighted.mean(ephing$e01aimdec , ephing$FEX),1)

## [1] 2342233

library(ggplot2)

histograma <- ggplot(ephing, aes(x=e01aimdec)) +
  ggtitle("Ingreso en la ocupaciòn principal") +
  geom_histogram(color="#28324a", fill="#3c78d8")
histograma

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

# Gruop by

ephing <- ephing %>%
  group_by(AREA) %>%
  mutate(ingresoprom=mean(e01aimdec))

ephing %>%
  group_by(AREA) %>%
  summarise(ingresoprom=mean(e01aimdec),
            edadprom=mean(P02))

## # A tibble: 2 × 3
##   AREA   ingresoprom edadprom
##   <fct>        <dbl>    <dbl>
## 1 Urbana    2629456.     39.3
## 2 Rural     1729959.     42.1

10 Aplicaciones de R para el estudio de la Estadística Inferencial

A partir de esta sección veremos como podemos utilizar R para estudiar los fundamentos de la Inferencia Estadística, nos apoyaremos principalmente en la realización de simulaciones para verificar las propiedades, teoremas y supuestos que conforman la teoría de la inferencia estadística.

10.1 Simulación Estadística

Simulación es una técnica numérica para conducir experimentos en una computadora digital. Estos experimentos comprenden ciertos tipos de relaciones matemáticas y lógicas, las cuales son necesarias para describir el comportamiento y la estructura de sistemas complejos del mundo real a través de largos períodos de tiempo (Naylor, 1982).

Otra definición de simulación la realiza Robert E. Shannon como: Es el proceso de diseñar y desarrollar un modelo computarizado de un sistema o proceso y conducir experimentos con este modelo con el propósito de entender el comportamiento del sistema o evaluar varias estrategias con las cuales se puede operar el sistema (Shannon, 1975).

Una simulación en el programa R consiste básicamente en escribir los códigos necesarios para reproducir las condiciones de un experimento aleatorio, donde se procura replicar el comportamiento de una variable aleatoria mediante un modelo matemático, con el fin de obtener una estimación al respecto de un resultado o un conjunto de resultados de interés y el valor de su probabilidad de ocurrencia.

En el Ejemplo dado a continuación se desarrolla la simulación del experimento aleatorio que consiste en obtener una muestra de tamaño 5 con reposición a partir de una población P que consiste en los primeros 10 números naturales (sin el cero). En este caso, los posibles resultados del experimento son todas las muestras posibles de tamaño 5 que puedan resultar de la población P, si no se repone el número extraído en cada extracción sucesiva.

10.2 Muestras aleatorio simple con R

# Muestra aleatoria extraída CON REPOSICIÓN de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=T)
muestra1

## [1]  9  4 10  5  7

# Muestra aleatoria extraida SIN reposición de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=F)
muestra1

## [1] 6 4 9 2 5

# 10 Muestras aleatorias de tamaño 3 obtenidas con reposición de la población P
muestras1<-sapply(1:10, function(x){(sample(P,3,rep=T))})
muestras1

##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    5    3    5    8    2    6    2    4    2     7
## [2,]    8    6   10    8    1    2    9    8    5     2
## [3,]    1    8    3    9    7    4    4    5    4     2

# 10 Muestras aleatorias de tamaño 3 obtenidas sin reposición de la población P
muestras2<-sapply(1:10, function(x){(sample(P,3,rep=F))})
muestras2

##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    6    2    4    3   10    2    8    2    7    10
## [2,]    9    5    1    9    2    6    3    3    3     8
## [3,]    2    9    7   10    9   10    9    9    4     4

Data=seq(1000,2000,1)
Data

##    [1] 1000 1001 1002 1003 1004 1005 1006 1007 1008 1009 1010 1011 1012 1013
##   [15] 1014 1015 1016 1017 1018 1019 1020 1021 1022 1023 1024 1025 1026 1027
##   [29] 1028 1029 1030 1031 1032 1033 1034 1035 1036 1037 1038 1039 1040 1041
##   [43] 1042 1043 1044 1045 1046 1047 1048 1049 1050 1051 1052 1053 1054 1055
##   [57] 1056 1057 1058 1059 1060 1061 1062 1063 1064 1065 1066 1067 1068 1069
##   [71] 1070 1071 1072 1073 1074 1075 1076 1077 1078 1079 1080 1081 1082 1083
##   [85] 1084 1085 1086 1087 1088 1089 1090 1091 1092 1093 1094 1095 1096 1097
##   [99] 1098 1099 1100 1101 1102 1103 1104 1105 1106 1107 1108 1109 1110 1111
##  [113] 1112 1113 1114 1115 1116 1117 1118 1119 1120 1121 1122 1123 1124 1125
##  [127] 1126 1127 1128 1129 1130 1131 1132 1133 1134 1135 1136 1137 1138 1139
##  [141] 1140 1141 1142 1143 1144 1145 1146 1147 1148 1149 1150 1151 1152 1153
##  [155] 1154 1155 1156 1157 1158 1159 1160 1161 1162 1163 1164 1165 1166 1167
##  [169] 1168 1169 1170 1171 1172 1173 1174 1175 1176 1177 1178 1179 1180 1181
##  [183] 1182 1183 1184 1185 1186 1187 1188 1189 1190 1191 1192 1193 1194 1195
##  [197] 1196 1197 1198 1199 1200 1201 1202 1203 1204 1205 1206 1207 1208 1209
##  [211] 1210 1211 1212 1213 1214 1215 1216 1217 1218 1219 1220 1221 1222 1223
##  [225] 1224 1225 1226 1227 1228 1229 1230 1231 1232 1233 1234 1235 1236 1237
##  [239] 1238 1239 1240 1241 1242 1243 1244 1245 1246 1247 1248 1249 1250 1251
##  [253] 1252 1253 1254 1255 1256 1257 1258 1259 1260 1261 1262 1263 1264 1265
##  [267] 1266 1267 1268 1269 1270 1271 1272 1273 1274 1275 1276 1277 1278 1279
##  [281] 1280 1281 1282 1283 1284 1285 1286 1287 1288 1289 1290 1291 1292 1293
##  [295] 1294 1295 1296 1297 1298 1299 1300 1301 1302 1303 1304 1305 1306 1307
##  [309] 1308 1309 1310 1311 1312 1313 1314 1315 1316 1317 1318 1319 1320 1321
##  [323] 1322 1323 1324 1325 1326 1327 1328 1329 1330 1331 1332 1333 1334 1335
##  [337] 1336 1337 1338 1339 1340 1341 1342 1343 1344 1345 1346 1347 1348 1349
##  [351] 1350 1351 1352 1353 1354 1355 1356 1357 1358 1359 1360 1361 1362 1363
##  [365] 1364 1365 1366 1367 1368 1369 1370 1371 1372 1373 1374 1375 1376 1377
##  [379] 1378 1379 1380 1381 1382 1383 1384 1385 1386 1387 1388 1389 1390 1391
##  [393] 1392 1393 1394 1395 1396 1397 1398 1399 1400 1401 1402 1403 1404 1405
##  [407] 1406 1407 1408 1409 1410 1411 1412 1413 1414 1415 1416 1417 1418 1419
##  [421] 1420 1421 1422 1423 1424 1425 1426 1427 1428 1429 1430 1431 1432 1433
##  [435] 1434 1435 1436 1437 1438 1439 1440 1441 1442 1443 1444 1445 1446 1447
##  [449] 1448 1449 1450 1451 1452 1453 1454 1455 1456 1457 1458 1459 1460 1461
##  [463] 1462 1463 1464 1465 1466 1467 1468 1469 1470 1471 1472 1473 1474 1475
##  [477] 1476 1477 1478 1479 1480 1481 1482 1483 1484 1485 1486 1487 1488 1489
##  [491] 1490 1491 1492 1493 1494 1495 1496 1497 1498 1499 1500 1501 1502 1503
##  [505] 1504 1505 1506 1507 1508 1509 1510 1511 1512 1513 1514 1515 1516 1517
##  [519] 1518 1519 1520 1521 1522 1523 1524 1525 1526 1527 1528 1529 1530 1531
##  [533] 1532 1533 1534 1535 1536 1537 1538 1539 1540 1541 1542 1543 1544 1545
##  [547] 1546 1547 1548 1549 1550 1551 1552 1553 1554 1555 1556 1557 1558 1559
##  [561] 1560 1561 1562 1563 1564 1565 1566 1567 1568 1569 1570 1571 1572 1573
##  [575] 1574 1575 1576 1577 1578 1579 1580 1581 1582 1583 1584 1585 1586 1587
##  [589] 1588 1589 1590 1591 1592 1593 1594 1595 1596 1597 1598 1599 1600 1601
##  [603] 1602 1603 1604 1605 1606 1607 1608 1609 1610 1611 1612 1613 1614 1615
##  [617] 1616 1617 1618 1619 1620 1621 1622 1623 1624 1625 1626 1627 1628 1629
##  [631] 1630 1631 1632 1633 1634 1635 1636 1637 1638 1639 1640 1641 1642 1643
##  [645] 1644 1645 1646 1647 1648 1649 1650 1651 1652 1653 1654 1655 1656 1657
##  [659] 1658 1659 1660 1661 1662 1663 1664 1665 1666 1667 1668 1669 1670 1671
##  [673] 1672 1673 1674 1675 1676 1677 1678 1679 1680 1681 1682 1683 1684 1685
##  [687] 1686 1687 1688 1689 1690 1691 1692 1693 1694 1695 1696 1697 1698 1699
##  [701] 1700 1701 1702 1703 1704 1705 1706 1707 1708 1709 1710 1711 1712 1713
##  [715] 1714 1715 1716 1717 1718 1719 1720 1721 1722 1723 1724 1725 1726 1727
##  [729] 1728 1729 1730 1731 1732 1733 1734 1735 1736 1737 1738 1739 1740 1741
##  [743] 1742 1743 1744 1745 1746 1747 1748 1749 1750 1751 1752 1753 1754 1755
##  [757] 1756 1757 1758 1759 1760 1761 1762 1763 1764 1765 1766 1767 1768 1769
##  [771] 1770 1771 1772 1773 1774 1775 1776 1777 1778 1779 1780 1781 1782 1783
##  [785] 1784 1785 1786 1787 1788 1789 1790 1791 1792 1793 1794 1795 1796 1797
##  [799] 1798 1799 1800 1801 1802 1803 1804 1805 1806 1807 1808 1809 1810 1811
##  [813] 1812 1813 1814 1815 1816 1817 1818 1819 1820 1821 1822 1823 1824 1825
##  [827] 1826 1827 1828 1829 1830 1831 1832 1833 1834 1835 1836 1837 1838 1839
##  [841] 1840 1841 1842 1843 1844 1845 1846 1847 1848 1849 1850 1851 1852 1853
##  [855] 1854 1855 1856 1857 1858 1859 1860 1861 1862 1863 1864 1865 1866 1867
##  [869] 1868 1869 1870 1871 1872 1873 1874 1875 1876 1877 1878 1879 1880 1881
##  [883] 1882 1883 1884 1885 1886 1887 1888 1889 1890 1891 1892 1893 1894 1895
##  [897] 1896 1897 1898 1899 1900 1901 1902 1903 1904 1905 1906 1907 1908 1909
##  [911] 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923
##  [925] 1924 1925 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937
##  [939] 1938 1939 1940 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950 1951
##  [953] 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965
##  [967] 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979
##  [981] 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
##  [995] 1994 1995 1996 1997 1998 1999 2000

set.seed(333)
n <- 1000
s_size <- round(.1*n,0)

#la muestra 
psuedoData <- Data[sample(x=1:n,size=s_size)]
psuedoData

##   [1] 1909 1424 1310 1577 1294 1315 1001 1645 1066 1555 1214 1358 1039 1574 1160
##  [16] 1342 1842 1345 1414 1325 1348 1589 1227 1133 1122 1440 1917 1976 1271 1837
##  [31] 1290 1112 1457 1379 1116 1537 1265 1527 1835 1368 1764 1332 1969 1776 1501
##  [46] 1308 1159 1620 1362 1680 1981 1104 1658 1183 1203 1519 1939 1797 1974 1556
##  [61] 1418 1256 1423 1622 1709 1665 1407 1057 1276 1883 1873 1980 1044 1902 1390
##  [76] 1174 1412 1572 1386 1389 1815 1481 1033 1613 1660 1300 1469 1766 1932 1772
##  [91] 1528 1139 1311 1856 1644 1189 1865 1087 1872 1930

Seleccione la muestra usando un comando de R.

empleados=seq(1,2850,by=1)

head(empleados)

## [1] 1 2 3 4 5 6

tail(empleados)

## [1] 2845 2846 2847 2848 2849 2850

muestra_empleados=sample(empleados,285,replace=F)
muestra_empleados

##   [1] 2066 2845 1039 2559  488 2767 1801 2384  380 2445 2723   86 1348 1520 2056
##  [16]  602 2582  247 1415 2299 2142 1191 1104 1960 1645 2635 1347 1511  834  244
##  [31]  920 1238 1640 2452 2493  573  255  899 1649  969 1957  788  807 2376  329
##  [46] 1871 1749 1061 2675 1006  278 1220 1862  517 2291 2808 2259 1373 1722 1630
##  [61]   32  354  618  451 2430 1451 1758 2363  581 2685  909 1513   56 2751  873
##  [76] 1501 1316 1214 1308 2686  513  185 1618 2754 2829  645  253 2272 1837 1157
##  [91]  117 2469  350 1403 2149 2156 1835  201  361 2131 2137 2356 1697  216  464
## [106] 2530 1273 2337 1914  418 2215 1710 2308   47  578 2014 2544 1432   39   59
## [121]  610 2117  565 2480 2534 1208 1779  566 1784  717 2528 1654 2191 2157  802
## [136]  636  538 2736 1154  970 2244 2134  110 2442  429 1217  737  215 1174 1487
## [151] 2494 2604 2795 1248   24 1865 1921 1773 2708 1599 2622   43 2755  949 1941
## [166]  765 1441  775 1712 1975 2498 2213 2643  358 1361 1358 1703 1890  432  812
## [181] 1256 2152 1222 2348 1920 1496 2540 1946  391  511 1685  473 2047 1569 2764
## [196] 1806 1309 2609  627  629  516 2511 1167 2616  989 2774  673 2642  116  894
## [211] 1673  499  956 1097 1326 2346  208 2467 2095    5  863 2166 2072 2278  601
## [226] 2267 1030 1476 1576  274 2520 1453  962 1428 2703  409 1059  533 1003 2592
## [241] 2491 2378 2342   50  148 1746 2413  341 2432 2461 2489  186 2307  808 2009
## [256]  296  750 1437 1714  149 1628  348 2365  442 1334 2637 1910 2709  676  319
## [271]  701  568 1025 1660 1675 2735 1016 1536 2785 2817  406  315 2164 1286 2618

¿si en la empresa 80% son mujeres, será representativa la muestra aleatoria simple?

sexo=rbinom(2850,1,0.8)
head(sexo)

## [1] 0 1 1 1 1 1

tail(sexo)

## [1] 1 1 0 1 1 1

summary(sexo)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  1.0000  1.0000  0.7965  1.0000  1.0000

sexo=factor(sexo, levels = c(0,1),labels = c("Hombre", "Mujer"))
plot(sexo)

10.3 Variable aleatoria con distribución discreta

A discrete random variable $X$ takes on values $x_i$ with probability $p_i$, $i=1, \ldots, m$, where $\sum_{i=1}^{m} p_i = 1$.

Example 1: Roll a fair die and let $X$ be the value that appears. Then $X$ takes on the values $1$ through $6$, each with probability $1/6$.

Example 2: You are told that there is a hundred dollar bill behind one of three doors and there is nothing behind the other two. Choose one of the doors and let $X$ be the amount of money that you find behind your door. Then $X$ takes on the value $100$ with probability $1/3$ and $0$ with probability $2/3$.

Now suppose that after choosing a door, but before opening it, you are told one of the other doors that does not contain the money. That is, suppose the hundred dollars is behind door number one. If you guessed one, then you are told either that it is not behind door number two or that it is not behind door number three. If you guessed two, you are told that it is not behind door number three, and if you guessed three then you are told that it is not behind door number two. You may now change your guess to the remaining door — the one that you did not choose the first time and that you were not told did not contain the hundred dollars. Let $Y$ be the amount of money that you find if you change your guess. Then $Y$ takes on the value $100$ with probability $2/3$ and $0$ with probability $1/3$. Do you see why?

The expected value of a discrete random variable $X$ is defined as

$E(X)\equiv \langle X \rangle = \sum_{i=1}^m p_i x_i .$

This is also sometimes called the mean of the random variable $X$ and denoted as $\mu$.

In Example 1 above,

$E(X) = \frac{1}{6} \cdot 1 + \frac{1}{6} \cdot 2 + \frac{1}{6} \cdot 3 +\frac{1}{6} \cdot 4 + \frac{1}{6} \cdot 5 + \frac{1}{6} \cdot 6 =\frac{7}{2} .$

In Example 2 above,

$E(X) = \frac{1}{3} \cdot 100 + \frac{2}{3} \cdot 0 = 33 \frac{1}{3} .$ $E(Y) = \frac{2}{3} \cdot 100 + \frac{1}{3} \cdot 0 = 66 \frac{2}{3} .$

If $X$ is a discrete random variable and $g$ is any function, then $g(X)$ is a discrete random variable and

$ E(g(X)) = _{i=1}^{m} p_i g( x_i )$

Example: $g(X) = a X + b$, $a$ and $b$ constants.

\[\begin{eqnarray*} E(g(X)) & = & \sum_{i=1}^{m} p_i ( a x_i + b ) \\ & = & a \sum_{i=1}^{m} p_i x_i ~+~ b~~~ \mbox{(since } \sum_{i=1}^{m} p_i = 1 ) \\ & = & a \cdot E(X) + b . \end{eqnarray*}\]

Example: $g(X) = X^2$. Then $E(g(X)) = \sum_{i=1}^{m} p_i x_i^2$.

In Example 1 above,

$E( X^2 ) = \frac{1}{6} \cdot 1^2 + \frac{1}{6} \cdot 2^2 +\frac{1}{6} \cdot 3^2 + \frac{1}{6} \cdot 4^2 +\frac{1}{6} \cdot 5^2 + \frac{1}{6} \cdot 6^2 = \frac{91}{6} .$

Let $\mu = E(X)$ denote the expected value of $X$. The expected value of the $square of the difference$ between $X$ and $\mu$ is

\[\begin{eqnarray*} E( ( X - \mu )^2 ) & = & \sum_{i=1}^{m} p_i ( x_i - \mu )^2 \\ & = & \sum_{i=1}^{m} p_i ( x_i^2 - 2 \mu x_i + \mu^2 ) \\ & = & \sum_{i=1}^{m} p_i x_i^2 - 2 \mu \sum_{i=1}^{m} p_i x_i + \mu^2 \\ & = & E( X^2 ) - \mu^2 \\ & = & E( X^2 ) - (E(X) )^2 . \end{eqnarray*}\]

The quantity $E( X^2 ) - ( E(X) )^2$ is called the $variance$ of the random variable $X$ and is denoted var($X$). The square root of the variance, $\sigma \equiv \sqrt{ \mbox{var}(X)}$ is called the standard deviation. In Example 1 above,

$\mbox{var}(X) = \frac{91}{6} - \left( \frac{7}{2} \right)^2 = \frac{35}{12} .$

Let $X$ and $Y$ be two random variables and let $c_1$ and $c_2$ be constants. Then

\[\begin{eqnarray*} \mbox{var}( c_1 X + c_2 Y ) & = & E( ( c_1 X + c_2 Y )^2 ) ~-~ ( E( c_1 X + c_2 Y ) )^2 \\ & = & E( c_1^2 X^2 + 2 c_1 c_2 XY + c_2^2 Y^2 ) ~-~ ( c_1 E(X) + c_2 E(Y) )^2 \\ & = & c_1^2 E( X^2 ) + 2 c_1 c_2 E(XY) + c_2^2 E( Y^2 ) ~- \\ & & [ c_1^2 ( E(X) )^2 + 2 c_1 c_2 E(X) E(Y) + c_2^2 ( E(Y) )^2 ] \\ & = & c_1^2 \mbox{var}(X) + c_2^2 \mbox{var}(Y) + 2 c_1 c_2 ( E(XY) - E(X)E(Y) ) . \end{eqnarray*}\]

The $covariance$ of $X$ and $Y$, denoted cov($X,Y$), is the quantity $E(XY) - E(X)E(Y)$.

Two random variables $X$ and $Y$ are said to be $independent$ if the value of one does not depend on that of the other; that is, if the probability that $X = x_i$ is the same regardless of the value of $Y$ and the probability that $Y = y_j$ is the same regardless of the value of $X$. Equivalently, the probability that $X = x_i$ and $Y = y_j$ is the $product$ of the probability that $X = x_i$ and the probability that $Y = y_j$.

Example: Toss two fair coins. There are four equally probable outcomes: HH, HT, TH, TT. Let $X$ equal $1$ if first coin is heads, $0$ if first coin is tails. Let $Y$ equal $1$ if second coin is heads, $0$ if second coin is tails. Then $X$ and $Y$ are independent because, for example,

$\mbox{Prob}( X=1 \mbox{ and } Y=0 ) = \frac{1}{4} = \frac{1}{2} \cdot \frac{1}{2} = \mbox{Prob}( X=1 ) \cdot \mbox{Prob}( Y=0 ) ,$

and similarly, for all other possible values,

$\mbox{Prob}( X= x_i \mbox{ and } Y= y_j ) = \mbox{Prob}( X= x_i ) \cdot\mbox{Prob}( Y= y_j )$.

In contrast, if we define $Y$ to be $0$ if outcome is $TT$ and $1$ otherwise, then $X$ and $Y$ are not independent because

$\mbox{Prob}(X=1 \mbox{ and }Y=0) = 0$, yet $\mbox{Prob}(X=1) = 1/2$

and $\mbox{Prob}(Y=0) = 1/4$.

If $X$ and $Y$ are independent random variables, then cov($X,Y)=0$, and $\mbox{var}( c_1 X + c_2 Y ) = c_1^2 \mbox{var}(X) + c_2^2 \mbox{var}(Y) .$

10.3.1 Distribución Bernoulli

Definiciòn

Una variable aleatoria discreta $X$ tiene distribución de Bernoulli de parámetro $p$ si su función de probabilidad es

\[ \begin{equation} f(x;p) = \left\{ \begin{array}{cc} p & \mathrm{si\ } x=1 \\ 1-p & \mathrm{si\ } x=0 \\ \end{array} \right. \end{equation} \]

\[ P(X = 1) = p, P(X = 0) = 1-p \] \[ p^x(1-p)^{1-x} \]

\[ E(X) = \mu_X = p \]

\[ Var(X) = \sigma^2_X = p(1-p) \]

10.3.2 Distribución binomial

Definición

Una variable aleatoria discreta $X$ tiene una distribución binomial de parámetro $p$ si su función de probabilidad es

\[P(X = k) = \left\{ \begin{array}{cl} \displaystyle{\binom{n}{k}} p^k (1-p)^{n-k} & \text{si } x=0,1,...,n \\ 0 & \text{en cualquier otro caso} \end{array} \right.\]

donde

\[ \binom{n}{k} = \frac{n!}{k!(n - k)!} = {n}C_{k} = C_{k}^n \]

where A is the permutation

\[\frac{A_n^k}{k!} = \binom{n}{k}\] donde: \[A_n^k = \frac{n!}{(n-k)!}\] are the different ordered arrangements of a k-element subset of an n-set

Triángulo de Pascal

\[\binom{n}{k} = \binom{n-1}{k-1} +\binom{n-1}{k}\]

Estudio de caso

Simular una población de 100 personas donde la variable de interés es el sexo y se sabe que el 80% son mujeres.

sexo=rbinom(100,1,0.8)
sexo

##   [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 0 1 1
##  [38] 1 1 1 0 1 1 0 1 1 1 1 0 1 1 0 0 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1
##  [75] 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 0

sexo=factor(sexo, levels = c(0,1),labels = c("Hombre", "Mujer"))
sexo

##   [1] Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer 
##  [11] Mujer  Mujer  Mujer  Mujer  Hombre Mujer  Mujer  Mujer  Mujer  Mujer 
##  [21] Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Hombre
##  [31] Mujer  Hombre Mujer  Mujer  Hombre Mujer  Mujer  Mujer  Mujer  Mujer 
##  [41] Hombre Mujer  Mujer  Hombre Mujer  Mujer  Mujer  Mujer  Hombre Mujer 
##  [51] Mujer  Hombre Hombre Hombre Mujer  Mujer  Hombre Mujer  Mujer  Mujer 
##  [61] Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer 
##  [71] Mujer  Hombre Mujer  Mujer  Hombre Mujer  Mujer  Hombre Mujer  Mujer 
##  [81] Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer 
##  [91] Mujer  Mujer  Mujer  Mujer  Mujer  Hombre Mujer  Mujer  Hombre Hombre
## Levels: Hombre Mujer

plot(sexo)

p=1/6
# La probabilidad de tener x aciertos en 6 lanzamientos
dado=rbinom(10000,6,p)
head(dado)

## [1] 0 0 2 0 0 1

tail(dado)

## [1] 0 0 1 2 3 0

hist(dado)

Estudio de caso

Simula la distribución de la cantidad de caras que salen al lanzar dos monedas. Suponga que se repite el experimento 30 veces.

sample(0:2,10,rep=T)

##  [1] 0 2 2 0 0 0 1 0 0 2

t<-sapply(1:30, function(x){sum(sample(0:2,1,rep=T))})
t

##  [1] 0 0 2 0 2 0 2 0 0 0 0 0 0 1 0 0 0 1 0 1 0 0 2 2 1 0 1 1 2 0

table(t)

## t
##  0  1  2 
## 18  6  6

barplot(table(t))

¿Es posible sacar alguna conclusión al respecto de la distribución?

Repite el experimento 300 veces

t<-sapply(1:300, function(x){sum(sample(0:5,1,rep=T))})
t

##   [1] 5 3 3 5 1 2 0 0 1 5 3 2 3 1 5 1 0 4 1 0 3 1 4 5 3 3 3 4 4 2 3 0 4 2 0 0 5
##  [38] 3 3 5 1 0 2 3 0 0 1 0 4 1 2 1 0 0 2 0 5 0 4 5 4 2 0 1 0 2 4 5 2 5 2 5 2 3
##  [75] 4 0 0 3 3 2 2 1 1 1 5 5 0 2 4 5 0 4 1 1 1 5 1 4 1 2 2 4 1 5 5 3 4 5 2 5 1
## [112] 3 2 5 5 4 5 0 3 5 0 0 2 3 4 5 5 1 3 2 1 4 5 5 1 2 5 5 3 3 2 1 4 1 5 3 1 1
## [149] 0 2 1 1 0 4 1 4 5 1 1 2 3 2 5 4 4 4 3 0 5 0 4 5 5 0 3 5 0 3 3 4 4 4 0 4 1
## [186] 1 0 2 4 1 4 0 1 2 2 2 1 0 5 2 2 5 2 1 3 3 2 5 2 4 1 3 0 3 4 5 4 2 4 2 2 5
## [223] 1 2 1 0 5 5 0 3 2 5 1 2 0 2 1 2 0 3 0 1 3 1 0 3 1 4 0 3 4 0 4 4 4 2 2 1 2
## [260] 4 0 4 4 0 0 3 3 5 3 0 5 4 4 2 1 4 4 1 1 1 1 0 0 4 2 1 5 1 2 4 0 5 1 0 4 1
## [297] 2 5 5 1

table(t)

## t
##  0  1  2  3  4  5 
## 51 58 50 40 50 51

barplot(table(t))

Estudio de caso

Simula la distribució de la suma de los números que salen al lanzar dos dados

sample(1:6,4,rep=T)

## [1] 5 3 6 1

sum(sample(1:6,4,rep=T))

## [1] 14

para 100 ensayos

t<-sapply(1:100, function(x){sum(sample(1:6,4,rep=T))})
t

##   [1] 16 15 10 11 14 13 11 16 19 14 13 10  9 10 13 13 12 17  9 15 11 16 13  8 15
##  [26] 11 16 17 12 18 10 14 12 19 13 15 10 18 15 10 17 11 14 11 19 10  9 16 12  8
##  [51]  7 12 13 22 16  9 11 15 12 10 14 15 10 12 19 17  9 14 12 14 11 13 18 10 12
##  [76] 14 14 12 13 11 13 22 10 13 16 13 12 15  8 14 12 13 15 20 17 15 19 15 14 21

table(t)

## t
##  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 
##  1  3  5 11  9 12 13 11 11  7  5  3  5  1  1  2

barplot(table(t))

para 1000 ensayos

u<-sapply(1:1000, function(x){sum(sample(1:6,4,rep=T))})
barplot(table(u))

para 100.000 ensayos

v<-sapply(1:10000, function(x){sum(sample(1:6,4,rep=T))})
barplot(table(v))

¿Es posible sacar alguna conclusión al respecto de la distribución de la suma obtenida en las caras?

Estudio de caso

Simula la distribució de la suma de los números que salen al lanzar cuatro dados 10.000 de veces. Identifique la suma más probable.

v<-sapply(1:10000, function(x){sum(sample(1:6,4,rep=T))})
barplot(table(v))

10.3.3 Variable aleatoria con distribución poisson

Una variable aleatoria $X$ se dice que es de Poisson de parámetro $\lambda>0$ si su función de probabilidad está definida como

\[ P(X=x) = \begin{cases} \dfrac{e^{-\lambda}\lambda^x}{x!} & \text{si } x=0,1,2,... \\ 0 & \text{en cualquier otro caso} \end{cases} \]

En la distribución la media y la varianza coinciden, es decir, $E(X)=Var(X)=\lambda$.

10.4 Variable aleatoria con distribución contínua

If a random variable $X$ can take on any of a continuum of values, say, any value between $0$ and $1$, then we cannot define it by listing values $x_i$ and giving the probability $p_i$ that $X= x_i$; for any single value $x_i$, $\mbox{Prob}(X = x_i )$ is zero! Instead we can define the cumulative distribution function:

$F(x) \equiv \mbox{Prob}(X < x ) ,$

or the probability density function (pdf):

$\rho (x)\,dx \equiv \mbox{Prob}( X \in [ x, x+\,dx ] ) = F(x+\,dx ) - F(x) .$

Letting $dx \rightarrow 0$, we find

$\rho (x) = F'(x) ,~~~F(x) = \int_{- \infty}^{x} \rho (t)\,dt .$

(For a more formal mathematical derivation, take a course in probability or measure theory. This will suffice for our purposes.)

The expected value of a continuous random variable $X$ is then defined by

$E(X) = \int_{- \infty}^{\infty} x \rho (x)\,dx .$

Note that by definition, $\int_{- \infty}^{\infty} \rho (x)\,dx = 1$. The expected value of $X^2$ is

$E( X^2 ) = \int_{- \infty}^{\infty} x^2 \rho (x)\,dx ,$

and the variance is again defined as $E( X^2 ) - (E(X) )^2$.

Example: Uniform Distribution in $[0,1]$.

\[F(x) = \left\{ \begin{array}{cl} 0 & \mbox{if } x < 0 \\ x & \mbox{if } 0 \leq x \leq 1 \\ 1 & \mbox{if } x > 1 \end{array} \right. ,~~~ \rho (x) = \left\{ \begin{array}{cl} 0 & \mbox{if } x < 0 \\ 1 & \mbox{if } 0 \leq x \leq 1 \\ 0 & \mbox{if } x > 1 \end{array} \right.\]

$E(X) = \int_{- \infty}^{\infty} x \rho (x)\,dx = \int_{0}^{1} x\,dx = \frac{1}{2} ,$

$\mbox{var}(X) = \int_{0}^{1} x^2\,dx - \left( \frac{1}{2} \right)^2 =\frac{1}{3} - \frac{1}{4} = \frac{1}{12} .$

Example: Normal (Gaussian) Distribution, Mean $\mu$, Variance $\sigma^2$.

$\rho (x) = \frac{1}{\sigma \sqrt{2 \pi}}~\exp \left( - \frac{(x - \mu )^2}{2 \sigma^2} \right) ,$

$F(x) = \frac{1}{\sigma \sqrt{2 \pi}}~\int_{- \infty}^{x} \exp \left( -\frac{(t - \mu )^2}{2 \sigma^2} \right) \,dt$

10.4.1 Pseudorandom Number Generators

10.4.2 Distribución uniforme

\[X_i \stackrel{iid}{\sim} U[0, 1]\]

mu10=sample(runif(100,0,1),50,rep=T)
mu10

##  [1] 0.144634831 0.805856121 0.490030302 0.060207580 0.890073922 0.451722343
##  [7] 0.019849212 0.464314196 0.258541825 0.864267797 0.907955596 0.766630250
## [13] 0.718821334 0.342934703 0.906356126 0.873705012 0.403890211 0.005605501
## [19] 0.273836776 0.005108057 0.490030302 0.535928883 0.458694353 0.082327513
## [25] 0.807212172 0.116256322 0.430403067 0.049477275 0.716838389 0.448308979
## [31] 0.761004041 0.868262308 0.805856121 0.716838389 0.809174900 0.533570437
## [37] 0.631565865 0.089800581 0.869347741 0.882304534 0.383405325 0.019849212
## [43] 0.805515476 0.338556307 0.653796538 0.111965035 0.430403067 0.448308979
## [49] 0.906356126 0.906356126

hist(mu10)

mu1000=sample(runif(100,0,1),1000,rep=T)
head(mu1000)

## [1] 0.1213838 0.1828582 0.2166039 0.3116694 0.6475385 0.1213838

tail(mu1000)

## [1] 0.7248528 0.5037491 0.9287404 0.8100480 0.5901328 0.2308900

hist(mu1000)

10.4.3 Variable aleatoria con distribución exponencial

Una variable aleatoria $X$ se dice que tiene una distribución exponencial de parámetro $\lambda>0$ si su función de densidad de probabilidad es

\[ f(x) = \begin{cases} \lambda e^{-\lambda x} & \text{si } x>0\\ 0 & \text{si } x\le 0 \end{cases} \]

La media y la varianza de una variable exponencial son respectivamente $E(X)=\dfrac{1}{\lambda}$ y $Var(X)=\dfrac{1}{\lambda^2}$.

Ejemplo: Sea una variable $X$ que mide el tiempo de duración de un cierto tipo de artefacto eléctrico. Se sabe que esta variable tiene una distribución exponencial de parámetro $\lambda=5$. Su función de densidad de probabilidad es entonces

\[ f(x) = \begin{cases} 5 e^{-5 x} & \text{si } x>0\\ 0 & \text{si } x\le 0 \end{cases} \]

y su gráfica es

#install.packages("RcmdrMisc")
library("RcmdrMisc")

## Loading required package: car

## Loading required package: carData

## 
## Attaching package: 'car'

## The following object is masked from 'package:ggVennDiagram':
## 
##     ellipse

## The following object is masked from 'package:gtools':
## 
##     logit

## The following object is masked from 'package:expss':
## 
##     recode

## The following object is masked from 'package:DescTools':
## 
##     Recode

## The following object is masked from 'package:purrr':
## 
##     some

## The following object is masked from 'package:dplyr':
## 
##     recode

## Registered S3 methods overwritten by 'Hmisc':
##   method                 from 
##   [.labelled             expss
##   print.labelled         expss
##   as.data.frame.labelled expss

x <- seq(0, 2, length.out = 1000)
RcmdrMisc::plotDistr(x, dexp(x, rate = 5), ylab="f(x)",
                     main = expression(paste("Distribución exponencial de parámetro ",lambda==5)), las=1)

set.seed(333)
n<-10000
lambda<-10
x<- -log(runif(n,0,1))/lambda
hist(x)

10.4.4 Variable aleatoria con distribución normal

Una variable aleatoria $X$ tiene una distribución normal de parámetros $\mu$ y $\sigma$ si su función de densidad de probabilidad es

\[ f(x; \mu, \sigma) = \dfrac{1}{\sigma\sqrt{2\pi}}\exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)\ \ \text{ si }\ \ x \in \mathbb{R} \]

donde $E(X)=\mu$ y $Var(X)=\sigma^2$.

Contraste entre varias curvas normales con diferentes parámetros de media y desvío estándar

Veamos algunos perfiles de la distribución normal para ciertos valores de $\mu$ y $\sigma$.

x <- round(seq(-6, 6, len=100),3)
x

##   [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
##  [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
##  [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
##  [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
##  [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
##  [51]  0.061  0.182  0.303  0.424  0.545  0.667  0.788  0.909  1.030  1.152
##  [61]  1.273  1.394  1.515  1.636  1.758  1.879  2.000  2.121  2.242  2.364
##  [71]  2.485  2.606  2.727  2.848  2.970  3.091  3.212  3.333  3.455  3.576
##  [81]  3.697  3.818  3.939  4.061  4.182  4.303  4.424  4.545  4.667  4.788
##  [91]  4.909  5.030  5.152  5.273  5.394  5.515  5.636  5.758  5.879  6.000

#f1 es la función de densidad para cada valor posible de X, si esta sigue una distribución normal de media 0 y varianza 1
f1=dnorm(x, 0, 1)
f1

##   [1] 6.075883e-09 1.246602e-08 2.520507e-08 5.050535e-08 9.915803e-08
##   [6] 1.918491e-07 3.657912e-07 6.873030e-07 1.279056e-06 2.333645e-06
##  [11] 4.195867e-06 7.434472e-06 1.304050e-05 2.243639e-05 3.804111e-05
##  [16] 6.356163e-05 1.046594e-04 1.704959e-04 2.726012e-04 4.295197e-04
##  [21] 6.669293e-04 1.020512e-03 1.543994e-03 2.294109e-03 3.359111e-03
##  [26] 4.847033e-03 6.912039e-03 9.684748e-03 1.337248e-02 1.819604e-02
##  [31] 2.439965e-02 3.231510e-02 4.207679e-02 5.399097e-02 6.827176e-02
##  [36] 8.507513e-02 1.046445e-01 1.266217e-01 1.509878e-01 1.774258e-01
##  [41] 2.054627e-01 2.347138e-01 2.639280e-01 2.924649e-01 3.193770e-01
##  [46] 3.438839e-01 3.646466e-01 3.810430e-01 3.923894e-01 3.982007e-01
##  [51] 3.982007e-01 3.923894e-01 3.810430e-01 3.646466e-01 3.438839e-01
##  [56] 3.193770e-01 2.924649e-01 2.639280e-01 2.347138e-01 2.054627e-01
##  [61] 1.774258e-01 1.509878e-01 1.266217e-01 1.046445e-01 8.507513e-02
##  [66] 6.827176e-02 5.399097e-02 4.207679e-02 3.231510e-02 2.439965e-02
##  [71] 1.819604e-02 1.337248e-02 9.684748e-03 6.912039e-03 4.847033e-03
##  [76] 3.359111e-03 2.294109e-03 1.543994e-03 1.020512e-03 6.669293e-04
##  [81] 4.295197e-04 2.726012e-04 1.704959e-04 1.046594e-04 6.356163e-05
##  [86] 3.804111e-05 2.243639e-05 1.304050e-05 7.434472e-06 4.195867e-06
##  [91] 2.333645e-06 1.279056e-06 6.873030e-07 3.657912e-07 1.918491e-07
##  [96] 9.915803e-08 5.050535e-08 2.520507e-08 1.246602e-08 6.075883e-09

y <- cbind(round(f1,3), round(dnorm(x, -2, 1), 3),
           round(dnorm(x, 0, 2), 3), round(dnorm( x, 0, .5),3),
           round(dnorm(x, 2, .3), 3), round(dnorm(x, -.5, 3 ),3))
valores=data.frame(x,y)
head(valores)

##        x X1    X2    X3 X4 X5    X6
## 1 -6.000  0 0.000 0.002  0  0 0.025
## 2 -5.879  0 0.000 0.003  0  0 0.027
## 3 -5.758  0 0.000 0.003  0  0 0.029
## 4 -5.636  0 0.001 0.004  0  0 0.031
## 5 -5.515  0 0.001 0.004  0  0 0.033
## 6 -5.394  0 0.001 0.005  0  0 0.035

matplot(x, y, type="l", col=c(1,2,3,4,5,6), las = 1, ylab = "f(x)")
legend(-6, 1.3, expression(paste(mu==0," ; ", sigma==1),
                           paste(mu==-2," ; ", sigma==1),
                           paste(mu==0," ; ", sigma==2),
                           paste(mu==0," ; ", sigma==0.5),
                           paste(mu==2," ; ", sigma==0.3),
                           paste(mu==-0.5," ; ", sigma==3)),
       lty = 1:6, cex = 0.7, col=c(1,2,3,4,5,6))

matplot dnomr

10.4.4.1 Cálculo de probabilidades con la distribución normal

# la probabilidad de que una variable aleatoria normal estándar tenga un valor menor a 1.5
pbb=pnorm(1.5,mean=0,sd=1)
pbb

## [1] 0.9331928

x <- seq(-3.5, 3.5, length.out = 1000)
RcmdrMisc::plotDistr(x,dnorm(x,0,1), 
                     regions = list(c(-3.5,1.5)), 
                     legend = F, bty = "n", las = 1,
                     xlab="x", ylab="f(x)")

# la probabilidad de que una variable aleatoria normal de media 20 y desvío estándar 2 tenga un valor mayor a 18 y menor 21
area=pnorm(21,20,2)-pnorm(18,20,2)
area

## [1] 0.5328072

x <- seq(13, 27, length.out = 1000)
RcmdrMisc::plotDistr(x,dnorm(x,20,2), 
                     regions = list(c(18, 21)),
                     legend = F, bty = "n", las = 1,
                     xlab="x", ylab="f(x)")

Si aplicamos barplot() al objeto f1 tenemos un histograma cuya apariencia en la siguiente:

# Gráfica de la función f1
barplot(f1, las=1)

Barplot f1

La tabla de la distribución normal

q=round(seq(-4,4,length=100),3)
q

##   [1] -4.000 -3.919 -3.838 -3.758 -3.677 -3.596 -3.515 -3.434 -3.354 -3.273
##  [11] -3.192 -3.111 -3.030 -2.949 -2.869 -2.788 -2.707 -2.626 -2.545 -2.465
##  [21] -2.384 -2.303 -2.222 -2.141 -2.061 -1.980 -1.899 -1.818 -1.737 -1.657
##  [31] -1.576 -1.495 -1.414 -1.333 -1.253 -1.172 -1.091 -1.010 -0.929 -0.848
##  [41] -0.768 -0.687 -0.606 -0.525 -0.444 -0.364 -0.283 -0.202 -0.121 -0.040
##  [51]  0.040  0.121  0.202  0.283  0.364  0.444  0.525  0.606  0.687  0.768
##  [61]  0.848  0.929  1.010  1.091  1.172  1.253  1.333  1.414  1.495  1.576
##  [71]  1.657  1.737  1.818  1.899  1.980  2.061  2.141  2.222  2.303  2.384
##  [81]  2.465  2.545  2.626  2.707  2.788  2.869  2.949  3.030  3.111  3.192
##  [91]  3.273  3.354  3.434  3.515  3.596  3.677  3.758  3.838  3.919  4.000

pbb1=round(pnorm(q,0,1),3)
pbb1

##   [1] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.001 0.001
##  [13] 0.001 0.002 0.002 0.003 0.003 0.004 0.005 0.007 0.009 0.011 0.013 0.016
##  [25] 0.020 0.024 0.029 0.035 0.041 0.049 0.058 0.067 0.079 0.091 0.105 0.121
##  [37] 0.138 0.156 0.176 0.198 0.221 0.246 0.272 0.300 0.329 0.358 0.389 0.420
##  [49] 0.452 0.484 0.516 0.548 0.580 0.611 0.642 0.671 0.700 0.728 0.754 0.779
##  [61] 0.802 0.824 0.844 0.862 0.879 0.895 0.909 0.921 0.933 0.942 0.951 0.959
##  [73] 0.965 0.971 0.976 0.980 0.984 0.987 0.989 0.991 0.993 0.995 0.996 0.997
##  [85] 0.997 0.998 0.998 0.999 0.999 0.999 0.999 1.000 1.000 1.000 1.000 1.000
##  [97] 1.000 1.000 1.000 1.000

plot(pbb1, las=1)

#Funcion de densidad
dens1=dnorm(q,0,1)
dens1

##   [1] 0.0001338302 0.0001844340 0.0002525098 0.0003421640 0.0004623895
##   [6] 0.0006207721 0.0008279556 0.0010970653 0.0014393027 0.0018824088
##  [11] 0.0024458305 0.0031571075 0.0040485822 0.0051578315 0.0065093281
##  [16] 0.0081853400 0.0102255782 0.0126908181 0.0156473918 0.0191194138
##  [21] 0.0232682262 0.0281321274 0.0337903327 0.0403211541 0.0477011853
##  [26] 0.0561831419 0.0657405705 0.0764207874 0.0882551672 0.1010880830
##  [31] 0.1152298404 0.1304909983 0.1468069922 0.1640829751 0.1819646151
##  [36] 0.2007428520 0.2200107141 0.2395510977 0.2591212881 0.2784573054
##  [41] 0.2970512687 0.3150817868 0.3320211746 0.3475832643 0.3614951936
##  [46] 0.3733695746 0.3832824734 0.3908855264 0.3960324870 0.3986232542
##  [51] 0.3986232542 0.3960324870 0.3908855264 0.3832824734 0.3733695746
##  [56] 0.3614951936 0.3475832643 0.3320211746 0.3150817868 0.2970512687
##  [61] 0.2784573054 0.2591212881 0.2395510977 0.2200107141 0.2007428520
##  [66] 0.1819646151 0.1640829751 0.1468069922 0.1304909983 0.1152298404
##  [71] 0.1010880830 0.0882551672 0.0764207874 0.0657405705 0.0561831419
##  [76] 0.0477011853 0.0403211541 0.0337903327 0.0281321274 0.0232682262
##  [81] 0.0191194138 0.0156473918 0.0126908181 0.0102255782 0.0081853400
##  [86] 0.0065093281 0.0051578315 0.0040485822 0.0031571075 0.0024458305
##  [91] 0.0018824088 0.0014393027 0.0010970653 0.0008279556 0.0006207721
##  [96] 0.0004623895 0.0003421640 0.0002525098 0.0001844340 0.0001338302

tablaZ=data.frame(q,pbb1,dens1)
tablaZ

##          q  pbb1        dens1
## 1   -4.000 0.000 0.0001338302
## 2   -3.919 0.000 0.0001844340
## 3   -3.838 0.000 0.0002525098
## 4   -3.758 0.000 0.0003421640
## 5   -3.677 0.000 0.0004623895
## 6   -3.596 0.000 0.0006207721
## 7   -3.515 0.000 0.0008279556
## 8   -3.434 0.000 0.0010970653
## 9   -3.354 0.000 0.0014393027
## 10  -3.273 0.001 0.0018824088
## 11  -3.192 0.001 0.0024458305
## 12  -3.111 0.001 0.0031571075
## 13  -3.030 0.001 0.0040485822
## 14  -2.949 0.002 0.0051578315
## 15  -2.869 0.002 0.0065093281
## 16  -2.788 0.003 0.0081853400
## 17  -2.707 0.003 0.0102255782
## 18  -2.626 0.004 0.0126908181
## 19  -2.545 0.005 0.0156473918
## 20  -2.465 0.007 0.0191194138
## 21  -2.384 0.009 0.0232682262
## 22  -2.303 0.011 0.0281321274
## 23  -2.222 0.013 0.0337903327
## 24  -2.141 0.016 0.0403211541
## 25  -2.061 0.020 0.0477011853
## 26  -1.980 0.024 0.0561831419
## 27  -1.899 0.029 0.0657405705
## 28  -1.818 0.035 0.0764207874
## 29  -1.737 0.041 0.0882551672
## 30  -1.657 0.049 0.1010880830
## 31  -1.576 0.058 0.1152298404
## 32  -1.495 0.067 0.1304909983
## 33  -1.414 0.079 0.1468069922
## 34  -1.333 0.091 0.1640829751
## 35  -1.253 0.105 0.1819646151
## 36  -1.172 0.121 0.2007428520
## 37  -1.091 0.138 0.2200107141
## 38  -1.010 0.156 0.2395510977
## 39  -0.929 0.176 0.2591212881
## 40  -0.848 0.198 0.2784573054
## 41  -0.768 0.221 0.2970512687
## 42  -0.687 0.246 0.3150817868
## 43  -0.606 0.272 0.3320211746
## 44  -0.525 0.300 0.3475832643
## 45  -0.444 0.329 0.3614951936
## 46  -0.364 0.358 0.3733695746
## 47  -0.283 0.389 0.3832824734
## 48  -0.202 0.420 0.3908855264
## 49  -0.121 0.452 0.3960324870
## 50  -0.040 0.484 0.3986232542
## 51   0.040 0.516 0.3986232542
## 52   0.121 0.548 0.3960324870
## 53   0.202 0.580 0.3908855264
## 54   0.283 0.611 0.3832824734
## 55   0.364 0.642 0.3733695746
## 56   0.444 0.671 0.3614951936
## 57   0.525 0.700 0.3475832643
## 58   0.606 0.728 0.3320211746
## 59   0.687 0.754 0.3150817868
## 60   0.768 0.779 0.2970512687
## 61   0.848 0.802 0.2784573054
## 62   0.929 0.824 0.2591212881
## 63   1.010 0.844 0.2395510977
## 64   1.091 0.862 0.2200107141
## 65   1.172 0.879 0.2007428520
## 66   1.253 0.895 0.1819646151
## 67   1.333 0.909 0.1640829751
## 68   1.414 0.921 0.1468069922
## 69   1.495 0.933 0.1304909983
## 70   1.576 0.942 0.1152298404
## 71   1.657 0.951 0.1010880830
## 72   1.737 0.959 0.0882551672
## 73   1.818 0.965 0.0764207874
## 74   1.899 0.971 0.0657405705
## 75   1.980 0.976 0.0561831419
## 76   2.061 0.980 0.0477011853
## 77   2.141 0.984 0.0403211541
## 78   2.222 0.987 0.0337903327
## 79   2.303 0.989 0.0281321274
## 80   2.384 0.991 0.0232682262
## 81   2.465 0.993 0.0191194138
## 82   2.545 0.995 0.0156473918
## 83   2.626 0.996 0.0126908181
## 84   2.707 0.997 0.0102255782
## 85   2.788 0.997 0.0081853400
## 86   2.869 0.998 0.0065093281
## 87   2.949 0.998 0.0051578315
## 88   3.030 0.999 0.0040485822
## 89   3.111 0.999 0.0031571075
## 90   3.192 0.999 0.0024458305
## 91   3.273 0.999 0.0018824088
## 92   3.354 1.000 0.0014393027
## 93   3.434 1.000 0.0010970653
## 94   3.515 1.000 0.0008279556
## 95   3.596 1.000 0.0006207721
## 96   3.677 1.000 0.0004623895
## 97   3.758 1.000 0.0003421640
## 98   3.838 1.000 0.0002525098
## 99   3.919 1.000 0.0001844340
## 100  4.000 1.000 0.0001338302

curvagauss=plot(data.frame(q,dens1))

10.5 Muestreo e Inferencia Estadística

Muestra aleatoria

Es una porción o un subconjunto de la población que es obtenido por un mecanismo de selección probabilística. De una manera más formal, una muestra aleatoria es una colección de $n$ variables aleatorias ($X_1, X_2,...,X_n$) independientes e idénticamente distribuidas. Esto implica que la función de probabilidad o de densidad de probabilidad conjunta se puede escribir como

\[f(x_1, x_2, ..., x_n) = f(x_1)f(x_2)\cdots f(x_n)\]

Proceso inferencial

Razones para obtener una muestra

En muchas situaciones el análisis exhaustivo de la población es difícil o es imposible de realizarlo. Esto puede deberse a:

a- El alto costo a que se incurre si se realiza una recolección de datos de todos los elementos o individuos que forman parte de la población.

b- La accesibilidad a cada uno de los elementos de la población puede verse obstaculizada por las regiones o momentos donde se quiera realizar la investigación.

c- En algunas ocasiones, las investigaciones disponen de un tiempo relativamente corto para poder recabar los datos de cada uno de los individuos, entre otras.

Es por todo esto que se recurre al muestreo. Si obtenemos una muestra no necesitamos de tanta inversión económica como en un censo ya que solo se toma una parte de la población. Además, podemos realizar procedimientos en donde se tenga una muestra representativa de la población sin la necesidad de acceder a lugares difíciles ni destruir la naturaleza del estudio.

10.6 Distribuciones muestrales

10.6.1 Teorema central del límite

Sean $X_1, X_2,...,X_n$ $n$ variables aleatorias IID con una distribución de probabilidad no especificada y que tienen una media $\mu$ y una varianza $\sigma^2$ finita. El promedio muestral $\bar{X} =(X_1+X_2+...+X_n)/n$ tiene una distribución con media $\mu$ y varianza $\sigma^2/n$ que tiende hacia una distribución normal conforme $n$ tiende a $\infty$. En otras palabras, la variable aleatoria $(\bar{X}-\mu)/(\sigma/\sqrt{n})$ tiene como límite una distribución normal estándar

La siguiente simulación te muestra como funciona el teorema central del límite.

En primer lugar, simula 300 muestra de tamaño 5 de una variable aleatoria con distribución uniforme de parámetros $a=0$ y $b=1$.

u5<-sapply(1:300, function(x){mean(sample(runif(10000),5,rep=F))})
round(u5, 3)

##   [1] 0.491 0.690 0.610 0.516 0.739 0.615 0.696 0.575 0.562 0.616 0.469 0.300
##  [13] 0.673 0.292 0.602 0.278 0.385 0.345 0.378 0.660 0.598 0.600 0.362 0.436
##  [25] 0.521 0.600 0.565 0.392 0.704 0.324 0.667 0.558 0.436 0.723 0.338 0.516
##  [37] 0.642 0.402 0.531 0.572 0.622 0.467 0.602 0.530 0.463 0.233 0.492 0.488
##  [49] 0.637 0.348 0.558 0.754 0.385 0.577 0.637 0.513 0.476 0.499 0.567 0.710
##  [61] 0.694 0.709 0.678 0.427 0.556 0.139 0.516 0.659 0.492 0.603 0.662 0.388
##  [73] 0.559 0.580 0.519 0.520 0.529 0.415 0.510 0.518 0.409 0.411 0.498 0.375
##  [85] 0.623 0.441 0.595 0.426 0.548 0.517 0.530 0.617 0.636 0.356 0.596 0.540
##  [97] 0.699 0.512 0.428 0.493 0.737 0.488 0.410 0.476 0.539 0.567 0.449 0.622
## [109] 0.643 0.596 0.639 0.305 0.606 0.584 0.421 0.588 0.412 0.481 0.573 0.409
## [121] 0.564 0.592 0.276 0.445 0.569 0.557 0.565 0.444 0.487 0.611 0.511 0.500
## [133] 0.499 0.640 0.681 0.355 0.290 0.451 0.576 0.426 0.518 0.622 0.601 0.400
## [145] 0.677 0.652 0.387 0.560 0.627 0.697 0.319 0.513 0.573 0.668 0.439 0.584
## [157] 0.644 0.497 0.297 0.504 0.424 0.347 0.490 0.414 0.513 0.656 0.395 0.369
## [169] 0.439 0.605 0.693 0.501 0.433 0.816 0.223 0.262 0.619 0.475 0.571 0.604
## [181] 0.642 0.285 0.379 0.573 0.391 0.511 0.391 0.357 0.144 0.661 0.625 0.352
## [193] 0.516 0.554 0.632 0.684 0.390 0.344 0.594 0.571 0.319 0.436 0.561 0.559
## [205] 0.490 0.504 0.382 0.505 0.595 0.701 0.525 0.480 0.638 0.431 0.651 0.592
## [217] 0.425 0.428 0.400 0.510 0.545 0.625 0.473 0.533 0.584 0.364 0.600 0.455
## [229] 0.513 0.458 0.518 0.610 0.289 0.451 0.472 0.543 0.471 0.434 0.602 0.550
## [241] 0.755 0.574 0.566 0.347 0.561 0.493 0.558 0.282 0.566 0.323 0.351 0.495
## [253] 0.556 0.578 0.418 0.591 0.641 0.239 0.700 0.585 0.553 0.512 0.897 0.534
## [265] 0.431 0.560 0.368 0.444 0.564 0.709 0.594 0.655 0.500 0.444 0.397 0.555
## [277] 0.789 0.592 0.536 0.497 0.525 0.585 0.628 0.566 0.341 0.566 0.462 0.528
## [289] 0.514 0.303 0.629 0.583 0.539 0.553 0.309 0.434 0.544 0.480 0.456 0.473

histU5=hist(u5)

En primer lugar, simula 300 muestra de tamaño 100 de una variable aleatoria con distribución uniforme de parámetros a=0 y b=1.

u100<-sapply(1:300, function(x){mean(sample(runif(10000),100,rep=F))})
round(u100, 3)

##   [1] 0.546 0.572 0.580 0.509 0.487 0.475 0.485 0.484 0.481 0.480 0.527 0.525
##  [13] 0.490 0.488 0.491 0.459 0.491 0.456 0.480 0.504 0.452 0.476 0.460 0.494
##  [25] 0.475 0.564 0.521 0.498 0.473 0.509 0.475 0.513 0.448 0.433 0.512 0.473
##  [37] 0.510 0.527 0.524 0.471 0.525 0.505 0.469 0.469 0.527 0.510 0.517 0.499
##  [49] 0.521 0.466 0.462 0.516 0.493 0.490 0.490 0.513 0.463 0.505 0.498 0.487
##  [61] 0.530 0.548 0.557 0.476 0.500 0.501 0.500 0.512 0.476 0.527 0.540 0.485
##  [73] 0.497 0.478 0.498 0.547 0.504 0.478 0.487 0.538 0.493 0.516 0.510 0.530
##  [85] 0.521 0.448 0.476 0.516 0.528 0.540 0.483 0.529 0.516 0.466 0.520 0.463
##  [97] 0.466 0.488 0.471 0.449 0.507 0.491 0.456 0.426 0.501 0.508 0.484 0.533
## [109] 0.505 0.464 0.487 0.469 0.523 0.452 0.533 0.537 0.478 0.488 0.554 0.482
## [121] 0.467 0.542 0.523 0.511 0.457 0.450 0.482 0.530 0.485 0.488 0.523 0.512
## [133] 0.523 0.498 0.514 0.520 0.496 0.500 0.547 0.465 0.553 0.447 0.489 0.493
## [145] 0.553 0.464 0.484 0.581 0.502 0.583 0.454 0.498 0.490 0.510 0.550 0.509
## [157] 0.490 0.533 0.487 0.486 0.533 0.509 0.441 0.455 0.474 0.472 0.554 0.447
## [169] 0.477 0.513 0.535 0.516 0.512 0.476 0.488 0.463 0.467 0.535 0.532 0.535
## [181] 0.447 0.497 0.540 0.486 0.498 0.464 0.475 0.457 0.471 0.529 0.494 0.453
## [193] 0.484 0.579 0.473 0.493 0.513 0.533 0.528 0.518 0.513 0.553 0.504 0.477
## [205] 0.531 0.460 0.528 0.474 0.535 0.504 0.475 0.507 0.487 0.477 0.517 0.487
## [217] 0.534 0.528 0.473 0.482 0.528 0.490 0.535 0.444 0.546 0.489 0.463 0.473
## [229] 0.484 0.460 0.460 0.482 0.500 0.489 0.476 0.511 0.455 0.515 0.502 0.509
## [241] 0.513 0.520 0.473 0.465 0.457 0.525 0.445 0.448 0.527 0.506 0.467 0.485
## [253] 0.501 0.504 0.491 0.537 0.502 0.548 0.454 0.477 0.519 0.534 0.478 0.506
## [265] 0.510 0.514 0.504 0.534 0.489 0.504 0.461 0.494 0.534 0.484 0.498 0.488
## [277] 0.531 0.502 0.524 0.456 0.482 0.525 0.488 0.471 0.472 0.491 0.477 0.508
## [289] 0.511 0.439 0.483 0.442 0.516 0.483 0.498 0.543 0.492 0.422 0.531 0.446

histU100=hist(u100)

Grafíca ambos resultados con dos histogramas para compararlos.

plot(histU5, col = "lightgray",main = "Histogram of U5 and U100") # Plot 1st histogram using a transparent color
plot(histU100, col = "blue", add = TRUE) # Add 2nd histogram using different color

Calcula los valores estandarizados para cada media y grafica un histograma para verificar que la distribución de las medias muestrales estandarizadas es efectivamente normal.

#media y varianza de la distribución uniforme con parámetros a=0 y b=1
n=100
a=0
b=1
munif=(a+b)/2
munif

## [1] 0.5

varunif=(b-a)^2/12
varunif

## [1] 0.08333333

u100z=(u100-munif)/(sqrt(varunif)/sqrt(n))
hist(u100z,col = "green", breaks=10, freq = F, xlim=c(-4,4))
lines(seq(-4, 4, by=.1), dnorm(seq(-4, 4, by=.1),0, 1), col="blue")

Realiza la mísma simulación con una variable aleatoria con distribución Poisson de parámetro igual a 2.

p5<-sapply(1:300, function(x){mean(sample(rpois(10000,2),5,rep=F))})
p5

##   [1] 2.0 2.6 1.2 1.6 2.4 1.8 2.2 3.0 1.4 4.0 1.0 2.0 3.8 1.8 3.2 2.0 2.6 1.4
##  [19] 3.2 1.2 2.6 1.4 2.0 1.2 1.6 2.0 1.2 1.4 2.0 2.4 2.6 1.6 2.4 1.4 1.8 2.4
##  [37] 1.2 1.6 3.2 2.2 2.2 1.4 2.4 2.0 1.4 2.6 4.0 1.4 2.6 2.2 2.4 2.8 3.0 1.6
##  [55] 1.8 1.0 2.8 2.0 1.4 1.6 1.4 1.6 1.2 1.6 2.0 1.8 1.2 1.6 2.0 2.2 3.0 2.6
##  [73] 2.2 1.8 1.6 2.0 1.8 1.6 2.2 1.8 1.2 1.6 2.0 2.4 1.8 3.2 2.0 2.2 2.0 2.8
##  [91] 3.4 1.8 2.4 2.2 2.0 1.2 1.6 1.0 1.0 2.4 1.0 1.8 2.0 2.0 2.4 1.0 1.8 2.2
## [109] 2.8 2.8 2.2 2.6 2.2 2.0 1.8 0.4 1.8 1.4 2.0 2.8 2.2 1.2 2.4 1.8 2.2 1.2
## [127] 3.0 3.6 2.4 1.2 2.2 2.0 1.8 2.0 1.6 2.2 1.8 3.0 2.4 2.4 1.8 2.8 1.0 3.2
## [145] 3.0 1.8 2.0 1.8 0.6 2.6 2.2 1.6 2.4 2.6 1.4 2.2 1.4 2.6 2.0 1.6 2.0 2.0
## [163] 1.6 2.8 2.2 2.0 1.6 1.4 2.2 1.8 2.6 1.0 2.4 1.2 2.4 2.2 2.6 1.6 2.2 2.0
## [181] 3.2 2.2 2.4 1.2 2.2 3.0 2.2 2.4 2.4 2.0 1.2 2.0 1.4 1.0 1.6 1.8 1.2 2.0
## [199] 1.6 2.6 2.4 2.6 2.4 2.2 1.0 2.4 2.4 1.4 1.8 1.2 2.0 1.6 3.2 1.2 2.2 1.4
## [217] 2.8 1.0 2.0 3.6 1.0 2.2 2.6 1.6 1.2 2.2 2.2 2.0 1.6 2.0 2.6 2.0 1.8 1.2
## [235] 2.8 1.4 2.4 1.4 2.0 2.0 2.6 1.0 3.0 1.2 0.8 2.8 1.8 1.6 1.2 2.0 2.2 0.4
## [253] 1.6 1.8 1.6 1.6 1.6 1.4 1.6 1.8 2.8 3.8 3.4 3.4 3.8 1.8 1.6 1.0 1.8 1.8
## [271] 1.8 2.6 2.0 2.2 2.8 2.0 1.4 1.6 2.2 1.4 1.2 2.0 1.4 1.6 1.8 2.2 1.8 2.2
## [289] 2.2 1.0 2.0 2.8 1.8 2.6 1.6 0.8 2.4 2.2 1.6 1.4

p100<-sapply(1:300, function(x){mean(sample(rpois(10000,2),100,rep=F))})
p100

##   [1] 1.85 1.86 1.97 2.17 1.85 1.89 2.02 1.91 1.69 2.06 2.04 1.86 2.00 1.69 2.09
##  [16] 1.93 2.13 2.01 1.96 2.11 2.15 1.70 1.83 1.93 1.91 2.02 2.00 1.83 1.91 1.90
##  [31] 1.97 1.85 2.07 2.20 2.07 2.15 1.96 2.00 2.10 2.11 2.22 2.30 2.18 2.31 2.21
##  [46] 1.99 2.05 1.95 1.76 2.07 2.12 1.89 1.95 1.86 1.97 2.03 2.09 2.01 1.98 1.94
##  [61] 2.05 2.10 2.12 1.80 2.03 2.02 1.93 1.99 2.05 2.11 2.08 2.17 1.79 1.73 2.00
##  [76] 1.89 1.90 1.95 2.08 1.94 2.06 1.99 2.06 1.96 1.97 1.96 2.04 1.69 2.20 1.99
##  [91] 1.97 2.16 1.96 2.01 1.85 1.95 1.91 1.82 2.13 1.96 1.94 2.02 2.09 2.08 1.91
## [106] 2.15 1.98 2.11 2.19 2.11 2.01 1.95 1.73 2.01 2.00 2.01 2.06 1.87 1.95 1.87
## [121] 2.08 2.25 1.99 1.99 1.82 2.06 2.03 1.96 1.99 2.13 2.33 2.09 2.16 2.00 2.16
## [136] 2.16 1.96 2.03 1.91 1.84 1.91 1.90 2.19 2.08 2.11 1.92 2.00 1.97 2.20 2.07
## [151] 1.78 2.22 2.06 1.98 2.22 1.92 2.05 1.90 1.96 1.96 2.11 1.84 1.84 2.04 2.03
## [166] 2.05 1.92 2.18 1.77 1.85 1.84 1.74 1.94 2.03 2.05 1.96 2.15 2.00 1.79 1.86
## [181] 2.18 2.04 1.82 2.04 1.95 1.74 2.23 1.89 2.01 2.01 2.03 2.03 1.96 1.82 2.02
## [196] 1.84 2.18 1.99 1.87 2.00 2.08 1.87 2.17 2.03 1.93 1.96 1.78 1.99 2.26 1.81
## [211] 2.14 1.85 1.83 1.76 2.02 2.17 2.31 2.10 1.99 2.22 2.17 1.95 2.04 1.67 1.84
## [226] 2.10 1.98 2.15 2.08 2.11 1.94 1.90 2.22 1.93 1.77 1.94 1.97 1.98 2.01 2.06
## [241] 1.75 2.19 1.86 2.10 2.04 1.92 1.98 1.86 2.16 1.95 2.02 2.20 1.78 1.96 2.19
## [256] 2.02 1.93 1.81 1.87 2.08 2.00 1.83 1.98 1.84 2.00 2.04 2.13 1.99 1.94 1.95
## [271] 2.05 1.85 2.08 2.04 1.92 1.94 2.01 2.09 2.05 2.09 1.95 1.95 1.70 1.96 2.16
## [286] 2.02 1.98 1.89 1.88 1.73 1.90 2.03 2.17 2.06 2.19 1.97 1.94 1.98 1.88 2.23

par(mfrow=c(1,2))
hist(p5,col = "lightgreen", breaks=20, freq = TRUE, xlim=c(0,6))
hist(p100,col = "green", breaks=20, freq = TRUE, xlim=c(0,6))

Calcula los valores estandarizados para cada media y gráfica un histograma para verificar que la distribución es efectivamente normal estándar.

p100z=(p100-2)/(sqrt(2)/sqrt(100))
hist(p100z,col = "green", breaks=10, freq = F, xlim=c(-4,4))
lines(seq(-4, 4, by=.1), dnorm(seq(-4, 4, by=.1),0, 1), col="blue")

10.6.2 Distribución muestral de la media

10.6.2.1 Varianza Poblacional conocida

\[\overline{X} \sim Nor \left( \mu, \frac{\sigma^2}{n}\right)\] > Estudio de caso

Para una población con distribución normal con media igual a 4.5 y varianza igual a 2. Se realiza un muestreo aleatorio simple de tamaño 35. ¿Cuál es la probabilidad de que la media muestral sea al menos igual a 5?

$P(\overline{X}\geq 5)=P\left( Z \geq \dfrac{5-4.5}{\sqrt{2}/\sqrt{35}} \right)=0.0182$

mu = 4.5
sigma = 2
n = 35
sigma_mu = sigma/n
pnorm(5, mean = mu, sd = sqrt(sigma_mu), lower.tail = F)

## [1] 0.01823492

# o también
pnorm((5-4.5)/(sqrt(2/35)),lower.tail = F) #Normal estándar

## [1] 0.01823492

#Gráfico
library(RcmdrMisc)
x1 <- seq(3.5, 5.5, length.out=1000)  
  plotDistr(x1, dnorm(x1, mean=mu, sd=sqrt(sigma_mu)), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(5, 5.5)), legend.pos=F, bty="n")

10.6.2.2 Varianza Poblacional desconocida

\[\frac{\overline{X}-\mu}{\hat{S}/\sqrt{n}} \sim t_{n-1}\] > Estudio de caso

Supongamos el ejemplo anterior pero donde la varianza poblacional es desconocida. Sin embargo, se conoce la varianza muestral $\hat{s}$ que es igual a 2.25.

$P(\overline{X}\geq 5)=P\left( T \geq \dfrac{5-4.5}{\sqrt{2.25}/\sqrt{35}} \right)=0.0284$

mu = 4.5
s2 = 2.25
n = 35
s2_mu = s2/n
pt((5-mu)/sqrt(s2_mu), df = 34,lower.tail = F)

## [1] 0.02839295

#Gráfico

x2 <- seq(-3.5, 3.5, length.out=1000)  
  plotDistr(x2, dt(x2, df = 34), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(1.97, 3.5)), legend=F, bty="n")

** Estudio de caso ** Probabilidades t student vs la normal

q<-c(seq(from=-4, to=+4, by=0.1))
q

##  [1] -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 -2.7 -2.6
## [16] -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1
## [31] -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1  0.0  0.1  0.2  0.3  0.4
## [46]  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4  1.5  1.6  1.7  1.8  1.9
## [61]  2.0  2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9  3.0  3.1  3.2  3.3  3.4
## [76]  3.5  3.6  3.7  3.8  3.9  4.0

gl<-5
pstu<-pt(q,gl)
pstu

##  [1] 0.005161708 0.005704646 0.006314241 0.006999703 0.007771628 0.008642216
##  [7] 0.009625522 0.010737750 0.011997588 0.013426592 0.015049624 0.016895352
## [13] 0.018996812 0.021392032 0.024124727 0.027245050 0.030810396 0.034886235
## [19] 0.039546949 0.044876625 0.050969739 0.057931652 0.065878792 0.074938393
## [25] 0.085247616 0.096951840 0.110201940 0.125150317 0.141945528 0.160725410
## [31] 0.181608734 0.204685600 0.230007033 0.257574474 0.287330144 0.319149436
## [37] 0.352836557 0.388124521 0.424680257 0.462115071 0.500000000 0.537884929
## [43] 0.575319743 0.611875479 0.647163443 0.680850564 0.712669856 0.742425526
## [49] 0.769992967 0.795314400 0.818391266 0.839274590 0.858054472 0.874849683
## [55] 0.889798060 0.903048160 0.914752384 0.925061607 0.934121208 0.942068348
## [61] 0.949030261 0.955123375 0.960453051 0.965113765 0.969189604 0.972754950
## [67] 0.975875273 0.978607968 0.981003188 0.983104648 0.984950376 0.986573408
## [73] 0.988002412 0.989262250 0.990374478 0.991357784 0.992228372 0.993000297
## [79] 0.993685759 0.994295354 0.994838292

pnorm<-pnorm(q)
pnorm

##  [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
##  [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01

datos=data.frame(pstu,pnorm)

matplot (q,datos, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal),paste(student)), cex = 0.7,lty = 1:2)

con muestras de tamaño 15

gl<-15
pstu15<-pt(q,gl)
pstu15

##  [1] 0.0005796584 0.0007106144 0.0008716145 0.0010695443 0.0013128305
##  [6] 0.0016117655 0.0019788916 0.0024294533 0.0029819242 0.0036586153
## [11] 0.0044863687 0.0054973399 0.0067298632 0.0082293928 0.0100495006
## [16] 0.0122529016 0.0149124647 0.0181121487 0.0219477876 0.0265276281
## [21] 0.0319725036 0.0384155129 0.0460010591 0.0548831055 0.0652225098
## [26] 0.0771833302 0.0909280407 0.1066116606 0.1243748937 0.1443364788
## [31] 0.1665850680 0.1911710668 0.2180989696 0.2473207913 0.2787312176
## [36] 0.3121650568 0.3473974679 0.3841472673 0.4220833885 0.4608343100
## [41] 0.5000000000 0.5391656900 0.5779166115 0.6158527327 0.6526025321
## [46] 0.6878349432 0.7212687824 0.7526792087 0.7819010304 0.8088289332
## [51] 0.8334149320 0.8556635212 0.8756251063 0.8933883394 0.9090719593
## [56] 0.9228166698 0.9347774902 0.9451168945 0.9539989409 0.9615844871
## [61] 0.9680274964 0.9734723719 0.9780522124 0.9818878513 0.9850875353
## [66] 0.9877470984 0.9899504994 0.9917706072 0.9932701368 0.9945026601
## [71] 0.9955136313 0.9963413847 0.9970180758 0.9975705467 0.9980211084
## [76] 0.9983882345 0.9986871695 0.9989304557 0.9991283855 0.9992893856
## [81] 0.9994203416

pnorm15<-pnorm(q)
pnorm15

##  [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
##  [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01

datos15=data.frame(pstu15,pnorm15)

matplot (q,datos15, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal15),paste(student15)), cex = 0.7,lty = 1:2)

con muestras de tamaño 30

gl<-30

pstu30<-pt(q,gl)
pstu30

##  [1] 0.0001909228 0.0002511250 0.0003297791 0.0004322999 0.0005655892
##  [6] 0.0007384037 0.0009617981 0.0012496537 0.0016193009 0.0020922424
## [11] 0.0026949820 0.0034599551 0.0044265547 0.0056422333 0.0071636508
## [16] 0.0090578245 0.0114032185 0.0142906936 0.0178242200 0.0221212356
## [21] 0.0273125225 0.0335414620 0.0409625343 0.0497389378 0.0600392338
## [26] 0.0720329646 0.0858852546 0.1017504793 0.1197651754 0.1400404590
## [31] 0.1626543077 0.1876441434 0.2150002049 0.2446602217 0.2765058798
## [36] 0.3103615024 0.3459952583 0.3831230526 0.4214150785 0.4605048059
## [41] 0.5000000000 0.5394951941 0.5785849215 0.6168769474 0.6540047417
## [46] 0.6896384976 0.7234941202 0.7553397783 0.7849997951 0.8123558566
## [51] 0.8373456923 0.8599595410 0.8802348246 0.8982495207 0.9141147454
## [56] 0.9279670354 0.9399607662 0.9502610622 0.9590374657 0.9664585380
## [61] 0.9726874775 0.9778787644 0.9821757800 0.9857093064 0.9885967815
## [66] 0.9909421755 0.9928363492 0.9943577667 0.9955734453 0.9965400449
## [71] 0.9973050180 0.9979077576 0.9983806991 0.9987503463 0.9990382019
## [76] 0.9992615963 0.9994344108 0.9995677001 0.9996702209 0.9997488750
## [81] 0.9998090772

pnorm30<-pnorm(q)
pnorm30

##  [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
##  [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01

datos30=data.frame(pstu30,pnorm30)

matplot (q,datos30, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal),paste(student)), cex = 0.7,lty = 1:2)

10.6.3 Distribución muestral de la diferencia de medias

\[\overline{X}_1-\overline{X}_2 \sim Nor\left(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}\right)\] > Estudio de caso

Las distribuciones de ciertas mediciones tienen distribuciones normales. Se cuentan con dos poblaciones con los siguientes valores: $\mu_1=25$, $\sigma_1=5$, $\mu_2=26$ y $\sigma_2=6$. Si se extraen muestras aleatorias de tamaños $n_1=n_2=100$, ¿cuál es la probabilidad de que la media muestral $\overline{x}_1$ supere a la otra media en al menos 1 unidad?

$P(\overline{x}_1 \ge \overline{x}_2+1)=P(\overline{x}_1-\overline{x}_2 \ge 1)=P \left(Z \ge \dfrac{1-(25-26)}{\sqrt{\frac{5^2}{100}+\frac{6^2}{100}}} \right)\approx 0.005$

mu_1 = 25
mu_2 = 26
sigma_1 = 5
sigma_2 = 6
n_1 = 100
n_2 = 100
sigma_dmu = sqrt((sigma_1^2)/n_1+(sigma_2^2)/n_2)
pnorm(1, mean = mu_1-mu_2, sd = sigma_dmu, lower.tail = F)

## [1] 0.005222511

#Gráfico
library(RcmdrMisc)
x1 <- seq(-4, 2, length.out=1000)  
  plotDistr(x1, dnorm(x1, mean=mu_1-mu_2, sd=sigma_dmu), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions =  list(c(1,2)), legend=F, bty="n")

10.6.4 Distribución muestral de proporciones

\[\hat{p} \sim Nor\left(p,\frac{pq}{n}\right)\] > Estudio de caso

En la asignatura de Estadística I, históricamente se sabe que el porcentaje de alumnos que aprueban es del 75%. En un cierto año, se tomó una muestra aleatoria de 35 estudiantes de la asignatura. Calcula la probabilidad de que el porcetaje de aprobados sea entre 70 y 80%.

$P(0.70 \le \hat{p} \le 0.80)=P\left( \dfrac{0.70-0.75}{\sqrt{\frac{0.75(0.25)}{35}}} \le Z \le \dfrac{0.80-0.75}{\sqrt{\frac{0.75(0.25)}{35}}} \right)=0.5055$

p = 0.75
n = 35
Z1 = (0.70-0.75)/sqrt(0.75*0.25/35)
Z2 = (0.80-0.75)/sqrt(0.75*0.25/35)
Probabilidad = pnorm(Z2)-pnorm(Z1)
Probabilidad

## [1] 0.5054753

#Gráfico
x1 <- seq(-3.5, 3.5, length.out=1000)  
  plotDistr(x1, dnorm(x1), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(Z1, Z2)), legend=F, bty="n")

10.6.5 Distribución muestral para la diferencia de proporciones

\[\hat{p}_1-\hat{p}_2 \sim Nor\left(p_1-p_2,\frac{p_1q_1}{n_1}+\frac{p_2q_2}{n_2}\right)\] > Estudio de caso

Sea $p_1=0.5$, $p_2=0.45$, $n_1=60$ y $n_2=50$. Calcula $P(|\hat{p}_2-\hat{p}_1| \ge 0.1)$.

$P(|\hat{p}_2-\hat{p}_1| \ge 0.1)=P \left( \dfrac{-0.1-(0.45-0.5)}{\sqrt{\frac{0.5(0.5)}{60}+\frac{0.45(0.55)}{50}}} > Z > \dfrac{0.1-(0.45-0.5)}{\sqrt{\frac{0.5(0.5)}{60}+\frac{0.45(0.55)}{50}}} \right)=0.3412$

p1 = 0.5
p2 = 0.45
n1 = 60
n2 = 50
Z1 = (-0.1-(0.45-0.5))/sqrt(0.5*0.5/60+0.45*0.55/60)
Z2 = (0.1-(0.45-0.5))/sqrt(0.5*0.5/60+0.45*0.55/60)
Probabilidad = pnorm(Z1) + pnorm(Z2, lower.tail = F)
Probabilidad

## [1] 0.3412186

#Gráfico
x1 <- seq(-4, 4, length.out=1000)  
  plotDistr(x1, dnorm(x1), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(-4, Z1),c(Z2,4)), legend=F, bty="n")

10.6.6 Distribución muestral de la varianza

** Simulation of empirical distribution of sample variance(cheang?) **

set.seed(238) 
n <- 30 
mu <- 2 # mu = sigma for exponential 
sigma <- 2 
r <- 10000 # No. of samples 
Vstat <- rep(NA,r)

for (i in 1:r) { x <- rnorm(n,mu,sigma) # Normal population 
# x <- rexp(n,rate=1/mu) # Exponential population 
 s2 <- var(x) 
# V-statistic 
 Vstat[i] <- (n - 1)*s2/sigma^2 }

upper <- 8*sqrt(2*(n-1)) 
chisqpdf <- dchisq(seq(0,upper,0.1),n-1) 
Npdf <- dnorm(seq(0,upper,0.1),n-1,sqrt(2*(n-1)))

# Plot density histogram of V-statistic 
hist(Vstat,breaks=seq(min(Vstat),max(Vstat)+1,1),prob=T,right=T, 
main="",xlim=c(0,upper),ylim=c(0,max(chisqpdf)),mgp=c(2,0.5,0),cex=0.7) 
# Plot chisq-pdf 
lines(seq(0,upper,0.1),chisqpdf,lty=1,col="red") 
# Plot normal pdf 
lines(seq(0,upper,0.1),Npdf,lty=2,col="blue") 
mtext(side=3,line=1,outer=F,"(a) Normal population in blue",cex=1.0) 
# mtext(side=3,line=1,outer=F,"(b) Exponential population",cex=1.0) 
mtext(side=3,line=0,outer=F,paste("m = ",mu,", s = ",sigma,sep=""),font=5,cex=1.0)

\[\frac{(n-1)\hat{S}^2}{\sigma^2} \sim \chi^2_{n-1}\] > Estudio de caso

En una población normal con varianza igual a 4. Calcula la probabilidad de que en una muestra de tamaño 20 se obtenga una varianza muestra inferior a 3.5.

$P(\hat{s}^2<3.5)=P \left(\chi^2 < \dfrac{(20-1)3.5}{4} \right)=0.3847$

sigma2 = 4
n = 20
s2 = 3.5
X2 = (n-1)*s2/sigma2
pchisq(X2, df = n-1)

## [1] 0.3847433

#Gráfico
x <- seq(0, 45, length.out=1000)  
  plotDistr(x, dchisq(x, df=19), cdf=FALSE, xlab="x", ylab="Densidad", main="",
            regions=list(c(0, (19*3.5)/4)), legend=F, bty = "n", las = 1)

10.6.7 Distribución muestral del cociente de varianzas

\[\frac{\hat{S}_1^2/\sigma_1^2}{\hat{S}_2^2/\sigma^2_2} \sim F_{n_1-1,n_2-1}\] > Estudio de caso

Sunponga dos variables aleatorias provenientes de dos poblaciones normales: $X_1 \sim Nor(\mu_1,\sigma_1^2)$ y $X_2 \sim Nor(\mu_2,\sigma_2^2)$. Se sabe que las varianzas poblacionales son desconocidas pero iguales. Si al seleccionar muestras aleatorios de tamaño 10 de cada población, ¿cuál es la probabilidad de que la varianza muestral de la primera sea menor a la otra?

$P(\hat{s}_1<\hat{s}_2)=P\left( \dfrac{\hat{s}_1}{\hat{s}_2} <1 \right)=P(F<1)=0.5$

n1 = 10
n2 = 10
pf(1, df1=n1-1, df2=n2-1)

## [1] 0.5

#Gráfico
x <- seq(0, 7, length.out=1000)  
plotDistr(x, df(x, df1=n1-1, df2=n2-1), cdf=FALSE, xlab="x", ylab="Densidad",
          main="", regions=list(c(0, 1)), legend=F, bty = "n", las = 1)

10.7 Propiedades deseables de un buen estimador

10.7.1 Insesgadez

Un estimador $\hat{\theta}$ es insesgado si su valor esperado coincide con el verdadero valor del parámetro poblacional $\theta$. Es decir, si

\[E(\hat{\theta})=\theta\]

10.7.2 Eficiencia o de varianza mínima

Un estimador $\hat{\theta}_i$ es más eficiente que otro estimador $\hat{\theta}_j$, para $i \neq j$, si la varianza de $\hat{\theta}_i$ es más pequeña que la de $\hat{\theta}_j$, para todo $j$. Es decir

\[Var(\hat{\theta}_i)<Var(\hat{\theta}_j)\]

10.7.3 Consistencia

Un estimador es consistente si se verifican los siguientes dos límites.

\[\lim_{n \rightarrow \infty}E(\hat{\theta})=\theta \ \ \ \ \ \text{y} \ \ \ \ \ \lim_{n \rightarrow \infty}Var(\hat{\theta})=0\]

10.7.4 Suficiencia

Un estimador $t=T(X_1,X_2,...,X_n )$ es suficiente para $\theta$ si y solo si la función de probabilidad conjunta o de densidad de probabilidad conjunta $f(x;\theta)$ puede descomponerse de la siguiente manera:

\[f(x_1,x_2,...,x_n;\theta)=h(T(x_1,x_2,…,x_n );\theta) g(x_1,x_2,...,x_n )\] donde $h(T(x_1,x_2,...,x_n );\theta)=h(t;\theta)$ es una función que solo depende del parámetro $\theta$ por medio del estadístico $T(x_1,x_2,...,x_n )$ y la función $g(x_1,x_2,...,x_n)$ solo depende de la muestra. Esta definición en realidad es el conocido Teorema de Factorización de Fisher-Neyman.

10.7.5 Invarianza

Un estimador $\hat{\theta}$ del parámetro $\theta$ es invariante si se satisface la siguiente igualdad.

\[g(\hat{\theta})=g(\theta)\] siempre y cuando $g$ sea una función inyectiva.

10.8 Intervalos de confianza

La siguiente simulación te ayudará a entender el significado de los intervalos de confianza.

En primer lugar tienes la simulación de una muestra compuesta por 15 valores de una variable aleatoria con distribución Poisson

lambda=10
dato<-rexp(15,1/lambda)
dato

##  [1]  0.2435025 26.0434048  1.4366231  2.3303827  3.6095980 12.7836887
##  [7] 32.0869472  5.5728353 16.2726650  6.4611285  7.1815878  6.2297677
## [13]  0.7943495  3.3261231 14.9900427

Dibuja el resultado con un histograma

hist(dato)

En segundo lugar, genera 100 muestras de tamaño 15 para la misma variable aleatoria

datos <- replicate(100, rexp(15,1/lambda))
datos

##             [,1]       [,2]      [,3]       [,4]       [,5]       [,6]
##  [1,]  9.5451899 20.8949177  1.013007 54.6322362 11.3044565  0.4607965
##  [2,]  0.3967766 21.4572658  7.939961  6.9135422  4.7177860  0.2598764
##  [3,]  0.1781101  2.4996551 31.630806  1.2504170  5.5049044 18.8986924
##  [4,]  1.4911985 20.4306841  5.242121  6.0939670  9.9779103  4.7635952
##  [5,] 15.2462630  8.1034601  5.765820 11.0216721  3.6980450  7.1912970
##  [6,]  7.2164652  0.5492389 20.152769 36.2581729  9.0795401  0.3378809
##  [7,]  0.6575281 21.2498903 15.047762 13.1729983  9.8970141  2.2281653
##  [8,]  7.6183392  4.1684510 39.060745  5.4327339 10.3798175  4.0889986
##  [9,]  1.5965536 19.2990120 26.926921  6.8613451  0.5606447  0.9698772
## [10,]  0.3686128 12.0062897  7.668129  7.4388884  1.5589739  5.6691653
## [11,]  4.6494415  0.2565260  9.432154  6.2732521 34.7250665  2.2712383
## [12,] 21.7067078 11.3177919 20.962817 16.7538895  9.1235828  0.6367037
## [13,] 15.2417377  2.3067193  8.404674 22.5783695  4.6690863  8.1038548
## [14,] 11.3913296  2.6261951  1.224507  0.3503567 53.4809219  4.7000880
## [15,]  0.8407563 74.0792225 23.916355  5.8163910  3.2375408  4.2906680
##             [,7]       [,8]       [,9]      [,10]      [,11]     [,12]
##  [1,]  3.4579613 12.2675370 35.4015318  3.2925457  3.8285160  7.210223
##  [2,]  4.0105715 37.7783496 12.8772890 49.9073224 10.7150643  1.163238
##  [3,]  0.4225920 10.0854348  0.6723831  0.3438940  9.7799437  3.604041
##  [4,] 20.8372401 31.0729805 10.3111477 22.2444660 16.8271342 15.823140
##  [5,]  7.3493794  5.2351114  6.2348386  8.0758747  7.2829869  3.794872
##  [6,] 14.0581092  4.7477872  1.5740438 10.3432819 38.2250785  1.322335
##  [7,] 21.0827407  0.6025558 39.9407845 16.5445027 25.7746528 13.454016
##  [8,] 13.3991524  1.1536819  6.8750129 15.1984012  1.2394361  9.123106
##  [9,]  7.7202764  1.1303024 26.7092214 12.3356608 18.3570754  3.432505
## [10,]  0.9957492  4.6316559  5.2332920  5.0799161  9.2928035 18.758640
## [11,]  6.8131352 25.2129098 21.7780124  9.2760302  0.2015191 16.137103
## [12,]  6.8262209  9.2684552 28.3254361 25.2987873 13.9553917  2.361855
## [13,]  9.4933512 12.1506377 14.4208029  0.7872462  8.6233416  7.431411
## [14,]  9.5899556  0.1530644  2.8490546  7.4864003  3.6250638  3.646919
## [15,]  0.1886567  9.7696599 15.1850536  0.4925385  3.6179433  4.848662
##           [,13]      [,14]      [,15]      [,16]      [,17]      [,18]
##  [1,]  8.336891  5.4110985  7.5383037 10.8974472 14.0141968  2.6015811
##  [2,] 16.145951  7.6321925  1.5423510  3.8637970  2.4494533  2.1844859
##  [3,]  6.764324  4.8779863 10.6219196 12.9449208  0.7244977 17.0901512
##  [4,]  8.557213  9.1850421 12.2013460  0.8641065  5.1740957 38.9862519
##  [5,]  1.961973 19.7720071 24.4487121  4.8137614  0.9974570  0.9206458
##  [6,] 17.757275  0.2123820  2.9471261 23.7204334 19.7767903 22.8082871
##  [7,]  3.017391 16.3768506  6.4587739  8.9321408  0.1044970  4.8193145
##  [8,] 26.790791  6.5269333 27.2091199 10.7478779  0.4950400  4.0966533
##  [9,] 12.326249  0.5116637  6.6340661  0.8044327 17.4050909  2.0180741
## [10,] 49.892947  7.1656555  8.4202061  6.9606945  2.8176739  0.3890604
## [11,]  3.118900  0.2073028 14.6287808 20.0726996 19.2871260  0.8968012
## [12,]  5.515236  0.6176375 17.7178830  6.4509875 12.1514430  3.6611026
## [13,] 15.759904 11.5389589  5.8360611 30.1374429 31.2709260 25.8827024
## [14,]  4.871985 11.3811363 19.2233979  7.9533454  0.5284276 13.1454968
## [15,]  4.618653 11.3849888  0.2689092  6.4441739  2.1308904 10.9327237
##           [,19]       [,20]      [,21]      [,22]      [,23]      [,24]
##  [1,]  4.657853  2.58951651 14.7353674  0.6994185  3.9282378  7.8416013
##  [2,] 20.770292  9.00951245  0.3123775 15.9215122 20.7913803  4.6794259
##  [3,]  4.794517  2.85182601 46.1591091 13.1081865 15.9739523  0.9617368
##  [4,] 22.176550 14.96777199 11.5659022  2.3814398  5.0978833 17.9561228
##  [5,]  4.458344  1.45391852  4.9337423  1.3466330 16.1893095  4.5421892
##  [6,] 51.876852 13.06228358 17.9112041 15.0006390 29.4024787  9.0467280
##  [7,]  0.392376  3.52594441  3.0976118  1.1696575  7.3617415  6.9577801
##  [8,]  3.537116  6.96703399 16.8530731  0.8243491  2.7997272  6.1695758
##  [9,] 24.071569  3.99684861  5.1739097 21.6555764  0.9383953 10.4145484
## [10,]  9.850327  7.65287644 10.6670949 75.9956358 13.2225980  4.5785658
## [11,]  9.657503  0.01254701  6.5248878  6.8905862 20.6199912  4.7253892
## [12,] 10.103974 26.24356178  9.0181219 25.8574127  2.2935020  2.6064369
## [13,] 28.099944  4.74431750  9.4271080 16.3451245  2.8804521  6.6983704
## [14,]  3.840318  3.03735991  8.2788763  0.7032174  7.8173167  2.0380860
## [15,]  0.430643  2.20060164  7.8927607 16.1202422  9.4955758  0.3471863
##           [,25]     [,26]      [,27]      [,28]      [,29]     [,30]      [,31]
##  [1,]  5.350893  7.439706  2.3008197 25.8073988 21.5567136 12.525789  8.2503342
##  [2,]  1.801007 35.882429 10.8710531  7.9641463  3.6826328  0.569150  4.1052788
##  [3,] 24.765581  6.557349  4.8284197  0.5030273 13.4873843  3.830502 25.2897559
##  [4,] 14.482942  1.910591  4.0861622  1.4398323  5.9948898 10.957606  2.2342960
##  [5,]  7.774791  1.534542  3.7744625  9.2505156  6.7968489  8.805642 11.0193722
##  [6,]  9.059533 18.089637  7.1644741 17.4762559  7.2946419  7.107502  1.3017023
##  [7,] 10.870651 11.632465  1.6721129  2.9298290 16.1688189  9.289617  1.1211330
##  [8,] 16.433475  8.550204  1.1338652  2.7691370  7.5037030 13.376845  1.3429482
##  [9,] 14.735195 18.854622  4.5901504  1.9939223  0.5810336 14.006820  8.3990885
## [10,]  4.345075  5.887753 20.8050448 29.2571786 23.6051978 10.111656  1.1847325
## [11,] 14.344472 22.959403 12.3000464  2.2596403 15.5726955  9.456032  8.5364004
## [12,]  8.416116 14.739049  0.7217423 20.4533574  5.2668049  8.214309  4.2470247
## [13,]  2.275077  7.898504  2.8191341  4.5836548  1.8234088  4.812558 20.1650507
## [14,]  3.497133  9.762593  1.6659849  1.4826537 18.5564327  7.877432  4.9617999
## [15,] 44.251999  4.858118 15.9868637 23.1538757  0.3483378  2.163610  0.6505169
##           [,32]      [,33]      [,34]     [,35]      [,36]      [,37]     [,38]
##  [1,]  5.267593  5.2965642  0.5480608  7.792280 13.7435403 16.8327439 58.741939
##  [2,]  1.821630  3.0151184 11.3196987  0.564115 28.5252274  0.1738678  3.942944
##  [3,]  1.219886 13.8932880 19.7869627  0.634536  2.2198644  0.8715265  4.031059
##  [4,]  2.452847 17.3254236 32.0002317  2.024766  1.4730109 26.8022251  6.437748
##  [5,]  9.266498  0.4192359  0.2333739 16.829225  0.6765151  7.8514666  9.129914
##  [6,] 10.655416 12.4901908  1.0273412  9.302212  4.6913671  1.8306449  2.681042
##  [7,]  1.575328 21.3378621  4.7513119 20.362187  3.8499487  2.3450242 31.917985
##  [8,]  2.026178  5.4249395  0.8740669  5.478009  9.5288868 12.3801046 14.227780
##  [9,]  5.830000  4.8470926 12.2957629 10.938134  2.9447796  3.2952974  6.128107
## [10,]  5.240565 29.2014442 11.5348657  8.687278  6.5613444 26.3365072  2.639150
## [11,]  6.063143  0.7543487 10.7249029 12.195364  3.2750423  0.2538200  1.387335
## [12,]  1.071268  1.1114888 11.0372640  7.017503  7.1176576  3.7719643 10.612117
## [13,]  2.976410  0.3020327  1.6733403 11.476648 24.8462641  0.7169509  9.079896
## [14,]  4.623770 10.3021328 19.6470329  4.538375 16.7594466  0.2429605 12.413001
## [15,] 19.473498 13.0351243  2.1639052  6.147488  3.4429808  3.5518474 49.914015
##           [,39]     [,40]      [,41]       [,42]     [,43]      [,44]
##  [1,]  6.272881  3.382130  5.7514043  0.04355816 18.584344 47.7854447
##  [2,] 39.232973  7.613041  0.3380348 26.17939984  5.513243  4.9806469
##  [3,]  5.334416 10.420904  3.0792208  3.14960931  4.793045  6.0958789
##  [4,] 30.413578 10.847702 44.6856208 20.67508470  1.927321  2.3141741
##  [5,] 15.011450  4.827515 11.0175833 17.57061828 21.358551  6.6913903
##  [6,] 15.204362  9.357353  2.2126720 13.83970874  6.584179  3.9028238
##  [7,]  4.684284 16.497140  8.5515082  0.39493314  2.044435  0.9279247
##  [8,]  1.374509  4.423160 15.0132314  7.88509059 25.461397 31.4504906
##  [9,] 16.916083 21.853552 20.5351184 13.14060054 10.884218  3.1864883
## [10,]  9.540266  3.004524 10.2952002 18.92523499  3.944209 10.9133975
## [11,]  7.305538 13.000791  1.8091090 12.60801150 19.993990 35.9265954
## [12,]  1.924798 28.470381  0.3814116  3.44144419 22.243846  8.2748003
## [13,]  4.335925  9.690624  9.2738711  1.46414212 22.590081 16.3654236
## [14,] 28.445601 18.310122  0.4791250  1.25081623  4.983235 13.6224569
## [15,]  9.486777  8.419540 10.7743218 13.75251940  8.778408 18.9816828
##            [,45]     [,46]      [,47]      [,48]      [,49]     [,50]
##  [1,] 25.5200516  5.080924  0.7222984  6.9492248 13.2138068  7.340806
##  [2,]  4.5283159 17.720616 24.7398116  4.7255993 14.9248039 18.203613
##  [3,] 23.4848800  6.143886  5.6984731  9.2167846 19.5306232  1.330634
##  [4,]  1.2638569 12.149495 16.6738670  6.7052012 12.3531179  5.283884
##  [5,]  0.4378342 14.677056 13.2615331  0.1083747 13.0243702 14.467271
##  [6,]  0.5976580  5.290469 36.6006633  2.2549834  0.1959731 10.779387
##  [7,]  3.4920743 11.204320  5.1708348  4.4904571 21.3477251 19.145334
##  [8,]  2.3500471  6.965261  0.1873086  7.7397519 12.9746070  1.825461
##  [9,]  0.3736500 27.017407 14.5205023  4.1413831 14.4907990  6.569199
## [10,]  0.9963403 11.691138 26.0119426  7.5455833 13.6070891 10.097584
## [11,]  5.2760137  8.526442 25.0931894 15.3242481  1.9394325 10.897397
## [12,]  5.5502751  3.410312  0.9055720  4.0780748  2.8852663  4.824790
## [13,]  5.3269957  1.141202 12.3671228 10.9393592  5.4934213 12.897425
## [14,]  6.3218936  5.989252 31.2625421 14.2220154  8.8025080 14.175222
## [15,]  2.3822359  4.700244 38.2357990 22.1658364  9.3414741 13.829207
##            [,51]     [,52]     [,53]     [,54]     [,55]      [,56]      [,57]
##  [1,] 30.5087296  1.071277  6.003144  0.613012 15.027267  0.3570743 20.0788100
##  [2,] 14.5359118  5.870321  2.896002  7.374250  4.950948 12.0314546  1.7440737
##  [3,]  1.1835190  7.662672  3.370422  1.859120 25.395254  4.5731353 39.2041673
##  [4,]  8.4146921  2.702133 41.933131  2.684091 12.603592  0.5681169 34.5369844
##  [5,]  5.7521214  1.095777 19.633084  5.693254  3.759690  5.0456635  4.3522648
##  [6,]  0.1657392  5.299591  6.348549  1.997487 16.071255  2.2175840 14.0702762
##  [7,] 16.1303127 12.195404 21.298570 22.471964  9.543856 14.6850955  6.3708149
##  [8,] 23.9613654  7.836965 12.683228  3.953265 20.837417  2.3221713 14.1694536
##  [9,] 15.6381892 16.883309 11.499397  4.401766  9.659735  8.8213690  7.0540872
## [10,]  4.3109463 34.474312  5.527738  1.763113 26.193113 10.9802112  6.1600040
## [11,]  9.8524011  3.520503 37.607721  2.216111  8.853132 10.7257423 16.1033100
## [12,] 10.5849154  3.064696  7.233516  4.273997  6.938514  3.2822428  4.5242113
## [13,]  1.7357471 30.472033 30.710491  2.542823 22.168837 14.0769388 10.3980831
## [14,] 17.8517875  1.298601  3.724153  3.257005  5.505391 12.4164424 18.5796726
## [15,]  1.1307301  2.566144 25.510329 10.052456  5.989995 21.4255292  0.3001218
##            [,58]      [,59]      [,60]      [,61]      [,62]      [,63]
##  [1,]  5.5782110  0.1996211  4.3329384  5.8840271 27.9340846 46.9143518
##  [2,]  7.5491155  6.4303881 11.8294724  8.7403191  9.1873230  1.6478447
##  [3,] 11.2201416 16.8517351  1.7178627  0.8249535 43.1852518  4.0375944
##  [4,]  4.1697172  0.4316938  0.4058404  7.0160090  0.2861341  5.9942892
##  [5,] 12.6456136  3.2503815 14.6111926  3.4302318  6.1501733  0.5852099
##  [6,]  0.2703783  9.1896393  5.3645959 17.3372709  3.8258732 22.0455277
##  [7,] 16.4394190  6.8638462 17.1590508  8.5659852 14.8126364 12.2241924
##  [8,] 13.1544481  0.6592846  5.3392065  2.6232290  5.1583474 20.4208413
##  [9,]  0.9753879 47.1135526  1.3484173  6.8911324  0.6885385  7.1892100
## [10,] 10.4231873  5.0464441  6.9242458  7.9475626  1.1880967 18.2842644
## [11,]  2.1448828  4.3950036  0.1404677 15.8374313 16.2109755  6.4556814
## [12,]  4.5601603 10.3894082  1.6798642 12.5550936 32.6571228  2.8666142
## [13,] 11.1262662  2.1483807 10.9706831  1.3554648 11.3428719 44.0842794
## [14,] 27.3407923  3.2414009 19.9966155  0.7355850 11.0949855 47.8586795
## [15,]  9.8222657  8.1618281 14.6732076  2.6728084 12.0969852  6.6235643
##            [,64]      [,65]     [,66]      [,67]      [,68]     [,69]     [,70]
##  [1,]  6.9407705 11.8274885 21.517196  1.5784432 19.5462438  8.814651 21.653758
##  [2,]  5.3632754  2.7811970  6.786645  6.5515748 38.4313559  1.880315  2.157972
##  [3,]  4.3298605  3.6879501  2.029038  2.0262765 17.9164785 36.405445  3.629108
##  [4,] 10.0254744 19.9860580  3.704896  8.6904693  6.6071912 17.753025 19.136782
##  [5,] 22.9973193 13.1493040 23.342244  3.2815039  8.8270370 18.833014  8.765031
##  [6,] 17.6263338 10.2842593  3.890505  0.3519459 11.7109958  5.199505 12.231922
##  [7,]  0.1735939  3.7075733  3.681582  8.1935418 25.0265726  5.477850  7.951040
##  [8,]  2.6426128 38.3882392 40.857557 13.8608708  0.6496657 21.896894  1.921419
##  [9,]  9.6514608  1.0399208 22.625359  2.4372366  6.4657752  7.253930 11.625327
## [10,]  5.0504286  1.3592037 44.541349 10.7862594  1.3436741  8.528164  5.029714
## [11,] 13.4329643 10.3696272  6.341383  7.9664728  0.3001590  5.056271 19.581448
## [12,]  3.4578527  0.4327706 25.949302 18.3515139 10.8551959  9.808133  8.586843
## [13,]  0.7435359  9.3460401 11.747602 14.1055821 46.3434776  3.060119 20.256366
## [14,]  0.5953435 23.9441496 14.282661  5.2798541  1.7965492 11.549506 31.025896
## [15,] 20.2633865  7.9908874  6.480851  1.3823134  0.8474050 10.170342  3.310071
##            [,71]       [,72]     [,73]      [,74]     [,75]      [,76]
##  [1,]  1.9474576  0.03274736  2.628334  7.7958300 24.774154 12.8336246
##  [2,]  0.5292518  5.50825829  2.681152  8.7773683 10.874236  7.9233177
##  [3,]  6.8145433 10.09903432  4.013918  7.9530002  2.431216  0.4061617
##  [4,] 25.1414817 20.86894290 39.207797 34.3627183  1.959909  1.9450411
##  [5,]  5.6472606  5.42393691  5.883605  4.9982306  4.984241  1.4508198
##  [6,]  6.0826043 21.70818327  2.549919  3.3393170 49.071006  3.3576586
##  [7,]  1.3735112  2.49651425  1.410737  8.8515964  8.535997  5.7551952
##  [8,] 11.8190943  2.46799024 11.649279 26.4018937  5.435589  1.6937200
##  [9,]  1.7604034  2.64970600  5.658066 22.3805162  4.958166  4.6836147
## [10,]  7.9189564  1.73259152  6.931016  2.5599988 33.107223  4.9115044
## [11,]  1.7387362 15.88712485 31.680433  0.5250619 16.430478  5.2140134
## [12,]  2.0700440  3.54553745  7.921727  3.5208417  1.259529  9.4816478
## [13,]  4.3886890 11.90237489  6.627607  1.8849040  5.597167  5.0375431
## [14,]  8.0263890 26.04964001 10.983543  2.2622433  5.380050  2.0667178
## [15,]  2.3337256 16.52319071  3.124076 17.3411503  1.388236  0.2294297
##           [,77]      [,78]      [,79]       [,80]      [,81]      [,82]
##  [1,] 20.767150 20.4818950  1.7630576  7.36637686 14.9896260  1.0832436
##  [2,]  3.121318  4.6502120  6.1601139  3.01781442  2.6006011  0.1460431
##  [3,]  4.003531 35.5212474  1.8591719  0.03879467  2.5461265  6.0955377
##  [4,]  3.951855 42.6514240 39.0419137  2.08087366 26.7175721  1.3094389
##  [5,] 19.640521  4.9861992 24.4000695 22.79026117  1.0971134 22.4628351
##  [6,]  7.199893 17.5828786  4.6777596 42.51289058 15.1592210 13.6667951
##  [7,]  4.015377  5.1182754  0.6015401  8.15393122  1.4740529 14.7312361
##  [8,]  8.267598  5.2790544 22.1056122  6.42914935 16.3695397  2.1326866
##  [9,]  1.260009  7.9330603  8.6006893  3.22734053  0.5750511  6.0377052
## [10,] 11.615593  4.1462081 66.2365101 34.00918469  4.8302246 29.2241698
## [11,]  1.157383  9.8350799 14.8795259 16.04062680  8.4335238 19.3344488
## [12,]  9.199382  4.4181306  1.7073048  4.37318171 25.3840742  0.3954045
## [13,]  1.428050  0.7522836 10.7129374 19.37398473 20.8802712  4.4806095
## [14,]  2.806353 12.4414692  0.5646720  9.55298165  3.4419235  3.6559669
## [15,]  9.297737 12.5428191 18.7486568 14.93569940 19.8710203  6.6367312
##             [,83]     [,84]     [,85]      [,86]      [,87]       [,88]
##  [1,]  8.94205350  7.790683  5.234871  8.8665273  0.4760459 26.50265993
##  [2,]  4.67835458 18.907101  1.703646  0.7431614 13.2555311 17.19699578
##  [3,]  0.07451782  1.425931  6.956308  1.9406627  4.2651771  2.49843784
##  [4,]  4.57750873  8.164973 10.721654  2.8686652 10.2760199  4.07149931
##  [5,] 19.31752348 22.465824 13.558881 28.7863707  7.9126113 18.09399757
##  [6,]  4.27482479  2.328068 19.272825  6.8043180  5.4511805 17.45637126
##  [7,] 25.42114673  1.639767 14.251512  4.0603611  3.0843775 13.80707187
##  [8,]  9.40804252  8.828895 10.587065  5.7834109  2.4810010  7.44450347
##  [9,]  5.49918302  6.069570  2.353156  0.6260708  8.6329550 18.35227834
## [10,] 20.69768390  1.914853  1.054147  8.0873396  0.3052255 14.01213839
## [11,] 16.37025176  7.100912 24.643293  3.4969959  5.0307189  9.17989792
## [12,] 16.14153996  3.212463  5.096421 13.4011940 16.4737378  0.02454052
## [13,]  3.06152016 65.283060  7.101406  9.0714599  4.9872325 20.71536820
## [14,] 10.19139645  2.824004  2.220887  6.0128517  4.4928164 15.56116275
## [15,]  6.00965947  5.485839 23.912334 17.8990321  4.7290471 10.52140882
##           [,89]      [,90]      [,91]      [,92]      [,93]      [,94]
##  [1,]  3.799930  2.9654561  3.7765035  0.9420328 19.7342105 46.3733690
##  [2,] 14.115252  5.8879831 19.8603091  2.8342594 15.2927550 20.7382801
##  [3,]  3.799664 21.7677714  6.0663514  4.2716767  8.3179241  5.9109074
##  [4,]  9.931706  7.0234010  6.5175499  3.4853702  7.6369889  4.6071256
##  [5,] 10.746834 18.8116652  8.7259553  9.9104642 10.5012300  6.6650541
##  [6,]  5.439586  0.6450732 18.0579559  2.5857993 10.5064510  7.2035858
##  [7,]  8.191272 11.1980266 15.4630213  0.9880933 18.0586924  2.8290877
##  [8,]  6.350635 11.6830173 11.8234279  5.9787315  2.8799323 14.2704519
##  [9,]  7.910844  1.0445465 12.0771113  2.0796869 10.1315615  1.8118187
## [10,] 15.101419 26.4559280  6.8505306  7.6346809  0.3681795  0.4850623
## [11,] 18.691719  7.7524776 36.1800062  0.8007808 30.7288848  3.9755102
## [12,]  9.942406  0.8652901  5.7863472  2.3037440 24.3534539 19.7389590
## [13,] 13.144289  6.3316066 10.7566817 16.5639799  1.7724065  1.2947828
## [14,]  1.803925  2.7880037  4.6788687  2.5512745 21.0917134  8.0354607
## [15,] 17.725293  2.9811557  0.2274664 13.4459321  4.5597222 10.7479674
##           [,95]     [,96]        [,97]      [,98]      [,99]     [,100]
##  [1,]  6.457446  6.062731  2.155588077  4.9553898  4.3400413  4.9200068
##  [2,] 14.682869 11.836578  2.666937620 28.5075105  3.2064010  0.3370152
##  [3,] 23.573610 10.891466  6.272505550  4.0469197  7.0072669 22.4205450
##  [4,] 32.599895 10.975870  3.116659629  2.6570405  1.6645382 10.4528640
##  [5,]  7.890144 12.370094  0.339468140  0.9247689  0.5805245  8.0933216
##  [6,] 10.492895  1.785807  5.414871383  4.8087873  0.5448254  4.8579274
##  [7,] 22.691250 17.344439 23.611458297  6.9789106  6.7746693  1.0696238
##  [8,] 15.045993  2.755842  1.968132164  6.3868545  8.4312384  6.6071051
##  [9,] 36.485491 44.542451  1.870144228  0.4897293 29.3686394  6.4202214
## [10,]  1.318565 35.484819  0.007399047  7.6065714 11.6954659  5.7979778
## [11,] 11.055464  6.397347 14.988959300 14.2715897  7.3624360  0.7912876
## [12,] 26.364688  6.005383  8.817416969  0.4069145 25.1412330  6.5346828
## [13,] 26.408286 14.554445  2.663890487  2.3695359 14.1930027  8.4064869
## [14,]  3.805421 13.215352 32.546221687  0.1347722 22.9213865 20.8009228
## [15,] 22.114759  8.002583  4.001872619  5.4461080  3.7494559  1.7510952

Construye los intervalos de confianza asociados a cada una de las 100 medias obtenidas para cada muestra, con un nivel de confianza del 95%.

tint <- matrix(NA, nrow = 100, ncol = 2)
for (i in 1:100){
    temp <- t.test(datos[, i], conf.level = 0.95)
    tint[i, ] <- temp$conf.int
    }
tint

##             [,1]      [,2]
##   [1,]  2.762015 10.323986
##   [2,]  4.563177 24.936199
##   [3,]  8.536248 21.382225
##   [4,]  5.300640 21.479124
##   [5,]  3.635385 19.286653
##   [6,]  1.685788  6.963665
##   [7,]  4.757040 12.075639
##   [8,]  4.628610 17.406073
##   [9,]  8.289539 22.162181
##  [10,]  5.333019 19.561230
##  [11,]  5.787680 17.058447
##  [12,]  4.228689 10.719587
##  [13,]  5.455786 19.268972
##  [14,]  4.232178 10.808067
##  [15,]  6.543820 15.549107
##  [16,]  5.751157 14.996611
##  [17,]  3.244083 13.999598
##  [18,]  3.651617 16.406160
##  [19,]  5.507081 20.988676
##  [20,]  3.031189 10.610934
##  [21,]  5.546952 17.459868
##  [22,]  3.703908 24.832043
##  [23,]  5.902965 15.272041
##  [24,]  3.545279  8.396553
##  [25,]  6.137588 18.182937
##  [26,]  6.718264 16.822665
##  [27,]  2.981972  9.647406
##  [28,]  4.442501 15.734089
##  [29,]  5.634556 14.130717
##  [30,]  6.010977 10.403032
##  [31,]  2.812760 10.895164
##  [32,]  2.610136  7.998401
##  [33,]  4.473151 14.027687
##  [34,]  4.216337 14.399413
##  [35,]  5.167536 11.364213
##  [36,]  3.870202 13.417249
##  [37,]  2.042131 12.258796
##  [38,]  5.069370 24.701835
##  [39,]  6.723393 19.341066
##  [40,]  7.328315 15.354149
##  [41,]  3.313816 15.912508
##  [42,]  5.626121 14.949982
##  [43,]  7.199539 16.758395
##  [44,]  6.371368 21.817915
##  [45,]  1.515123 10.205160
##  [46,]  5.779425 13.114979
##  [47,]  9.572866 23.953995
##  [48,]  4.884210 11.196707
##  [49,]  7.529587 14.353749
##  [50,]  7.069064 13.153231
##  [51,]  5.802853 15.764762
##  [52,]  3.259718 14.875447
##  [53,]  8.512685 22.951245
##  [54,]  2.014535  8.005960
##  [55,]  8.663573 17.136160
##  [56,]  4.809253 11.661250
##  [57,]  6.878181 19.474663
##  [58,]  5.306134 13.016531
##  [59,]  1.855396 14.727619
##  [60,]  4.109480 11.423009
##  [61,]  3.931801  9.723813
##  [62,]  6.110764 19.998490
##  [63,]  7.183252 25.781034
##  [64,]  4.161178 12.278051
##  [65,]  4.837190 16.268766
##  [66,]  8.313862 23.389894
##  [67,]  3.979383  9.999798
##  [68,]  5.279324 20.943046
##  [69,]  6.446057 16.445565
##  [70,]  6.966675 16.615018
##  [71,]  2.388002  9.290951
##  [72,]  5.088153 14.497950
##  [73,]  3.419244 15.640917
##  [74,]  4.535485 15.858471
##  [75,]  4.109690 19.381937
##  [76,]  2.511061  6.420940
##  [77,]  3.743360 10.620873
##  [78,]  5.847697 19.264334
##  [79,]  4.831677 24.776261
##  [80,]  6.098021 19.755724
##  [81,]  5.759764 16.156228
##  [82,]  3.753528 13.765518
##  [83,]  6.149061 14.472967
##  [84,]  1.895863 19.896396
##  [85,]  5.576654 14.245801
##  [86,]  3.770570 12.022553
##  [87,]  3.629455  8.617702
##  [88,]  8.970273 17.088171
##  [89,]  6.918448 12.640855
##  [90,]  4.092568 13.000952
##  [91,]  6.245506 16.000906
##  [92,]  2.434775  7.748759
##  [93,]  7.464471 17.326743
##  [94,]  3.793254 16.831736
##  [95,] 11.479621 23.318616
##  [96,]  6.988077 19.975283
##  [97,]  2.178911 12.546626
##  [98,]  1.996496 10.002357
##  [99,]  4.704182 14.893301
## [100,]  3.662123 10.906022

Asigna los nombres a las columnas de la matriz.

colnames(tint) <- c("lim.inf", "lim.sup")
tint <- data.frame(tint)

Genera un índice para identificar cuál de los intervalos construidos contienen al parámetro poblacional, y cuál de ellos no lo contiene.

indx <- (tint$lim.inf <= lambda) & (tint$lim.sup >= lambda)
indx

##   [1]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [13]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE
##  [25]  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE
##  [37]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [49]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [61] FALSE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE FALSE  TRUE
##  [73]  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [85]  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE FALSE  TRUE
##  [97]  TRUE  TRUE  TRUE  TRUE

sum(indx)

## [1] 88

Dibuja los resultados para identificar visualmente como la mayoría de los intervalos resultantes contienen al valor del parámetro poblacional.

plot(range(tint), c(0,1 + 100), type = "n", xlab = "Medias muestrales", ylab = "Muestra")
for (i in 1:100) {lines(tint[i, ], rep(i, 2), lwd = 1)
}
abline(v = 10, lwd = 2, lty = 2)

Finalmente, agrega a la tabla de resultados los valores del índice.

tint <- data.frame(tint,indx)
tint

##       lim.inf   lim.sup  indx
## 1    2.762015 10.323986  TRUE
## 2    4.563177 24.936199  TRUE
## 3    8.536248 21.382225  TRUE
## 4    5.300640 21.479124  TRUE
## 5    3.635385 19.286653  TRUE
## 6    1.685788  6.963665 FALSE
## 7    4.757040 12.075639  TRUE
## 8    4.628610 17.406073  TRUE
## 9    8.289539 22.162181  TRUE
## 10   5.333019 19.561230  TRUE
## 11   5.787680 17.058447  TRUE
## 12   4.228689 10.719587  TRUE
## 13   5.455786 19.268972  TRUE
## 14   4.232178 10.808067  TRUE
## 15   6.543820 15.549107  TRUE
## 16   5.751157 14.996611  TRUE
## 17   3.244083 13.999598  TRUE
## 18   3.651617 16.406160  TRUE
## 19   5.507081 20.988676  TRUE
## 20   3.031189 10.610934  TRUE
## 21   5.546952 17.459868  TRUE
## 22   3.703908 24.832043  TRUE
## 23   5.902965 15.272041  TRUE
## 24   3.545279  8.396553 FALSE
## 25   6.137588 18.182937  TRUE
## 26   6.718264 16.822665  TRUE
## 27   2.981972  9.647406 FALSE
## 28   4.442501 15.734089  TRUE
## 29   5.634556 14.130717  TRUE
## 30   6.010977 10.403032  TRUE
## 31   2.812760 10.895164  TRUE
## 32   2.610136  7.998401 FALSE
## 33   4.473151 14.027687  TRUE
## 34   4.216337 14.399413  TRUE
## 35   5.167536 11.364213  TRUE
## 36   3.870202 13.417249  TRUE
## 37   2.042131 12.258796  TRUE
## 38   5.069370 24.701835  TRUE
## 39   6.723393 19.341066  TRUE
## 40   7.328315 15.354149  TRUE
## 41   3.313816 15.912508  TRUE
## 42   5.626121 14.949982  TRUE
## 43   7.199539 16.758395  TRUE
## 44   6.371368 21.817915  TRUE
## 45   1.515123 10.205160  TRUE
## 46   5.779425 13.114979  TRUE
## 47   9.572866 23.953995  TRUE
## 48   4.884210 11.196707  TRUE
## 49   7.529587 14.353749  TRUE
## 50   7.069064 13.153231  TRUE
## 51   5.802853 15.764762  TRUE
## 52   3.259718 14.875447  TRUE
## 53   8.512685 22.951245  TRUE
## 54   2.014535  8.005960 FALSE
## 55   8.663573 17.136160  TRUE
## 56   4.809253 11.661250  TRUE
## 57   6.878181 19.474663  TRUE
## 58   5.306134 13.016531  TRUE
## 59   1.855396 14.727619  TRUE
## 60   4.109480 11.423009  TRUE
## 61   3.931801  9.723813 FALSE
## 62   6.110764 19.998490  TRUE
## 63   7.183252 25.781034  TRUE
## 64   4.161178 12.278051  TRUE
## 65   4.837190 16.268766  TRUE
## 66   8.313862 23.389894  TRUE
## 67   3.979383  9.999798 FALSE
## 68   5.279324 20.943046  TRUE
## 69   6.446057 16.445565  TRUE
## 70   6.966675 16.615018  TRUE
## 71   2.388002  9.290951 FALSE
## 72   5.088153 14.497950  TRUE
## 73   3.419244 15.640917  TRUE
## 74   4.535485 15.858471  TRUE
## 75   4.109690 19.381937  TRUE
## 76   2.511061  6.420940 FALSE
## 77   3.743360 10.620873  TRUE
## 78   5.847697 19.264334  TRUE
## 79   4.831677 24.776261  TRUE
## 80   6.098021 19.755724  TRUE
## 81   5.759764 16.156228  TRUE
## 82   3.753528 13.765518  TRUE
## 83   6.149061 14.472967  TRUE
## 84   1.895863 19.896396  TRUE
## 85   5.576654 14.245801  TRUE
## 86   3.770570 12.022553  TRUE
## 87   3.629455  8.617702 FALSE
## 88   8.970273 17.088171  TRUE
## 89   6.918448 12.640855  TRUE
## 90   4.092568 13.000952  TRUE
## 91   6.245506 16.000906  TRUE
## 92   2.434775  7.748759 FALSE
## 93   7.464471 17.326743  TRUE
## 94   3.793254 16.831736  TRUE
## 95  11.479621 23.318616 FALSE
## 96   6.988077 19.975283  TRUE
## 97   2.178911 12.546626  TRUE
## 98   1.996496 10.002357  TRUE
## 99   4.704182 14.893301  TRUE
## 100  3.662123 10.906022  TRUE

10.8.1 Intervalo de confianza para una media con distribución normal de varianza poblacional conocida

Sea $X$ una variable aleatoria con distribución normal de media $\mu$ desconocida y varianza $\sigma^2$ conocida. Entonces, el intervalo de confianza para la media $\mu$ considerando un $100(1-\alpha)\%$ de confianza y un tamaño muestral $n$ es

\[ IC(\mu)=\left[\bar{x}-z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}},\bar{x}+z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}\right] \]

donde $z_{\alpha/2}$ es tal que $P(-\infty < Z \leq z_{\alpha/2})=\dfrac{\alpha}{2}$.

Se podría construir una función que permita calcular un intervalo de confianza para la media.

IC_media_var_conocida <- function(media,sigma,n,NC=0.95){
  LI = media-abs(qnorm((1-NC)/2))*sigma/sqrt(n)
  LS = media+abs(qnorm((1-NC)/2))*sigma/sqrt(n)
  return(paste0("[",round(LI,2),",",round(LS,2),"]"))}

Por ejemplo, supongamos que en una población normal la varianza es igual a 9. Se selecciona aleatoriamente una muestra aleatoria de tamaño 100 de esa población teniendo como media 35. Entonces el intervalo asociado al 95% de confianza se calcula como

IC_media_var_conocida(35,sqrt(9),100) #sqrt calcula la raíz cuadrada

## [1] "[34.41,35.59]"

Por defecto, la función toma un nivel

Estudio de caso

Germán, que realizó sus prácticas en la empresa de transportes LAMP S.A., se enfrentó con la siguiente situación. Su tutor en la empresa, le dio un informe técnico en el que hace seis meses, de una muestra aleatoria de 64 colectivos que prestan servicio en la ciudad de Asunción, se obtuvo el intervalo [ 3,8011 ; 4,3989 ] como estimación de la verdadera media del número de pasajeros por kilómetro, al nivel de confianza del 95%. La primera consigna para Germán fue que construyera, con los datos obtenidos en la muestra de 64 colectivos, un nuevo intervalo, tal que, el error máximo de la estimación fuera de 0,15 pasajeros por kilómetro

El intervalo que debe construir es de menor precisión que el construido hace seis meses?

n1=64
linf1=3.8011
lsup1=4.3989

NC1=0.95
alfa1=1-NC1

z1=qnorm(1-alfa1/2)
z1

## [1] 1.959964

media1=(linf1+lsup1)/2
media1

## [1] 4.1

El error asociado al intervalo del 1er estudio

error1=lsup1-media1
error1

## [1] 0.2989

sigma1=(error1*sqrt(n1))/z1
sigma1

## [1] 1.220022

El intervalo que debe construir es de mayor precisión porque se reduce el error

error2=0.15

if(error2>error1) print("IC2 con menor precision") else print("IC2 con mayor precisión")

## [1] "IC2 con mayor precisión"

El error estándar de la media muestral se modificará?

eem1=error1/z1
eem1

## [1] 0.1525028

eem2=error2/z1
eem2

## [1] 0.07653202

if (eem1==eem2) print("Permanece") else print("Se modifica")

## [1] "Se modifica"

Es posible construir el nuevo IC con la información disponible disminuyendo el NC?

n2=64
NC2=0.90
alfa2=1-NC2
z2=qnorm(1-alfa2/2)
z2

## [1] 1.644854

la misma información muestral implica la misma media muestral

media2=media1
linf2=media2-error2
linf2

## [1] 3.95

lsup2=media2+error2  
lsup2

## [1] 4.25

Germán recibió luego la indicación de construir un nuevo intervalo de confianza, al nivel del 99%, tal que el error máximo de la estimación no excediera de 0,2. Para obtenerlo, Germán debe informar que se debe incrementar el tamaño muestral de 64 a 254 casos?

NC3=0.99
alfa3=1-NC2
z3=qnorm(1-alfa2/2)
z3

## [1] 1.644854

error3=0.2
sigma3=sigma1
n3=(z3)^2*sigma3/error3^2
n3

## [1] 82.52059

Estudio de caso

Una compañía de seguros desea estudiar los hábitos respecto al riesgo de los residentes de Asunción. Se selecciona una muestra aleatoria de 40 participantes y se les pide que mantengan un registro detallado de las actividades riesgosas que realizan durante la semana. Se determinó que el número promedio de actividades riesgosas realizadas (suponiendo que dicen la verdad) es 15,3 horas y que presenta una desviación estándar muestral de 3,8 actividades.

Obtenga el IC al 98% de confianza para la media

mean=15.3
sd=3.8
n1=40
NC1=0.98
alfa1=1-NC1
alfa1

## [1] 0.02

z1=qnorm(1-alfa1/2, mean = 0, sd = 1)
z1

## [1] 2.326348

liminf1=mean-z1*sd/sqrt(n1)
liminf1

## [1] 13.90225

limsup1=mean+z1*sd/sqrt(n1)
limsup1

## [1] 16.69775

Caso 1.2

de=3.8
NC2=0.98
alfa2=1-NC2
alfa2

## [1] 0.02

e=1
z2=qnorm(1-alfa2/2,0,1)
z2

## [1] 2.326348

n2=((de*z2)/e)^2
n2

## [1] 78.14776

Caso 1.3

liminf2=mean-z2*sd/sqrt(n2)
liminf2

## [1] 14.3

limsup2=mean+z2*sd/sqrt(n2)
limsup2

## [1] 16.3

10.9 Pruebas de hipótesis

10.9.1 Diferencia de medias con muestras de poblaciones normales con varianzas desconocidas

#mu1-mu2=delta
delta=-2
alfa=0.01

nivel1=c(14,12,15,15,11,16,17,12,14,13,18,13,18,15,16,11)
nivel1

##  [1] 14 12 15 15 11 16 17 12 14 13 18 13 18 15 16 11

nivel2=c(20,22,18,18,19,15,18,15,22,18,19,15,21,22,18,16)
nivel2

##  [1] 20 22 18 18 19 15 18 15 22 18 19 15 21 22 18 16

plot (nivel1)

Solución

n1=16
n2=16
gl=n1+n2-2

xbar1=mean(nivel1)
xbar1

## [1] 14.375

xbar2=mean(nivel2)
xbar2

## [1] 18.5

xbardif=xbar1-xbar2
xbardif

## [1] -4.125

S1=sd(nivel1)
S1

## [1] 2.276694

S2=sd(nivel2)
S2

## [1] 2.44949

REGLA: Rechazar H0 si tcalc<tcrit

Sp=sqrt(((n1-1)/(n1+n2-2))*S1^2+((n2-1)/(n1+n2-2))*S2^2)
Sp

## [1] 2.364671

tcrit=qt(alfa,gl)
tcrit

## [1] -2.457262

tcal=((xbar1-xbar2)-(delta))/(Sp*sqrt(1/n1+1/n2))
tcal

## [1] -2.541753

ENFOQUE CON PVALOR

Pvalor=pt(tcal,gl)
Pvalor

## [1] 0.008216869

CON FUNCIÓN DE R-PROJECT

t.test(nivel1,nivel2,mu=-2,alternative = c("less"), conf.level =1-alfa)

## 
##  Welch Two Sample t-test
## 
## data:  nivel1 and nivel2
## t = -2.5418, df = 29.841, p-value = 0.008232
## alternative hypothesis: true difference in means is less than -2
## 99 percent confidence interval:
##       -Inf -2.070023
## sample estimates:
## mean of x mean of y 
##    14.375    18.500

Estudio de caso

Alejandra es una alumna egresada de la carrera de Estadística en la FACEN que realizó su pasantía en una empresa conservera que tiene sede en Asunción y varias filiales en el país. Cuando Alejandra llegó a la empresa su tutor estaba realizando un estudio para tomar la decisión de producir una nueva marca extra condimentada de salsa de tomates. El departamento de investigación de mercado de la empresa realizó una encuesta telefónica nacional de 1.000 hogares y encontró que la salsa de tomates extra condimentada sería comprada por 330 de ellos. Hace dos años, un estudio mucho más extenso mostraba que el 25% de los hogares en ese entonces habrían comprado el producto. Su tutor le preguntó si opinaba que el interés por comprar la nueva marca había crecido significativamente.

Al nivel de significancia del 2%, debe concluir que actualmente existe un mayor interés en el sabor de la salsa de tomates extra condimentad?

H0: p = 0,25 H1: p > 0,25

n=1000
PH0=0.25
NC=0.98
alfa=1-NC
zcrit=qnorm(1-alfa)
zcrit

## [1] 2.053749

Pest=330/1000
zcal=(Pest-PH0)/sqrt((PH0*(1-PH0))/n)
zcal

## [1] 5.842374

Pvalor=1-pbinom(330,1000,0.25,log = FALSE)
Pvalor

## [1] 5.82433e-09

binom.test(x=330,n=1000,p=0.25,alternative="greater",conf.level = 0.98)

## 
##  Exact binomial test
## 
## data:  330 and 1000
## number of successes = 330, number of trials = 1000, p-value = 8.708e-09
## alternative hypothesis: true probability of success is greater than 0.25
## 98 percent confidence interval:
##  0.299546 1.000000
## sample estimates:
## probability of success 
##                   0.33

Debe rechazar la H0, y Debe concluir que actualmente existe un mayor interes

Una vez tomada la decisión de no rechazar la vigencia del estudio extenso de hace dos años, la probabilidad de cometer un error de tipo I es igual a cero?

Error de tipo I

xcrit=qbinom((1-0.02),1000,0.25)
xcrit

## [1] 278

alfa=1-pbinom(xcrit,1000,0.25)
alfa

## [1] 0.01958826

Con los datos disponibles, no se puede calcular la potencia de la prueba?

Error de tipo II: Asumida una H1 alternativa P=0.30

beta=pbinom(xcrit,1000,0.30)
beta

## [1] 0.06818224

Estudio de caso

De acuerdo con los resultados de la encuesta a egresados de la FACEN del año 2005, un estudiante de tecnología de producción puede esperar un salario promedio igual al egresar que los estudiantes de la carrera de estadística. Marcos, un estudiante del último año de la carrera de estadística, decide verificar si dicha hipótesis se mantenía luego de 10 años. Para ello relevó datos de dos muestras aleatorias de egresados de ambas carreras del año 2015 para realizar una prueba de hipótesis. Los datos recabados sobre los salarios percibidos (en millones de Gs. en la actualidad) y los resultados de la prueba fueron los siguientes:

tecnol <-c(5,4.1,3,2.5,2.6,2.1,2.0,5,7,2,2.1,2.3,2.6,3.5)
estad <-c(5.1,5.2,2.0,3.0,4,6,2,8,8.1,10,2.0)

De acuerdo con los resultados, Marcos puede rechazar la hipótesis nula de que un egresado de la carrera de tecnología puede esperar un ingreso igual que un egresado de la carrera de estadística?
Dado el intervalo de confianza obtenido por Marcos, es correcto decir que la probabilidad de que el verdadero valor de la diferencia de ingresos medios esté entre -0,2134 y 3,7433 es de 95%?
El Pvalor obtenido por Marcos significa que existe un 7,652% de probabilidad de obtener una diferencia de medias mayor que +1,764935?

mean(estad)

## [1] 5.036364

mean(tecnol)

## [1] 3.271429

test <- t.test(estad,tecnol,mu = 0,alternative="greater", conf.level = 0.95)
test

## 
##  Welch Two Sample t-test
## 
## data:  estad and tecnol
## t = 1.9068, df = 14.529, p-value = 0.03826
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  0.1388691       Inf
## sample estimates:
## mean of x mean of y 
##  5.036364  3.271429

difmean=mean(estad)-mean(tecnol)
difmean

## [1] 1.764935

10.10 Pruebas de bondad de ajuste

Cuando realizamos cierto tipo de experimento, nos encontramos en la situación de que los valores obtenidos en la muestra difieren de los valores que se esperan bajo cierto modelo de probabilidad. Por esa razón es importante analizar si estas diferencias son significativas o no.

Utilizaremos primeramente pruebas de bondad de ajuste basadas en la Chi-cuadrada. Esta prueba requiere que las frecuencias esperadas sean mayores o iguales a 5.

10.10.1 Prueba Chi-cuadrada para bondad de ajuste

10.10.1.1 Ajuste a una distribución uniforme

Ejemplo: En un comedor asisten semanalmente personas de diferentes ciudades. El dueño del comedor, en su afán de conocer si la cantidad de personas que vienen por semana es la misma en cada semana, realiza un estudio anotando la cantidad de personas que vienen a su comedor durante 5 semanas. Sus anotaciones son las siguientes:

Semana	Cantidad de Personas
1	120
2	110
3	116
4	99
5	105

¿Qué se puede concluir?

Solución

#Definimos una variable que cuente con la cantidad de personas
cantidad_personas <- c(120, 110, 116, 99, 105)

#Contamos la cantidad total de personas
total <- sum(cantidad_personas)
total

## [1] 550

#Calculamos las frecuencias esperadas
esperadas <- rep(total/5, 5)
esperadas

## [1] 110 110 110 110 110

#Aplicando la formula de la chi cuadrada sería
chi_cal <- sum((cantidad_personas-esperadas)^2/esperadas)
chi_cal

## [1] 2.563636

#El p valor asociado es
pchisq(chi_cal, df=4, lower.tail = F)

## [1] 0.6332781

Podemos también usar directamente la función chisq.test() definiendo antes las probabilidades de cada clase o categoría

#Calculamos las probabilidades asociadas a cada categoría
probabilidades <- rep(1/5,5)
probabilidades

## [1] 0.2 0.2 0.2 0.2 0.2

#Aplicamos la prueba Chi con chisq.test()
chisq.test(x=cantidad_personas,p=probabilidades)

## 
##  Chi-squared test for given probabilities
## 
## data:  cantidad_personas
## X-squared = 2.5636, df = 4, p-value = 0.6333

10.10.1.2 Ajuste a una distribución Binomial

Ejemplo: Considera la siguiente tabla de frecuencia:

x	frecuencia
0	18
1	56
2	110
3	88
4	40
5	8

¿Se ajustan los datos a una distribución binomial con $p=0,5$? Utiliza un $\alpha=0,01$.

Solución

#Definimos la variable X
x <- 0:5

#Creamos la variable frecuencia observada
f_observada <- c(18, 56, 110, 88, 40, 8)

#Calculamos la suma de frecuencias, el total
total <- sum(f_observada)
total

## [1] 320

#Calculamos las probabilidades binomiales con dbinom()
#en donde size=5 es el número de ensayos de Bernoulli,
#y prob=5 es la probabilidad de éxito
probabilidades <- dbinom(x, size = 5, prob = 0.5)
probabilidades

## [1] 0.03125 0.15625 0.31250 0.31250 0.15625 0.03125

#Ahora aplicamos la función chisq.test()
chisq.test(x = f_observada, p = probabilidades)

## 
##  Chi-squared test for given probabilities
## 
## data:  f_observada
## X-squared = 11.96, df = 5, p-value = 0.03534

10.10.1.3 Ajuste a una distribución de Poisson

Ejemplo: En una cierta región de un país se dividió en secciones rectangulares de 0,5 km^^2 para hacer un conteo de la cantidad de bombas caídas durante una guerra. Los conteos se muestran en la siguiente tabla:

Cantidad de impactos	Frecuencia
0	229
1	211
2	93
3	35
4	7
5	1

¿Sugieren los datos que la aparición de bombas se distribuye según la ley de Poisson?

Solución

#Definimos la variable X
x <- 0:5

#Creamos la variable frecuencia observada
f_observada <- c(229, 211, 93, 35, 7, 1)

#Calculamos la suma de frecuencias, el total
total <- sum(f_observada)
total

## [1] 576

#Se estima primeramente el valor de lambda, pues es desconocido
lambda <- sum(x*f_observada)/total
lambda

## [1] 0.9288194

#Calculamos las probabilidades de Poisson con dpois()
probabilidades <- dpois(x,lambda = lambda)
probabilidades

## [1] 0.39501978 0.36690205 0.17039288 0.05275474 0.01224991 0.00227559

#Calculamos las frecuencias esperadas
f_esperada <- probabilidades*total
f_esperada

## [1] 227.531392 211.335581  98.146299  30.386730   7.055946   1.310740

#La última casilla tiene un valor esperado inferior a 5. Juntamos los dos últimos
f_observada_nueva <- c(229, 211, 93, 35, 8)
f_esperada_nueva <- c(f_esperada[-(5:6)],f_esperada[5]+f_esperada[6])
f_esperada_nueva

## [1] 227.531392 211.335581  98.146299  30.386730   8.366687

#Usamos la formula de la chi cuadrada
chi_cal <- sum((f_observada_nueva-f_esperada_nueva)^2/f_esperada_nueva)
chi_cal

## [1] 0.9963088

#Calculamos el p valor, con 3 grados de libertad
pvalor <- pchisq(chi_cal, 3, lower.tail = F)
pvalor

## [1] 0.8021451

10.10.1.4 Ajuste a una distribución exponencial

Ejemplo: En un estudio sobre la vida en años de 70 máquinas electrónicas se obtuvieron los siguientes resultados:

Años de vida	Frecuencia
0-1	30
1-2	23
2-3	6
3-4	5
más de 4	6

Demostrar que estos datos se ajustan a una distribución exponencial, utilizando 5% de nivel de significancia.

10.10.2 Prueba K-S

Simulación

Genera 100 valores aleatorios de una distribuci?n normal de media 3 y desviación típica 2 (utiliza la semilla 111).

options(width=80)
set.seed(111)
data<-rnorm(100,0,1)
data

##   [1]  0.23522071 -0.33073587 -0.31162382 -2.30234566 -0.17087604  0.14027823
##   [7] -1.49742666 -1.01018842 -0.94847560 -0.49396222 -0.17367413 -0.40659878
##  [13]  1.84563626  0.39405411  0.79752850 -1.56666536 -0.08585101 -0.35913948
##  [19] -1.19360897  0.36418674  0.36166245  0.34696437  0.18973653 -0.15957681
##  [25]  0.32654924  0.59825420 -1.84153430  2.71805560  0.19124439 -1.30129607
##  [31] -3.11321730 -0.94135740  1.40025878 -1.62047003 -2.26599596  1.16299359
##  [37] -0.11615504  0.33425601 -0.62085811 -1.30984491 -1.17572604 -1.12121553
##  [43] -1.36190448  0.48112458  0.74197163  0.02782463  0.33137971  0.64411413
##  [49]  2.48566156  1.95998171  0.19166338  1.55254427  0.91424229  0.35862537
##  [55]  0.17509564 -0.84726777  0.97823166  1.80586826  0.12291480 -0.12977203
##  [61] -0.21642866  1.44647817  0.40970980  0.91091657  1.43035817 -0.38129196
##  [67]  0.20230718 -0.80619919  0.29463418  1.40488308  1.02376685  0.47612606
##  [73] -0.67033033  0.15923432 -0.38271538  0.93576259 -0.63153227 -0.09830608
##  [79]  1.03198498  0.38780843 -1.25612931 -0.78695273  0.42981155 -0.37641622
##  [85] -1.21622907  1.02927851  0.43039700 -1.24557402 -0.60272849  0.66006939
##  [91]  2.05074953  0.49080818 -1.73147942  0.71088366  0.01382291 -1.40104160
##  [97]  1.25912367 -0.12747752 -0.72938651 -1.21136136

hist(data,breaks=15,freq=FALSE,main="Histograma de frecuencias relativas")

curve(dnorm(x),add=TRUE,col="red")

plot(ecdf(data),do.points=FALSE,verticals=TRUE,main="Distribución empírica",ylab="Sn(x)")
curve(pnorm(x),col="red",add=TRUE)

#calculo de D_n

data<-sort(data) # Segunda columna, se ordenan los datos
Fx<-pnorm(data,0,1) # Tercera columna, hacer F(xi)
Sn<-seq(0.01,1,0.01) # Distribución empírica (no hay empates)
aux1<-abs(Sn-Fx) # Cuarta columna
Fx1<-c(Fx,0)
Sn1<-c(0,Sn)
aux2<-abs(Sn1-Fx1)[1:100] # Quinta columna
max(aux1,aux2) # Encontrar Dn

## [1] 0.06014782

#Gráfica de S_n vs F_n

plot(Fx,Sn,type="s")
points(Sn,Sn,type="s",col="green")

#realizar la prueba con el comando

ks.test(data,"pnorm",0,1)

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  data
## D = 0.060148, p-value = 0.8623
## alternative hypothesis: two-sided

10.10.3 Prueba Chi-cuadrada para tablas de contingencia

#cargamos una variable cualitativa nominal

sexo=as.factor(c("H","M","H","H","M","M","H","M","M","H","M","M","H","M","H","H","M","M","H","M","M","H","M","M","H","M","H","H","M","M","H","M","M","H","M","M","H","M","H","H","M","M","H","M","M","H","M","M"))

sexo

##  [1] H M H H M M H M M H M M H M H H M M H M M H M M H M H H M M H M M H M M H M
## [39] H H M M H M M H M M
## Levels: H M

#cargamos una variable cualitativa nominal

fuma=as.factor(c("No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí"))

fuma

##  [1] No Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí No
## [26] Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí
## Levels: No Sí

#para indicar a R que los datos cargados están relacionados

datos=data.frame(sexo,fuma)
#datos

table(datos)

##     fuma
## sexo No Sí
##    H 12  8
##    M  4 24

mosaicplot(table( datos$sexo,datos$fuma),xlab = "Sexo", ylab = "Fumador",main ="Mosaico para fumadores por sexo",color = 2:3)

Prueba chi de independencia

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table(datos$sexo, datos$fuma)
## X-squared = 9.0107, df = 1, p-value = 0.002684

Algunos ejemplos más

Pruebas de ajuste

Referencias

Naylor, T. H. (1982) Técnicas de simulación en computadoras. Limusa.

Shannon, R. E. (1975) Systems simulation: The art and science. Prentice-Hall.

‘Using RStudio projects’ (n.d.).

Probabilidades e Inferencia Estadística con R

Curso de Nivelación Máster en Estadística - 2022

Diego Meza

2022-11-15

1 Introducción

2 El programa R-project y RStudio

2.1 Descargar e instalar el programa R-project y R-studio

2.2 Enlaces de interés

2.3 Primeros pasos con R

2.3.1 Librerías

2.3.2 Ayuda del R

2.3.3 R como calculadora

2.3.4 Carga de datos

2.3.5 Data frame

2.3.6 Tablas de frecuencia

2.4 Representaciones graficas

2.4.1 Graficas circulares o de sectores

2.4.2 Gráficos de barras

2.4.3 Histogramas de frecuencias y de porcentajes

2.5 Generación de sequencias

2.6 Abrir una base y resumir

2.7 Funciones con R

3 Análisis combinatorio

3.1 Definiciónes

4 Operaciones con conjuntos

4.1 Unión e intersección de conjuntos

4.2 Diagrama de Benn

5 Experimentos Aleatorios y Determinísticos.

6 Sucesos y eventos

7 Probabilidades

8 Probabilidad condicional

8.1 Probabilidad condicional

8.2 Teorema de Bayes

8.3 Encuesa Permanente de Hogares

9 Importar los microdatos de la EPH

9.0.1 Sexo (P06)

10 Aplicaciones de R para el estudio de la Estadística Inferencial

10.1 Simulación Estadística

10.2 Muestras aleatorio simple con R

10.3 Variable aleatoria con distribución discreta

10.3.1 Distribución Bernoulli

10.3.2 Distribución binomial

10.3.3 Variable aleatoria con distribución poisson

10.4 Variable aleatoria con distribución contínua

10.4.1 Pseudorandom Number Generators

10.4.2 Distribución uniforme

10.4.3 Variable aleatoria con distribución exponencial

10.4.4 Variable aleatoria con distribución normal

10.4.4.1 Cálculo de probabilidades con la distribución normal

10.5 Muestreo e Inferencia Estadística

10.6 Distribuciones muestrales

10.6.1 Teorema central del límite

10.6.2 Distribución muestral de la media

10.6.2.1 Varianza Poblacional conocida

10.6.2.2 Varianza Poblacional desconocida

10.6.3 Distribución muestral de la diferencia de medias

10.6.4 Distribución muestral de proporciones

10.6.5 Distribución muestral para la diferencia de proporciones

10.6.6 Distribución muestral de la varianza

10.6.7 Distribución muestral del cociente de varianzas

10.7 Propiedades deseables de un buen estimador

10.7.1 Insesgadez

10.7.2 Eficiencia o de varianza mínima

10.7.3 Consistencia

10.7.4 Suficiencia

10.7.5 Invarianza

10.8 Intervalos de confianza

10.8.1 Intervalo de confianza para una media con distribución normal de varianza poblacional conocida

10.9 Pruebas de hipótesis

10.9.1 Diferencia de medias con muestras de poblaciones normales con varianzas desconocidas

10.10 Pruebas de bondad de ajuste

10.10.1 Prueba Chi-cuadrada para bondad de ajuste

10.10.1.1 Ajuste a una distribución uniforme

10.10.1.2 Ajuste a una distribución Binomial

10.10.1.3 Ajuste a una distribución de Poisson

10.10.1.4 Ajuste a una distribución exponencial

10.10.2 Prueba K-S

10.10.3 Prueba Chi-cuadrada para tablas de contingencia

Referencias