1 Introducción

Las herramientas tecnológicas para el estudio y la enseñanza de la estadística en la actualidad están ampliamente extendidas y disponibles incluso de manera gratuita. El estudio de los conceptos estadísticos teóricos, sus propiedades y teoremas relacionados, pueden verificarse fácilmente mediante la generación de ensayos y simulaciones de variables aleatorias. Programas estadísticos de licencia gratuita como el R-project se constituyen en un aliado estratégico que facilitan y simplifican al docente la transferencia de conocimiento y al estudiante su asimilación. El presente trabajo recopila el fruto de varios años de experiencia enseñando inferencia estadística apoyado en las simulaciones y ejercicios prácticos realizados usando este programa. La experiencia se concretó en el diseño y socialización de esta página web generado y publicado mediante la plataforma RStudio Cloud. En esta página se organizan los contenidos en varias secciones, que incluyen los códigos necesarios para realizar los ensayos de simulaciones que permiten verificar las propiedades y teoremas de los tópicos tratados en el curso de Probabilidades. Los estudiantes matriculados al curso pueden copiar los códigos para ejecutarlos en su propio ordenador, para verificar el efecto que tienen los cambios en los parámetros de los modelos de probabilidad estudiados, sobre los resultados de las simulaciones. Adicionalmente se incluyen una serie de estudios de casos con datos provenientes de registros administrativos y encuestas nacionales para aplicar los conceptos abordados en la solución de problemas sobre algunas variables relevantes. Actualmente, resulta imprescindible que todo estudiante de Estadística culmine la carrera con el manejo de un programa para el análisis estadístico, y R es una excelente opción que se puede disponer para el efecto.

2 El programa R-project y RStudio

R es un programa de código abierto, que tuvo inicios aproximadamente en el año 2000, como continuación de programa S. De acuerdo con la página oficial de R-project, este es un lenguaje y entorno para computación estadística y gráficos. Es un proyecto GNU que es similar al lenguaje y entorno S por lo que puede considerarse como una implementación diferente de S. El programa fue desarrollado en Bell Laboratories por John Chambers y sus colegas. Hay algunas diferencias importantes, pero gran parte del código escrito para S se ejecuta sin cambios en R. R proporciona una amplia variedad de técnicas estadísticas (modelado lineal y no lineal, pruebas estadísticas clásicas, análisis de series temporales, clasificación, agrupamiento, …) y técnicas gráficas, y es altamente extensible. El lenguaje S suele ser el vehículo elegido para la investigación en metodología estadística, y R proporciona una ruta de código abierto para participar en esa actividad. [@usingrsa]

2.1 Descargar e instalar el programa R-project y R-studio

R-project Enlace para descargar el programa R-project

R-studio Enlace para descargar el programa R-studio

Instalar R por primera vez

2.2 Enlaces de interés

A continuación te dejamos algunos enlaces interesantes para aprender a usar R como herramienta para el análisis estadístico

R para principiantes

Una introducción a R

2.3 Primeros pasos con R

Puede resultar de mucha utilidad trabajar y guardar los comandos usados en un “script” de R. El script es básicamente un documento de texto donde uno puede ir escribiendo todos los comandos a ejecutar. Considerando el hecho de que si se antepone a una línea de comando el signo #, este no será ejecutado y el programa lo considerará como un comentario.

Script en R

2.3.1 Librerías

Paquetes que usualmente son necesarios instalar. Elimine los signos # para instalarlos por primera vez.

# install.packages("hrbrthemes")
# install.packages("viridis")
# install.packages("dplyr")
# install.packages("data.table")
# install.packages("bookdown")
# install.packages("agricolae")
# install.packages("fastmap")
# install.packages("grDevices")
# install.packages("PNG")
# install.packages("readpng")
# install.packages("sandwich")
# install.packages("reticulate")
# install.packages("tidyverse")
# install.packages("crosstable")
# install.packages("prettydoc")
# install.packages("rmdformats")
# install.packages("DescTools")
# install.packages("kableExtra")
# install.packages("expss")
# install.packages('descr')
# install.packages("gtools")

2.3.2 Ayuda del R

Una de las cosas más importantes a la hora de trabajar con R es aprender a usar la ayuda. Para obtener la ayuda sobre alguna función o comando de R basta con escribir el comando help() y dentro del paréntesis incluir el nombre de la función o comando

help("seq")

La ayuda de R

2.3.3 R como calculadora

Puedes usar el programa R como una calculadora, basta con conocer cuáles son los signos y comandos a utilizar para realizar las opereaciones. Copia los comandos en tu script de R y ejecútalos para ver los resultados.

#suma
2+2

## [1] 4

#multiplicación
2*2

## [1] 4

#división
2/2

## [1] 1

#potencia
4^2

## [1] 16

#raíz cuadrada
sqrt(16)

## [1] 4

2.3.4 Carga de datos

Un primer paso para usar R en el estudio de la Estadística se relaciona con el proceso de cargar datos, que luego puedan ser analizados. Considera las variables “Edad del estudiante” y su “Altura”, carga los datos para luego realizar algunas operaciones estadísticas con ellos.

#cargamos una variable cuantitativa discreta
edad<-c(11,12,12,15,12,41)
edad

## [1] 11 12 12 15 12 41

#cargamos una variable cuantitativa contínua
altura=c(50,65,120,156,60,182)
altura

## [1]  50  65 120 156  60 182

#cargamos una variable cualitativa nominal
sexo=as.factor(c("Hombre","Mujer","Mujer","Hombre","Mujer","Mujer"))
sexo

## [1] Hombre Mujer  Mujer  Hombre Mujer  Mujer 
## Levels: Hombre Mujer

#cargamos una variable cualitativa ordinal
niveleducativo=as.factor(c("Sin instrucción","Educ. Básica","Educ.Básica","Unviversitaria","Unviversitaria","Educ. Básica"))
niveleducativo

## [1] Sin instrucción Educ. Básica    Educ.Básica     Unviversitaria 
## [5] Unviversitaria  Educ. Básica   
## Levels: Educ. Básica Educ.Básica Sin instrucción Unviversitaria

2.3.5 Data frame

#para indicar a R que los datos cargados están relacionados
datos=data.frame(edad,altura,sexo,niveleducativo)
datos

##   edad altura   sexo  niveleducativo
## 1   11     50 Hombre Sin instrucción
## 2   12     65  Mujer    Educ. Básica
## 3   12    120  Mujer     Educ.Básica
## 4   15    156 Hombre  Unviversitaria
## 5   12     60  Mujer  Unviversitaria
## 6   41    182  Mujer    Educ. Básica

2.3.6 Tablas de frecuencia

Usando la función table()

# Tablas de frecuencias para sexo
tab_sexo <- table(sexo)
tab_sexo

## sexo
## Hombre  Mujer 
##      2      4

# Tablas de frecuencias para edad
tab_edad <- table(edad)
tab_edad

## edad
## 11 12 15 41 
##  1  3  1  1

# Tablas de frecuencias de doble entrada
tab_sexo_edad <- table(sexo,edad)
tab_sexo_edad

##         edad
## sexo     11 12 15 41
##   Hombre  1  0  1  0
##   Mujer   0  3  0  1

# Proporción por sexo y edades
tab_sexo_edad <- table(sexo,edad)
prop.table(tab_sexo_edad, margin = 1)

##         edad
## sexo       11   12   15   41
##   Hombre 0.50 0.00 0.50 0.00
##   Mujer  0.00 0.75 0.00 0.25

# la función summary
summary(datos)

##       edad           altura           sexo           niveleducativo
##  Min.   :11.00   Min.   : 50.00   Hombre:2   Educ. Básica   :2     
##  1st Qu.:12.00   1st Qu.: 61.25   Mujer :4   Educ.Básica    :1     
##  Median :12.00   Median : 92.50              Sin instrucción:1     
##  Mean   :17.17   Mean   :105.50              Unviversitaria :2     
##  3rd Qu.:14.25   3rd Qu.:147.00                                    
##  Max.   :41.00   Max.   :182.00

#Usando la función table.freq()
tab_Edad <- hist(edad, plot=FALSE)
tab_Edad2=table.freq(tab_Edad); tab_Edad2

##   Lower Upper Main Frequency Percentage CF   CPF
## 1    10    20   15         5       83.3  5  83.3
## 2    20    30   25         0        0.0  5  83.3
## 3    30    40   35         0        0.0  5  83.3
## 4    40    50   45         1       16.7  6 100.0

2.4 Representaciones graficas

2.4.1 Graficas circulares o de sectores

Algunas gráficas estadísticas con los datos cargados

# una gráfica para sexo
pie(table(sexo),labels = c("Hombres","Mujeres"), main="Pie Chart",edges = 200)

2.4.2 Gráficos de barras

# una gráfica de barras
barplot(tab_edad)

# Histograma de las edades
hist(edad)

2.4.3 Histogramas de frecuencias y de porcentajes

# Histograma de las edades
hist(edad)

2.5 Generación de sequencias

#X es el conjunto de los números del 1 al 5
x <- seq (1, 5)
x

## [1] 1 2 3 4 5

#X es un conjunto formado por la secuencia de números desde el -6 hasta el valor 6 con saltos de valor 0,1
# help(seq)
x <- seq ( -6, 6,by=0.1)
x

##   [1] -6.0 -5.9 -5.8 -5.7 -5.6 -5.5 -5.4 -5.3 -5.2 -5.1 -5.0 -4.9 -4.8 -4.7 -4.6
##  [16] -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1
##  [31] -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6
##  [46] -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1
##  [61]  0.0  0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4
##  [76]  1.5  1.6  1.7  1.8  1.9  2.0  2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9
##  [91]  3.0  3.1  3.2  3.3  3.4  3.5  3.6  3.7  3.8  3.9  4.0  4.1  4.2  4.3  4.4
## [106]  4.5  4.6  4.7  4.8  4.9  5.0  5.1  5.2  5.3  5.4  5.5  5.6  5.7  5.8  5.9
## [121]  6.0

#X es un conjunto formado por la secuencia de 100 números desde el -6 hasta el valor 6 redondeado con tres valores decimales
x <- round(seq ( -6, 6, len=100 ),3)
x

##   [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
##  [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
##  [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
##  [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
##  [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
##  [51]  0.061  0.182  0.303  0.424  0.545  0.667  0.788  0.909  1.030  1.152
##  [61]  1.273  1.394  1.515  1.636  1.758  1.879  2.000  2.121  2.242  2.364
##  [71]  2.485  2.606  2.727  2.848  2.970  3.091  3.212  3.333  3.455  3.576
##  [81]  3.697  3.818  3.939  4.061  4.182  4.303  4.424  4.545  4.667  4.788
##  [91]  4.909  5.030  5.152  5.273  5.394  5.515  5.636  5.758  5.879  6.000

2.6 Abrir una base y resumir

R ya incorpora una serie de bases de datos que te pueden resultar de utilidad para empezar a explorar las posibilidades de análisis estadístico que te ofrece este programa.

Como ejemplo vamos a explorara la base de datos llamada cars.

#cargar la base
data(cars)
#visualizar los encabezados
head(cars)

##   speed dist
## 1     4    2
## 2     4   10
## 3     7    4
## 4     7   22
## 5     8   16
## 6     9   10

#resumir con algunas estadísticas las variables de la base 
summary(cars)

##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

2.7 Funciones con R

En R existen funciones ya establecidas y de uso muy común como el que te permite calcular el valor promedio (mean()), o el que te permite calcular la varianza (var()), pero tambien es posible crear tus propias funciones, basta con usar el comando “function”, como se muestra en los ejemplos siguientes:

#una función de las variables o argumentos x,y,z que multiplica sus valores

z=function(x,y,z){
x*y*z
}

# aplicamos la función creada sobre algunos datos

a=z(2,5,10)
a

## [1] 100

#función que reproduce el valor de la varianza de un conjunto de datos d

d=c(1,2,3)

vari=function(x){
sum((x-mean(x))^2)/(length(x))
}

vari(d)

## [1] 0.6666667

3 Análisis combinatorio

3.1 Definiciónes

En matemáticas, una permutación de un conjunto es, en términos generales, una disposición de sus miembros en una secuencia u orden lineal, o si el conjunto ya está ordenado, una variación del orden o posición de los elementos de un conjunto ordenado o una tupla. La palabra “permutación” también se refiere al acto o proceso de cambiar el orden lineal de un conjunto ordenado.

Problema 1: Cuántas posibilidades de resultados ocurre cuando se extraen simultáneamente de una urna dos canicas, si en la urna existen 5 de color negro y 2 de color blanco, sin que importe el orden y b) si consideramos el orden

#librería para análisis combinatorio
library("gtools")

#a
combinations(2,2,c("b","n"),repeats=TRUE)

##      [,1] [,2]
## [1,] "b"  "b" 
## [2,] "b"  "n" 
## [3,] "n"  "n"

#b
permutations(2,2,c("b","n"),repeats=TRUE)

##      [,1] [,2]
## [1,] "b"  "b" 
## [2,] "b"  "n" 
## [3,] "n"  "b" 
## [4,] "n"  "n"

Para obtener ayuda de R al respecto de las permutaciones

#help(permutations)

Otros ejemplos

P=permutations(4,3)
P

##       [,1] [,2] [,3]
##  [1,]    1    2    3
##  [2,]    1    2    4
##  [3,]    1    3    2
##  [4,]    1    3    4
##  [5,]    1    4    2
##  [6,]    1    4    3
##  [7,]    2    1    3
##  [8,]    2    1    4
##  [9,]    2    3    1
## [10,]    2    3    4
## [11,]    2    4    1
## [12,]    2    4    3
## [13,]    3    1    2
## [14,]    3    1    4
## [15,]    3    2    1
## [16,]    3    2    4
## [17,]    3    4    1
## [18,]    3    4    2
## [19,]    4    1    2
## [20,]    4    1    3
## [21,]    4    2    1
## [22,]    4    2    3
## [23,]    4    3    1
## [24,]    4    3    2

combinations(3,2,letters[1:3])

##      [,1] [,2]
## [1,] "a"  "b" 
## [2,] "a"  "c" 
## [3,] "b"  "c"

combinations(3,2,letters[1:3],repeats=TRUE)

##      [,1] [,2]
## [1,] "a"  "a" 
## [2,] "a"  "b" 
## [3,] "a"  "c" 
## [4,] "b"  "b" 
## [5,] "b"  "c" 
## [6,] "c"  "c"

permutations(3,2,letters[1:3])

##      [,1] [,2]
## [1,] "a"  "b" 
## [2,] "a"  "c" 
## [3,] "b"  "a" 
## [4,] "b"  "c" 
## [5,] "c"  "a" 
## [6,] "c"  "b"

permutations(3,2,letters[1:3],repeats=TRUE)

##       [,1] [,2]
##  [1,] "a"  "a" 
##  [2,] "a"  "b" 
##  [3,] "a"  "c" 
##  [4,] "b"  "a" 
##  [5,] "b"  "b" 
##  [6,] "b"  "c" 
##  [7,] "c"  "a" 
##  [8,] "c"  "b" 
##  [9,] "c"  "c"

Desafío 1: Consideramos un tablero de ajedréz y dos puntos: A situado en el vértices inferior izquierda y B un punto situado en el vértice superior derecha. Se tratará de averiguar cuál es el número de caminos mínimos que hay de A a B. Aquí un camino mínimo de A a B es uno que sigue las líneas de la retícula y avanza siempre a hacia la izquierda ó hacia arriba, nunca a la derecha ni hacia abajo. Generalize para cualquier tablero de m filas y n columnas

Grafica del tablero de ajedréz con R [@chessR]

library('tidyverse')
# https://stackoverflow.com/questions/58769722/plotting-a-chessboard-in-r-how-to-name-columns-and-rows
chessboard = function(n){
  if(n > 26){
    stop('Ya board too big!')
  }
  board = expand_grid(X = 1:n, Y = 1:n)
  board = board %>% 
    mutate(color = ifelse((X - Y) %% 2 == 0, 'black', 'white')) %>% 
    mutate_all(factor)
  letter_labs = LETTERS[1:n]


  ggplot(data = board, aes(x = X, y = Y, fill = color)) +
    geom_tile() +
    scale_fill_manual(values = c('black' = "#FFFFFF", 'white' = "#000000")) +
    scale_x_discrete(labels = letter_labs, name = '') +
    scale_y_discrete(labels = letter_labs, name = '') +
    theme(legend.position = 'none')

}
chessboard(8)

Ver respuesta:
(Ejercicio 2.20) https://www.ugr.es/~anillos/textos/pdf/2014/Combinatoria.pdf \[ \frac{(n+m)}{n!m!} = {{n+m}\choose{n}} \]

Desafío 2: Dada la ecuación X + Y + Z + T = 13, determinar cuántas soluciones tiene en el conjunto N de los números naturales.

Ver respuesta:

Este problema se puede interpretar como colocar un total de 13 bolas en cuatro cajas: U1, U2, U3 y U4, y como hemos visto, el número de posibles distribuciones en el número de combinaciones con repetición de cuatro elementos tomados de 13 en 13. El valor es:

\[ \frac{(13+4-1)}{4-1} = \frac{(13+4-1)}{13} \]

4 Operaciones con conjuntos

4.1 Unión e intersección de conjuntos

Creando el vector i en R:

i=1:15
i

##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15

Creando el vector j en R:

j=10:25
j

##  [1] 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Creando la unión de los vectores i, j con la función union:

k<-union(i,j)
k

##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

También podemos crear la intersección de los vectores i, j con la función intersect:

l=intersect(i,j)
l

## [1] 10 11 12 13 14 15

Podemos saber la diferencia entre los vectores i, j (elementos que aparecen en i y no aparecen en j), con la función setdiff:

n<-setdiff(j,i)
n

##  [1] 16 17 18 19 20 21 22 23 24 25

Podemos comprobar si los vectores i, j son iguales mediante la función setequal:

o<-setequal(i,j)
o

## [1] FALSE

Graficamos los conjuntos

4.2 Diagrama de Benn

#install.packages("venn")
library("venn")

a=venn(3)

venn("010",zcolor="blue",opacity=0.5)

Tres conjuntos con rótulos.

a=c(2,4,6,8,10,11)
b=c(1,2,3,4,5,6)
c=c(5,6,7,8,9,10)
d=list(a,b,c)
d

## [[1]]
## [1]  2  4  6  8 10 11
## 
## [[2]]
## [1] 1 2 3 4 5 6
## 
## [[3]]
## [1]  5  6  7  8  9 10

venn(d)

Con la librería ggVennDiagram

ggVennDiagram(list(i,j), label_alpha = 0)

5 Experimentos Aleatorios y Determinísticos.

Cuando hablamos de un experimento aleatorio estamos hablando de variables que pueden tomar un valor de manera aleatoria, es decir, donde interviene el azar y, por lo tanto, no podemos estar seguros de cual va a ser el valor siguiente que se obtendrá, solo podemos suponer una cierta probabilidad. En econometría y series de tiempo a este tipo de sucesos aleatorios se les suele denominar random walk. Dentro de las variables aleatorias, se les puede clasificar en dos principales:

[1] Aleatorias discretas: No pueden tomar ciertos valores de un conjunto.

[2] Aleatorias continuas: pueden tomar infinitos valores.

Un ejemplo clásico para entender lo que es un evento aleatorio es el lanzamiento de una moneda. Cuando lanzamos la moneda ésta solo puede adquirir dos valores posibles: cara o cruz, ¿qué probabilidad tenemos de obtener alguno de los dos lados de la moneda? En este caso tenemos dos opciones posibles, por lo que podríamos decir que la probabilidad es del 50%, pero cuando hagamos un experimento lanzando monedas de manera indefinida, por ejemplo, unas 100 veces, es posible que no obtengamos 50 caras y 50 cruces, ya que es un evento aleatorio. Vamos a replicar el experimento en la consola de R, esto lo podemos hacer de la siguiente manera:

Ejemplo de las dos monedas Espacio muestral: conjunto de todos los posibles resultados EM=(CC,C+,+C,++) nroEM=2*2=4

Lanzamiendo de dos dados EM=((1,1);(1,2);….;(6,5);(6,6)) EM=6*6=36

Lanzamiento de 100 dados? nroEM=6666…..*6=

nroEM=6^100
nroEM

## [1] 6.533186e+77

6 Sucesos y eventos

Puedes realizar el experimento en casa: toma una moneda y lanzala 20 veces. Anota tus resultados y luego transcribelos en R dandole valores a cara y sello. Resultado de tirar n = 20 veces la monada donde: Cara = 1 y Sello = 0.

moneda = c(0,1,0,0,1,0,1,1,0,0,1,0,0,1,1,0,0,1,0,1)

fr = table(moneda)/length(moneda)
print(fr)

## moneda
##    0    1 
## 0.55 0.45

# Call vtree and give the root node a title
vtree(edges1b,"from to",title="Lanzamiento de una moneda")

7 Probabilidades

Definición clásica y frecuentista

Demostrar por definición de probabilidad clásica y frecuentista (simulaciones) los puntos a) La suma más probable al lanzar dos dados a) La suma más probable al lanzar cuatro dados a) La suma más probable al lanzar n dados

Cuando se lanza un solo dado

dado1=seq(1:36)
dado1

##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
## [26] 26 27 28 29 30 31 32 33 34 35 36

muestra1=sample(dado1, 30, replace = TRUE, prob = NULL)
muestra1

##  [1] 32 27 19 24 28  1 16 33 34 33 13  5 20 28 19  8 29 18  9 10 22  4 20  8 13
## [26] 35 14 15 35  1

Definir una funcion en R

media=function(x){sum(x)/length(x)}
x=c(1,2,3)
media(x)

## [1] 2

Cuando se lanza tres dados y se mide la suma de los tres resultados

t<-sapply(1:3000, function(x){sum(sample(1:6,3,rep=T))})
t

##    [1]  9 12  5 15 10 16  9 17  8 10  9 14  3 10  9  8  8  8 12 10  9 10 10 16
##   [25] 14  9 10  9  8  8 13  8  9  4  6 15 10 17 14  8 11 15 13 10 10  9 12 12
##   [49] 13  8 11 13 10 12 10  8  8 12 10 10 14  9 16 10 13 16 12  7 13 11 10 11
##   [73] 10 14 10  9 15  8 11 14  7 17  5 14 12 10 16  9 15 14 13 11 14  9 11  9
##   [97] 14 11  6 11  7 15  8 10 12 10  4  7 13  8 13  6 11 10 15 13  7 16  9  7
##  [121] 13 13  9 12 14 10  9  8  5  8 12  9  8 12 11 17 12 15 12 17 11  7  9  8
##  [145] 11 10 12 12  9 10 17 13 10  6 12 10  4  9  9 14 13 11  8  3 10 10  8 11
##  [169] 10  4 16 17 13 14  8  9  9 10 12 16  9 13 12 10 13 12 14 12  8 16  9 13
##  [193]  8  5 12 14  7  7  7  5  8 13 15  8  9 12 12  6  8 13 12 15 15 12 12 11
##  [217] 10 12 14  8 13  9 10  7 13 11 13 10 11 12  9 13 12  6 10  8 14 12  6 10
##  [241] 15 12 12 10  9 15  9 15 12  9 11 11 15  9 15  7  7 12 11  7  6 13  8 14
##  [265]  7 10  7 10  9 13 14 10 14  9  9  8  8  9  6 11 12  6 11 10 12 10 11 11
##  [289] 16 15  8 12 10  8  9 12 14  6  6 11  5 12 15 12 10  6 12  7  6 10 15 11
##  [313]  9 14 14 11 12 12 11  9 12 12 11 10  7 11 10 12 10 15 10 11  6 15  8 11
##  [337]  6 11  9 18 12  5  7 10 11 15 11  8  8 14 10  6 12  7 11 10 15  6  7  6
##  [361] 16 13 10 11 11  9  9 11  6  8 13 14 12  6  9 10  6 15 12 13  7 14 16 13
##  [385]  8  8  8 16 14 12  6 16  9 14 10 12 12 11  9  7 13 13 10 14  6 14 15  9
##  [409] 14  7  5  7 13 10 13 14  6  9 11 13  8  9  9 10 12  7  7 12  5 14  9 11
##  [433] 11  5 10 18 10 10 16  9 13 11 10  8 15 10 13 10 13  7  9 10  6  8 12 14
##  [457] 13 12  9 12  7 11 11 13 11 14 12 11  9  8  9  8 11 14 14 16 13 10 11  7
##  [481] 10 12 12  4  7 18  9 10 11 10 10 11  9 16  8 15 10 14 11 12 12 10 15  8
##  [505] 17 11 12 11 13 11 10 14  7 15  9 11  6 14  8 15 11  4  7  8  7  8 10  9
##  [529] 12 12 10 15 12  6 14 12 15 10  8  9 13  7 10  7 15 12 18 10 14 11  7  4
##  [553] 12  8 10  6 13  9 10  5 12 13 16 13 11  7 15 12 12  7  8  5 10 13  9 12
##  [577] 10 11 10  8  5  8  9 10  7  5  4 10 13  4  4  5  9 12  8  9 14 10  7 13
##  [601] 13  8 11 18 11  4 11 10  4 10 13 18 12  4  8 10  8 14  9 12 15  8 15  6
##  [625] 11 12  9  8 13  6 16 10 10  7 12 10 10  9 11  9  9 10  7 12 12  7  7 10
##  [649] 12 12  7  6 10  9  8 13 14  7 11 10  9  8 14 12  6  8 16 12  8  9 14  9
##  [673] 10  6  7  7  9 12 10  7 10  9 11  7  9 11  4  9  9 10  6 11 12 11 12 12
##  [697] 10 16 18 10 15 15  9 12 11 11 12  7 13  9 10  5 12  9 12 13 12 16 17 14
##  [721]  9  9  3 11 12  7  6  8  9  9  5 14 17 10  9 10  5 11 12 12 11 10 11  5
##  [745]  9 12 11 12 10 10 15 10 14 12 16 11  8 13 13 12  8 11 10 12  9  9 11 12
##  [769] 16 12 12 12 12 10 11  9 10 12  9 17 11 10 12  8 11 11  9  5 10 10  8  8
##  [793]  8  4  9 12 13 15 16 12 10 11 13  8  8 12 14 10 11 11 13 13 12  9  9  8
##  [817] 11 10  4 15 17  7  7  9 14 10 10 13 13 13  8 13  8 13 13  9  7  7 13  5
##  [841] 13 13 13  6 13 10  7  8 11 10 10  9 13 14  6 14  7 10 10 17 11  6 12 14
##  [865]  9 10 13  9 16 13 12  8 11 14 10 14  9 11 13 13 16 11  5 15 11 11  5 12
##  [889] 10  5 14 11 11 16 10 13 12 10 12 13 15  7  9 11  6 12 10  5 10 15  8 11
##  [913] 14  9 13 18  6  9  7 13 12 14 10 17 12 15  8 12 12 13  8 11 15 12 14 14
##  [937] 14  9 10 11 12 11  6 11 12 14 11  6  9 12 10  9 15 13 11 15  7  6 16  8
##  [961] 15 10 12 16 13 10  8 15 12  8 17  9 13 16  9  4 15 12 12 14 10 10  7  9
##  [985] 15  7 11 13 11 11  3  9  6  9 12  7 12  8  5 13 10 10 12 12 10 11 16 15
## [1009]  5 18 15 12  9  9 16  7 11  9 13 12  9  9  8  8 14  8  7 12  6 13  7  8
## [1033] 13  9 10  9  7 13  5 12  7  8  5 11  7 11  8  8  7 10 12 12 15 14  9  9
## [1057]  9 11 13 11 10 12 14 11  4 12  7 10 15 11  9 15 13 12 11  9 10  9  7 13
## [1081]  8  9 10 13 10 11 13 12  9 10  8 12 13  9 15 14  7 15  8 14  5 10 17 13
## [1105] 11 16 13 11 15 12  5  7  4  8  9  9  4 10  8  8 15 11 10 11 10  7  8 10
## [1129]  5 13  9 11  4  9  8  8 15 15 10 15 11 14 11 12 10 14  8  6 10 11 12 12
## [1153]  9 14 12 16  9  7 16 16 11  5  8  8  9  8  5  8 11  9  9 12 15  9 16 12
## [1177] 12  5 12 13 10 13  9 11 10  8 14 12 14  9 12 14  5 12 16 10 10 11 11 10
## [1201] 13 11  8 12  9  8 13  8 12 13  9  8 10 13 12  9 14 10 10  7 13 13 16 10
## [1225] 12  7  5 14 13 13 13  8 11  4  8 11  5 16 14 10 10 13 12 11 14  8 10 13
## [1249]  9 12 12  7 11 10 12 18 10 14 10  6 15  9 12 12  8 12  5 11  6  9 15  4
## [1273]  5 13  6  4 14 12 17 12 11  6  9 13  8 13 12 11 12 10 14 10  7 11 12 13
## [1297]  8 13  7  9 13  7 11 11 12  7  9  5 12  8 12  5  9 13 13 15 11  8  9  7
## [1321]  5  8 13 11 11  9 10 12 15  8  7 11 12  6  8 11  9 13 12 12 14 11 10 13
## [1345] 11 10 10 10 13 12 10 16  9 14  7 11 12  8  8 16 16 13 10  6  9  9  7 17
## [1369]  4 13 15 13 10 15 11  9  9 15 13 10 11  5 13  6  8  7 13 14  7 12 11  9
## [1393]  6 10 12 11 11 11 12  9 12 13 11 16 12 10 14 11  9 14  8 13  9 11  8 11
## [1417] 11  9 10 10 17  4 14 15 11 14 14  7 11 13 15 11 12  7 13 10  9 11  9  7
## [1441] 12  5 11 13 14 10  8 10 10 10 13  9 10 12 14  9 15 12  6 13  7  8  9 10
## [1465] 14  7 14 16  7 13 10  9  5 13  8 13 13 12  7  9  9 13 17  5 11  7 13 10
## [1489]  9 11 12 14 11  9  7  9 11  7  8 10 10 11 11 12 12  9 11 15 10  6 13  8
## [1513]  9 11 11  5 12 12 12 10 13  9  6  5  7 14 11 15 11 11 14  9 10  7 15 12
## [1537]  5  9 17  9  9 13 13 17 14 12 14 14 15 11  8  6  8 11  8  5  9 10 10 12
## [1561]  7  7  8 13 14 10 14  7  8  9 10 10 15 10 10  9 10  9 11  7  9  4 12 12
## [1585]  9 12 12 14  5 14 16  8  7  9 10  9 14 12 17  8 16 11 12 14 11  6  7 14
## [1609]  6  8 11  5 12 11  8  8 14 11 12 11 11 11 13 10  9 10  9  8 12 13  9  3
## [1633]  9  8 14 15 10  4 13  9 13 14 15  7  9 12  5  8 14 13 17  6 11 10  8 16
## [1657] 14  5 11 12  7 10  8  6 12 15  6  9 13 13 11 13 14  9  7  8 10 17  6 12
## [1681] 13 10 12  9  6 11 13  6  9 15  8  5 11 11  8 15 14 11 12  7 12 13 12 16
## [1705]  5 11 12 14 12 16 11  5  8 15  8 10 13 13 14  7  7 14 11  4 12  9 13  8
## [1729] 12  8 10  6 14 12 12 12 15 13  7 15  7  9  6 10  7 13 14 13 10 13 13  6
## [1753] 10  8 12 13 11 10  9 13  7  9  9 11  7  9  8 14  7 10  9  7 11 12 10 13
## [1777] 14  8 11 12 13 11  7  9  8 16 12 17 10 10 11 10 10  9 16 10  7 15 12 14
## [1801] 14 10 16 15  7 10  6 13  8  9 12 10  6 13  5  8 10  7 16 13 13 12 12 11
## [1825] 12 11 10  8 13 10 11 11 14 10  9 11  7  8  7  9  9 13 14 16 13 11  7  5
## [1849]  6 12  7  9 11  9 12 11 13 10  3 12 12 13 14  9 13 11 13 14 11  9 17 11
## [1873]  9  7  7 11 15 12 10 10  9 11  8 11 16 10  9  8 11  7 15 12 10 12 13 13
## [1897] 16  7 11 11 15  8  7  6 10 10 13  9  7 10  9 11 10  7 12 12  8 14 10  9
## [1921]  9 10  3  7 10 13 14 11 11 13 12 10  8  9 15 13  7 12 15 11 15 15  7 10
## [1945] 10  9 11  9  6 10 10 12  9 11 13  8 16  9 14 13 12  9 11 13 12  7  6 12
## [1969] 12  8 17 12 10 15  8 13 11 11  9  8  9 11 10  7 13 12 10  8  7  5  8 10
## [1993]  5 11  7 11  4 13 13 15 16 12 10 11 13 11 10 12 14 10  7  7 11  9  6 10
## [2017] 11  8  6  9 11  9 15 11 10 13 10 16 15 12  6 10 13  9  8 13 11 10  9  3
## [2041] 14 10 11 15 12  5  8 11  7  7 11  9 11 11 16  5 12 12  9  6 13 12  7 17
## [2065] 14  9 15 14  9  9  9  8  9  6 11  6 16 12  9  7 15 14  9 13 15 16 12 10
## [2089] 14 14  5 12 10 14  8  5 14 13 14  5  8  6  9 10 10  8  9 16 16 13  8 14
## [2113]  4 13 13 15 11 13  8  8 10 17 11  7 12 18 10 10  8  9  8 11 10  8 12  4
## [2137]  8  8 15 12 12 12 12 12  8 11  8  9  5 11 13  5 15 13 10 16 14 13 10 10
## [2161] 16 16 12  9 10 13  5 10 14 15  5  8 14 12  8 10 12 10 12 15 12 12 12  8
## [2185]  9 12  7 10 11  9  9 10 17 14 10  8  9 17  8 10 13 12 11  9 16  9 11  6
## [2209] 15  8  9 10 13 12  8 15  6 16 15 11  9 14 13 12 17  9 12  9  7  7 16  9
## [2233] 16  9  9 14  8 10 16 10 10  4  9 11  9  8  5  9 12 14 14 10 11  6  9  5
## [2257] 14 14 12 14 17 13 10  9 12 10 15  6 12 12 15 15  8 12 11 15  7  6 10  8
## [2281] 12 10 10  9  7 12 11  8  8 10 10 10 10 13 16 10  9  7 10  4  7  8  6 11
## [2305] 14 10 15 12  7 11  9  8 12  7 10 10 13 10  8 11 12 13 11  4 11 12 15 13
## [2329] 14 10  9  9  6  7  7  9 14  6 12  7 16  8 13 13 11 13 16 14 14 10 12  7
## [2353] 14 12 14 10 14 10 13 11 11  5  9  8 17  9  8 10  8 13 15  9  8 10 15 13
## [2377] 14 15  5 16  6 14 11 10 14 13  9  8 15 11 18  6  9 12 11 11  6 10 10  9
## [2401] 13 12  9 12 16 11 10  6  5 13 10 12 14 10 11 15  8  9  8  9 11 15 14 10
## [2425]  7  8 13  5  5 11 13  9 10 11  9 13 12  8  6 12 12  4 12 11  9 12 12  8
## [2449] 11 11 13 11 11  4 12 13 11  9  9 12 12 15  5 16 10 12 10 10  6  8  8 11
## [2473] 13 16  9 10  6  9 13 12 11 11  9 11  8 10 12 11 10  8 14  7 11  9 15 14
## [2497] 10 10  8  7  9 10 10  9 10 17  7  7  6 11 12  9 15  8 12 13 10  7  9  8
## [2521] 14  7  8  8  9  6  9 11 12  9 11 12 13 14 14 12 13 10  5 12 16 13  9 10
## [2545] 11  7 11  9 14 14  9 15  9 14  4 14 11 11 11  8  9 13  3 11  6 10  9 12
## [2569] 11  8  6 11 11  9  9 16 14 11  8 16  6 11  8 11  8 10  8  9 15 15 14 12
## [2593]  8 11  9 14 11 15  5  7  5 12  9 10 12 15 15  6  8  8 12 14  7  8 10  9
## [2617] 12 12 11 11 17 13  4 12 16 14 13  7  9 10  5 10  8  8 12 13 13  6 17  3
## [2641]  5 11 12 12 14  8  8  9  6 11 14  5 12 10  8 13 10 15 10  4 15 11  5 10
## [2665]  9 11  9 13 12 13 12 11  6  8 10  9 15 11 11  8  8 14 13  6 10  4  7 13
## [2689] 11  9 16  8  6 14 13  5 11 12 12 11  9 13 14  8  9  9 11  9 17  9  5  4
## [2713] 15 16  9 10 11 12 12 12 13  9  8 13 11 10 16 10 13 15 11 16 13 15 12 15
## [2737] 11  7  7  4  4  8 11  6  8  7  9 11 12 16 11 12  5 12 10 14 11 14 10 10
## [2761]  9 15  6  8 10  9 11 12 12 17 13 16 13 16 15 12 14 15 11 12 10 12  9  6
## [2785] 14 13  8 11  8 11  5 12 10 13 11  9  4 10  8 15 13  9  9  9  9 10 16 10
## [2809] 10  7  6 10 12  9  8  5  9  8 11 15 10  6 14 17 10  7 12 12 16  8 13 11
## [2833]  6 14  9 10  9  6  9  7 13 11 11 10  6 11 11 11 11 10 10 13 10 13 10 12
## [2857] 13  9 10 11  9  9  9 12 12 10 11 13  7 11 14 12 12 13 10 12 15  5 12 12
## [2881]  8  6 10  7  8 12  7 16  9  9  6  9  6 11 11  7 10 12  9 11  7  9 10 16
## [2905] 14  6 15 11 16 15  4 16  8 12 10 12 10  4  9 13 13 10 12 11  9  6  9  8
## [2929]  7 12  8  4 11  8 14 13  8 14  8 12 11  9  8 15  5 14  6 10 13 14 11 15
## [2953]  7  9 14  7 17  6 10 14  7  9 12  5 11  5 12  8  9 10 12 10  9  7 13  5
## [2977]  9 11  7 12  6  5  5 17 12 10  8  8  9 13 14  8  7 14  9 11 12 11 10 12

plot(table(t))

Desafío: Determinar la suma más probable al lanzar 6 dados simultáneamente

8 Probabilidad condicional

8.1 Probabilidad condicional

Es un concepto crucial en teoría de la probabilidad y subyace al propósito principal del análisis de regresión logística.

La probabilidad de un evento A después de que nos enteramos de que se ha producido el evento B se denomina probabilidad condicional de A dado B. Formalmente:

\[\mathbb{P}(A \mid B)\]

Ejemplo: - Experimento: tirar un dado “justo” - Espacio muestral, $\Omega: \{1,2,3,4,5,6\}$ - A es el evento de obtener un cuatro o más, $A: \{4,5,6\}$ - B es el evento de obtener un número par, $B: \{2,4,6\}$

Supongamos que tiramos el dado pero no miramos el resultado todavía. Una tercera persona nos dice que obtuvimos un número par.

Pregunta: ¿Cuál es la probabilidad de obtener un cuatro o más una vez que sabemos que el resultado es un número par?

Formalmente, nuestra pregunta se expresa del siguiente modo: $\mathbb{P}(A \mid B )$. Para calcular esta probabilidad utilizamos la siguiente fórmula:

\[\mathbb{P}(A \mid B ) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)}\] Intuitivamente, queremos saber en qué proporción de los casos en que B ocurre, A también ocurre.

\[\mathbb{P}(A \mid B ) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)}\]

Donde, - $\mathbb{P}(B)$ es la probabilidad de que B ocurra: obtener un número - $\mathbb{P}(A,B)$ es la probabilidad de que A y B ocurran conjuntamente: obtener un número .bold[par, igual o superior a 4

\[\begin{align} \mathbb{P}(A | B ) &= \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)} \\ \\ &= \frac{\mathbb{P}(\text{dado=4 o dado=6}) }{\mathbb{P}(\text{dado=2 o dado=4 o dado=6})} \\ \\ &= \frac{2/6}{3/6} = \frac{1}{3} \times 2 \end{align}\]

8.2 Teorema de Bayes

La probabilidad de A dado B está definida como:

\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad (1)\]

Por tanto, la probabilidad de B dado A está definida como:

\[\mathbb{P}(B \mid A) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(A)} \quad \quad \quad \quad \quad (2)\]

Por tanto:

\[\mathbb{P}(A,B) = \mathbb{P}(B \mid A)\mathbb{P}(A) \quad \quad \quad \quad (3)\]

Reemplazando (3) en (1) obtenemos:

\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(B \mid A)\mathbb{P}(A)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad \] Entonces, si

\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(B \mid A)\mathbb{P}(A)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad \]

re-ordenando la expresión encontramos …

Teorema de Bayes: \[\mathbb{P}(B \mid A) = \frac{\mathbb{P}(A \mid B)\mathbb{P}(B)}{\mathbb{P}(A)} \quad \quad \quad \quad \quad \]

Bayes’ theorem in three panels

https://www.r-bloggers.com/2020/03/bayes-theorem-in-three-panels

Problema: Supongamos que un 5% de la población son mujeres (M) con estudios universitarios completos (U). Las mujeres representan un 55% de la población. Un 20% de la población tiene estudios universitarios completos. Pregunta:

¿Cuál es la probabilidad de que una mujer tenga estudios universitarios completos?

\[ \begin{align} \mathbb{P}(U \mid M) = \frac{\mathbb{P}(U,M)}{\mathbb{P}(M)} = \frac{0.05}{0.55} \approx 0.09 \end{align} \]

¿Cuál es la probabilidad de que una persona con estudios universitarios completos sea mujer?

\[ \begin{align} \mathbb{P}(M \mid U) = \frac{\mathbb{P}(U,M)}{\mathbb{P}(U)} = \frac{0.05}{0.2} = 0.25 \end{align} \]

¿Cuál es la probabilidad de que una persona con estudios universitarios completos sea hombre (H)? $$ \[\begin{align} \mathbb{P}(H \mid U) = \frac{\mathbb{P}(U,H)}{\mathbb{P}(U)} = 1- \mathbb{P}(M | U) = 1 - 0.25 = 0.75 \end{align}\]

¿Cuál es la probabilidad de que un hombre tenga estudios universitarios completos?

Problema: Supongamos que enviamos una encuesta a 300 personas preguntándoles qué deporte les gusta más: Voleibol, Basket, Fútbol o Tenis. a) Calcular la probabilidad de que sea mujer, dado que el individuo prefiere el básket b) Calcular la probabilidad de que sea hombre, dado que el individuo prefiere el fútbol c) Calcular la probabilidad de que sea mujer, dado que el individuo prefiere el básket d) Calcular la probabilidad de que el individuo prefiera el tenis c) Calcular la probabilidad de que el individuo prefiere el Voleibol

Problema: Calcular y demostrar la probabilidad medante teorema de Bayes del siguiente ejercicio: Un fabricante de teléfonos celulares compra un microchip en particular denominado “LS-24” a 3 proveedores Hall Electronics, Schuller Sales,y Crawford Components. Del total de piezas 30% la adquiere Hall Electronics; 20% de Schuller Sales y el restante 50% de crawford. El fabricante cuenta con amplias historiales con los 3 proveedores y reconoce los porcentajes de defecto de los dispositivos de cada proveedores: 3% Hall Electronics 5% Schuller sales 4% Crawford Componens Cuando el fabricante recibe el material y lo lleva directamente a un depósito y no lo inspecciona ni lo identifica con el nombre de proveedor. Un trabajador selecciona un microchip para instalarlo y lo encontró defectuoso. ¿Cual es la probabibilidad que lo hayan fabricado Schuler Sales?

8.3 Encuesa Permanente de Hogares

#define data frame

df1 <- data.frame(var1=c(4, 13, 7, 8),
                  var2=c(15, 9, 9, 13),
                  var3=c(12, 12, 7, 5))
df1

##   var1 var2 var3
## 1    4   15   12
## 2   13    9   12
## 3    7    9    7
## 4    8   13    5

#define second data frame

df2 <- data.frame(var1=c(4, 13),
                  var2=c(9, 12),
                  var3=c(6, 6))
df2

##   var1 var2 var3
## 1    4    9    6
## 2   13   12    6

#append the rows of the second data frame to end of first data frame

df3 <- rbind(df1, df2)
df3

##   var1 var2 var3
## 1    4   15   12
## 2   13    9   12
## 3    7    9    7
## 4    8   13    5
## 5    4    9    6
## 6   13   12    6

9 Importar los microdatos de la EPH

Descargar los microdatos

#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2021/data/9e824reg02_ephc2021.csv"
#download.file(url,"EPH2021.csv")

Leer los microdatos

eph2021=read.csv("EPH2021.csv",sep =";")
#str(eph2021)

names(eph2021)

##   [1] "UPM"                 "NVIVI"               "NHOGA"              
##   [4] "DPTOREP"             "AREA"                "L02"                
##   [7] "P02"                 "P03"                 "P04"                
##  [10] "P04A"                "P04B"                "P05C"               
##  [13] "P05P"                "P05M"                "P06"                
##  [16] "P08D"                "P08M"                "P08A"               
##  [19] "P09"                 "P10A"                "P10AB"              
##  [22] "P10Z"                "P11A"                "P11AB"              
##  [25] "P11Z"                "P12"                 "A01"                
##  [28] "A01A"                "A02"                 "A03"                
##  [31] "A04"                 "A04B"                "A04A"               
##  [34] "A05"                 "A07"                 "A08"                
##  [37] "A10"                 "A11A"                "A11M"               
##  [40] "A11S"                "A12"                 "A13REC"             
##  [43] "A14REC"              "A15"                 "A16"                
##  [46] "A17A"                "A17M"                "A17S"               
##  [49] "A18"                 "A18A"                "B01REC"             
##  [52] "B02REC"              "B03LU"               "B03MA"              
##  [55] "B03MI"               "B03JU"               "B03VI"              
##  [58] "B03SA"               "B03DO"               "B04"                
##  [61] "B05"                 "B05A"                "B06"                
##  [64] "B07A"                "B07M"                "B07S"               
##  [67] "B08"                 "B09A"                "B09M"               
##  [70] "B09S"                "B10"                 "B11"                
##  [73] "B12"                 "B12A"                "B12B"               
##  [76] "B12C"                "B13"                 "B14"                
##  [79] "B15"                 "B16G"                "B16U"               
##  [82] "B16D"                "B16T"                "B17"                
##  [85] "B18AG"               "B18AU"               "B18BG"              
##  [88] "B18BU"               "B19"                 "B20G"               
##  [91] "B20U"                "B20D"                "B20T"               
##  [94] "B21"                 "B22"                 "B23"                
##  [97] "B24"                 "B25"                 "B26"                
## [100] "B271"                "B272"                "B28"                
## [103] "B29"                 "B30"                 "B31"                
## [106] "C01REC"              "C02REC"              "C03"                
## [109] "C04"                 "C05"                 "C06"                
## [112] "C07"                 "C08"                 "C09"                
## [115] "C101"                "C102"                "C11G"               
## [118] "C11U"                "C11D"                "C11T"               
## [121] "C12"                 "C13AG"               "C13AU"              
## [124] "C13BG"               "C13BU"               "C14"                
## [127] "C14A"                "C14B"                "C14C"               
## [130] "C15"                 "C16REC"              "C17REC"             
## [133] "C18"                 "C18A"                "C18B"               
## [136] "C19"                 "D01"                 "D02"                
## [139] "D03"                 "D04"                 "D05"                
## [142] "E01A"                "E01B"                "E01C"               
## [145] "E01D"                "E01E"                "E01F"               
## [148] "E01G"                "E01H"                "E01I"               
## [151] "E01J"                "E01K"                "E01L"               
## [154] "E01M"                "E02D1"               "E02D2"              
## [157] "E02B"                "ED01"                "ED02"               
## [160] "ED03"                "ED0504"              "ED06C"              
## [163] "ED08"                "ED09"                "ED10"               
## [166] "ED11F1"              "ED11F1A"             "ED11GH1"            
## [169] "ED11GH1A"            "ED12"                "ED13"               
## [172] "ED14"                "ED14A"               "ED15"               
## [175] "S01A"                "S01B"                "S02"                
## [178] "S03"                 "S03A"                "S03B"               
## [181] "S03C"                "S04"                 "S05"                
## [184] "S06"                 "S07"                 "S08"                
## [187] "S09"                 "CATE_PEA"            "TAMA_PEA"           
## [190] "OCUP_PEA"            "RAMA_PEA"            "HORAB"              
## [193] "HORABC"              "HORABCO"             "PEAD"               
## [196] "PEAA"                "TIPOHOGA"            "FEX"                
## [199] "NJEF"                "NCON"                "NPAD"               
## [202] "NMAD"                "TIC01"               "TIC02"              
## [205] "TIC03"               "TIC0401"             "TIC0402"            
## [208] "TIC0403"             "TIC0404"             "TIC0405"            
## [211] "TIC0406"             "TIC0407"             "TIC0408"            
## [214] "TIC0409"             "TIC0501"             "TIC0502"            
## [217] "TIC0503"             "TIC0504"             "TIC0505"            
## [220] "TIC0506"             "TIC0507"             "TIC0508"            
## [223] "TIC0509"             "TIC0510"             "TIC0511"            
## [226] "TIC0512"             "TIC0513"             "TIC06"              
## [229] "TIC07"               "añoest"              "ra06ya09"           
## [232] "e01aimde"            "e01bimde"            "e01cimde"           
## [235] "e01dde"              "e01ede"              "e01fde"             
## [238] "e01gde"              "e01hde"              "e01ide"             
## [241] "e01jde"              "e01kde"              "e01lde"             
## [244] "e01mde"              "e01kjde"             "e02bde"             
## [247] "ingrevasode"         "ingrepytyvõde"       "ingresect_privadode"
## [250] "ipcm"                "pobrezai"            "pobnopoi"           
## [253] "quintili"            "decili"              "quintiai"           
## [256] "decilai"             "informalidad"

#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2020/data/55f07reg02_ephc2020.csv"
#download.file(url,"EPH2020.csv")
eph2020=read.csv("EPH2020.csv",sep =";")
#head(eph2020)

#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2019/data/4edb7reg02_ephc2019.csv"
#download.file(url,"EPH2019.csv")
eph2019=read.csv("EPH2019.csv",sep =";")
#head(eph2019)

#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2018/data/3493ereg02_ephc2018.csv"
#download.file(url,"EPH2018.csv")
eph2018=read.csv("EPH2018.csv",sep =";")
#head(eph2018)

eph2018s=subset(eph2018,P02>14,select=c("AREA","P06","P02","e01aimde","PEAA","FEX"))
eph2018s$year <- 2018
#head(eph2018s)
names(eph2018s)

## [1] "AREA"     "P06"      "P02"      "e01aimde" "PEAA"     "FEX"      "year"

# select variables v1, v2, v3
eph2019s <- subset(eph2019, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX"))
eph2019s$year <- 2019
names(eph2019s)

## [1] "AREA"     "P06"      "PEAA"     "P02"      "e01aimde" "FEX"      "year"

eph2020s <- subset(eph2020, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX"))
eph2020s$year <- 2020
names(eph2020s)

## [1] "AREA"     "P06"      "PEAA"     "P02"      "e01aimde" "FEX"      "year"

eph2021s <- subset(eph2021, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX"))
eph2021s$year <- 2021
names(eph2021s)

## [1] "AREA"     "P06"      "PEAA"     "P02"      "e01aimde" "FEX"      "year"

Juntar las bases en una sola

eph2018a2021 <- rbind(eph2018s, eph2019s,eph2020s,eph2021s)
#head(eph2018a2021)

Exploramos la base compilada

str(eph2018a2021)

## 'data.frame':    51664 obs. of  7 variables:
##  $ AREA    : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ P06     : int  6 1 6 6 1 6 1 6 6 1 ...
##  $ P02     : int  60 21 36 79 26 20 21 72 30 33 ...
##  $ e01aimde: chr  "0" "2657944,294" "1005870,841" "170998,043" ...
##  $ PEAA    : int  3 1 1 1 1 1 2 1 1 1 ...
##  $ FEX     : int  393 393 393 519 519 519 519 225 343 416 ...
##  $ year    : num  2018 2018 2018 2018 2018 ...

eph2018a2021$e01aimdec = as.numeric(gsub(",", ".", as.character(eph2018a2021$e01aimde)))
summary(eph2018a2021$e01aimdec)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##         0         0    500000   1358883   2000000 323372117

hist(eph2018a2021$e01aimdec )

PEAA condición de ocupación

table(eph2018a2021$PEAA)

## 
##     1     2     3 
## 34704  1965 14995

eph2018a2021$PEAA <- factor(eph2018a2021$PEAA, labels = c("Ocupados", "Desocupados", "Inactivos"))

table(eph2018a2021$PEAA,eph2018a2021$year)

##              
##               2018 2019 2020 2021
##   Ocupados    9013 9046 8587 8058
##   Desocupados  460  478  531  496
##   Inactivos   3880 3745 3765 3605

addmargins(table(eph2018a2021$PEAA,eph2018a2021$year),c(1,2))

##              
##                2018  2019  2020  2021   Sum
##   Ocupados     9013  9046  8587  8058 34704
##   Desocupados   460   478   531   496  1965
##   Inactivos    3880  3745  3765  3605 14995
##   Sum         13353 13269 12883 12159 51664

Edad

summary(eph2018a2021$P02)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   15.00   25.00   38.00   40.64   54.00  106.00

boxplot(eph2018a2021$P02)

hist(eph2018a2021$P02)

AREA (AREA)

table(eph2018a2021$AREA)

## 
##     1     6 
## 28200 23464

Eliminar de los ingresos los valores nulos y mayores a 100.000.000

ephing <- subset(eph2018a2021, e01aimdec > 0 & e01aimdec < 100000000 & P02   >=  15  & PEAA == "Ocupados")
head(ephing)

##    AREA P06 P02    e01aimde     PEAA FEX year e01aimdec
## 2     1   1  21 2657944,294 Ocupados 393 2018 2657944.3
## 8     1   6  36 1005870,841 Ocupados 393 2018 1005870.8
## 9     1   6  79  170998,043 Ocupados 519 2018  170998.0
## 10    1   1  26 2124964,517 Ocupados 519 2018 2124964.5
## 11    1   6  20 1810567,515 Ocupados 519 2018 1810567.5
## 14    1   6  72  804696,673 Ocupados 225 2018  804696.7

eph2018a2021$AREA <- factor(eph2018a2021$AREA, labels = c("Urbana", "Rural"))

table(eph2018a2021$AREA)

## 
## Urbana  Rural 
##  28200  23464

eph2018a2021$P06 <- factor(eph2018a2021$P06, labels = c("Hombres", "Mujeres"))

table(eph2018a2021$P06)

## 
## Hombres Mujeres 
##   25351   26313

addmargins(table(eph2018a2021$P06,eph2018a2021$AREA),c(1,2))

##          
##           Urbana Rural   Sum
##   Hombres  13232 12119 25351
##   Mujeres  14968 11345 26313
##   Sum      28200 23464 51664

Cuál es la probabilidad de que una encuestado resulte ser Hombre y vivir en el área Rural

P_RyH=12119/51664
P_RyH

## [1] 0.2345734

\[P_RdadoqH_=P(RyH)/P(H)\]

P_RdadoqH_=(12119/51664)/(25351/51664)
P_RdadoqH_=(12119)/(25351)
P_RdadoqH_

## [1] 0.4780482

\[P(H/R)=P(HyR)/P(R)\]

P_HdadoqR_=13232/25351
P_HdadoqR_

## [1] 0.5219518

¿La probabilidad de estar desocupado dado que el entrevistado es un hombre?

addmargins(table(eph2018a2021$P06,eph2018a2021$PEAA),c(1,2))

##          
##           Ocupados Desocupados Inactivos   Sum
##   Hombres    20434         869      4048 25351
##   Mujeres    14270        1096     10947 26313
##   Sum        34704        1965     14995 51664

P_DESdadoqH

P_DESdadoqH=866/25351
P_DESdadoqH

## [1] 0.03416039

P_DESdadoqM

P_DESdadoqM=1096/26313
P_DESdadoqM

## [1] 0.04165242

Obtener la probb de que una persona menor de 30 años y que vive en el área rural esté ocupada

Ingreso en la ocupación principal

ephing <- subset(eph2018a2021, e01aimdec > 0 & e01aimdec < 100000000 & P02   >=  15  & PEAA == "Ocupados")
head(ephing)

##      AREA     P06 P02    e01aimde     PEAA FEX year e01aimdec
## 2  Urbana Hombres  21 2657944,294 Ocupados 393 2018 2657944.3
## 8  Urbana Mujeres  36 1005870,841 Ocupados 393 2018 1005870.8
## 9  Urbana Mujeres  79  170998,043 Ocupados 519 2018  170998.0
## 10 Urbana Hombres  26 2124964,517 Ocupados 519 2018 2124964.5
## 11 Urbana Mujeres  20 1810567,515 Ocupados 519 2018 1810567.5
## 14 Urbana Mujeres  72  804696,673 Ocupados 225 2018  804696.7

summary(ephing$e01aimdec)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      125   800000  1790674  2248055  2612195 99581213

boxplot(ephing$e01aimdec,ephing$P06)

hist(ephing$e01aimdec)

#Media ponderada de "E01AIMDE" total Nivel País en miles de guaraníes (a un decimal)
round(mean(ephing$e01aimdec),1)

## [1] 2248055

round(weighted.mean(ephing$e01aimdec , ephing$FEX),1)

## [1] 2342232

Probabilidades e Inferencia Estadística con R

Curso de Nivelación Máster en Estadística - 2022

Diego Meza

2022-11-15