Las herramientas tecnológicas para el estudio y la enseñanza de la estadística en la actualidad están ampliamente extendidas y disponibles incluso de manera gratuita. El estudio de los conceptos estadísticos teóricos, sus propiedades y teoremas relacionados, pueden verificarse fácilmente mediante la generación de ensayos y simulaciones de variables aleatorias. Programas estadísticos de licencia gratuita como el R-project se constituyen en un aliado estratégico que facilitan y simplifican al docente la transferencia de conocimiento y al estudiante su asimilación. El presente trabajo recopila el fruto de varios años de experiencia enseñando inferencia estadística apoyado en las simulaciones y ejercicios prácticos realizados usando este programa. La experiencia se concretó en el diseño y socialización de esta página web generado y publicado mediante la plataforma RStudio Cloud. En esta página se organizan los contenidos en varias secciones, que incluyen los códigos necesarios para realizar los ensayos de simulaciones que permiten verificar las propiedades y teoremas de los tópicos tratados en el curso de Probabilidades. Los estudiantes matriculados al curso pueden copiar los códigos para ejecutarlos en su propio ordenador, para verificar el efecto que tienen los cambios en los parámetros de los modelos de probabilidad estudiados, sobre los resultados de las simulaciones. Adicionalmente se incluyen una serie de estudios de casos con datos provenientes de registros administrativos y encuestas nacionales para aplicar los conceptos abordados en la solución de problemas sobre algunas variables relevantes. Actualmente, resulta imprescindible que todo estudiante de Estadística culmine la carrera con el manejo de un programa para el análisis estadístico, y R es una excelente opción que se puede disponer para el efecto.
R es un programa de código abierto, que tuvo inicios aproximadamente en el año 2000, como continuación de programa S. De acuerdo con la página oficial de R-project, este es un lenguaje y entorno para computación estadística y gráficos. Es un proyecto GNU que es similar al lenguaje y entorno S por lo que puede considerarse como una implementación diferente de S. El programa fue desarrollado en Bell Laboratories por John Chambers y sus colegas. Hay algunas diferencias importantes, pero gran parte del código escrito para S se ejecuta sin cambios en R. R proporciona una amplia variedad de técnicas estadísticas (modelado lineal y no lineal, pruebas estadísticas clásicas, análisis de series temporales, clasificación, agrupamiento, …) y técnicas gráficas, y es altamente extensible. El lenguaje S suele ser el vehículo elegido para la investigación en metodología estadística, y R proporciona una ruta de código abierto para participar en esa actividad. [@usingrsa]
R-project Enlace para descargar el programa R-project
A continuación te dejamos algunos enlaces interesantes para aprender a usar R como herramienta para el análisis estadístico
Puede resultar de mucha utilidad trabajar y guardar los comandos usados en un “script” de R. El script es básicamente un documento de texto donde uno puede ir escribiendo todos los comandos a ejecutar. Considerando el hecho de que si se antepone a una línea de comando el signo #, este no será ejecutado y el programa lo considerará como un comentario.
Script en R
Paquetes que usualmente son necesarios instalar. Elimine los signos # para instalarlos por primera vez.
# install.packages("hrbrthemes")
# install.packages("viridis")
# install.packages("dplyr")
# install.packages("data.table")
# install.packages("bookdown")
# install.packages("agricolae")
# install.packages("fastmap")
# install.packages("grDevices")
# install.packages("PNG")
# install.packages("readpng")
# install.packages("sandwich")
# install.packages("reticulate")
# install.packages("tidyverse")
# install.packages("crosstable")
# install.packages("prettydoc")
# install.packages("rmdformats")
# install.packages("DescTools")
# install.packages("kableExtra")
# install.packages("expss")
# install.packages('descr')
# install.packages("gtools")
Una de las cosas más importantes a la hora de trabajar con R es aprender a usar la ayuda. Para obtener la ayuda sobre alguna función o comando de R basta con escribir el comando help() y dentro del paréntesis incluir el nombre de la función o comando
help("seq")
La ayuda de R
Puedes usar el programa R como una calculadora, basta con conocer cuáles son los signos y comandos a utilizar para realizar las opereaciones. Copia los comandos en tu script de R y ejecútalos para ver los resultados.
#suma
2+2
## [1] 4
#multiplicación
2*2
## [1] 4
#división
2/2
## [1] 1
#potencia
4^2
## [1] 16
#raíz cuadrada
sqrt(16)
## [1] 4
Un primer paso para usar R en el estudio de la Estadística se relaciona con el proceso de cargar datos, que luego puedan ser analizados. Considera las variables “Edad del estudiante” y su “Altura”, carga los datos para luego realizar algunas operaciones estadísticas con ellos.
#cargamos una variable cuantitativa discreta
<-c(11,12,12,15,12,41)
edad edad
## [1] 11 12 12 15 12 41
#cargamos una variable cuantitativa contínua
=c(50,65,120,156,60,182)
altura altura
## [1] 50 65 120 156 60 182
#cargamos una variable cualitativa nominal
=as.factor(c("Hombre","Mujer","Mujer","Hombre","Mujer","Mujer"))
sexo sexo
## [1] Hombre Mujer Mujer Hombre Mujer Mujer
## Levels: Hombre Mujer
#cargamos una variable cualitativa ordinal
=as.factor(c("Sin instrucción","Educ. Básica","Educ.Básica","Unviversitaria","Unviversitaria","Educ. Básica"))
niveleducativo niveleducativo
## [1] Sin instrucción Educ. Básica Educ.Básica Unviversitaria
## [5] Unviversitaria Educ. Básica
## Levels: Educ. Básica Educ.Básica Sin instrucción Unviversitaria
#para indicar a R que los datos cargados están relacionados
=data.frame(edad,altura,sexo,niveleducativo)
datos datos
## edad altura sexo niveleducativo
## 1 11 50 Hombre Sin instrucción
## 2 12 65 Mujer Educ. Básica
## 3 12 120 Mujer Educ.Básica
## 4 15 156 Hombre Unviversitaria
## 5 12 60 Mujer Unviversitaria
## 6 41 182 Mujer Educ. Básica
Usando la función table()
# Tablas de frecuencias para sexo
<- table(sexo)
tab_sexo tab_sexo
## sexo
## Hombre Mujer
## 2 4
# Tablas de frecuencias para edad
<- table(edad)
tab_edad tab_edad
## edad
## 11 12 15 41
## 1 3 1 1
# Tablas de frecuencias de doble entrada
<- table(sexo,edad)
tab_sexo_edad tab_sexo_edad
## edad
## sexo 11 12 15 41
## Hombre 1 0 1 0
## Mujer 0 3 0 1
# Proporción por sexo y edades
<- table(sexo,edad)
tab_sexo_edad prop.table(tab_sexo_edad, margin = 1)
## edad
## sexo 11 12 15 41
## Hombre 0.50 0.00 0.50 0.00
## Mujer 0.00 0.75 0.00 0.25
# la función summary
summary(datos)
## edad altura sexo niveleducativo
## Min. :11.00 Min. : 50.00 Hombre:2 Educ. Básica :2
## 1st Qu.:12.00 1st Qu.: 61.25 Mujer :4 Educ.Básica :1
## Median :12.00 Median : 92.50 Sin instrucción:1
## Mean :17.17 Mean :105.50 Unviversitaria :2
## 3rd Qu.:14.25 3rd Qu.:147.00
## Max. :41.00 Max. :182.00
#Usando la función table.freq()
<- hist(edad, plot=FALSE)
tab_Edad =table.freq(tab_Edad); tab_Edad2 tab_Edad2
## Lower Upper Main Frequency Percentage CF CPF
## 1 10 20 15 5 83.3 5 83.3
## 2 20 30 25 0 0.0 5 83.3
## 3 30 40 35 0 0.0 5 83.3
## 4 40 50 45 1 16.7 6 100.0
Algunas gráficas estadísticas con los datos cargados
# una gráfica para sexo
pie(table(sexo),labels = c("Hombres","Mujeres"), main="Pie Chart",edges = 200)
# una gráfica de barras
barplot(tab_edad)
# Histograma de las edades
hist(edad)
# Histograma de las edades
hist(edad)
#X es el conjunto de los números del 1 al 5
<- seq (1, 5)
x x
## [1] 1 2 3 4 5
#X es un conjunto formado por la secuencia de números desde el -6 hasta el valor 6 con saltos de valor 0,1
# help(seq)
<- seq ( -6, 6,by=0.1)
x x
## [1] -6.0 -5.9 -5.8 -5.7 -5.6 -5.5 -5.4 -5.3 -5.2 -5.1 -5.0 -4.9 -4.8 -4.7 -4.6
## [16] -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1
## [31] -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6
## [46] -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1
## [61] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4
## [76] 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
## [91] 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.1 4.2 4.3 4.4
## [106] 4.5 4.6 4.7 4.8 4.9 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9
## [121] 6.0
#X es un conjunto formado por la secuencia de 100 números desde el -6 hasta el valor 6 redondeado con tres valores decimales
<- round(seq ( -6, 6, len=100 ),3)
x x
## [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
## [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
## [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
## [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
## [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
## [51] 0.061 0.182 0.303 0.424 0.545 0.667 0.788 0.909 1.030 1.152
## [61] 1.273 1.394 1.515 1.636 1.758 1.879 2.000 2.121 2.242 2.364
## [71] 2.485 2.606 2.727 2.848 2.970 3.091 3.212 3.333 3.455 3.576
## [81] 3.697 3.818 3.939 4.061 4.182 4.303 4.424 4.545 4.667 4.788
## [91] 4.909 5.030 5.152 5.273 5.394 5.515 5.636 5.758 5.879 6.000
R ya incorpora una serie de bases de datos que te pueden resultar de utilidad para empezar a explorar las posibilidades de análisis estadístico que te ofrece este programa.
Como ejemplo vamos a explorara la base de datos llamada
cars
.
#cargar la base
data(cars)
#visualizar los encabezados
head(cars)
## speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 4 7 22
## 5 8 16
## 6 9 10
#resumir con algunas estadísticas las variables de la base
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
En R existen funciones ya establecidas y de uso muy común como el que te permite calcular el valor promedio (mean()), o el que te permite calcular la varianza (var()), pero tambien es posible crear tus propias funciones, basta con usar el comando “function”, como se muestra en los ejemplos siguientes:
#una función de las variables o argumentos x,y,z que multiplica sus valores
=function(x,y,z){
z*y*z
x }
# aplicamos la función creada sobre algunos datos
=z(2,5,10)
a a
## [1] 100
#función que reproduce el valor de la varianza de un conjunto de datos d
=c(1,2,3)
d
=function(x){
varisum((x-mean(x))^2)/(length(x))
}
vari(d)
## [1] 0.6666667
En matemáticas, una permutación de un conjunto es, en términos generales, una disposición de sus miembros en una secuencia u orden lineal, o si el conjunto ya está ordenado, una variación del orden o posición de los elementos de un conjunto ordenado o una tupla. La palabra “permutación” también se refiere al acto o proceso de cambiar el orden lineal de un conjunto ordenado.
Problema 1: Cuántas posibilidades de resultados ocurre cuando se extraen simultáneamente de una urna dos canicas, si en la urna existen 5 de color negro y 2 de color blanco, sin que importe el orden y b) si consideramos el orden
#librería para análisis combinatorio
library("gtools")
#a
combinations(2,2,c("b","n"),repeats=TRUE)
## [,1] [,2]
## [1,] "b" "b"
## [2,] "b" "n"
## [3,] "n" "n"
#b
permutations(2,2,c("b","n"),repeats=TRUE)
## [,1] [,2]
## [1,] "b" "b"
## [2,] "b" "n"
## [3,] "n" "b"
## [4,] "n" "n"
Para obtener ayuda de R al respecto de las permutaciones
#help(permutations)
Otros ejemplos
=permutations(4,3)
P P
## [,1] [,2] [,3]
## [1,] 1 2 3
## [2,] 1 2 4
## [3,] 1 3 2
## [4,] 1 3 4
## [5,] 1 4 2
## [6,] 1 4 3
## [7,] 2 1 3
## [8,] 2 1 4
## [9,] 2 3 1
## [10,] 2 3 4
## [11,] 2 4 1
## [12,] 2 4 3
## [13,] 3 1 2
## [14,] 3 1 4
## [15,] 3 2 1
## [16,] 3 2 4
## [17,] 3 4 1
## [18,] 3 4 2
## [19,] 4 1 2
## [20,] 4 1 3
## [21,] 4 2 1
## [22,] 4 2 3
## [23,] 4 3 1
## [24,] 4 3 2
combinations(3,2,letters[1:3])
## [,1] [,2]
## [1,] "a" "b"
## [2,] "a" "c"
## [3,] "b" "c"
combinations(3,2,letters[1:3],repeats=TRUE)
## [,1] [,2]
## [1,] "a" "a"
## [2,] "a" "b"
## [3,] "a" "c"
## [4,] "b" "b"
## [5,] "b" "c"
## [6,] "c" "c"
permutations(3,2,letters[1:3])
## [,1] [,2]
## [1,] "a" "b"
## [2,] "a" "c"
## [3,] "b" "a"
## [4,] "b" "c"
## [5,] "c" "a"
## [6,] "c" "b"
permutations(3,2,letters[1:3],repeats=TRUE)
## [,1] [,2]
## [1,] "a" "a"
## [2,] "a" "b"
## [3,] "a" "c"
## [4,] "b" "a"
## [5,] "b" "b"
## [6,] "b" "c"
## [7,] "c" "a"
## [8,] "c" "b"
## [9,] "c" "c"
Desafío 1: Consideramos un tablero de ajedréz y dos puntos: A situado en el vértices inferior izquierda y B un punto situado en el vértice superior derecha. Se tratará de averiguar cuál es el número de caminos mínimos que hay de A a B. Aquí un camino mínimo de A a B es uno que sigue las líneas de la retícula y avanza siempre a hacia la izquierda ó hacia arriba, nunca a la derecha ni hacia abajo. Generalize para cualquier tablero de m filas y n columnas
Grafica del tablero de ajedréz con R [@chessR]
library('tidyverse')
# https://stackoverflow.com/questions/58769722/plotting-a-chessboard-in-r-how-to-name-columns-and-rows
= function(n){
chessboard if(n > 26){
stop('Ya board too big!')
}= expand_grid(X = 1:n, Y = 1:n)
board = board %>%
board mutate(color = ifelse((X - Y) %% 2 == 0, 'black', 'white')) %>%
mutate_all(factor)
= LETTERS[1:n]
letter_labs
ggplot(data = board, aes(x = X, y = Y, fill = color)) +
geom_tile() +
scale_fill_manual(values = c('black' = "#FFFFFF", 'white' = "#000000")) +
scale_x_discrete(labels = letter_labs, name = '') +
scale_y_discrete(labels = letter_labs, name = '') +
theme(legend.position = 'none')
}chessboard(8)
Desafío 2: Dada la ecuación X + Y + Z + T = 13, determinar cuántas soluciones tiene en el conjunto N de los números naturales.
Ver respuesta:
Este problema se puede interpretar como colocar un total de 13 bolas en cuatro cajas: U1, U2, U3 y U4, y como hemos visto, el número de posibles distribuciones en el número de combinaciones con repetición de cuatro elementos tomados de 13 en 13. El valor es:
\[ \frac{(13+4-1)}{4-1} = \frac{(13+4-1)}{13} \]
Creando el vector i en R:
=1:15
i i
## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Creando el vector j en R:
=10:25
j j
## [1] 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Creando la unión de los vectores i, j con la función union:
<-union(i,j)
k k
## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
También podemos crear la intersección de los vectores i, j con la función intersect:
=intersect(i,j)
l l
## [1] 10 11 12 13 14 15
Podemos saber la diferencia entre los vectores i, j (elementos que aparecen en i y no aparecen en j), con la función setdiff:
<-setdiff(j,i)
n n
## [1] 16 17 18 19 20 21 22 23 24 25
Podemos comprobar si los vectores i, j son iguales mediante la función setequal:
<-setequal(i,j)
o o
## [1] FALSE
Graficamos los conjuntos
#install.packages("venn")
library("venn")
=venn(3) a
venn("010",zcolor="blue",opacity=0.5)
Tres conjuntos con rótulos.
=c(2,4,6,8,10,11)
a=c(1,2,3,4,5,6)
b=c(5,6,7,8,9,10)
c=list(a,b,c)
d d
## [[1]]
## [1] 2 4 6 8 10 11
##
## [[2]]
## [1] 1 2 3 4 5 6
##
## [[3]]
## [1] 5 6 7 8 9 10
venn(d)
Con la librería ggVennDiagram
ggVennDiagram(list(i,j), label_alpha = 0)
Cuando hablamos de un experimento aleatorio estamos hablando de variables que pueden tomar un valor de manera aleatoria, es decir, donde interviene el azar y, por lo tanto, no podemos estar seguros de cual va a ser el valor siguiente que se obtendrá, solo podemos suponer una cierta probabilidad. En econometría y series de tiempo a este tipo de sucesos aleatorios se les suele denominar random walk. Dentro de las variables aleatorias, se les puede clasificar en dos principales:
[1] Aleatorias discretas: No pueden tomar ciertos valores de un conjunto.
[2] Aleatorias continuas: pueden tomar infinitos valores.
Un ejemplo clásico para entender lo que es un evento aleatorio es el lanzamiento de una moneda. Cuando lanzamos la moneda ésta solo puede adquirir dos valores posibles: cara o cruz, ¿qué probabilidad tenemos de obtener alguno de los dos lados de la moneda? En este caso tenemos dos opciones posibles, por lo que podríamos decir que la probabilidad es del 50%, pero cuando hagamos un experimento lanzando monedas de manera indefinida, por ejemplo, unas 100 veces, es posible que no obtengamos 50 caras y 50 cruces, ya que es un evento aleatorio. Vamos a replicar el experimento en la consola de R, esto lo podemos hacer de la siguiente manera:
Ejemplo de las dos monedas Espacio muestral: conjunto de todos los posibles resultados EM=(CC,C+,+C,++) nroEM=2*2=4
Lanzamiendo de dos dados EM=((1,1);(1,2);….;(6,5);(6,6)) EM=6*6=36
Lanzamiento de 100 dados? nroEM=6666…..*6=
=6^100
nroEM nroEM
## [1] 6.533186e+77
Puedes realizar el experimento en casa: toma una moneda y lanzala 20 veces. Anota tus resultados y luego transcribelos en R dandole valores a cara y sello. Resultado de tirar n = 20 veces la monada donde: Cara = 1 y Sello = 0.
= c(0,1,0,0,1,0,1,1,0,0,1,0,0,1,1,0,0,1,0,1)
moneda
= table(moneda)/length(moneda)
fr print(fr)
## moneda
## 0 1
## 0.55 0.45
# Call vtree and give the root node a title
vtree(edges1b,"from to",title="Lanzamiento de una moneda")
Definición clásica y frecuentista
Demostrar por definición de probabilidad clásica y frecuentista (simulaciones) los puntos a) La suma más probable al lanzar dos dados a) La suma más probable al lanzar cuatro dados a) La suma más probable al lanzar n dados
Cuando se lanza un solo dado
=seq(1:36)
dado1 dado1
## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
## [26] 26 27 28 29 30 31 32 33 34 35 36
=sample(dado1, 30, replace = TRUE, prob = NULL)
muestra1 muestra1
## [1] 32 27 19 24 28 1 16 33 34 33 13 5 20 28 19 8 29 18 9 10 22 4 20 8 13
## [26] 35 14 15 35 1
Definir una funcion en R
=function(x){sum(x)/length(x)}
media=c(1,2,3)
xmedia(x)
## [1] 2
Cuando se lanza tres dados y se mide la suma de los tres resultados
<-sapply(1:3000, function(x){sum(sample(1:6,3,rep=T))})
t t
## [1] 9 12 5 15 10 16 9 17 8 10 9 14 3 10 9 8 8 8 12 10 9 10 10 16
## [25] 14 9 10 9 8 8 13 8 9 4 6 15 10 17 14 8 11 15 13 10 10 9 12 12
## [49] 13 8 11 13 10 12 10 8 8 12 10 10 14 9 16 10 13 16 12 7 13 11 10 11
## [73] 10 14 10 9 15 8 11 14 7 17 5 14 12 10 16 9 15 14 13 11 14 9 11 9
## [97] 14 11 6 11 7 15 8 10 12 10 4 7 13 8 13 6 11 10 15 13 7 16 9 7
## [121] 13 13 9 12 14 10 9 8 5 8 12 9 8 12 11 17 12 15 12 17 11 7 9 8
## [145] 11 10 12 12 9 10 17 13 10 6 12 10 4 9 9 14 13 11 8 3 10 10 8 11
## [169] 10 4 16 17 13 14 8 9 9 10 12 16 9 13 12 10 13 12 14 12 8 16 9 13
## [193] 8 5 12 14 7 7 7 5 8 13 15 8 9 12 12 6 8 13 12 15 15 12 12 11
## [217] 10 12 14 8 13 9 10 7 13 11 13 10 11 12 9 13 12 6 10 8 14 12 6 10
## [241] 15 12 12 10 9 15 9 15 12 9 11 11 15 9 15 7 7 12 11 7 6 13 8 14
## [265] 7 10 7 10 9 13 14 10 14 9 9 8 8 9 6 11 12 6 11 10 12 10 11 11
## [289] 16 15 8 12 10 8 9 12 14 6 6 11 5 12 15 12 10 6 12 7 6 10 15 11
## [313] 9 14 14 11 12 12 11 9 12 12 11 10 7 11 10 12 10 15 10 11 6 15 8 11
## [337] 6 11 9 18 12 5 7 10 11 15 11 8 8 14 10 6 12 7 11 10 15 6 7 6
## [361] 16 13 10 11 11 9 9 11 6 8 13 14 12 6 9 10 6 15 12 13 7 14 16 13
## [385] 8 8 8 16 14 12 6 16 9 14 10 12 12 11 9 7 13 13 10 14 6 14 15 9
## [409] 14 7 5 7 13 10 13 14 6 9 11 13 8 9 9 10 12 7 7 12 5 14 9 11
## [433] 11 5 10 18 10 10 16 9 13 11 10 8 15 10 13 10 13 7 9 10 6 8 12 14
## [457] 13 12 9 12 7 11 11 13 11 14 12 11 9 8 9 8 11 14 14 16 13 10 11 7
## [481] 10 12 12 4 7 18 9 10 11 10 10 11 9 16 8 15 10 14 11 12 12 10 15 8
## [505] 17 11 12 11 13 11 10 14 7 15 9 11 6 14 8 15 11 4 7 8 7 8 10 9
## [529] 12 12 10 15 12 6 14 12 15 10 8 9 13 7 10 7 15 12 18 10 14 11 7 4
## [553] 12 8 10 6 13 9 10 5 12 13 16 13 11 7 15 12 12 7 8 5 10 13 9 12
## [577] 10 11 10 8 5 8 9 10 7 5 4 10 13 4 4 5 9 12 8 9 14 10 7 13
## [601] 13 8 11 18 11 4 11 10 4 10 13 18 12 4 8 10 8 14 9 12 15 8 15 6
## [625] 11 12 9 8 13 6 16 10 10 7 12 10 10 9 11 9 9 10 7 12 12 7 7 10
## [649] 12 12 7 6 10 9 8 13 14 7 11 10 9 8 14 12 6 8 16 12 8 9 14 9
## [673] 10 6 7 7 9 12 10 7 10 9 11 7 9 11 4 9 9 10 6 11 12 11 12 12
## [697] 10 16 18 10 15 15 9 12 11 11 12 7 13 9 10 5 12 9 12 13 12 16 17 14
## [721] 9 9 3 11 12 7 6 8 9 9 5 14 17 10 9 10 5 11 12 12 11 10 11 5
## [745] 9 12 11 12 10 10 15 10 14 12 16 11 8 13 13 12 8 11 10 12 9 9 11 12
## [769] 16 12 12 12 12 10 11 9 10 12 9 17 11 10 12 8 11 11 9 5 10 10 8 8
## [793] 8 4 9 12 13 15 16 12 10 11 13 8 8 12 14 10 11 11 13 13 12 9 9 8
## [817] 11 10 4 15 17 7 7 9 14 10 10 13 13 13 8 13 8 13 13 9 7 7 13 5
## [841] 13 13 13 6 13 10 7 8 11 10 10 9 13 14 6 14 7 10 10 17 11 6 12 14
## [865] 9 10 13 9 16 13 12 8 11 14 10 14 9 11 13 13 16 11 5 15 11 11 5 12
## [889] 10 5 14 11 11 16 10 13 12 10 12 13 15 7 9 11 6 12 10 5 10 15 8 11
## [913] 14 9 13 18 6 9 7 13 12 14 10 17 12 15 8 12 12 13 8 11 15 12 14 14
## [937] 14 9 10 11 12 11 6 11 12 14 11 6 9 12 10 9 15 13 11 15 7 6 16 8
## [961] 15 10 12 16 13 10 8 15 12 8 17 9 13 16 9 4 15 12 12 14 10 10 7 9
## [985] 15 7 11 13 11 11 3 9 6 9 12 7 12 8 5 13 10 10 12 12 10 11 16 15
## [1009] 5 18 15 12 9 9 16 7 11 9 13 12 9 9 8 8 14 8 7 12 6 13 7 8
## [1033] 13 9 10 9 7 13 5 12 7 8 5 11 7 11 8 8 7 10 12 12 15 14 9 9
## [1057] 9 11 13 11 10 12 14 11 4 12 7 10 15 11 9 15 13 12 11 9 10 9 7 13
## [1081] 8 9 10 13 10 11 13 12 9 10 8 12 13 9 15 14 7 15 8 14 5 10 17 13
## [1105] 11 16 13 11 15 12 5 7 4 8 9 9 4 10 8 8 15 11 10 11 10 7 8 10
## [1129] 5 13 9 11 4 9 8 8 15 15 10 15 11 14 11 12 10 14 8 6 10 11 12 12
## [1153] 9 14 12 16 9 7 16 16 11 5 8 8 9 8 5 8 11 9 9 12 15 9 16 12
## [1177] 12 5 12 13 10 13 9 11 10 8 14 12 14 9 12 14 5 12 16 10 10 11 11 10
## [1201] 13 11 8 12 9 8 13 8 12 13 9 8 10 13 12 9 14 10 10 7 13 13 16 10
## [1225] 12 7 5 14 13 13 13 8 11 4 8 11 5 16 14 10 10 13 12 11 14 8 10 13
## [1249] 9 12 12 7 11 10 12 18 10 14 10 6 15 9 12 12 8 12 5 11 6 9 15 4
## [1273] 5 13 6 4 14 12 17 12 11 6 9 13 8 13 12 11 12 10 14 10 7 11 12 13
## [1297] 8 13 7 9 13 7 11 11 12 7 9 5 12 8 12 5 9 13 13 15 11 8 9 7
## [1321] 5 8 13 11 11 9 10 12 15 8 7 11 12 6 8 11 9 13 12 12 14 11 10 13
## [1345] 11 10 10 10 13 12 10 16 9 14 7 11 12 8 8 16 16 13 10 6 9 9 7 17
## [1369] 4 13 15 13 10 15 11 9 9 15 13 10 11 5 13 6 8 7 13 14 7 12 11 9
## [1393] 6 10 12 11 11 11 12 9 12 13 11 16 12 10 14 11 9 14 8 13 9 11 8 11
## [1417] 11 9 10 10 17 4 14 15 11 14 14 7 11 13 15 11 12 7 13 10 9 11 9 7
## [1441] 12 5 11 13 14 10 8 10 10 10 13 9 10 12 14 9 15 12 6 13 7 8 9 10
## [1465] 14 7 14 16 7 13 10 9 5 13 8 13 13 12 7 9 9 13 17 5 11 7 13 10
## [1489] 9 11 12 14 11 9 7 9 11 7 8 10 10 11 11 12 12 9 11 15 10 6 13 8
## [1513] 9 11 11 5 12 12 12 10 13 9 6 5 7 14 11 15 11 11 14 9 10 7 15 12
## [1537] 5 9 17 9 9 13 13 17 14 12 14 14 15 11 8 6 8 11 8 5 9 10 10 12
## [1561] 7 7 8 13 14 10 14 7 8 9 10 10 15 10 10 9 10 9 11 7 9 4 12 12
## [1585] 9 12 12 14 5 14 16 8 7 9 10 9 14 12 17 8 16 11 12 14 11 6 7 14
## [1609] 6 8 11 5 12 11 8 8 14 11 12 11 11 11 13 10 9 10 9 8 12 13 9 3
## [1633] 9 8 14 15 10 4 13 9 13 14 15 7 9 12 5 8 14 13 17 6 11 10 8 16
## [1657] 14 5 11 12 7 10 8 6 12 15 6 9 13 13 11 13 14 9 7 8 10 17 6 12
## [1681] 13 10 12 9 6 11 13 6 9 15 8 5 11 11 8 15 14 11 12 7 12 13 12 16
## [1705] 5 11 12 14 12 16 11 5 8 15 8 10 13 13 14 7 7 14 11 4 12 9 13 8
## [1729] 12 8 10 6 14 12 12 12 15 13 7 15 7 9 6 10 7 13 14 13 10 13 13 6
## [1753] 10 8 12 13 11 10 9 13 7 9 9 11 7 9 8 14 7 10 9 7 11 12 10 13
## [1777] 14 8 11 12 13 11 7 9 8 16 12 17 10 10 11 10 10 9 16 10 7 15 12 14
## [1801] 14 10 16 15 7 10 6 13 8 9 12 10 6 13 5 8 10 7 16 13 13 12 12 11
## [1825] 12 11 10 8 13 10 11 11 14 10 9 11 7 8 7 9 9 13 14 16 13 11 7 5
## [1849] 6 12 7 9 11 9 12 11 13 10 3 12 12 13 14 9 13 11 13 14 11 9 17 11
## [1873] 9 7 7 11 15 12 10 10 9 11 8 11 16 10 9 8 11 7 15 12 10 12 13 13
## [1897] 16 7 11 11 15 8 7 6 10 10 13 9 7 10 9 11 10 7 12 12 8 14 10 9
## [1921] 9 10 3 7 10 13 14 11 11 13 12 10 8 9 15 13 7 12 15 11 15 15 7 10
## [1945] 10 9 11 9 6 10 10 12 9 11 13 8 16 9 14 13 12 9 11 13 12 7 6 12
## [1969] 12 8 17 12 10 15 8 13 11 11 9 8 9 11 10 7 13 12 10 8 7 5 8 10
## [1993] 5 11 7 11 4 13 13 15 16 12 10 11 13 11 10 12 14 10 7 7 11 9 6 10
## [2017] 11 8 6 9 11 9 15 11 10 13 10 16 15 12 6 10 13 9 8 13 11 10 9 3
## [2041] 14 10 11 15 12 5 8 11 7 7 11 9 11 11 16 5 12 12 9 6 13 12 7 17
## [2065] 14 9 15 14 9 9 9 8 9 6 11 6 16 12 9 7 15 14 9 13 15 16 12 10
## [2089] 14 14 5 12 10 14 8 5 14 13 14 5 8 6 9 10 10 8 9 16 16 13 8 14
## [2113] 4 13 13 15 11 13 8 8 10 17 11 7 12 18 10 10 8 9 8 11 10 8 12 4
## [2137] 8 8 15 12 12 12 12 12 8 11 8 9 5 11 13 5 15 13 10 16 14 13 10 10
## [2161] 16 16 12 9 10 13 5 10 14 15 5 8 14 12 8 10 12 10 12 15 12 12 12 8
## [2185] 9 12 7 10 11 9 9 10 17 14 10 8 9 17 8 10 13 12 11 9 16 9 11 6
## [2209] 15 8 9 10 13 12 8 15 6 16 15 11 9 14 13 12 17 9 12 9 7 7 16 9
## [2233] 16 9 9 14 8 10 16 10 10 4 9 11 9 8 5 9 12 14 14 10 11 6 9 5
## [2257] 14 14 12 14 17 13 10 9 12 10 15 6 12 12 15 15 8 12 11 15 7 6 10 8
## [2281] 12 10 10 9 7 12 11 8 8 10 10 10 10 13 16 10 9 7 10 4 7 8 6 11
## [2305] 14 10 15 12 7 11 9 8 12 7 10 10 13 10 8 11 12 13 11 4 11 12 15 13
## [2329] 14 10 9 9 6 7 7 9 14 6 12 7 16 8 13 13 11 13 16 14 14 10 12 7
## [2353] 14 12 14 10 14 10 13 11 11 5 9 8 17 9 8 10 8 13 15 9 8 10 15 13
## [2377] 14 15 5 16 6 14 11 10 14 13 9 8 15 11 18 6 9 12 11 11 6 10 10 9
## [2401] 13 12 9 12 16 11 10 6 5 13 10 12 14 10 11 15 8 9 8 9 11 15 14 10
## [2425] 7 8 13 5 5 11 13 9 10 11 9 13 12 8 6 12 12 4 12 11 9 12 12 8
## [2449] 11 11 13 11 11 4 12 13 11 9 9 12 12 15 5 16 10 12 10 10 6 8 8 11
## [2473] 13 16 9 10 6 9 13 12 11 11 9 11 8 10 12 11 10 8 14 7 11 9 15 14
## [2497] 10 10 8 7 9 10 10 9 10 17 7 7 6 11 12 9 15 8 12 13 10 7 9 8
## [2521] 14 7 8 8 9 6 9 11 12 9 11 12 13 14 14 12 13 10 5 12 16 13 9 10
## [2545] 11 7 11 9 14 14 9 15 9 14 4 14 11 11 11 8 9 13 3 11 6 10 9 12
## [2569] 11 8 6 11 11 9 9 16 14 11 8 16 6 11 8 11 8 10 8 9 15 15 14 12
## [2593] 8 11 9 14 11 15 5 7 5 12 9 10 12 15 15 6 8 8 12 14 7 8 10 9
## [2617] 12 12 11 11 17 13 4 12 16 14 13 7 9 10 5 10 8 8 12 13 13 6 17 3
## [2641] 5 11 12 12 14 8 8 9 6 11 14 5 12 10 8 13 10 15 10 4 15 11 5 10
## [2665] 9 11 9 13 12 13 12 11 6 8 10 9 15 11 11 8 8 14 13 6 10 4 7 13
## [2689] 11 9 16 8 6 14 13 5 11 12 12 11 9 13 14 8 9 9 11 9 17 9 5 4
## [2713] 15 16 9 10 11 12 12 12 13 9 8 13 11 10 16 10 13 15 11 16 13 15 12 15
## [2737] 11 7 7 4 4 8 11 6 8 7 9 11 12 16 11 12 5 12 10 14 11 14 10 10
## [2761] 9 15 6 8 10 9 11 12 12 17 13 16 13 16 15 12 14 15 11 12 10 12 9 6
## [2785] 14 13 8 11 8 11 5 12 10 13 11 9 4 10 8 15 13 9 9 9 9 10 16 10
## [2809] 10 7 6 10 12 9 8 5 9 8 11 15 10 6 14 17 10 7 12 12 16 8 13 11
## [2833] 6 14 9 10 9 6 9 7 13 11 11 10 6 11 11 11 11 10 10 13 10 13 10 12
## [2857] 13 9 10 11 9 9 9 12 12 10 11 13 7 11 14 12 12 13 10 12 15 5 12 12
## [2881] 8 6 10 7 8 12 7 16 9 9 6 9 6 11 11 7 10 12 9 11 7 9 10 16
## [2905] 14 6 15 11 16 15 4 16 8 12 10 12 10 4 9 13 13 10 12 11 9 6 9 8
## [2929] 7 12 8 4 11 8 14 13 8 14 8 12 11 9 8 15 5 14 6 10 13 14 11 15
## [2953] 7 9 14 7 17 6 10 14 7 9 12 5 11 5 12 8 9 10 12 10 9 7 13 5
## [2977] 9 11 7 12 6 5 5 17 12 10 8 8 9 13 14 8 7 14 9 11 12 11 10 12
plot(table(t))
Desafío: Determinar la suma más probable al lanzar 6 dados simultáneamente
Es un concepto crucial en teoría de la probabilidad y subyace al propósito principal del análisis de regresión logística.
La probabilidad de un evento A después de que nos enteramos de que se ha producido el evento B se denomina probabilidad condicional de A dado B. Formalmente:
\[\mathbb{P}(A \mid B)\]
Ejemplo: - Experimento: tirar un dado “justo” - Espacio muestral, \(\Omega: \{1,2,3,4,5,6\}\) - A es el evento de obtener un cuatro o más, \(A: \{4,5,6\}\) - B es el evento de obtener un número par, \(B: \{2,4,6\}\)
Supongamos que tiramos el dado pero no miramos el resultado todavía. Una tercera persona nos dice que obtuvimos un número par.
Pregunta: ¿Cuál es la probabilidad de obtener un cuatro o más una vez que sabemos que el resultado es un número par?
Formalmente, nuestra pregunta se expresa del siguiente modo: \(\mathbb{P}(A \mid B )\). Para calcular esta probabilidad utilizamos la siguiente fórmula:
\[\mathbb{P}(A \mid B ) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)}\] Intuitivamente, queremos saber en qué proporción de los casos en que B ocurre, A también ocurre.
\[\mathbb{P}(A \mid B ) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)}\]
Donde, - \(\mathbb{P}(B)\) es la probabilidad de que B ocurra: obtener un número - \(\mathbb{P}(A,B)\) es la probabilidad de que A y B ocurran conjuntamente: obtener un número .bold[par, igual o superior a 4
\[\begin{align} \mathbb{P}(A | B ) &= \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)} \\ \\ &= \frac{\mathbb{P}(\text{dado=4 o dado=6}) }{\mathbb{P}(\text{dado=2 o dado=4 o dado=6})} \\ \\ &= \frac{2/6}{3/6} = \frac{1}{3} \times 2 \end{align}\]La probabilidad de A dado B está definida como:
\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad (1)\]
Por tanto, la probabilidad de B dado A está definida como:
\[\mathbb{P}(B \mid A) = \frac{\mathbb{P}(A,B)}{\mathbb{P}(A)} \quad \quad \quad \quad \quad (2)\]
Por tanto:
\[\mathbb{P}(A,B) = \mathbb{P}(B \mid A)\mathbb{P}(A) \quad \quad \quad \quad (3)\]
Reemplazando (3) en (1) obtenemos:
\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(B \mid A)\mathbb{P}(A)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad \] Entonces, si
\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(B \mid A)\mathbb{P}(A)}{\mathbb{P}(B)} \quad \quad \quad \quad \quad \]
re-ordenando la expresión encontramos …
Teorema de Bayes: \[\mathbb{P}(B \mid A) = \frac{\mathbb{P}(A \mid B)\mathbb{P}(B)}{\mathbb{P}(A)} \quad \quad \quad \quad \quad \]
Bayes’ theorem in three panels
https://www.r-bloggers.com/2020/03/bayes-theorem-in-three-panels
Problema: Supongamos que un 5% de la población son mujeres (M) con estudios universitarios completos (U). Las mujeres representan un 55% de la población. Un 20% de la población tiene estudios universitarios completos. Pregunta:
\[ \begin{align} \mathbb{P}(U \mid M) = \frac{\mathbb{P}(U,M)}{\mathbb{P}(M)} = \frac{0.05}{0.55} \approx 0.09 \end{align} \]
\[ \begin{align} \mathbb{P}(M \mid U) = \frac{\mathbb{P}(U,M)}{\mathbb{P}(U)} = \frac{0.05}{0.2} = 0.25 \end{align} \]
$$
Problema: Supongamos que enviamos una encuesta a 300 personas preguntándoles qué deporte les gusta más: Voleibol, Basket, Fútbol o Tenis. a) Calcular la probabilidad de que sea mujer, dado que el individuo prefiere el básket b) Calcular la probabilidad de que sea hombre, dado que el individuo prefiere el fútbol c) Calcular la probabilidad de que sea mujer, dado que el individuo prefiere el básket d) Calcular la probabilidad de que el individuo prefiera el tenis c) Calcular la probabilidad de que el individuo prefiere el Voleibol
Problema: Calcular y demostrar la probabilidad medante teorema de Bayes del siguiente ejercicio: Un fabricante de teléfonos celulares compra un microchip en particular denominado “LS-24” a 3 proveedores Hall Electronics, Schuller Sales,y Crawford Components. Del total de piezas 30% la adquiere Hall Electronics; 20% de Schuller Sales y el restante 50% de crawford. El fabricante cuenta con amplias historiales con los 3 proveedores y reconoce los porcentajes de defecto de los dispositivos de cada proveedores: 3% Hall Electronics 5% Schuller sales 4% Crawford Componens Cuando el fabricante recibe el material y lo lleva directamente a un depósito y no lo inspecciona ni lo identifica con el nombre de proveedor. Un trabajador selecciona un microchip para instalarlo y lo encontró defectuoso. ¿Cual es la probabibilidad que lo hayan fabricado Schuler Sales?
#define data frame
<- data.frame(var1=c(4, 13, 7, 8),
df1 var2=c(15, 9, 9, 13),
var3=c(12, 12, 7, 5))
df1
## var1 var2 var3
## 1 4 15 12
## 2 13 9 12
## 3 7 9 7
## 4 8 13 5
#define second data frame
<- data.frame(var1=c(4, 13),
df2 var2=c(9, 12),
var3=c(6, 6))
df2
## var1 var2 var3
## 1 4 9 6
## 2 13 12 6
#append the rows of the second data frame to end of first data frame
<- rbind(df1, df2)
df3 df3
## var1 var2 var3
## 1 4 15 12
## 2 13 9 12
## 3 7 9 7
## 4 8 13 5
## 5 4 9 6
## 6 13 12 6
Descargar los microdatos
#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2021/data/9e824reg02_ephc2021.csv"
#download.file(url,"EPH2021.csv")
Leer los microdatos
=read.csv("EPH2021.csv",sep =";")
eph2021#str(eph2021)
names(eph2021)
## [1] "UPM" "NVIVI" "NHOGA"
## [4] "DPTOREP" "AREA" "L02"
## [7] "P02" "P03" "P04"
## [10] "P04A" "P04B" "P05C"
## [13] "P05P" "P05M" "P06"
## [16] "P08D" "P08M" "P08A"
## [19] "P09" "P10A" "P10AB"
## [22] "P10Z" "P11A" "P11AB"
## [25] "P11Z" "P12" "A01"
## [28] "A01A" "A02" "A03"
## [31] "A04" "A04B" "A04A"
## [34] "A05" "A07" "A08"
## [37] "A10" "A11A" "A11M"
## [40] "A11S" "A12" "A13REC"
## [43] "A14REC" "A15" "A16"
## [46] "A17A" "A17M" "A17S"
## [49] "A18" "A18A" "B01REC"
## [52] "B02REC" "B03LU" "B03MA"
## [55] "B03MI" "B03JU" "B03VI"
## [58] "B03SA" "B03DO" "B04"
## [61] "B05" "B05A" "B06"
## [64] "B07A" "B07M" "B07S"
## [67] "B08" "B09A" "B09M"
## [70] "B09S" "B10" "B11"
## [73] "B12" "B12A" "B12B"
## [76] "B12C" "B13" "B14"
## [79] "B15" "B16G" "B16U"
## [82] "B16D" "B16T" "B17"
## [85] "B18AG" "B18AU" "B18BG"
## [88] "B18BU" "B19" "B20G"
## [91] "B20U" "B20D" "B20T"
## [94] "B21" "B22" "B23"
## [97] "B24" "B25" "B26"
## [100] "B271" "B272" "B28"
## [103] "B29" "B30" "B31"
## [106] "C01REC" "C02REC" "C03"
## [109] "C04" "C05" "C06"
## [112] "C07" "C08" "C09"
## [115] "C101" "C102" "C11G"
## [118] "C11U" "C11D" "C11T"
## [121] "C12" "C13AG" "C13AU"
## [124] "C13BG" "C13BU" "C14"
## [127] "C14A" "C14B" "C14C"
## [130] "C15" "C16REC" "C17REC"
## [133] "C18" "C18A" "C18B"
## [136] "C19" "D01" "D02"
## [139] "D03" "D04" "D05"
## [142] "E01A" "E01B" "E01C"
## [145] "E01D" "E01E" "E01F"
## [148] "E01G" "E01H" "E01I"
## [151] "E01J" "E01K" "E01L"
## [154] "E01M" "E02D1" "E02D2"
## [157] "E02B" "ED01" "ED02"
## [160] "ED03" "ED0504" "ED06C"
## [163] "ED08" "ED09" "ED10"
## [166] "ED11F1" "ED11F1A" "ED11GH1"
## [169] "ED11GH1A" "ED12" "ED13"
## [172] "ED14" "ED14A" "ED15"
## [175] "S01A" "S01B" "S02"
## [178] "S03" "S03A" "S03B"
## [181] "S03C" "S04" "S05"
## [184] "S06" "S07" "S08"
## [187] "S09" "CATE_PEA" "TAMA_PEA"
## [190] "OCUP_PEA" "RAMA_PEA" "HORAB"
## [193] "HORABC" "HORABCO" "PEAD"
## [196] "PEAA" "TIPOHOGA" "FEX"
## [199] "NJEF" "NCON" "NPAD"
## [202] "NMAD" "TIC01" "TIC02"
## [205] "TIC03" "TIC0401" "TIC0402"
## [208] "TIC0403" "TIC0404" "TIC0405"
## [211] "TIC0406" "TIC0407" "TIC0408"
## [214] "TIC0409" "TIC0501" "TIC0502"
## [217] "TIC0503" "TIC0504" "TIC0505"
## [220] "TIC0506" "TIC0507" "TIC0508"
## [223] "TIC0509" "TIC0510" "TIC0511"
## [226] "TIC0512" "TIC0513" "TIC06"
## [229] "TIC07" "añoest" "ra06ya09"
## [232] "e01aimde" "e01bimde" "e01cimde"
## [235] "e01dde" "e01ede" "e01fde"
## [238] "e01gde" "e01hde" "e01ide"
## [241] "e01jde" "e01kde" "e01lde"
## [244] "e01mde" "e01kjde" "e02bde"
## [247] "ingrevasode" "ingrepytyvõde" "ingresect_privadode"
## [250] "ipcm" "pobrezai" "pobnopoi"
## [253] "quintili" "decili" "quintiai"
## [256] "decilai" "informalidad"
#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2020/data/55f07reg02_ephc2020.csv"
#download.file(url,"EPH2020.csv")
=read.csv("EPH2020.csv",sep =";")
eph2020#head(eph2020)
#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2019/data/4edb7reg02_ephc2019.csv"
#download.file(url,"EPH2019.csv")
=read.csv("EPH2019.csv",sep =";")
eph2019#head(eph2019)
#url="https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2018/data/3493ereg02_ephc2018.csv"
#download.file(url,"EPH2018.csv")
=read.csv("EPH2018.csv",sep =";")
eph2018#head(eph2018)
=subset(eph2018,P02>14,select=c("AREA","P06","P02","e01aimde","PEAA","FEX"))
eph2018s$year <- 2018
eph2018s#head(eph2018s)
names(eph2018s)
## [1] "AREA" "P06" "P02" "e01aimde" "PEAA" "FEX" "year"
# select variables v1, v2, v3
<- subset(eph2019, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX"))
eph2019s $year <- 2019
eph2019snames(eph2019s)
## [1] "AREA" "P06" "PEAA" "P02" "e01aimde" "FEX" "year"
<- subset(eph2020, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX"))
eph2020s $year <- 2020
eph2020snames(eph2020s)
## [1] "AREA" "P06" "PEAA" "P02" "e01aimde" "FEX" "year"
<- subset(eph2021, P02 > 14 , select = c("AREA", "P06", "PEAA","P02","e01aimde","FEX"))
eph2021s $year <- 2021
eph2021snames(eph2021s)
## [1] "AREA" "P06" "PEAA" "P02" "e01aimde" "FEX" "year"
Juntar las bases en una sola
<- rbind(eph2018s, eph2019s,eph2020s,eph2021s)
eph2018a2021 #head(eph2018a2021)
Exploramos la base compilada
str(eph2018a2021)
## 'data.frame': 51664 obs. of 7 variables:
## $ AREA : int 1 1 1 1 1 1 1 1 1 1 ...
## $ P06 : int 6 1 6 6 1 6 1 6 6 1 ...
## $ P02 : int 60 21 36 79 26 20 21 72 30 33 ...
## $ e01aimde: chr "0" "2657944,294" "1005870,841" "170998,043" ...
## $ PEAA : int 3 1 1 1 1 1 2 1 1 1 ...
## $ FEX : int 393 393 393 519 519 519 519 225 343 416 ...
## $ year : num 2018 2018 2018 2018 2018 ...
$e01aimdec = as.numeric(gsub(",", ".", as.character(eph2018a2021$e01aimde)))
eph2018a2021summary(eph2018a2021$e01aimdec)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 0 500000 1358883 2000000 323372117
hist(eph2018a2021$e01aimdec )
PEAA condición de ocupación
table(eph2018a2021$PEAA)
##
## 1 2 3
## 34704 1965 14995
$PEAA <- factor(eph2018a2021$PEAA, labels = c("Ocupados", "Desocupados", "Inactivos"))
eph2018a2021
table(eph2018a2021$PEAA,eph2018a2021$year)
##
## 2018 2019 2020 2021
## Ocupados 9013 9046 8587 8058
## Desocupados 460 478 531 496
## Inactivos 3880 3745 3765 3605
addmargins(table(eph2018a2021$PEAA,eph2018a2021$year),c(1,2))
##
## 2018 2019 2020 2021 Sum
## Ocupados 9013 9046 8587 8058 34704
## Desocupados 460 478 531 496 1965
## Inactivos 3880 3745 3765 3605 14995
## Sum 13353 13269 12883 12159 51664
Edad
summary(eph2018a2021$P02)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 15.00 25.00 38.00 40.64 54.00 106.00
boxplot(eph2018a2021$P02)
hist(eph2018a2021$P02)
AREA (AREA)
table(eph2018a2021$AREA)
##
## 1 6
## 28200 23464
Eliminar de los ingresos los valores nulos y mayores a 100.000.000
<- subset(eph2018a2021, e01aimdec > 0 & e01aimdec < 100000000 & P02 >= 15 & PEAA == "Ocupados")
ephing head(ephing)
## AREA P06 P02 e01aimde PEAA FEX year e01aimdec
## 2 1 1 21 2657944,294 Ocupados 393 2018 2657944.3
## 8 1 6 36 1005870,841 Ocupados 393 2018 1005870.8
## 9 1 6 79 170998,043 Ocupados 519 2018 170998.0
## 10 1 1 26 2124964,517 Ocupados 519 2018 2124964.5
## 11 1 6 20 1810567,515 Ocupados 519 2018 1810567.5
## 14 1 6 72 804696,673 Ocupados 225 2018 804696.7
$AREA <- factor(eph2018a2021$AREA, labels = c("Urbana", "Rural"))
eph2018a2021
table(eph2018a2021$AREA)
##
## Urbana Rural
## 28200 23464
$P06 <- factor(eph2018a2021$P06, labels = c("Hombres", "Mujeres"))
eph2018a2021
table(eph2018a2021$P06)
##
## Hombres Mujeres
## 25351 26313
addmargins(table(eph2018a2021$P06,eph2018a2021$AREA),c(1,2))
##
## Urbana Rural Sum
## Hombres 13232 12119 25351
## Mujeres 14968 11345 26313
## Sum 28200 23464 51664
Cuál es la probabilidad de que una encuestado resulte ser Hombre y vivir en el área Rural
=12119/51664
P_RyH P_RyH
## [1] 0.2345734
\[P_RdadoqH_=P(RyH)/P(H)\]
=(12119/51664)/(25351/51664)
P_RdadoqH_=(12119)/(25351)
P_RdadoqH_ P_RdadoqH_
## [1] 0.4780482
\[P(H/R)=P(HyR)/P(R)\]
=13232/25351
P_HdadoqR_ P_HdadoqR_
## [1] 0.5219518
¿La probabilidad de estar desocupado dado que el entrevistado es un hombre?
addmargins(table(eph2018a2021$P06,eph2018a2021$PEAA),c(1,2))
##
## Ocupados Desocupados Inactivos Sum
## Hombres 20434 869 4048 25351
## Mujeres 14270 1096 10947 26313
## Sum 34704 1965 14995 51664
P_DESdadoqH
=866/25351
P_DESdadoqH P_DESdadoqH
## [1] 0.03416039
P_DESdadoqM
=1096/26313
P_DESdadoqM P_DESdadoqM
## [1] 0.04165242
Obtener la probb de que una persona menor de 30 años y que vive en el área rural esté ocupada
Ingreso en la ocupación principal
<- subset(eph2018a2021, e01aimdec > 0 & e01aimdec < 100000000 & P02 >= 15 & PEAA == "Ocupados")
ephing head(ephing)
## AREA P06 P02 e01aimde PEAA FEX year e01aimdec
## 2 Urbana Hombres 21 2657944,294 Ocupados 393 2018 2657944.3
## 8 Urbana Mujeres 36 1005870,841 Ocupados 393 2018 1005870.8
## 9 Urbana Mujeres 79 170998,043 Ocupados 519 2018 170998.0
## 10 Urbana Hombres 26 2124964,517 Ocupados 519 2018 2124964.5
## 11 Urbana Mujeres 20 1810567,515 Ocupados 519 2018 1810567.5
## 14 Urbana Mujeres 72 804696,673 Ocupados 225 2018 804696.7
summary(ephing$e01aimdec)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 125 800000 1790674 2248055 2612195 99581213
boxplot(ephing$e01aimdec,ephing$P06)
hist(ephing$e01aimdec)
#Media ponderada de "E01AIMDE" total Nivel País en miles de guaraníes (a un decimal)
round(mean(ephing$e01aimdec),1)
## [1] 2248055
round(weighted.mean(ephing$e01aimdec , ephing$FEX),1)
## [1] 2342232