1 Simulaciones para big data

1.1 Añadir código R y resultados

# SIMULAR UNA TABLA CON TRES VARIABLES
# Y 10 MILLONES DE FILAS EN CADA UNA

# Identificacion: distribucion uniforme
# de 1 a 100millones
# numero de simulaciones: n
n = 10000

a=1
a
## [1] 1
b=100000000
b
## [1] 1e+08
ide<- round(runif(n,a,b),0)
head(ide)
## [1] 77896136 32278600 46544685 53027680 40586741 15768903
#añadir un histograma
hist(ide)

# edad como una normal de media 25 y desvio 5
# media
m=25
ds=5 #desvio estandar
help(rnorm)
edad=round(rnorm(n, m, ds),0)
help(hist)
hist(edad)

1.2 Simular el ingreso de los sujetos como una distribución exponencial de parametro alfa=3000000

# Parámetro de escala
alpha <- 3000000  

# Simulación de valores (rexp utiliza 'rate' = 1/scale)
ingreso <- round(rexp(n,  1/alpha),0)
hist(ingreso)

## Añadir a la tabla el sexo

# Generar valores 0 o 1 con igual probabilidad
sexo <- round(runif(n, 0, 1), 0)

# Convertir a factor con etiquetas
sexo <- factor(sexo, levels = c(0, 1), labels = c("Hombres", "Mujeres"))

table(sexo)
## sexo
## Hombres Mujeres 
##    5046    4954

1.3 Juntar todos los campos en una tabla de datos (data.frame)

dt=data.frame(ide,edad, sexo, ingreso)
head(dt)

1.4 Nivel de asociación entre la edad y el ingreso

modelo=lm(ingreso ~ sexo)
anova(modelo)

1.4.1 Figuras

plot(modelo)