Realizar e interpretar regresión logísitica con datos de personas e ingresos de USA
Construir un modelo de regresión logísitca aplicado a datos de personas y sus ingresos en USA
La variable dependiente es los ingresos identificado por 0 y 1, los ganan por debajo o igual a 50 Mil y los que ganan por encima de 50 Mil.
library(dplyr)
library(ggplot2)
library(knitr)
library(caret)
library(readr)
library(scales)
library(DT)
datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/FundamentosMachineLearning/master/datos/adultos_clean.csv", encoding = "UTF-8")
datatable(datos, caption = "Los datos", options = list(pageLength = 10))
set.seed(2020)
entrena <- createDataPartition(y = datos$income10, p = 0.7, list = FALSE, times = 1)
# Datos entrenamiento
datos.entrenamiento <- datos[entrena, ] # [renglones, columna]
# Datos validación
datos.validacion <- datos[-entrena, ]
datatable(datos.entrenamiento, caption = "Datos de entrenamiento", options = list(pageLength = 10))