“ Año del Bicentenario, de la consolidación de nuestra Independencia, y de la conmemoración de las heroicas batallas de Junín y Ayacucho ”

Logo de la Institución

Participantes:
  • Zegarra Carrion Gissela Zolangh
  • Sullón Suyón Jenner Jhoen
  • Curso: Estadística Aplicada a la Computación

    Docente: Guevara Ponce Victor Manuel

    Carrera: Gestión de Sistemas de Información

    Sede: Piura

    Tema: Análisis de Datos para la empresa AutoWorld Dealership - Informe Final

    Indice

    I. Aspectos generales

    1.1 Nombre de la organización

    1.2 Descripción del caso que se va a analizar

    II. Fundamentos básicos de la Estadística

    2.1 Objetivo de estudio

    2.2 Población de estudio

    2.3 Muestra

    2.4 Unidad de análisis

    III. Variables y tipo de variables

    3.1 Importación al entorno de trabajo

    3.2 Variables y descripción de cada variable

    IV. Manejo de base de datos

    4.1 Carga y visualización de los datos

    V. Tablas de frecuencia (Para cada variable)

    5.1 Tablas de frecuencia de las variables

    VI. Representación gráfica de datos.

    6.1 Graficos de las tablas millas por tipos de carros

    VII. Medidas estadísticas de tendencia

    7.1 Media aritmética

    7.2 Mediana

    7.3 Moda

    VIII. Medidas estadísticas de posición

    8.1 Categorizar en 4 grupos a las Millas por galón en ciudad

    8.2 Calcular e interpretar los cuartiles para las revoluciones del motor por millas

    8.3 Dividir en 10 grupo

    8.4 Dividir en 100 grupo

    8.5 Asimetria

    8.6 Curtosis

    IX. Manejo de datos Missing

    9.1 Verificación de valores perdidos

    9.2 Corrección de missing

    9.2.1 Eliminar filas o columnas con missin

    9.2.2 Aplicando técnicas de imputación

    9.2.3 Utilizando otra librería para imputar datos

    9.2.4 Imputación utilizando vecinos más cercanos

    X. Manejo de valores outliers

    10.1 Detección de outtliers univariado - gráfica

    10.1.1 Gráfico de cajas

    10.2. Correción

    10.2.1 Eliminar los atípicos

    XI. Transformación de variables

    11.1 Transformación de raíz cuadrada

    11.2 Transformación exponencial

    11.3 Transformación logarítmica

    11.4 Comparación de transformaciones

    XII. Estandarización y normalización de variables

    12.1 Estandarización

    12.1.1 Método 1 Por partes

    12.1.2 Método 2 Directo

    12.1.3 Método 3 Apoyarse en las funciones de R

    12.2 Normalización

    12.2.1 Método 1

    12.2.2 Método 2 Función

    12.2.3 Aplicando a todo el caso

    XIII. Modelamiento predictivo

    13.1 Regreción lineal

    13.1.1 Diagrama de dispersión o puntos

    13.1.2 Coeficiente de correlación

    13.1.3. Regresión lineal simple

    13.2 Regreción angular

    13.2.1 Representación de las observaciones

    13.2.2 Generar el modelo de regresión logística

    13.2.3 Gráfico del modelo

    13.2.4 Frecuencias de las variables millas por galon en ciudad y millas por galon en carretera

    13.2.5 Comparando modelos

    I. Aspectos generales

    1.1. Nombre de la organización

    AutoWorld Dealership

    1.2. Descripción del caso que se va a analizar

    AutoWorld Dealership, una cadena de concesionarios de automóviles, está interesada en mejorar su estrategia de venta de vehículos. La empresa ha recopilado datos detallados de diferentes modelos de automóviles en su inventario, incluyendo información sobre características técnicas, rendimiento, y precios. AutoWorld desea analizar estos datos para identificar patrones y tendencias que puedan ayudarles a optimizar su inventario y mejorar la satisfacción del cliente.

    II. Fundamentos básicos de la Estadística

    2.1. Objetivo de estudio

    El objetivo de este estudio es analizar y entender las características de diferentes modelos de automóviles con base en diversas especificaciones técnicas y de rendimiento. Se busca proporcionar insights sobre la variabilidad en las características de los vehículos, así como identificar posibles patrones o tendencias en relación con aspectos como eficiencia de combustible, capacidad de pasajeros, dimensiones físicas, características de motor, y precios.

    2.2. Población de estudio

    La población de estudio en este caso está compuesta por una muestra representativa de automóviles de diferentes fabricantes y modelos. La población incluye vehículos de diversas categorías, como pequeños, medianos, grandes, deportivos, compactos y vans. Se consideran automóviles fabricados tanto en Estados Unidos como fuera de este país.

    2.3. Muestra

    La muestra consiste en los automóviles listados en el conjunto de datos proporcionado. Cada fila del conjunto de datos representa un vehículo específico con sus respectivas características. La muestra abarca una variedad de fabricantes, modelos y categorías de automóviles, permitiendo así un análisis más completo y representativo de la diversidad en el mercado automotriz.

    2.4. Unidad de análisis

    La unidad de análisis en este caso es cada entrada individual en el conjunto de datos, es decir, cada fila que representa un modelo específico de automóvil. Cada automóvil se considera como una unidad independiente que puede ser evaluada en función de sus características y atributos. El análisis se realizará a nivel de cada unidad de análisis para obtener información detallada sobre las variaciones y similitudes entre los diferentes modelos de automóviles.

    III. Variables y tipo de variables

    3.1. Importación al entorno de trabajo

    # Instalar y cargar los paquetes necesarios
    if (!require(ggplot2)) {
      install.packages("ggplot2")
      library(ggplot2)
    }
    ## Loading required package: ggplot2
    ## Warning: package 'ggplot2' was built under R version 4.3.2

    3.2. Variables y descripción de cada variable

    ID: Número de identificación único para cada modelo de automóvil. Tipo: Clasificación del tamaño del vehículo (Pequeño, Tamaño Medio, Compacto, Grande, Deportivo, Van). Millas por galón en ciudad: Eficiencia de combustible en millas por galón en entornos urbanos. Millas por galón en carretera: Eficiencia de combustible en millas por galón en carreteras. Número de airbags: Cantidad de airbags en el vehículo. Tracción: Tipo de tracción (Delantera, Trasera, Doble tracción). Cilindros: Número de cilindros en el motor. Litros del motor: Capacidad del motor en litros. Caballos de fuerza: Potencia del motor en caballos de fuerza. Revoluciones por minuto: Número de revoluciones por minuto del motor. Transmisión manual: Indica si el vehículo tiene transmisión manual (Si/No). Capacidad del tanque: Capacidad del tanque de combustible en galones. Capacidad de pasajeros: Número máximo de pasajeros que puede acomodar el vehículo. Longitud: Longitud del vehículo en pulgadas. Distancia entre ruedas: Distancia entre las ruedas delanteras y traseras en pulgadas. Ancho: Ancho del vehículo en pulgadas. Espacio para dar la vuelta: Espacio necesario para dar una vuelta completa en pulgadas. Espacio en el asiento trasero: Espacio disponible en el asiento trasero en pulgadas. Capacidad del baúl: Capacidad del baúl en pies cúbicos. Peso en libras: Peso del vehículo en libras. Hecho en USA: Indica si el vehículo fue fabricado en Estados Unidos (Si/No). Precio básico: Precio básico del vehículo. Precio promedio: Precio promedio del vehículo. Precio equipado: Precio del vehículo con características adicionales. Fabricante: Nombre del fabricante del vehículo. Modelo: Nombre del modelo del vehículo.

    IV. Manejo de base de datos

    4.1. Carga y visualización de los datos

    # Cargar los datos
    carros <- read.csv("carros.csv", sep = ";", stringsAsFactors = TRUE, encoding = "latin1");
    
    # Visualizar las primeras filas de los datos simulados de Tipos y Número de airbags de Carros
    head(carros)
    ##   ID          tipo millas_por_galon_ciudad millas_por_galon_carretera
    ## 1  1      Pequeño                      25                         31
    ## 2  2 Tamaño Medio                      18                         25
    ## 3  3      Compacto                      20                         26
    ## 4  4 Tamaño Medio                      19                         26
    ## 5  5 Tamaño Medio                      22                         30
    ## 6  6 Tamaño Medio                      22                         31
    ##      numero_de_airbags tracciÃ.n cilindros litros_motor caballos_fuerza
    ## 1             No tiene Delantera         4          1,8             140
    ## 2 Conductor y copiloto Delantera         6          3,2             200
    ## 3            Conductor Delantera         6          2,8             172
    ## 4 Conductor y copiloto Delantera         6          2,8             172
    ## 5            Conductor   Trasera         4          3,5             208
    ## 6            Conductor Delantera         4          2,2             110
    ##   revoluciones_por_minuto rev_motor_por_milla transmisiÃ.n_manual
    ## 1                    6300                2890                  Si
    ## 2                    5500                2335                  Si
    ## 3                    5500                2280                  Si
    ## 4                    5500                2535                  Si
    ## 5                    5700                2545                  Si
    ## 6                    5200                2565                  No
    ##   capacidad_tanque capacidad_pasajeros longitud distancia_entre_ruedas ancho
    ## 1             13,2                   5      177                    102    68
    ## 2               18                   5      195                    115    71
    ## 3             16,9                   5      180                    102    67
    ## 4             21,1                   6      193                    106    70
    ## 5             21,1                   4      186                    109    69
    ## 6             16,4                   6      189                    105    69
    ##   espacio_para_dar_la_u espacio_asiento_trasero capacidad_baul peso_en_libras
    ## 1                    37                    26,5             11           2705
    ## 2                    38                      30             15           3560
    ## 3                    37                      28             14           3375
    ## 4                    37                      31             17           3405
    ## 5                    39                      27             13           3640
    ## 6                    41                      28             16           2880
    ##    hecho_o_no_en_USA precio_basico precio_promedio precio_equipado fabricante
    ## 1 Hecho fuera de USA          12,9            15,9            18,8      Acura
    ## 2 Hecho fuera de USA          29,2            33,9            38,7      Acura
    ## 3 Hecho fuera de USA          25,9            29,1            32,3       Audi
    ## 4 Hecho fuera de USA          30,8            37,7            44,6       Audi
    ## 5 Hecho fuera de USA          23,7              30            36,2        BMW
    ## 6       Hecho en USA          14,2            15,7            17,3      Buick
    ##    modelo
    ## 1 Integra
    ## 2  Legend
    ## 3      90
    ## 4     100
    ## 5    535i
    ## 6 Century

    V. Tablas de frecuencia

    5.1. Tablas de frecuencia de las variables

    # Tabla de frecuencia para la tabla id
    library(agricolae)
    ## Warning: package 'agricolae' was built under R version 4.3.2
    tabla_frecuencia_id <- table.freq(hist(carros$ID,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_id
    ##    Lower Upper Main Frequency Percentage CF   CPF
    ## 1      0    10    5        10       10.8 10  10.8
    ## 2     10    20   15        10       10.8 20  21.5
    ## 3     20    30   25        10       10.8 30  32.3
    ## 4     30    40   35        10       10.8 40  43.0
    ## 5     40    50   45        10       10.8 50  53.8
    ## 6     50    60   55        10       10.8 60  64.5
    ## 7     60    70   65        10       10.8 70  75.3
    ## 8     70    80   75        10       10.8 80  86.0
    ## 9     80    90   85        10       10.8 90  96.8
    ## 10    90   100   95         3        3.2 93 100.0
    # Tabla de frecuencia para la tabla millas_por_galon_ciudad
    library(agricolae)
    tabla_frecuencia_millas_por_galon_ciudad <- table.freq(hist(carros$millas_por_galon_ciudad,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_millas_por_galon_ciudad
    ##   Lower Upper Main Frequency Percentage CF   CPF
    ## 1    15    20 17.5        43       46.2 43  46.2
    ## 2    20    25 22.5        32       34.4 75  80.6
    ## 3    25    30 27.5        11       11.8 86  92.5
    ## 4    30    35 32.5         4        4.3 90  96.8
    ## 5    35    40 37.5         1        1.1 91  97.8
    ## 6    40    45 42.5         1        1.1 92  98.9
    ## 7    45    50 47.5         1        1.1 93 100.0
    # Tabla de frecuencia para la tabla millas_por_galon_carretera
    library(agricolae)
    tabla_frecuencia_millas_por_galon_carretera <- table.freq(hist(carros$millas_por_galon_carretera,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_millas_por_galon_carretera
    ##   Lower Upper Main Frequency Percentage CF   CPF
    ## 1    20    25 22.5        22       23.7 22  23.7
    ## 2    25    30 27.5        42       45.2 64  68.8
    ## 3    30    35 32.5        18       19.4 82  88.2
    ## 4    35    40 37.5         7        7.5 89  95.7
    ## 5    40    45 42.5         2        2.2 91  97.8
    ## 6    45    50 47.5         2        2.2 93 100.0
    # Tabla de frecuencia para la tabla cilindros
    library(agricolae)
    tabla_frecuencia_cilindros <- table.freq(hist(carros$cilindros,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_cilindros
    ##    Lower Upper Main Frequency Percentage CF   CPF
    ## 1    3.0   3.5 3.25         3        3.2  3   3.2
    ## 2    3.5   4.0 3.75        50       53.8 53  57.0
    ## 3    4.0   4.5 4.25         0        0.0 53  57.0
    ## 4    4.5   5.0 4.75         2        2.2 55  59.1
    ## 5    5.0   5.5 5.25         0        0.0 55  59.1
    ## 6    5.5   6.0 5.75        31       33.3 86  92.5
    ## 7    6.0   6.5 6.25         0        0.0 86  92.5
    ## 8    6.5   7.0 6.75         0        0.0 86  92.5
    ## 9    7.0   7.5 7.25         0        0.0 86  92.5
    ## 10   7.5   8.0 7.75         7        7.5 93 100.0
    # Tabla de frecuencia para la tabla caballos_fuerza
    library(agricolae)
    tabla_frecuencia_caballos_fuerza <- table.freq(hist(carros$caballos_fuerza,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_caballos_fuerza
    ##   Lower Upper Main Frequency Percentage CF   CPF
    ## 1    50   100   75        22       23.7 22  23.7
    ## 2   100   150  125        32       34.4 54  58.1
    ## 3   150   200  175        28       30.1 82  88.2
    ## 4   200   250  225         6        6.5 88  94.6
    ## 5   250   300  275         5        5.4 93 100.0
    # Tabla de frecuencia para la tabla revoluciones_por_minuto
    library(agricolae)
    tabla_frecuencia_revoluciones_por_minuto <- table.freq(hist(carros$revoluciones_por_minuto,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_revoluciones_por_minuto
    ##   Lower Upper Main Frequency Percentage CF   CPF
    ## 1  3500  4000 3750         3        3.2  3   3.2
    ## 2  4000  4500 4250         6        6.5  9   9.7
    ## 3  4500  5000 4750        27       29.0 36  38.7
    ## 4  5000  5500 5250        24       25.8 60  64.5
    ## 5  5500  6000 5750        29       31.2 89  95.7
    ## 6  6000  6500 6250         4        4.3 93 100.0
    # Tabla de frecuencia para la tabla rev_motor_por_milla
    library(agricolae)
    tabla_frecuencia_rev_motor_por_milla <- table.freq(hist(carros$rev_motor_por_milla,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_rev_motor_por_milla
    ##   Lower Upper Main Frequency Percentage CF   CPF
    ## 1  1000  1500 1250         4        4.3  4   4.3
    ## 2  1500  2000 1750        21       22.6 25  26.9
    ## 3  2000  2500 2250        33       35.5 58  62.4
    ## 4  2500  3000 2750        27       29.0 85  91.4
    ## 5  3000  3500 3250         6        6.5 91  97.8
    ## 6  3500  4000 3750         2        2.2 93 100.0
    # Tabla de frecuencia para la tabla capacidad_pasajeros
    library(agricolae)
    tabla_frecuencia_capacidad_pasajeros <- table.freq(hist(carros$capacidad_pasajeros,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_capacidad_pasajeros
    ##   Lower Upper Main Frequency Percentage CF   CPF
    ## 1     2     3  2.5         2        2.2  2   2.2
    ## 2     3     4  3.5        23       24.7 25  26.9
    ## 3     4     5  4.5        41       44.1 66  71.0
    ## 4     5     6  5.5        18       19.4 84  90.3
    ## 5     6     7  6.5         8        8.6 92  98.9
    ## 6     7     8  7.5         1        1.1 93 100.0
    # Tabla de frecuencia para la tabla longitud
    library(agricolae)
    tabla_frecuencia_longitud <- table.freq(hist(carros$longitud,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_longitud
    ##   Lower Upper Main Frequency Percentage CF   CPF
    ## 1   140   150  145         2        2.2  2   2.2
    ## 2   150   160  155         2        2.2  4   4.3
    ## 3   160   170  165        10       10.8 14  15.1
    ## 4   170   180  175        28       30.1 42  45.2
    ## 5   180   190  185        25       26.9 67  72.0
    ## 6   190   200  195        15       16.1 82  88.2
    ## 7   200   210  205         7        7.5 89  95.7
    ## 8   210   220  215         4        4.3 93 100.0
    # Tabla de frecuencia para la tabla distancia_entre_ruedas
    library(agricolae)
    tabla_frecuencia_distancia_entre_ruedas <- table.freq(hist(carros$distancia_entre_ruedas,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_distancia_entre_ruedas
    ##   Lower Upper  Main Frequency Percentage CF   CPF
    ## 1    90    95  92.5         9        9.7  9   9.7
    ## 2    95   100  97.5        21       22.6 30  32.3
    ## 3   100   105 102.5        28       30.1 58  62.4
    ## 4   105   110 107.5        15       16.1 73  78.5
    ## 5   110   115 112.5        16       17.2 89  95.7
    ## 6   115   120 117.5         4        4.3 93 100.0
    # Tabla de frecuencia para la tabla ancho
    library(agricolae)
    tabla_frecuencia_ancho <- table.freq(hist(carros$ancho,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_ancho
    ##   Lower Upper Main Frequency Percentage CF   CPF
    ## 1    60    62   61         1        1.1  1   1.1
    ## 2    62    64   63         6        6.5  7   7.5
    ## 3    64    66   65        13       14.0 20  21.5
    ## 4    66    68   67        22       23.7 42  45.2
    ## 5    68    70   69        18       19.4 60  64.5
    ## 6    70    72   71        12       12.9 72  77.4
    ## 7    72    74   73        15       16.1 87  93.5
    ## 8    74    76   75         1        1.1 88  94.6
    ## 9    76    78   77         5        5.4 93 100.0
    # Tabla de frecuencia para la tabla espacio_para_dar_la_u
    library(agricolae)
    tabla_frecuencia_espacio_para_dar_la_u <- table.freq(hist(carros$espacio_para_dar_la_u,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_espacio_para_dar_la_u
    ##   Lower Upper Main Frequency Percentage CF   CPF
    ## 1    32    34   33        10       10.8 10  10.8
    ## 2    34    36   35        13       14.0 23  24.7
    ## 3    36    38   37        17       18.3 40  43.0
    ## 4    38    40   39        21       22.6 61  65.6
    ## 5    40    42   41        18       19.4 79  84.9
    ## 6    42    44   43        11       11.8 90  96.8
    ## 7    44    46   45         3        3.2 93 100.0
    # Tabla de frecuencia para la tabla peso_en_libras
    library(agricolae)
    tabla_frecuencia_peso_en_libras <- table.freq(hist(carros$peso_en_libras,breaks = "Sturges", 
                                              plot = FALSE))
    tabla_frecuencia_peso_en_libras
    ##   Lower Upper Main Frequency Percentage CF   CPF
    ## 1  1500  2000 1750         3        3.2  3   3.2
    ## 2  2000  2500 2250        17       18.3 20  21.5
    ## 3  2500  3000 2750        25       26.9 45  48.4
    ## 4  3000  3500 3250        21       22.6 66  71.0
    ## 5  3500  4000 3750        23       24.7 89  95.7
    ## 6  4000  4500 4250         4        4.3 93 100.0

    VI. Representación gráfica de datos.

    6.1. Graficos de las tablas millas por tipos de carros

    # Cargar librería ggplot2 para visualización de datos
    library(ggplot2)
     
    # Crear gráfico de barras para Millas por Tipo con colores
    grafico_barras_tipo_millas <- ggplot(carros, aes(x = tipo, y = millas_por_galon_ciudad, fill = tipo)) +
      geom_bar(stat = "identity", position = "dodge") +
      labs(title = "Distribución de Millas por Tipo de Carro",
           x = "Tipo",
           y = "Millas",
           fill = "tipo") +
      scale_fill_manual(values = c(
        "Grande" = "blue", 
        "Deportivo" = "pink", 
        "Compacto" = "green",
        "Van" = "purple",
        "Tamaño Medio" = "orange",
        "Pequeño" = "yellow"
      )) +
      theme(axis.text.x = element_text(angle = 45, hjust = 1))
    # Visualizar gráfico de barras
    print(grafico_barras_tipo_millas)

    # Crear histograma para los Millas de Tipo de carros
    histograma_millas <- ggplot(carros, aes(x = millas_por_galon_ciudad, fill = tipo)) +
      geom_bar(position = "identity", alpha = 0.7) +  # Cambiar a geom_bar y quitar binwidth
      labs(title = "Histograma de millas de tipos de Carros",
           x = "Millas",
           y = "Count",  # Cambiar a Count ya que ahora estamos usando stat="count"
           fill = "tipo") +
      theme_minimal()
    
    # Visualizar el histograma
    print(histograma_millas)

    # Crear gráfico de cajas para las millas de los tipos de carros
    boxplot_millas <- ggplot(carros, aes(x = tipo, y = millas_por_galon_ciudad)) +
      geom_boxplot() +
      labs(title = "Distribución de Millas por Tipo de Carro",
           x = "Tipo",
           y = "Millas") +
      theme_minimal() +
      theme(axis.text.x = element_text(angle = 45, hjust = 1))
     
    # Visualizar el gráfico de cajas
    print(boxplot_millas)

    # Crear gráfico de densidad para las millas de los tipos de carros
    density_plot <- ggplot(carros, aes(x = millas_por_galon_ciudad, fill = tipo)) +
      geom_density(alpha = 0.5) +
      labs(title = "Distribución de Densidad de Millas por Tipo de Carro",
           x = "Millas",
           y = "Densidad") +
      theme_minimal()
     
    # Visualizar el gráfico de densidad
    print(density_plot)

    # Crear diagrama circular para tipo y millas
    pie_chart_tipo_millas <- ggplot(carros, aes(x = "tipo", y = millas_por_galon_ciudad, fill = tipo)) +
      geom_bar(stat = "identity", width = 1, color = "white") +
      coord_polar("y") +
      labs(title = "Distribución de Millas por Tipo",
           fill = "tipo") +
      theme_minimal() +
      theme(legend.position = "bottom")
     
    # Visualizar diagrama circular
    print(pie_chart_tipo_millas)

    VII. Medidas estadísticas de tendencia

    ##Datos de las Millas por galón en ciudad
    millas<- c(25,18,20,19,22,22,19,16,19,16,16,25,25,19,21,18,15)

    7.1. Media aritmética

    #Opción 1
    promedio = sum(millas)/length(millas)
    promedio
    ## [1] 19.70588
    #Opción 2
    mean(millas)
    ## [1] 19.70588

    7.2. Mediana

    median(millas)
    ## [1] 19

    7.3. Moda

    # Opción 1 (tabla)
    table(millas)
    ## millas
    ## 15 16 18 19 20 21 22 25 
    ##  1  3  2  4  1  1  2  3
    # Opción 2
    library(modeest)
    ## Warning: package 'modeest' was built under R version 4.3.2
    ## 
    ## Attaching package: 'modeest'
    ## The following object is masked from 'package:agricolae':
    ## 
    ##     skewness
    mfv(millas)
    ## [1] 19

    VIII. Medidas estadísticas de posición

    8.1. Categorizar en 4 grupos a las Millas por galón en ciudad

    quantile(carros$millas_por_galon_ciudad)
    ##   0%  25%  50%  75% 100% 
    ##   15   18   21   25   46

    8.2. Calcular e interpretar los cuartiles para las revoluciones del motor por millas

    quantile(carros$rev_motor_por_milla)
    ##   0%  25%  50%  75% 100% 
    ## 1320 1985 2340 2565 3755

    8.3. Dividir en 10 grupo

    quantile(carros$millas_por_galon_ciudad, probs = seq(0, 1, 0.1))
    ##   0%  10%  20%  30%  40%  50%  60%  70%  80%  90% 100% 
    ## 15.0 17.0 18.0 19.0 20.0 21.0 22.2 24.0 25.0 29.0 46.0

    8.4. Dividir en 100 grupo

    quantile(carros$millas_por_galon_ciudad, probs = seq(0, 1, 0.01))
    ##    0%    1%    2%    3%    4%    5%    6%    7%    8%    9%   10%   11%   12% 
    ## 15.00 15.00 15.84 16.00 16.00 16.60 17.00 17.00 17.00 17.00 17.00 17.00 17.00 
    ##   13%   14%   15%   16%   17%   18%   19%   20%   21%   22%   23%   24%   25% 
    ## 17.00 17.88 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00 
    ##   26%   27%   28%   29%   30%   31%   32%   33%   34%   35%   36%   37%   38% 
    ## 18.00 18.84 19.00 19.00 19.00 19.00 19.00 19.00 19.00 19.00 19.00 19.04 19.96 
    ##   39%   40%   41%   42%   43%   44%   45%   46%   47%   48%   49%   50%   51% 
    ## 20.00 20.00 20.00 20.00 20.00 20.00 20.00 20.32 21.00 21.00 21.00 21.00 21.00 
    ##   52%   53%   54%   55%   56%   57%   58%   59%   60%   61%   62%   63%   64% 
    ## 21.00 21.76 22.00 22.00 22.00 22.00 22.00 22.00 22.20 23.00 23.00 23.00 23.00 
    ##   65%   66%   67%   68%   69%   70%   71%   72%   73%   74%   75%   76%   77% 
    ## 23.00 23.00 23.00 23.00 23.48 24.00 24.00 24.00 24.00 24.08 25.00 25.00 25.00 
    ##   78%   79%   80%   81%   82%   83%   84%   85%   86%   87%   88%   89%   90% 
    ## 25.00 25.00 25.00 25.52 26.00 26.72 28.00 28.20 29.00 29.00 29.00 29.00 29.00 
    ##   91%   92%   93%   94%   95%   96%   97%   98%   99%  100% 
    ## 29.00 29.64 30.56 31.00 31.40 32.32 34.44 39.48 42.32 46.00

    8.5. Asimetria

    library(fBasics)
    ## Warning: package 'fBasics' was built under R version 4.3.2
    ## 
    ## Attaching package: 'fBasics'
    ## The following objects are masked from 'package:modeest':
    ## 
    ##     ghMode, ghtMode, gldMode, hypMode, nigMode, skewness
    ## The following objects are masked from 'package:agricolae':
    ## 
    ##     kurtosis, skewness
    skewness(carros$millas_por_galon_ciudad)
    ## [1] 1.649843
    ## attr(,"method")
    ## [1] "moment"
    hist(carros$millas_por_galon_ciudad)

    8.6. Curtosis

    kurtosis(carros$millas_por_galon_ciudad)
    ## [1] 3.584488
    ## attr(,"method")
    ## [1] "excess"

    IX. Manejo de datos Missing

    # Mostrar
    head(carros)
    ##   ID          tipo millas_por_galon_ciudad millas_por_galon_carretera
    ## 1  1      Pequeño                      25                         31
    ## 2  2 Tamaño Medio                      18                         25
    ## 3  3      Compacto                      20                         26
    ## 4  4 Tamaño Medio                      19                         26
    ## 5  5 Tamaño Medio                      22                         30
    ## 6  6 Tamaño Medio                      22                         31
    ##      numero_de_airbags tracciÃ.n cilindros litros_motor caballos_fuerza
    ## 1             No tiene Delantera         4          1,8             140
    ## 2 Conductor y copiloto Delantera         6          3,2             200
    ## 3            Conductor Delantera         6          2,8             172
    ## 4 Conductor y copiloto Delantera         6          2,8             172
    ## 5            Conductor   Trasera         4          3,5             208
    ## 6            Conductor Delantera         4          2,2             110
    ##   revoluciones_por_minuto rev_motor_por_milla transmisiÃ.n_manual
    ## 1                    6300                2890                  Si
    ## 2                    5500                2335                  Si
    ## 3                    5500                2280                  Si
    ## 4                    5500                2535                  Si
    ## 5                    5700                2545                  Si
    ## 6                    5200                2565                  No
    ##   capacidad_tanque capacidad_pasajeros longitud distancia_entre_ruedas ancho
    ## 1             13,2                   5      177                    102    68
    ## 2               18                   5      195                    115    71
    ## 3             16,9                   5      180                    102    67
    ## 4             21,1                   6      193                    106    70
    ## 5             21,1                   4      186                    109    69
    ## 6             16,4                   6      189                    105    69
    ##   espacio_para_dar_la_u espacio_asiento_trasero capacidad_baul peso_en_libras
    ## 1                    37                    26,5             11           2705
    ## 2                    38                      30             15           3560
    ## 3                    37                      28             14           3375
    ## 4                    37                      31             17           3405
    ## 5                    39                      27             13           3640
    ## 6                    41                      28             16           2880
    ##    hecho_o_no_en_USA precio_basico precio_promedio precio_equipado fabricante
    ## 1 Hecho fuera de USA          12,9            15,9            18,8      Acura
    ## 2 Hecho fuera de USA          29,2            33,9            38,7      Acura
    ## 3 Hecho fuera de USA          25,9            29,1            32,3       Audi
    ## 4 Hecho fuera de USA          30,8            37,7            44,6       Audi
    ## 5 Hecho fuera de USA          23,7              30            36,2        BMW
    ## 6       Hecho en USA          14,2            15,7            17,3      Buick
    ##    modelo
    ## 1 Integra
    ## 2  Legend
    ## 3      90
    ## 4     100
    ## 5    535i
    ## 6 Century
    str(carros)
    ## 'data.frame':    93 obs. of  27 variables:
    ##  $ ID                        : int  1 2 3 4 5 6 7 8 9 10 ...
    ##  $ tipo                      : Factor w/ 6 levels "Compacto","Deportivo",..: 4 5 1 5 5 5 3 3 5 3 ...
    ##  $ millas_por_galon_ciudad   : int  25 18 20 19 22 22 19 16 19 16 ...
    ##  $ millas_por_galon_carretera: int  31 25 26 26 30 31 28 25 27 25 ...
    ##  $ numero_de_airbags         : Factor w/ 3 levels "Conductor","Conductor y copiloto",..: 3 2 1 2 1 1 1 1 1 1 ...
    ##  $ tracciÃ.n                 : Factor w/ 3 levels "Delantera","Doble tracción",..: 1 1 1 1 3 1 1 3 1 1 ...
    ##  $ cilindros                 : int  4 6 6 6 4 4 6 6 6 8 ...
    ##  $ litros_motor              : Factor w/ 26 levels "1","1,2","1,3",..: 6 16 14 14 19 10 20 26 20 24 ...
    ##  $ caballos_fuerza           : int  140 200 172 172 208 110 170 180 170 200 ...
    ##  $ revoluciones_por_minuto   : int  6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
    ##  $ rev_motor_por_milla       : int  2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
    ##  $ transmisiÃ.n_manual       : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 1 1 1 ...
    ##  $ capacidad_tanque          : Factor w/ 38 levels "10","10,6","11,1",..: 7 23 20 34 34 18 23 36 26 23 ...
    ##  $ capacidad_pasajeros       : int  5 5 5 6 4 6 6 6 5 6 ...
    ##  $ longitud                  : int  177 195 180 193 186 189 200 216 198 206 ...
    ##  $ distancia_entre_ruedas    : int  102 115 102 106 109 105 111 116 108 114 ...
    ##  $ ancho                     : int  68 71 67 70 69 69 74 78 73 73 ...
    ##  $ espacio_para_dar_la_u     : int  37 38 37 37 39 41 42 45 41 43 ...
    ##  $ espacio_asiento_trasero   : Factor w/ 26 levels "178,129,531,871,822",..: 12 19 15 21 13 15 20 20 12 25 ...
    ##  $ capacidad_baul            : Factor w/ 27 levels "10","11","116,914,413,363,161",..: 2 7 6 13 5 10 13 21 6 17 ...
    ##  $ peso_en_libras            : int  2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
    ##  $ hecho_o_no_en_USA         : Factor w/ 2 levels "Hecho en USA",..: 2 2 2 2 2 1 1 1 1 1 ...
    ##  $ precio_basico             : Factor w/ 79 levels "10,4","10,5",..: 10 52 48 54 46 17 38 44 49 56 ...
    ##  $ precio_promedio           : Factor w/ 81 levels "10","10,1","10,3",..: 25 63 58 68 60 23 45 50 54 65 ...
    ##  $ precio_equipado           : Factor w/ 79 levels "10","10,6","11",..: 32 69 59 72 65 25 40 50 52 66 ...
    ##  $ fabricante                : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
    ##  $ modelo                    : Factor w/ 93 levels "100","190E","240",..: 49 54 9 1 6 24 56 73 72 35 ...

    9.1. VERIFICACIÓN DE VALORES PERDIDOS

    # Verificar columnas con missing
    which(colSums(is.na(carros))!= 0)
    ## named integer(0)

    Realizar el análisis utilizando librerias

    library(VIM)
    library(mice)
    
    resumen_missing <- aggr(carros, numbers=T)

    summary(resumen_missing)
    ## 
    ##  Missings per variable: 
    ##                    Variable Count
    ##                          ID     0
    ##                        tipo     0
    ##     millas_por_galon_ciudad     0
    ##  millas_por_galon_carretera     0
    ##           numero_de_airbags     0
    ##                   tracciÃ.n     0
    ##                   cilindros     0
    ##                litros_motor     0
    ##             caballos_fuerza     0
    ##     revoluciones_por_minuto     0
    ##         rev_motor_por_milla     0
    ##         transmisiÃ.n_manual     0
    ##            capacidad_tanque     0
    ##         capacidad_pasajeros     0
    ##                    longitud     0
    ##      distancia_entre_ruedas     0
    ##                       ancho     0
    ##       espacio_para_dar_la_u     0
    ##     espacio_asiento_trasero     0
    ##              capacidad_baul     0
    ##              peso_en_libras     0
    ##           hecho_o_no_en_USA     0
    ##               precio_basico     0
    ##             precio_promedio     0
    ##             precio_equipado     0
    ##                  fabricante     0
    ##                      modelo     0
    ## 
    ##  Missings in combinations of variables: 
    ##                                           Combinations Count Percent
    ##  0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0    93     100

    Para determinar mejor lo patrones de comportamiento de missing se puede utilizar la siguiente función

    library(VIM)
    matrixplot(carros)

    otra representación

    #Con librería mice
    library(mice)
    md.pattern(carros, rotate.names = TRUE)
    ##  /\     /\
    ## {  `---'  }
    ## {  O   O  }
    ## ==>  V <==  No need for mice. This data set is completely observed.
    ##  \  \|/  /
    ##   `-----'

    ##    ID tipo millas_por_galon_ciudad millas_por_galon_carretera numero_de_airbags
    ## 93  1    1                       1                          1                 1
    ##     0    0                       0                          0                 0
    ##    tracciÃ.n cilindros litros_motor caballos_fuerza revoluciones_por_minuto
    ## 93         1         1            1               1                       1
    ##            0         0            0               0                       0
    ##    rev_motor_por_milla transmisiÃ.n_manual capacidad_tanque capacidad_pasajeros
    ## 93                   1                   1                1                   1
    ##                      0                   0                0                   0
    ##    longitud distancia_entre_ruedas ancho espacio_para_dar_la_u
    ## 93        1                      1     1                     1
    ##           0                      0     0                     0
    ##    espacio_asiento_trasero capacidad_baul peso_en_libras hecho_o_no_en_USA
    ## 93                       1              1              1                 1
    ##                          0              0              0                 0
    ##    precio_basico precio_promedio precio_equipado fabricante modelo  
    ## 93             1               1               1          1      1 0
    ##                0               0               0          0      0 0

    La librería visdat permite visualizar missing pero los ordena por tipo de datos

    library(visdat)
    vis_dat(carros)

    Para obtener columnas con porcentajes de missing

    vis_miss(carros)

    9.2. Corrección de missing

    9.2.1. Eliminar filas o columnas con missin

    En este caso se va a eliminar filas:

    carros_corregido1 <- na.omit(carros)
    str(carros_corregido1)
    ## 'data.frame':    93 obs. of  27 variables:
    ##  $ ID                        : int  1 2 3 4 5 6 7 8 9 10 ...
    ##  $ tipo                      : Factor w/ 6 levels "Compacto","Deportivo",..: 4 5 1 5 5 5 3 3 5 3 ...
    ##  $ millas_por_galon_ciudad   : int  25 18 20 19 22 22 19 16 19 16 ...
    ##  $ millas_por_galon_carretera: int  31 25 26 26 30 31 28 25 27 25 ...
    ##  $ numero_de_airbags         : Factor w/ 3 levels "Conductor","Conductor y copiloto",..: 3 2 1 2 1 1 1 1 1 1 ...
    ##  $ tracciÃ.n                 : Factor w/ 3 levels "Delantera","Doble tracción",..: 1 1 1 1 3 1 1 3 1 1 ...
    ##  $ cilindros                 : int  4 6 6 6 4 4 6 6 6 8 ...
    ##  $ litros_motor              : Factor w/ 26 levels "1","1,2","1,3",..: 6 16 14 14 19 10 20 26 20 24 ...
    ##  $ caballos_fuerza           : int  140 200 172 172 208 110 170 180 170 200 ...
    ##  $ revoluciones_por_minuto   : int  6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
    ##  $ rev_motor_por_milla       : int  2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
    ##  $ transmisiÃ.n_manual       : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 1 1 1 ...
    ##  $ capacidad_tanque          : Factor w/ 38 levels "10","10,6","11,1",..: 7 23 20 34 34 18 23 36 26 23 ...
    ##  $ capacidad_pasajeros       : int  5 5 5 6 4 6 6 6 5 6 ...
    ##  $ longitud                  : int  177 195 180 193 186 189 200 216 198 206 ...
    ##  $ distancia_entre_ruedas    : int  102 115 102 106 109 105 111 116 108 114 ...
    ##  $ ancho                     : int  68 71 67 70 69 69 74 78 73 73 ...
    ##  $ espacio_para_dar_la_u     : int  37 38 37 37 39 41 42 45 41 43 ...
    ##  $ espacio_asiento_trasero   : Factor w/ 26 levels "178,129,531,871,822",..: 12 19 15 21 13 15 20 20 12 25 ...
    ##  $ capacidad_baul            : Factor w/ 27 levels "10","11","116,914,413,363,161",..: 2 7 6 13 5 10 13 21 6 17 ...
    ##  $ peso_en_libras            : int  2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
    ##  $ hecho_o_no_en_USA         : Factor w/ 2 levels "Hecho en USA",..: 2 2 2 2 2 1 1 1 1 1 ...
    ##  $ precio_basico             : Factor w/ 79 levels "10,4","10,5",..: 10 52 48 54 46 17 38 44 49 56 ...
    ##  $ precio_promedio           : Factor w/ 81 levels "10","10,1","10,3",..: 25 63 58 68 60 23 45 50 54 65 ...
    ##  $ precio_equipado           : Factor w/ 79 levels "10","10,6","11",..: 32 69 59 72 65 25 40 50 52 66 ...
    ##  $ fabricante                : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
    ##  $ modelo                    : Factor w/ 93 levels "100","190E","240",..: 49 54 9 1 6 24 56 73 72 35 ...
    # Verificar columnas con missing
    which(colSums(is.na(carros_corregido1))!= 0)
    ## named integer(0)

    9.2.2. Aplicando técnicas de imputación

    Imputación por medidas de tendencia central

    library(DMwR2)
    carros_corregido2<-centralImputation(carros) #DMwR, mediana (númerico), moda(no númerico)
    str(carros_corregido2)
    ## 'data.frame':    93 obs. of  27 variables:
    ##  $ ID                        : int  1 2 3 4 5 6 7 8 9 10 ...
    ##  $ tipo                      : Factor w/ 6 levels "Compacto","Deportivo",..: 4 5 1 5 5 5 3 3 5 3 ...
    ##  $ millas_por_galon_ciudad   : int  25 18 20 19 22 22 19 16 19 16 ...
    ##  $ millas_por_galon_carretera: int  31 25 26 26 30 31 28 25 27 25 ...
    ##  $ numero_de_airbags         : Factor w/ 3 levels "Conductor","Conductor y copiloto",..: 3 2 1 2 1 1 1 1 1 1 ...
    ##  $ tracciÃ.n                 : Factor w/ 3 levels "Delantera","Doble tracción",..: 1 1 1 1 3 1 1 3 1 1 ...
    ##  $ cilindros                 : int  4 6 6 6 4 4 6 6 6 8 ...
    ##  $ litros_motor              : Factor w/ 26 levels "1","1,2","1,3",..: 6 16 14 14 19 10 20 26 20 24 ...
    ##  $ caballos_fuerza           : int  140 200 172 172 208 110 170 180 170 200 ...
    ##  $ revoluciones_por_minuto   : int  6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
    ##  $ rev_motor_por_milla       : int  2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
    ##  $ transmisiÃ.n_manual       : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 1 1 1 ...
    ##  $ capacidad_tanque          : Factor w/ 38 levels "10","10,6","11,1",..: 7 23 20 34 34 18 23 36 26 23 ...
    ##  $ capacidad_pasajeros       : int  5 5 5 6 4 6 6 6 5 6 ...
    ##  $ longitud                  : int  177 195 180 193 186 189 200 216 198 206 ...
    ##  $ distancia_entre_ruedas    : int  102 115 102 106 109 105 111 116 108 114 ...
    ##  $ ancho                     : int  68 71 67 70 69 69 74 78 73 73 ...
    ##  $ espacio_para_dar_la_u     : int  37 38 37 37 39 41 42 45 41 43 ...
    ##  $ espacio_asiento_trasero   : Factor w/ 26 levels "178,129,531,871,822",..: 12 19 15 21 13 15 20 20 12 25 ...
    ##  $ capacidad_baul            : Factor w/ 27 levels "10","11","116,914,413,363,161",..: 2 7 6 13 5 10 13 21 6 17 ...
    ##  $ peso_en_libras            : int  2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
    ##  $ hecho_o_no_en_USA         : Factor w/ 2 levels "Hecho en USA",..: 2 2 2 2 2 1 1 1 1 1 ...
    ##  $ precio_basico             : Factor w/ 79 levels "10,4","10,5",..: 10 52 48 54 46 17 38 44 49 56 ...
    ##  $ precio_promedio           : Factor w/ 81 levels "10","10,1","10,3",..: 25 63 58 68 60 23 45 50 54 65 ...
    ##  $ precio_equipado           : Factor w/ 79 levels "10","10,6","11",..: 32 69 59 72 65 25 40 50 52 66 ...
    ##  $ fabricante                : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
    ##  $ modelo                    : Factor w/ 93 levels "100","190E","240",..: 49 54 9 1 6 24 56 73 72 35 ...
    # Verificar columnas con missing
    which(colSums(is.na(carros_corregido2))!= 0)
    ## named integer(0)

    9.2.3. Utilizando otra librería para imputar datos

    library(VIM)
    carros_corregido3 <- initialise(carros, method = "median") #media (continuos) mediana (discretos), moda(no númerico)
    str(carros_corregido3)
    ## 'data.frame':    93 obs. of  27 variables:
    ##  $ ID                        : int  1 2 3 4 5 6 7 8 9 10 ...
    ##  $ tipo                      : Factor w/ 6 levels "Compacto","Deportivo",..: 4 5 1 5 5 5 3 3 5 3 ...
    ##  $ millas_por_galon_ciudad   : int  25 18 20 19 22 22 19 16 19 16 ...
    ##  $ millas_por_galon_carretera: int  31 25 26 26 30 31 28 25 27 25 ...
    ##  $ numero_de_airbags         : Factor w/ 3 levels "Conductor","Conductor y copiloto",..: 3 2 1 2 1 1 1 1 1 1 ...
    ##  $ tracciÃ.n                 : Factor w/ 3 levels "Delantera","Doble tracción",..: 1 1 1 1 3 1 1 3 1 1 ...
    ##  $ cilindros                 : int  4 6 6 6 4 4 6 6 6 8 ...
    ##  $ litros_motor              : Factor w/ 26 levels "1","1,2","1,3",..: 6 16 14 14 19 10 20 26 20 24 ...
    ##  $ caballos_fuerza           : int  140 200 172 172 208 110 170 180 170 200 ...
    ##  $ revoluciones_por_minuto   : int  6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
    ##  $ rev_motor_por_milla       : int  2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
    ##  $ transmisiÃ.n_manual       : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 1 1 1 ...
    ##  $ capacidad_tanque          : Factor w/ 38 levels "10","10,6","11,1",..: 7 23 20 34 34 18 23 36 26 23 ...
    ##  $ capacidad_pasajeros       : int  5 5 5 6 4 6 6 6 5 6 ...
    ##  $ longitud                  : int  177 195 180 193 186 189 200 216 198 206 ...
    ##  $ distancia_entre_ruedas    : int  102 115 102 106 109 105 111 116 108 114 ...
    ##  $ ancho                     : int  68 71 67 70 69 69 74 78 73 73 ...
    ##  $ espacio_para_dar_la_u     : int  37 38 37 37 39 41 42 45 41 43 ...
    ##  $ espacio_asiento_trasero   : Factor w/ 26 levels "178,129,531,871,822",..: 12 19 15 21 13 15 20 20 12 25 ...
    ##  $ capacidad_baul            : Factor w/ 27 levels "10","11","116,914,413,363,161",..: 2 7 6 13 5 10 13 21 6 17 ...
    ##  $ peso_en_libras            : int  2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
    ##  $ hecho_o_no_en_USA         : Factor w/ 2 levels "Hecho en USA",..: 2 2 2 2 2 1 1 1 1 1 ...
    ##  $ precio_basico             : Factor w/ 79 levels "10,4","10,5",..: 10 52 48 54 46 17 38 44 49 56 ...
    ##  $ precio_promedio           : Factor w/ 81 levels "10","10,1","10,3",..: 25 63 58 68 60 23 45 50 54 65 ...
    ##  $ precio_equipado           : Factor w/ 79 levels "10","10,6","11",..: 32 69 59 72 65 25 40 50 52 66 ...
    ##  $ fabricante                : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
    ##  $ modelo                    : Factor w/ 93 levels "100","190E","240",..: 49 54 9 1 6 24 56 73 72 35 ...
    # Verificar columnas con missing
    which(colSums(is.na(carros_corregido3))!= 0)
    ## named integer(0)

    9.2.4. Imputación utilizando vecinos más cercanos

    library(DMwR2)
    carros_corregido4<-knnImputation(carros, k=10)
    str(carros_corregido4)
    ## 'data.frame':    93 obs. of  27 variables:
    ##  $ ID                        : int  1 2 3 4 5 6 7 8 9 10 ...
    ##  $ tipo                      : Factor w/ 6 levels "Compacto","Deportivo",..: 4 5 1 5 5 5 3 3 5 3 ...
    ##  $ millas_por_galon_ciudad   : int  25 18 20 19 22 22 19 16 19 16 ...
    ##  $ millas_por_galon_carretera: int  31 25 26 26 30 31 28 25 27 25 ...
    ##  $ numero_de_airbags         : Factor w/ 3 levels "Conductor","Conductor y copiloto",..: 3 2 1 2 1 1 1 1 1 1 ...
    ##  $ tracciÃ.n                 : Factor w/ 3 levels "Delantera","Doble tracción",..: 1 1 1 1 3 1 1 3 1 1 ...
    ##  $ cilindros                 : int  4 6 6 6 4 4 6 6 6 8 ...
    ##  $ litros_motor              : Factor w/ 26 levels "1","1,2","1,3",..: 6 16 14 14 19 10 20 26 20 24 ...
    ##  $ caballos_fuerza           : int  140 200 172 172 208 110 170 180 170 200 ...
    ##  $ revoluciones_por_minuto   : int  6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
    ##  $ rev_motor_por_milla       : int  2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
    ##  $ transmisiÃ.n_manual       : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 1 1 1 ...
    ##  $ capacidad_tanque          : Factor w/ 38 levels "10","10,6","11,1",..: 7 23 20 34 34 18 23 36 26 23 ...
    ##  $ capacidad_pasajeros       : int  5 5 5 6 4 6 6 6 5 6 ...
    ##  $ longitud                  : int  177 195 180 193 186 189 200 216 198 206 ...
    ##  $ distancia_entre_ruedas    : int  102 115 102 106 109 105 111 116 108 114 ...
    ##  $ ancho                     : int  68 71 67 70 69 69 74 78 73 73 ...
    ##  $ espacio_para_dar_la_u     : int  37 38 37 37 39 41 42 45 41 43 ...
    ##  $ espacio_asiento_trasero   : Factor w/ 26 levels "178,129,531,871,822",..: 12 19 15 21 13 15 20 20 12 25 ...
    ##  $ capacidad_baul            : Factor w/ 27 levels "10","11","116,914,413,363,161",..: 2 7 6 13 5 10 13 21 6 17 ...
    ##  $ peso_en_libras            : int  2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
    ##  $ hecho_o_no_en_USA         : Factor w/ 2 levels "Hecho en USA",..: 2 2 2 2 2 1 1 1 1 1 ...
    ##  $ precio_basico             : Factor w/ 79 levels "10,4","10,5",..: 10 52 48 54 46 17 38 44 49 56 ...
    ##  $ precio_promedio           : Factor w/ 81 levels "10","10,1","10,3",..: 25 63 58 68 60 23 45 50 54 65 ...
    ##  $ precio_equipado           : Factor w/ 79 levels "10","10,6","11",..: 32 69 59 72 65 25 40 50 52 66 ...
    ##  $ fabricante                : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
    ##  $ modelo                    : Factor w/ 93 levels "100","190E","240",..: 49 54 9 1 6 24 56 73 72 35 ...
    # Verificar columnas con missing
    which(colSums(is.na(carros_corregido4))!= 0)
    ## named integer(0)

    X. Manejo de valores outliers

    10.1. Detección de outtliers univariado - gráfica

    El análisis solo se realiza para variable cuantitativas

    10.1.1. Gráfico de cajas

    Gráfico de cajas y bigotes

    #Gráfico de cajas y bigotes
    boxplot(carros$millas_por_galon_ciudad)

    Según los resultados, las millas por galon en ciudad no tiene valores atípicos

    Obteniendo valores atípicos para la variable millas_por_galon_carretera

    boxplot(carros$millas_por_galon_carretera)

    Para todo

    boxplot(carros)

    Para longitud

    boxplot(carros$longitud)

    Según los resultados, se identifica valores atípicos. Vamos a identificarlo y plantear estrategia de corrección

    # Calcular el RIC (RIC = Q3 - Q1)
    q1 <- quantile(carros$longitud, 0.25)
    q3 <- quantile(carros$longitud, 0.75)
    RIC <- q3-q1
    RIC
    ## 75% 
    ##  18
    # Limites o bigotes (Superior e inferior)
    bigote_inferior <- q1-1.5*RIC
    bigote_inferior
    ## 25% 
    ## 147
    bigote_superior <- q3+1.5*RIC
    bigote_superior
    ## 75% 
    ## 219
    # Identificar lo valores atípicos
    outliers_det <- carros$longitud[carros$longitud < bigote_inferior | carros$longitud > bigote_superior]
    outliers_det
    ## [1] 141 146

    10.2. Correción

    10.2.1 Eliminar los atípicos

    carros_sin_atipicos <- carros[!carros$longitud %in% outliers_det,]
    carros_sin_atipicos
    ##    ID          tipo millas_por_galon_ciudad millas_por_galon_carretera
    ## 1   1      Pequeño                      25                         31
    ## 2   2 Tamaño Medio                      18                         25
    ## 3   3      Compacto                      20                         26
    ## 4   4 Tamaño Medio                      19                         26
    ## 5   5 Tamaño Medio                      22                         30
    ## 6   6 Tamaño Medio                      22                         31
    ## 7   7        Grande                      19                         28
    ## 8   8        Grande                      16                         25
    ## 9   9 Tamaño Medio                      19                         27
    ## 10 10        Grande                      16                         25
    ## 11 11 Tamaño Medio                      16                         25
    ## 12 12      Compacto                      25                         36
    ## 13 13      Compacto                      25                         34
    ## 14 14     Deportivo                      19                         28
    ## 15 15 Tamaño Medio                      21                         29
    ## 16 16           Van                      18                         23
    ## 17 17           Van                      15                         20
    ## 18 18        Grande                      17                         26
    ## 19 19     Deportivo                      17                         25
    ## 20 20        Grande                      20                         28
    ## 21 21      Compacto                      23                         28
    ## 22 22        Grande                      20                         26
    ## 23 23      Pequeño                      29                         33
    ## 24 24      Pequeño                      23                         29
    ## 25 25      Compacto                      22                         27
    ## 26 26           Van                      17                         21
    ## 27 27 Tamaño Medio                      21                         27
    ## 28 28     Deportivo                      18                         24
    ## 29 29      Pequeño                      29                         33
    ## 30 30        Grande                      20                         28
    ## 32 32      Pequeño                      23                         30
    ## 33 33      Compacto                      22                         27
    ## 34 34     Deportivo                      22                         29
    ## 35 35     Deportivo                      24                         30
    ## 36 36           Van                      15                         20
    ## 37 37 Tamaño Medio                      21                         30
    ## 38 38        Grande                      18                         26
    ## 39 39      Pequeño                      46                         50
    ## 40 40     Deportivo                      30                         36
    ## 41 41     Deportivo                      24                         31
    ## 42 42      Pequeño                      42                         46
    ## 43 43      Compacto                      24                         31
    ## 44 44      Pequeño                      29                         33
    ## 45 45      Pequeño                      22                         29
    ## 46 46     Deportivo                      26                         34
    ## 47 47 Tamaño Medio                      20                         27
    ## 48 48 Tamaño Medio                      17                         22
    ## 49 49 Tamaño Medio                      18                         24
    ## 50 50 Tamaño Medio                      18                         23
    ## 51 51 Tamaño Medio                      17                         26
    ## 52 52        Grande                      18                         26
    ## 53 53      Pequeño                      29                         37
    ## 54 54      Pequeño                      28                         36
    ## 55 55      Compacto                      26                         34
    ## 56 56           Van                      18                         24
    ## 57 57     Deportivo                      17                         25
    ## 58 58      Compacto                      20                         29
    ## 59 59 Tamaño Medio                      19                         25
    ## 60 60     Deportivo                      23                         26
    ## 61 61 Tamaño Medio                      19                         26
    ## 62 62      Pequeño                      29                         33
    ## 63 63 Tamaño Medio                      18                         24
    ## 64 64      Pequeño                      29                         33
    ## 65 65      Compacto                      24                         30
    ## 66 66           Van                      17                         23
    ## 67 67 Tamaño Medio                      21                         26
    ## 68 68      Compacto                      24                         31
    ## 69 69 Tamaño Medio                      23                         31
    ## 70 70           Van                      18                         23
    ## 71 71        Grande                      19                         28
    ## 72 72     Deportivo                      23                         30
    ## 73 73      Pequeño                      31                         41
    ## 74 74      Compacto                      23                         31
    ## 75 75     Deportivo                      19                         28
    ## 76 76 Tamaño Medio                      19                         27
    ## 77 77        Grande                      19                         28
    ## 78 78      Compacto                      20                         26
    ## 79 79      Pequeño                      28                         38
    ## 81 81      Pequeño                      25                         30
    ## 82 82      Compacto                      23                         30
    ## 83 83      Pequeño                      39                         43
    ## 84 84      Pequeño                      32                         37
    ## 85 85     Deportivo                      25                         32
    ## 86 86 Tamaño Medio                      22                         29
    ## 87 87           Van                      18                         22
    ## 88 88      Pequeño                      25                         33
    ## 89 89           Van                      17                         21
    ## 90 90      Compacto                      21                         30
    ## 91 91     Deportivo                      18                         25
    ## 92 92      Compacto                      21                         28
    ## 93 93 Tamaño Medio                      20                         28
    ##       numero_de_airbags       tracciÃ.n cilindros litros_motor caballos_fuerza
    ## 1              No tiene       Delantera         4          1,8             140
    ## 2  Conductor y copiloto       Delantera         6          3,2             200
    ## 3             Conductor       Delantera         6          2,8             172
    ## 4  Conductor y copiloto       Delantera         6          2,8             172
    ## 5             Conductor         Trasera         4          3,5             208
    ## 6             Conductor       Delantera         4          2,2             110
    ## 7             Conductor       Delantera         6          3,8             170
    ## 8             Conductor         Trasera         6          5,7             180
    ## 9             Conductor       Delantera         6          3,8             170
    ## 10            Conductor       Delantera         8          4,9             200
    ## 11 Conductor y copiloto       Delantera         8          4,6             295
    ## 12             No tiene       Delantera         4          2,2             110
    ## 13            Conductor       Delantera         4          2,2             110
    ## 14 Conductor y copiloto         Trasera         6          3,4             160
    ## 15             No tiene       Delantera         4          2,2             110
    ## 16             No tiene       Delantera         6          3,8             170
    ## 17             No tiene Doble tracción         6          4,3             165
    ## 18            Conductor         Trasera         8            5             170
    ## 19            Conductor         Trasera         8          5,7             300
    ## 20 Conductor y copiloto       Delantera         6          3,3             153
    ## 21 Conductor y copiloto       Delantera         4            3             141
    ## 22            Conductor       Delantera         6          3,3             147
    ## 23             No tiene       Delantera         4          1,5              92
    ## 24            Conductor       Delantera         4          2,2              93
    ## 25            Conductor       Delantera         4          2,5             100
    ## 26            Conductor Doble tracción         6            3             142
    ## 27            Conductor       Delantera         4          2,5             100
    ## 28            Conductor Doble tracción         6            3             300
    ## 29             No tiene       Delantera         4          1,5              92
    ## 30 Conductor y copiloto       Delantera         6          3,5             214
    ## 32             No tiene       Delantera         4          1,8             127
    ## 33             No tiene       Delantera         4          2,3              96
    ## 34            Conductor         Trasera         4          2,3             105
    ## 35            Conductor       Delantera         4            2             115
    ## 36            Conductor Doble tracción         6            3             145
    ## 37            Conductor       Delantera         6            3             140
    ## 38            Conductor         Trasera         8          4,6             190
    ## 39             No tiene       Delantera         3            1              55
    ## 40            Conductor       Delantera         4          1,6              90
    ## 41 Conductor y copiloto       Delantera         4          2,3             160
    ## 42            Conductor       Delantera         4          1,5             102
    ## 43 Conductor y copiloto       Delantera         4          2,2             140
    ## 44             No tiene       Delantera         4          1,5              81
    ## 45             No tiene       Delantera         4          1,8             124
    ## 46             No tiene       Delantera         4          1,5              92
    ## 47             No tiene       Delantera         4            2             128
    ## 48            Conductor         Trasera         8          4,5             278
    ## 49            Conductor       Delantera         6            3             185
    ## 50 Conductor y copiloto         Trasera         6            3             225
    ## 51 Conductor y copiloto       Delantera         6          3,8             160
    ## 52 Conductor y copiloto         Trasera         8          4,6             210
    ## 53             No tiene       Delantera         4          1,6              82
    ## 54             No tiene       Delantera         4          1,8             103
    ## 55            Conductor       Delantera         4          2,5             164
    ## 56             No tiene Doble tracción         6            3             155
    ## 57            Conductor         Trasera         4          1,3             255
    ## 58            Conductor         Trasera         4          2,3             130
    ## 59 Conductor y copiloto         Trasera         6          3,2             217
    ## 60            Conductor       Delantera         4          1,6             100
    ## 61             No tiene         Trasera         6          3,8             140
    ## 62             No tiene       Delantera         4          1,5              92
    ## 63            Conductor       Delantera         6            3             202
    ## 64            Conductor       Delantera         4          1,6             110
    ## 65            Conductor       Delantera         4          2,4             150
    ## 66             No tiene       Delantera         6            3             151
    ## 67            Conductor       Delantera         6            3             160
    ## 68             No tiene       Delantera         4          2,3             155
    ## 69            Conductor       Delantera         4          2,2             110
    ## 70             No tiene       Delantera         6          3,8             170
    ## 71            Conductor       Delantera         6          3,8             170
    ## 72             No tiene Doble tracción         4          1,8              92
    ## 73             No tiene       Delantera         4          1,6              74
    ## 74             No tiene       Delantera         4            2             110
    ## 75 Conductor y copiloto         Trasera         6          3,4             160
    ## 76             No tiene       Delantera         6          3,4             200
    ## 77 Conductor y copiloto       Delantera         6          3,8             170
    ## 78            Conductor       Delantera         4          2,1             140
    ## 79            Conductor       Delantera         4          1,9              85
    ## 81             No tiene Doble tracción         4          1,8              90
    ## 82            Conductor Doble tracción         4          2,2             130
    ## 83             No tiene       Delantera         3          1,3              70
    ## 84            Conductor       Delantera         4          1,5              82
    ## 85            Conductor       Delantera         4          2,2             135
    ## 86            Conductor       Delantera         4          2,2             130
    ## 87            Conductor Doble tracción         4          2,4             138
    ## 88             No tiene       Delantera         4          1,8              81
    ## 89             No tiene       Delantera         5          2,5             109
    ## 90             No tiene       Delantera         4            2             134
    ## 91             No tiene       Delantera         6          2,8             178
    ## 92            Conductor         Trasera         4          2,3             114
    ## 93 Conductor y copiloto       Delantera         5          2,4             168
    ##    revoluciones_por_minuto rev_motor_por_milla transmisiÃ.n_manual
    ## 1                     6300                2890                  Si
    ## 2                     5500                2335                  Si
    ## 3                     5500                2280                  Si
    ## 4                     5500                2535                  Si
    ## 5                     5700                2545                  Si
    ## 6                     5200                2565                  No
    ## 7                     4800                1570                  No
    ## 8                     4000                1320                  No
    ## 9                     4800                1690                  No
    ## 10                    4100                1510                  No
    ## 11                    6000                1985                  No
    ## 12                    5200                2380                  Si
    ## 13                    5200                2665                  Si
    ## 14                    4600                1805                  Si
    ## 15                    5200                2595                  No
    ## 16                    4800                1690                  No
    ## 17                    4000                1790                  No
    ## 18                    4200                1350                  No
    ## 19                    5000                1450                  Si
    ## 20                    5300                1990                  No
    ## 21                    5000                2090                  No
    ## 22                    4800                1785                  No
    ## 23                    6000                3285                  Si
    ## 24                    4800                2595                  Si
    ## 25                    4800                2535                  Si
    ## 26                    5000                1970                  No
    ## 27                    4800                2465                  No
    ## 28                    6000                2120                  Si
    ## 29                    6000                2505                  Si
    ## 30                    5800                1980                  No
    ## 32                    6500                2410                  Si
    ## 33                    4200                2805                  Si
    ## 34                    4600                2285                  Si
    ## 35                    5500                2340                  Si
    ## 36                    4800                2080                  Si
    ## 37                    4800                1885                  No
    ## 38                    4200                1415                  No
    ## 39                    5700                3755                  Si
    ## 40                    5400                3250                  Si
    ## 41                    5800                2855                  Si
    ## 42                    5900                2650                  Si
    ## 43                    5600                2610                  Si
    ## 44                    5500                2710                  Si
    ## 45                    6000                2745                  Si
    ## 46                    5550                2540                  Si
    ## 47                    6000                2335                  Si
    ## 48                    6000                1955                  No
    ## 49                    5200                2325                  Si
    ## 50                    6000                2510                  Si
    ## 51                    4400                1835                  No
    ## 52                    4600                1840                  No
    ## 53                    5000                2370                  Si
    ## 54                    5500                2220                  Si
    ## 55                    5600                2505                  Si
    ## 56                    5000                2240                  No
    ## 57                    6500                2325                  Si
    ## 58                    5100                2425                  Si
    ## 59                    5500                2220                  No
    ## 60                    5750                2475                  Si
    ## 61                    3800                1730                  No
    ## 62                    6000                2505                  Si
    ## 63                    6000                2210                  No
    ## 64                    6000                2435                  Si
    ## 65                    5600                2130                  Si
    ## 66                    4800                2065                  No
    ## 67                    5200                2045                  No
    ## 68                    6000                2380                  No
    ## 69                    5200                2565                  No
    ## 70                    4800                1690                  No
    ## 71                    4800                1570                  No
    ## 72                    5000                2360                  Si
    ## 73                    5600                3130                  Si
    ## 74                    5200                2665                  Si
    ## 75                    4600                1805                  Si
    ## 76                    5000                1890                  Si
    ## 77                    4800                1565                  No
    ## 78                    6000                2910                  Si
    ## 79                    5000                2145                  Si
    ## 81                    5200                3375                  Si
    ## 82                    5600                2330                  Si
    ## 83                    6000                3360                  Si
    ## 84                    5200                3505                  Si
    ## 85                    5400                2405                  Si
    ## 86                    5400                2340                  Si
    ## 87                    5000                2515                  Si
    ## 88                    5500                2550                  Si
    ## 89                    4500                2915                  Si
    ## 90                    5800                2685                  Si
    ## 91                    5800                2385                  Si
    ## 92                    5400                2215                  Si
    ## 93                    6200                2310                  Si
    ##    capacidad_tanque capacidad_pasajeros longitud distancia_entre_ruedas ancho
    ## 1              13,2                   5      177                    102    68
    ## 2                18                   5      195                    115    71
    ## 3              16,9                   5      180                    102    67
    ## 4              21,1                   6      193                    106    70
    ## 5              21,1                   4      186                    109    69
    ## 6              16,4                   6      189                    105    69
    ## 7                18                   6      200                    111    74
    ## 8                23                   6      216                    116    78
    ## 9              18,8                   5      198                    108    73
    ## 10               18                   6      206                    114    73
    ## 11               20                   5      204                    111    74
    ## 12             15,2                   5      182                    101    66
    ## 13             15,6                   5      184                    103    68
    ## 14             15,5                   4      193                    101    74
    ## 15             16,5                   6      198                    108    71
    ## 16               20                   7      178                    110    74
    ## 17               27                   8      194                    111    78
    ## 18               23                   6      214                    116    77
    ## 19               20                   2      179                     96    74
    ## 20               18                   6      203                    113    74
    ## 21               16                   6      183                    104    68
    ## 22               16                   6      203                    110    69
    ## 23             13,2                   5      174                     98    66
    ## 24               14                   5      172                     97    67
    ## 25               16                   6      181                    104    68
    ## 26               20                   7      175                    112    72
    ## 27               16                   6      192                    105    69
    ## 28             19,8                   4      180                     97    72
    ## 29             13,2                   5      174                     98    66
    ## 30               18                   6      202                    113    74
    ## 32             13,2                   5      171                     98    67
    ## 33             15,9                   5      177                    100    68
    ## 34             15,4                   4      180                    101    68
    ## 35             15,5                   4      179                    103    70
    ## 36               21                   7      176                    119    72
    ## 37               16                   5      192                    106    71
    ## 38               20                   6      212                    114    78
    ## 39             10,6                   4      151                     93    63
    ## 40             12,4                   4      164                     97    67
    ## 41             15,9                   4      175                    100    70
    ## 42             11,9                   4      173                    103    67
    ## 43               17                   4      185                    107    67
    ## 44             11,9                   5      168                     94    63
    ## 45             13,7                   5      172                     98    66
    ## 46             11,9                   4      166                     94    64
    ## 47             17,2                   5      184                    104    69
    ## 48             22,5                   5      200                    113    72
    ## 49             18,5                   5      188                    103    70
    ## 50             20,6                   4      191                    106    71
    ## 51             18,4                   6      205                    109    73
    ## 52               20                   6      219                    117    77
    ## 53             13,2                   4      164                     97    66
    ## 54             14,5                   5      172                     98    66
    ## 55             15,5                   5      184                    103    69
    ## 56             19,6                   7      190                    110    72
    ## 57               20                   2      169                     96    69
    ## 58             14,5                   5      175                    105    67
    ## 59             18,5                   5      187                    110    69
    ## 60             11,1                   4      166                     95    65
    ## 61               18                   5      199                    113    73
    ## 62             13,2                   5      172                     98    67
    ## 63               19                   5      190                    107    70
    ## 64             13,2                   5      170                     96    66
    ## 65             15,9                   5      181                    103    67
    ## 66               20                   7      190                    112    74
    ## 67             18,5                   5      188                    104    69
    ## 68             15,2                   5      188                    103    67
    ## 69             16,5                   5      190                    105    70
    ## 70               20                   7      194                    110    74
    ## 71               18                   6      201                    111    74
    ## 72             15,9                   4      173                     97    67
    ## 73             13,2                   4      177                     99    66
    ## 74             15,2                   5      181                    101    66
    ## 75             15,5                   4      196                    101    75
    ## 76             16,5                   5      195                    108    72
    ## 77               18                   6      177                    111    74
    ## 78               18                   5      184                     99    67
    ## 79             12,8                   5      176                    102    68
    ## 81             15,9                   5      175                     97    65
    ## 82             15,9                   5      179                    102    67
    ## 83             10,6                   4      161                     93    63
    ## 84             11,9                   5      162                     94    65
    ## 85             15,9                   4      174                     99    69
    ## 86             18,5                   5      188                    103    70
    ## 87             19,8                   7      187                    113    71
    ## 88             12,4                   4      163                     93    63
    ## 89             21,1                   7      187                    115    72
    ## 90             18,5                   5      180                    103    67
    ## 91             18,5                   4      159                     97    66
    ## 92             15,8                   5      190                    104    67
    ## 93             19,3                   5      184                    105    69
    ##    espacio_para_dar_la_u espacio_asiento_trasero      capacidad_baul
    ## 1                     37                    26,5                  11
    ## 2                     38                      30                  15
    ## 3                     37                      28                  14
    ## 4                     37                      31                  17
    ## 5                     39                      27                  13
    ## 6                     41                      28                  16
    ## 7                     42                    30,5                  17
    ## 8                     45                    30,5                  21
    ## 9                     41                    26,5                  14
    ## 10                    43                      35                  18
    ## 11                    44                      31                  14
    ## 12                    38                      25                  13
    ## 13                    39                      26                  14
    ## 14                    43                      25                  13
    ## 15                    40                    28,5                  16
    ## 16                    44                    30,5 165,471,108,431,435
    ## 17                    42                    33,5 206,511,897,553,928
    ## 18                    42                    29,5                  20
    ## 19                    43     242,866,514,494,107  92,027,296,528,776
    ## 20                    40                      31                  15
    ## 21                    41                    30,5                  14
    ## 22                    44                      36                  17
    ## 23                    32                    26,5                  11
    ## 24                    38                    26,5                  13
    ## 25                    39                    30,5                  14
    ## 26                    42                    26,5 116,914,413,363,161
    ## 27                    42                    30,5                  16
    ## 28                    40                      20                  11
    ## 29                    36                    26,5                  11
    ## 30                    40                      30                  15
    ## 32                    36                      28                  12
    ## 33                    39                    27,5                  13
    ## 34                    40                      24                  12
    ## 35                    38                      23                  18
    ## 36                    45                      30 176,790,845,859,601
    ## 37                    40                    27,5                  18
    ## 38                    43                      30                  21
    ## 39                    34                    27,5                  10
    ## 40                    37                    24,5                  11
    ## 41                    39                    23,5                   8
    ## 42                    36                      28                  12
    ## 43                    41                      28                  14
    ## 44                    35                      26                  11
    ## 45                    36                      28                  12
    ## 46                    34                    23,5                   9
    ## 47                    41                      31                  14
    ## 48                    42                      29                  15
    ## 49                    40                    27,5                  14
    ## 50                    39                      25                   9
    ## 51                    42                      30                  19
    ## 52                    45                    31,5                  22
    ## 53                    34                      27                  16
    ## 54                    36                    26,5                  13
    ## 55                    40                    29,5                  14
    ## 56                    39                    27,5 166,738,755,846,993
    ## 57                    37     178,129,531,871,822 644,033,010,304,593
    ## 58                    34                      26                  12
    ## 59                    37                      27                  15
    ## 60                    36                      19                   6
    ## 61                    38                      28                  15
    ## 62                    36                      26                  11
    ## 63                    43                    27,5                  14
    ## 64                    33                      26                  12
    ## 65                    40                    28,5                  14
    ## 66                    41                      27 154,314,903,627,743
    ## 67                    41                    28,5                  14
    ## 68                    39                      28                  14
    ## 69                    42                      28                  16
    ## 70                    44                    30,5 172,174,376,189,628
    ## 71                    42                    31,5                  17
    ## 72                    39                    24,5                   8
    ## 73                    35                    25,5                  17
    ## 74                    39                      25                  13
    ## 75                    43                      25                  13
    ## 76                    41                    28,5                  16
    ## 77                    43                    30,5                  18
    ## 78                    37                    26,5                  14
    ## 79                    40                    26,5                  12
    ## 81                    35                    27,5                  15
    ## 82                    37                      27                  14
    ## 83                    34                    27,5                  10
    ## 84                    36                      24                  11
    ## 85                    39                      23                  13
    ## 86                    38                    28,5                  15
    ## 87                    41                      35 171,605,718,147,114
    ## 88                    34                      26                  10
    ## 89                    38                      34 159,326,856,846,829
    ## 90                    35                    31,5                  14
    ## 91                    36                      26                  15
    ## 92                    37                    29,5                  14
    ## 93                    38                      30                  15
    ##    peso_en_libras  hecho_o_no_en_USA precio_basico precio_promedio
    ## 1            2705 Hecho fuera de USA          12,9            15,9
    ## 2            3560 Hecho fuera de USA          29,2            33,9
    ## 3            3375 Hecho fuera de USA          25,9            29,1
    ## 4            3405 Hecho fuera de USA          30,8            37,7
    ## 5            3640 Hecho fuera de USA          23,7              30
    ## 6            2880       Hecho en USA          14,2            15,7
    ## 7            3470       Hecho en USA          19,9            20,8
    ## 8            4105       Hecho en USA          22,6            23,7
    ## 9            3495       Hecho en USA          26,3            26,3
    ## 10           3620       Hecho en USA            33            34,7
    ## 11           3935       Hecho en USA          37,5            40,1
    ## 12           2490       Hecho en USA           8,5            13,4
    ## 13           2785       Hecho en USA          11,4            11,4
    ## 14           3240       Hecho en USA          13,4            15,1
    ## 15           3195       Hecho en USA          13,4            15,9
    ## 16           3715       Hecho en USA          14,7            16,3
    ## 17           4025       Hecho en USA          14,7            16,6
    ## 18           3910       Hecho en USA            18            18,8
    ## 19           3380       Hecho en USA          34,6              38
    ## 20           3515       Hecho en USA          18,4            18,4
    ## 21           3085       Hecho en USA          14,5            15,8
    ## 22           3570       Hecho en USA          29,5            29,5
    ## 23           2270       Hecho en USA           7,9             9,2
    ## 24           2670       Hecho en USA           8,4            11,3
    ## 25           2970       Hecho en USA          11,9            13,3
    ## 26           3705       Hecho en USA          13,6              19
    ## 27           3080       Hecho en USA          14,8            15,6
    ## 28           3805       Hecho en USA          18,5            25,8
    ## 29           2295       Hecho en USA           7,9            12,2
    ## 30           3490       Hecho en USA          17,5            19,3
    ## 32           2530       Hecho en USA           8,4            10,1
    ## 33           2690       Hecho en USA          10,4            11,3
    ## 34           2850       Hecho en USA          10,8            15,9
    ## 35           2710       Hecho en USA          12,8              14
    ## 36           3735       Hecho en USA          14,5            19,9
    ## 37           3325       Hecho en USA          15,6            20,2
    ## 38           3950       Hecho en USA          20,1            20,9
    ## 39           1695 Hecho fuera de USA           6,7             8,4
    ## 40           2475 Hecho fuera de USA          11,5            12,5
    ## 41           2865 Hecho fuera de USA            17            19,8
    ## 42           2350 Hecho fuera de USA           8,4            12,1
    ## 43           3040 Hecho fuera de USA          13,8            17,5
    ## 44           2345 Hecho fuera de USA           6,8               8
    ## 45           2620 Hecho fuera de USA             9              10
    ## 46           2285 Hecho fuera de USA           9,1              10
    ## 47           2885 Hecho fuera de USA          12,4            13,9
    ## 48           4000 Hecho fuera de USA          45,4            47,9
    ## 49           3510 Hecho fuera de USA          27,5              28
    ## 50           3515 Hecho fuera de USA          34,7            35,2
    ## 51           3695       Hecho en USA          33,3            34,3
    ## 52           4055       Hecho en USA          34,4            36,1
    ## 53           2325 Hecho fuera de USA           7,4             8,3
    ## 54           2440 Hecho fuera de USA          10,9            11,6
    ## 55           2970 Hecho fuera de USA          14,3            16,5
    ## 56           3735 Hecho fuera de USA          16,6            19,1
    ## 57           2895 Hecho fuera de USA          32,5            32,5
    ## 58           2920 Hecho fuera de USA            29            31,9
    ## 59           3525 Hecho fuera de USA          43,8            61,9
    ## 60           2450       Hecho en USA          13,3            14,1
    ## 61           3610       Hecho en USA          14,9            14,9
    ## 62           2295 Hecho fuera de USA           7,7            10,3
    ## 63           3730 Hecho fuera de USA          22,4            26,1
    ## 64           2545 Hecho fuera de USA           8,7            11,8
    ## 65           3050 Hecho fuera de USA            13            15,7
    ## 66           4100 Hecho fuera de USA          16,7            19,1
    ## 67           3200 Hecho fuera de USA            21            21,5
    ## 68           2910       Hecho en USA            13            13,5
    ## 69           2890       Hecho en USA          14,2            16,3
    ## 70           3715       Hecho en USA          19,5            19,5
    ## 71           3470       Hecho en USA          19,5            20,7
    ## 72           2640       Hecho en USA          11,4            14,4
    ## 73           2350       Hecho en USA           8,2               9
    ## 74           2575       Hecho en USA           9,4            11,1
    ## 75           3240       Hecho en USA            14            17,7
    ## 76           3450       Hecho en USA          15,4            18,5
    ## 77           3495       Hecho en USA          19,4            24,4
    ## 78           2775 Hecho fuera de USA          20,3            28,7
    ## 79           2495       Hecho en USA           9,2            11,1
    ## 81           2490 Hecho fuera de USA          10,5            10,9
    ## 82           3085 Hecho fuera de USA          16,3            19,5
    ## 83           1965 Hecho fuera de USA           7,3             8,6
    ## 84           2055 Hecho fuera de USA           7,8             9,8
    ## 85           2950 Hecho fuera de USA          14,2            18,4
    ## 86           3030 Hecho fuera de USA          15,2            18,2
    ## 87           3785 Hecho fuera de USA          18,9            22,7
    ## 88           2240 Hecho fuera de USA           8,7             9,1
    ## 89           3960 Hecho fuera de USA          16,6            19,7
    ## 90           2985 Hecho fuera de USA          17,6              20
    ## 91           2810 Hecho fuera de USA          22,9            23,3
    ## 92           2985 Hecho fuera de USA          21,8            22,7
    ## 93           3245 Hecho fuera de USA          24,8            26,7
    ##    precio_equipado    fabricante         modelo
    ## 1             18,8         Acura        Integra
    ## 2             38,7         Acura         Legend
    ## 3             32,3          Audi             90
    ## 4             44,6          Audi            100
    ## 5             36,2           BMW           535i
    ## 6             17,3         Buick        Century
    ## 7             21,7         Buick        LeSabre
    ## 8             24,9         Buick     Roadmaster
    ## 9             26,3         Buick        Riviera
    ## 10            36,3      Cadillac        DeVille
    ## 11            42,7      Cadillac        Seville
    ## 12            18,3     Chevrolet       Cavalier
    ## 13            11,4     Chevrolet        Corsica
    ## 14            16,8     Chevrolet         Camaro
    ## 15            18,4     Chevrolet         Lumina
    ## 16              18     Chevrolet     Lumina_APV
    ## 17            18,6     Chevrolet          Astro
    ## 18            19,6     Chevrolet        Caprice
    ## 19            41,5     Chevrolet       Corvette
    ## 20            18,4      Chrylser       Concorde
    ## 21            17,1      Chrysler        LeBaron
    ## 22            29,5      Chrysler       Imperial
    ## 23            10,6         Dodge           Colt
    ## 24            14,2         Dodge         Shadow
    ## 25            14,7         Dodge         Spirit
    ## 26            24,4         Dodge        Caravan
    ## 27            16,4         Dodge        Dynasty
    ## 28            33,1         Dodge        Stealth
    ## 29            16,5         Eagle         Summit
    ## 30            21,2         Eagle         Vision
    ## 32            11,9          Ford         Escort
    ## 33            12,2          Ford          Tempo
    ## 34              21          Ford        Mustang
    ## 35            15,2          Ford          Probe
    ## 36            25,3          Ford       Aerostar
    ## 37            24,8          Ford         Taurus
    ## 38            21,7          Ford Crown_Victoria
    ## 39              10           Geo          Metro
    ## 40            13,5           Geo          Storm
    ## 41            22,7         Honda        Prelude
    ## 42            15,8         Honda          Civic
    ## 43            21,2         Honda         Accord
    ## 44             9,2       Hyundai          Excel
    ## 45              11       Hyundai        Elantra
    ## 46              11       Hyundai         Scoupe
    ## 47            15,3       Hyundai         Sonata
    ## 48            50,4      Infiniti            Q45
    ## 49            28,4         Lexus          ES300
    ## 50            35,6         Lexus          SC300
    ## 51            35,3       Lincoln    Continental
    ## 52            37,8       Lincoln       Town_Car
    ## 53             9,1         Mazda            323
    ## 54            12,3         Mazda        Protege
    ## 55            18,7         Mazda            626
    ## 56            21,7         Mazda            MPV
    ## 57            32,5         Mazda           RX-7
    ## 58            34,9 Mercedes-Benz           190E
    ## 59              80 Mercedes-Benz           300E
    ## 60              15       Mercury          Capri
    ## 61            14,9       Mercury         Cougar
    ## 62            12,9    Mitsubishi         Mirage
    ## 63            29,9    Mitsubishi       Diamante
    ## 64            14,9        Nissan         Sentra
    ## 65            18,3        Nissan         Altima
    ## 66            21,5        Nissan          Quest
    ## 67              22        Nissan         Maxima
    ## 68              14    Oldsmobile        Achieva
    ## 69            18,4    Oldsmobile  Cutlass_Ciera
    ## 70            19,5    Oldsmobile     Silhouette
    ## 71            21,9    Oldsmobile   Eighty-Eight
    ## 72            17,4      Plymouth          Laser
    ## 73             9,9       Pontiac         LeMans
    ## 74            12,8       Pontiac        Sunbird
    ## 75            21,4       Pontiac       Firebird
    ## 76            21,6       Pontiac     Grand_Prix
    ## 77            29,4       Pontiac     Bonneville
    ## 78            37,1          Saab            900
    ## 79            12,9        Saturn             SL
    ## 81            11,3        Subaru         Loyale
    ## 82            22,7        Subaru         Legacy
    ## 83              10        Suzuki          Swift
    ## 84            11,8        Toyota         Tercel
    ## 85            22,6        Toyota         Celica
    ## 86            21,2        Toyota          Camry
    ## 87            26,6        Toyota         Previa
    ## 88             9,5    Volkswagen            Fox
    ## 89            22,7    Volkswagen        Eurovan
    ## 90            22,4    Volkswagen         Passat
    ## 91            23,7    Volkswagen        Corrado
    ## 92            23,5         Volvo            240
    ## 93            28,5         Volvo            850

    Para confirmar vamos a realizar un gráfico de cajas con la nueva data

    boxplot(carros_sin_atipicos$longitud)

    XI. Transformación de variables

    11.1. Transformación de raíz cuadrada

    # Original
    hist(carros$longitud, 12)

    Para sacar la raiz cuadrada, simplemente se puede utilizar la función sqrt

    sqrt(carros$longitud)
    ##  [1] 13.30413 13.96424 13.41641 13.89244 13.63818 13.74773 14.14214 14.69694
    ##  [9] 14.07125 14.35270 14.28286 13.49074 13.56466 13.89244 14.07125 13.34166
    ## [17] 13.92839 14.62874 13.37909 14.24781 13.52775 14.24781 13.19091 13.11488
    ## [25] 13.45362 13.22876 13.85641 13.41641 13.19091 14.21267 11.87434 13.07670
    ## [33] 13.30413 13.41641 13.37909 13.26650 13.85641 14.56022 12.28821 12.80625
    ## [41] 13.22876 13.15295 13.60147 12.96148 13.11488 12.88410 13.56466 14.14214
    ## [49] 13.71131 13.82027 14.31782 14.79865 12.80625 13.11488 13.56466 13.78405
    ## [57] 13.00000 13.22876 13.67479 12.88410 14.10674 13.11488 13.78405 13.03840
    ## [65] 13.45362 13.78405 13.71131 13.71131 13.78405 13.92839 14.17745 13.15295
    ## [73] 13.30413 13.45362 14.00000 13.96424 13.30413 13.56466 13.26650 12.08305
    ## [81] 13.22876 13.37909 12.68858 12.72792 13.19091 13.71131 13.67479 12.76715
    ## [89] 13.67479 13.41641 12.60952 13.78405 13.56466

    Graficamente

    hist(sqrt(carros$longitud))

    11.2. Transformación exponencial

    exp(carros$longitud)
    ##  [1] 7.415207e+76 4.868823e+84 1.489384e+78 6.589235e+83 6.008605e+80
    ##  [6] 1.206861e+82 7.225974e+86 6.421080e+93 9.779292e+85 2.915166e+89
    ## [11] 3.945248e+88 1.100514e+79 8.131762e+79 6.589235e+83 9.779292e+85
    ## [16] 2.015662e+77 1.791140e+84 8.689987e+92 5.479138e+77 1.451376e+88
    ## [21] 2.991508e+79 1.451376e+88 3.691814e+75 4.996327e+74 4.048566e+78
    ## [26] 1.003539e+76 2.424044e+83 1.489384e+78 3.691814e+75 5.339313e+87
    ## [31] 1.719974e+61 1.838046e+74 7.415207e+76 1.489384e+78 5.479138e+77
    ## [36] 2.727902e+76 2.424044e+83 1.176062e+92 3.788495e+65 1.676081e+71
    ## [41] 1.003539e+76 1.358143e+75 2.210442e+80 9.151093e+72 4.996327e+74
    ## [46] 1.238466e+72 8.131762e+79 7.225974e+86 4.439792e+81 8.917560e+82
    ## [51] 1.072430e+89 1.289708e+95 1.676081e+71 4.996327e+74 8.131762e+79
    ## [56] 3.280587e+82 2.487525e+73 1.003539e+76 1.633308e+81 1.238466e+72
    ## [61] 2.658287e+86 4.996327e+74 3.280587e+82 6.761794e+73 4.048566e+78
    ## [66] 3.280587e+82 4.439792e+81 4.439792e+81 3.280587e+82 1.791140e+84
    ## [71] 1.964223e+87 1.358143e+75 7.415207e+76 4.048566e+78 1.323483e+85
    ## [76] 4.868823e+84 7.415207e+76 8.131762e+79 2.727902e+76 2.552668e+63
    ## [81] 1.003539e+76 5.479138e+77 8.344716e+69 2.268329e+70 3.691814e+75
    ## [86] 4.439792e+81 1.633308e+81 6.165958e+70 1.633308e+81 1.489384e+78
    ## [91] 1.129335e+69 3.280587e+82 8.131762e+79

    para poder observarlo graficamente se tiene:

    hist(exp(carros$longitud))

    Forma 2

    longitud_exp<- exp(carros$longitud)
    hist(longitud_exp)

    11.3. Transformación logarítmica

    log(carros$longitud)
    ##  [1] 5.176150 5.273000 5.192957 5.262690 5.225747 5.241747 5.298317 5.375278
    ##  [9] 5.288267 5.327876 5.318120 5.204007 5.214936 5.262690 5.288267 5.181784
    ## [17] 5.267858 5.365976 5.187386 5.313206 5.209486 5.313206 5.159055 5.147494
    ## [25] 5.198497 5.164786 5.257495 5.192957 5.159055 5.308268 4.948760 5.141664
    ## [33] 5.176150 5.192957 5.187386 5.170484 5.257495 5.356586 5.017280 5.099866
    ## [41] 5.164786 5.153292 5.220356 5.123964 5.147494 5.111988 5.214936 5.298317
    ## [49] 5.236442 5.252273 5.323010 5.389072 5.099866 5.147494 5.214936 5.247024
    ## [57] 5.129899 5.164786 5.231109 5.111988 5.293305 5.147494 5.247024 5.135798
    ## [65] 5.198497 5.247024 5.236442 5.236442 5.247024 5.267858 5.303305 5.153292
    ## [73] 5.176150 5.198497 5.278115 5.273000 5.176150 5.214936 5.170484 4.983607
    ## [81] 5.164786 5.187386 5.081404 5.087596 5.159055 5.236442 5.231109 5.093750
    ## [89] 5.231109 5.192957 5.068904 5.247024 5.214936

    graficamente

    hist(log(carros$longitud))

    Cambiar la base 2

    log(carros$longitud, base=2)
    ##  [1] 7.467606 7.607330 7.491853 7.592457 7.539159 7.562242 7.643856 7.754888
    ##  [9] 7.629357 7.686501 7.672425 7.507795 7.523562 7.592457 7.629357 7.475733
    ## [17] 7.599913 7.741467 7.483816 7.665336 7.515700 7.665336 7.442943 7.426265
    ## [25] 7.499846 7.451211 7.584963 7.491853 7.442943 7.658211 7.139551 7.417853
    ## [33] 7.467606 7.491853 7.483816 7.459432 7.584963 7.727920 7.238405 7.357552
    ## [41] 7.451211 7.434628 7.531381 7.392317 7.426265 7.375039 7.523562 7.643856
    ## [49] 7.554589 7.577429 7.679480 7.774787 7.357552 7.426265 7.523562 7.569856
    ## [57] 7.400879 7.451211 7.546894 7.375039 7.636625 7.426265 7.569856 7.409391
    ## [65] 7.499846 7.569856 7.554589 7.554589 7.569856 7.599913 7.651052 7.434628
    ## [73] 7.467606 7.499846 7.614710 7.607330 7.467606 7.523562 7.459432 7.189825
    ## [81] 7.451211 7.483816 7.330917 7.339850 7.442943 7.554589 7.546894 7.348728
    ## [89] 7.546894 7.491853 7.312883 7.569856 7.523562

    graficamente

    hist(log(carros$longitud, base=2))

    11.4. Comparación de transformaciones

    #Obtener solo tranaformaciones
    longitud_sqrt <- sqrt(carros$longitud)
    longitud_exp <- exp(carros$longitud)
    longitud_ln <- log(carros$longitud)
    longitud_log2 <- log(carros$longitud, base=2)
    longitud_log5 <- log(carros$longitud, base=5)

    Ver graficamente cada una:

    par(mfrow=c(3,2))
    hist(carros$longitud)
    hist(longitud_sqrt)
    hist(longitud_exp)
    hist(longitud_ln)
    hist(longitud_log2)
    hist(longitud_log5)

    par(mfrow=c(1,1))

    La visualización de la distribución puede mejorarse con la gráfica de densidad

    par(mfrow=c(3,2))
    plot(density(carros$longitud), main = "Distribución de longitud originales")
    plot(density(longitud_sqrt), main = "Distribución de longitud transformadas - sqrt")
    plot(density(longitud_exp), main = "Distribución de longitud transformadas - exp")
    plot(density(longitud_ln), main = "Distribución de longitud transformadas - ln")
    plot(density(longitud_log2), main = "Distribución de longitud transformadas - log2")
    plot(density(longitud_log5), main = "Distribución de longitud transformadas - log5")

    par(mfrow=c(1,1))    

    gráfica general

    # Convertir las columnas seleccionadas a numéricas si es necesario
    carros[, 4:8] <- sapply(carros[, 4:8], as.numeric)
    
    # Verificar si hay algún problema con la conversión
    print(sapply(carros[, 4:8], class))
    ## millas_por_galon_carretera          numero_de_airbags 
    ##                  "numeric"                  "numeric" 
    ##                  tracciÃ.n                  cilindros 
    ##                  "numeric"                  "numeric" 
    ##               litros_motor 
    ##                  "numeric"
    # Ahora puedes calcular la correlación sin problemas
    library(PerformanceAnalytics)
    chart.Correlation(cor(carros[, 4:8]), histogram = TRUE)

    XII. Estandarización y normalización de variables

    12.1. Estandarización

    head(carros)
    ##   ID          tipo millas_por_galon_ciudad millas_por_galon_carretera
    ## 1  1      Pequeño                      25                         31
    ## 2  2 Tamaño Medio                      18                         25
    ## 3  3      Compacto                      20                         26
    ## 4  4 Tamaño Medio                      19                         26
    ## 5  5 Tamaño Medio                      22                         30
    ## 6  6 Tamaño Medio                      22                         31
    ##   numero_de_airbags tracciÃ.n cilindros litros_motor caballos_fuerza
    ## 1                 3         1         4            6             140
    ## 2                 2         1         6           16             200
    ## 3                 1         1         6           14             172
    ## 4                 2         1         6           14             172
    ## 5                 1         3         4           19             208
    ## 6                 1         1         4           10             110
    ##   revoluciones_por_minuto rev_motor_por_milla transmisiÃ.n_manual
    ## 1                    6300                2890                  Si
    ## 2                    5500                2335                  Si
    ## 3                    5500                2280                  Si
    ## 4                    5500                2535                  Si
    ## 5                    5700                2545                  Si
    ## 6                    5200                2565                  No
    ##   capacidad_tanque capacidad_pasajeros longitud distancia_entre_ruedas ancho
    ## 1             13,2                   5      177                    102    68
    ## 2               18                   5      195                    115    71
    ## 3             16,9                   5      180                    102    67
    ## 4             21,1                   6      193                    106    70
    ## 5             21,1                   4      186                    109    69
    ## 6             16,4                   6      189                    105    69
    ##   espacio_para_dar_la_u espacio_asiento_trasero capacidad_baul peso_en_libras
    ## 1                    37                    26,5             11           2705
    ## 2                    38                      30             15           3560
    ## 3                    37                      28             14           3375
    ## 4                    37                      31             17           3405
    ## 5                    39                      27             13           3640
    ## 6                    41                      28             16           2880
    ##    hecho_o_no_en_USA precio_basico precio_promedio precio_equipado fabricante
    ## 1 Hecho fuera de USA          12,9            15,9            18,8      Acura
    ## 2 Hecho fuera de USA          29,2            33,9            38,7      Acura
    ## 3 Hecho fuera de USA          25,9            29,1            32,3       Audi
    ## 4 Hecho fuera de USA          30,8            37,7            44,6       Audi
    ## 5 Hecho fuera de USA          23,7              30            36,2        BMW
    ## 6       Hecho en USA          14,2            15,7            17,3      Buick
    ##    modelo
    ## 1 Integra
    ## 2  Legend
    ## 3      90
    ## 4     100
    ## 5    535i
    ## 6 Century

    Vamos a aplicar estandarización Z a la variable longitud de manera manual

    12.1.1. Método 1 Por partes

    carros$longitud
    ##  [1] 177 195 180 193 186 189 200 216 198 206 204 182 184 193 198 178 194 214 179
    ## [20] 203 183 203 174 172 181 175 192 180 174 202 141 171 177 180 179 176 192 212
    ## [39] 151 164 175 173 185 168 172 166 184 200 188 191 205 219 164 172 184 190 169
    ## [58] 175 187 166 199 172 190 170 181 190 188 188 190 194 201 173 177 181 196 195
    ## [77] 177 184 176 146 175 179 161 162 174 188 187 163 187 180 159 190 184
    media_longitud <- mean(carros$longitud)
    media_longitud
    ## [1] 183.2043
    desv_est <- sd(carros$longitud)
    desv_est
    ## [1] 14.60238
    longitud_estandar <- (carros$longitud-media_longitud)/desv_est
    longitud_estandar
    ##  [1] -0.42488282  0.80779282 -0.21943688  0.67082886  0.19145500  0.39690094
    ##  [7]  1.15020272  2.24591440  1.01323876  1.56109460  1.42413064 -0.08247292
    ## [13]  0.05449104  0.67082886  1.01323876 -0.35640084  0.73931084  2.10895044
    ## [19] -0.28791886  1.35564866 -0.01399094  1.35564866 -0.63032876 -0.76729272
    ## [25] -0.15095490 -0.56184678  0.60234688 -0.21943688 -0.63032876  1.28716668
    ## [31] -2.89023410 -0.83577470 -0.42488282 -0.21943688 -0.28791886 -0.49336480
    ## [37]  0.60234688  1.97198648 -2.20541430 -1.31514856 -0.56184678 -0.69881074
    ## [43]  0.12297302 -1.04122064 -0.76729272 -1.17818460  0.05449104  1.15020272
    ## [49]  0.32841896  0.53386490  1.49261262  2.45136034 -1.31514856 -0.76729272
    ## [55]  0.05449104  0.46538292 -0.97273866 -0.56184678  0.25993698 -1.17818460
    ## [61]  1.08172074 -0.76729272  0.46538292 -0.90425668 -0.15095490  0.46538292
    ## [67]  0.32841896  0.32841896  0.46538292  0.73931084  1.21868470 -0.69881074
    ## [73] -0.42488282 -0.15095490  0.87627480  0.80779282 -0.42488282  0.05449104
    ## [79] -0.49336480 -2.54782420 -0.56184678 -0.28791886 -1.52059450 -1.45211252
    ## [85] -0.63032876  0.32841896  0.25993698 -1.38363054  0.25993698 -0.21943688
    ## [91] -1.65755846  0.46538292  0.05449104

    12.1.2. Método 2 Directo

    longitud_estandar2 <- (carros$longitud-mean(carros$longitud))/sd(carros$longitud)
    longitud_estandar2
    ##  [1] -0.42488282  0.80779282 -0.21943688  0.67082886  0.19145500  0.39690094
    ##  [7]  1.15020272  2.24591440  1.01323876  1.56109460  1.42413064 -0.08247292
    ## [13]  0.05449104  0.67082886  1.01323876 -0.35640084  0.73931084  2.10895044
    ## [19] -0.28791886  1.35564866 -0.01399094  1.35564866 -0.63032876 -0.76729272
    ## [25] -0.15095490 -0.56184678  0.60234688 -0.21943688 -0.63032876  1.28716668
    ## [31] -2.89023410 -0.83577470 -0.42488282 -0.21943688 -0.28791886 -0.49336480
    ## [37]  0.60234688  1.97198648 -2.20541430 -1.31514856 -0.56184678 -0.69881074
    ## [43]  0.12297302 -1.04122064 -0.76729272 -1.17818460  0.05449104  1.15020272
    ## [49]  0.32841896  0.53386490  1.49261262  2.45136034 -1.31514856 -0.76729272
    ## [55]  0.05449104  0.46538292 -0.97273866 -0.56184678  0.25993698 -1.17818460
    ## [61]  1.08172074 -0.76729272  0.46538292 -0.90425668 -0.15095490  0.46538292
    ## [67]  0.32841896  0.32841896  0.46538292  0.73931084  1.21868470 -0.69881074
    ## [73] -0.42488282 -0.15095490  0.87627480  0.80779282 -0.42488282  0.05449104
    ## [79] -0.49336480 -2.54782420 -0.56184678 -0.28791886 -1.52059450 -1.45211252
    ## [85] -0.63032876  0.32841896  0.25993698 -1.38363054  0.25993698 -0.21943688
    ## [91] -1.65755846  0.46538292  0.05449104

    12.1.3. Método 3 Apoyarse en las funciones de R

    R tiene múltiple funciones para estandarizar, la clásica es la función scale

    #Función scale
    longitud_estandar3 <- scale(carros$longitud)
    longitud_estandar3
    ##              [,1]
    ##  [1,] -0.42488282
    ##  [2,]  0.80779282
    ##  [3,] -0.21943688
    ##  [4,]  0.67082886
    ##  [5,]  0.19145500
    ##  [6,]  0.39690094
    ##  [7,]  1.15020272
    ##  [8,]  2.24591440
    ##  [9,]  1.01323876
    ## [10,]  1.56109460
    ## [11,]  1.42413064
    ## [12,] -0.08247292
    ## [13,]  0.05449104
    ## [14,]  0.67082886
    ## [15,]  1.01323876
    ## [16,] -0.35640084
    ## [17,]  0.73931084
    ## [18,]  2.10895044
    ## [19,] -0.28791886
    ## [20,]  1.35564866
    ## [21,] -0.01399094
    ## [22,]  1.35564866
    ## [23,] -0.63032876
    ## [24,] -0.76729272
    ## [25,] -0.15095490
    ## [26,] -0.56184678
    ## [27,]  0.60234688
    ## [28,] -0.21943688
    ## [29,] -0.63032876
    ## [30,]  1.28716668
    ## [31,] -2.89023410
    ## [32,] -0.83577470
    ## [33,] -0.42488282
    ## [34,] -0.21943688
    ## [35,] -0.28791886
    ## [36,] -0.49336480
    ## [37,]  0.60234688
    ## [38,]  1.97198648
    ## [39,] -2.20541430
    ## [40,] -1.31514856
    ## [41,] -0.56184678
    ## [42,] -0.69881074
    ## [43,]  0.12297302
    ## [44,] -1.04122064
    ## [45,] -0.76729272
    ## [46,] -1.17818460
    ## [47,]  0.05449104
    ## [48,]  1.15020272
    ## [49,]  0.32841896
    ## [50,]  0.53386490
    ## [51,]  1.49261262
    ## [52,]  2.45136034
    ## [53,] -1.31514856
    ## [54,] -0.76729272
    ## [55,]  0.05449104
    ## [56,]  0.46538292
    ## [57,] -0.97273866
    ## [58,] -0.56184678
    ## [59,]  0.25993698
    ## [60,] -1.17818460
    ## [61,]  1.08172074
    ## [62,] -0.76729272
    ## [63,]  0.46538292
    ## [64,] -0.90425668
    ## [65,] -0.15095490
    ## [66,]  0.46538292
    ## [67,]  0.32841896
    ## [68,]  0.32841896
    ## [69,]  0.46538292
    ## [70,]  0.73931084
    ## [71,]  1.21868470
    ## [72,] -0.69881074
    ## [73,] -0.42488282
    ## [74,] -0.15095490
    ## [75,]  0.87627480
    ## [76,]  0.80779282
    ## [77,] -0.42488282
    ## [78,]  0.05449104
    ## [79,] -0.49336480
    ## [80,] -2.54782420
    ## [81,] -0.56184678
    ## [82,] -0.28791886
    ## [83,] -1.52059450
    ## [84,] -1.45211252
    ## [85,] -0.63032876
    ## [86,]  0.32841896
    ## [87,]  0.25993698
    ## [88,] -1.38363054
    ## [89,]  0.25993698
    ## [90,] -0.21943688
    ## [91,] -1.65755846
    ## [92,]  0.46538292
    ## [93,]  0.05449104
    ## attr(,"scaled:center")
    ## [1] 183.2043
    ## attr(,"scaled:scale")
    ## [1] 14.60238

    La ventaja de la función de R, es que se puede enviar todo el caso

    carros_cuanti_scale <- scale(carros[ ,4:9])
    head(carros_cuanti_scale)
    ##      millas_por_galon_carretera numero_de_airbags  tracciÃ.n  cilindros
    ## [1,]                  0.3589792         1.2056909 -0.5839176 -0.7353232
    ## [2,]                 -0.7663600         0.1063845 -0.5839176  0.8014197
    ## [3,]                 -0.5788035        -0.9929219 -0.5839176  0.8014197
    ## [4,]                 -0.5788035         0.1063845 -0.5839176  0.8014197
    ## [5,]                  0.1714226        -0.9929219  2.0020033 -0.7353232
    ## [6,]                  0.3589792        -0.9929219 -0.5839176 -0.7353232
    ##      litros_motor caballos_fuerza
    ## [1,]   -0.9977793     -0.07308831
    ## [2,]    0.5776617      1.07250933
    ## [3,]    0.2625735      0.53789710
    ## [4,]    0.2625735      0.53789710
    ## [5,]    1.0502940      1.22525568
    ## [6,]   -0.3676029     -0.64588713

    12.2. Normalización

    12.2.1. Método 1

    longitud_normal <- (carros$longitud-min(carros$longitud))/(max(carros$longitud)-min(carros$longitud))
    longitud_normal
    ##  [1] 0.46153846 0.69230769 0.50000000 0.66666667 0.57692308 0.61538462
    ##  [7] 0.75641026 0.96153846 0.73076923 0.83333333 0.80769231 0.52564103
    ## [13] 0.55128205 0.66666667 0.73076923 0.47435897 0.67948718 0.93589744
    ## [19] 0.48717949 0.79487179 0.53846154 0.79487179 0.42307692 0.39743590
    ## [25] 0.51282051 0.43589744 0.65384615 0.50000000 0.42307692 0.78205128
    ## [31] 0.00000000 0.38461538 0.46153846 0.50000000 0.48717949 0.44871795
    ## [37] 0.65384615 0.91025641 0.12820513 0.29487179 0.43589744 0.41025641
    ## [43] 0.56410256 0.34615385 0.39743590 0.32051282 0.55128205 0.75641026
    ## [49] 0.60256410 0.64102564 0.82051282 1.00000000 0.29487179 0.39743590
    ## [55] 0.55128205 0.62820513 0.35897436 0.43589744 0.58974359 0.32051282
    ## [61] 0.74358974 0.39743590 0.62820513 0.37179487 0.51282051 0.62820513
    ## [67] 0.60256410 0.60256410 0.62820513 0.67948718 0.76923077 0.41025641
    ## [73] 0.46153846 0.51282051 0.70512821 0.69230769 0.46153846 0.55128205
    ## [79] 0.44871795 0.06410256 0.43589744 0.48717949 0.25641026 0.26923077
    ## [85] 0.42307692 0.60256410 0.58974359 0.28205128 0.58974359 0.50000000
    ## [91] 0.23076923 0.62820513 0.55128205

    12.2.2. Método 2 Función

    library(scales)
    ## Warning: package 'scales' was built under R version 4.3.2
    rescale(carros$longitud)
    ##  [1] 0.46153846 0.69230769 0.50000000 0.66666667 0.57692308 0.61538462
    ##  [7] 0.75641026 0.96153846 0.73076923 0.83333333 0.80769231 0.52564103
    ## [13] 0.55128205 0.66666667 0.73076923 0.47435897 0.67948718 0.93589744
    ## [19] 0.48717949 0.79487179 0.53846154 0.79487179 0.42307692 0.39743590
    ## [25] 0.51282051 0.43589744 0.65384615 0.50000000 0.42307692 0.78205128
    ## [31] 0.00000000 0.38461538 0.46153846 0.50000000 0.48717949 0.44871795
    ## [37] 0.65384615 0.91025641 0.12820513 0.29487179 0.43589744 0.41025641
    ## [43] 0.56410256 0.34615385 0.39743590 0.32051282 0.55128205 0.75641026
    ## [49] 0.60256410 0.64102564 0.82051282 1.00000000 0.29487179 0.39743590
    ## [55] 0.55128205 0.62820513 0.35897436 0.43589744 0.58974359 0.32051282
    ## [61] 0.74358974 0.39743590 0.62820513 0.37179487 0.51282051 0.62820513
    ## [67] 0.60256410 0.60256410 0.62820513 0.67948718 0.76923077 0.41025641
    ## [73] 0.46153846 0.51282051 0.70512821 0.69230769 0.46153846 0.55128205
    ## [79] 0.44871795 0.06410256 0.43589744 0.48717949 0.25641026 0.26923077
    ## [85] 0.42307692 0.60256410 0.58974359 0.28205128 0.58974359 0.50000000
    ## [91] 0.23076923 0.62820513 0.55128205

    12.2.3. Aplicando a todo el caso

    la función rescale solo permite aplicarse a vectores, no es posible directamente apicar al data frame.

    library(caret)
    ## Warning: package 'caret' was built under R version 4.3.2
    ## Loading required package: lattice
    pre_procesamiento<-preProcess(carros[,4:9]) # Así por defecto muestra la est. Z
    predict(pre_procesamiento, carros[,4:9]) 
    ##    millas_por_galon_carretera numero_de_airbags  tracciÃ.n   cilindros
    ## 1                  0.35897915         1.2056909 -0.5839176 -0.73532323
    ## 2                 -0.76635999         0.1063845 -0.5839176  0.80141969
    ## 3                 -0.57880347        -0.9929219 -0.5839176  0.80141969
    ## 4                 -0.57880347         0.1063845 -0.5839176  0.80141969
    ## 5                  0.17142263        -0.9929219  2.0020033 -0.73532323
    ## 6                  0.35897915        -0.9929219 -0.5839176 -0.73532323
    ## 7                 -0.20369042        -0.9929219 -0.5839176  0.80141969
    ## 8                 -0.76635999        -0.9929219  2.0020033  0.80141969
    ## 9                 -0.39124694        -0.9929219 -0.5839176  0.80141969
    ## 10                -0.76635999        -0.9929219 -0.5839176  2.33816261
    ## 11                -0.76635999         0.1063845 -0.5839176  2.33816261
    ## 12                 1.29676177         1.2056909 -0.5839176 -0.73532323
    ## 13                 0.92164872        -0.9929219 -0.5839176 -0.73532323
    ## 14                -0.20369042         0.1063845  2.0020033  0.80141969
    ## 15                -0.01613389         1.2056909 -0.5839176 -0.73532323
    ## 16                -1.14147304         1.2056909 -0.5839176  0.80141969
    ## 17                -1.70414261         1.2056909  0.7090428  0.80141969
    ## 18                -0.57880347        -0.9929219  2.0020033  2.33816261
    ## 19                -0.76635999        -0.9929219  2.0020033  2.33816261
    ## 20                -0.20369042         0.1063845 -0.5839176  0.80141969
    ## 21                -0.20369042         0.1063845 -0.5839176 -0.73532323
    ## 22                -0.57880347        -0.9929219 -0.5839176  0.80141969
    ## 23                 0.73409220         1.2056909 -0.5839176 -0.73532323
    ## 24                -0.01613389        -0.9929219 -0.5839176 -0.73532323
    ## 25                -0.39124694        -0.9929219 -0.5839176 -0.73532323
    ## 26                -1.51658608        -0.9929219  0.7090428  0.80141969
    ## 27                -0.39124694        -0.9929219 -0.5839176 -0.73532323
    ## 28                -0.95391651        -0.9929219  0.7090428  0.80141969
    ## 29                 0.73409220         1.2056909 -0.5839176 -0.73532323
    ## 30                -0.20369042         0.1063845 -0.5839176  0.80141969
    ## 31                 0.73409220         1.2056909 -0.5839176 -0.73532323
    ## 32                 0.17142263         1.2056909 -0.5839176 -0.73532323
    ## 33                -0.39124694         1.2056909 -0.5839176 -0.73532323
    ## 34                -0.01613389        -0.9929219  2.0020033 -0.73532323
    ## 35                 0.17142263        -0.9929219 -0.5839176 -0.73532323
    ## 36                -1.70414261        -0.9929219  0.7090428  0.80141969
    ## 37                 0.17142263        -0.9929219 -0.5839176  0.80141969
    ## 38                -0.57880347        -0.9929219  2.0020033  2.33816261
    ## 39                 3.92255310         1.2056909 -0.5839176 -1.50369469
    ## 40                 1.29676177        -0.9929219 -0.5839176 -0.73532323
    ## 41                 0.35897915         0.1063845 -0.5839176 -0.73532323
    ## 42                 3.17232701        -0.9929219 -0.5839176 -0.73532323
    ## 43                 0.35897915         0.1063845 -0.5839176 -0.73532323
    ## 44                 0.73409220         1.2056909 -0.5839176 -0.73532323
    ## 45                -0.01613389         1.2056909 -0.5839176 -0.73532323
    ## 46                 0.92164872         1.2056909 -0.5839176 -0.73532323
    ## 47                -0.39124694         1.2056909 -0.5839176 -0.73532323
    ## 48                -1.32902956        -0.9929219  2.0020033  2.33816261
    ## 49                -0.95391651        -0.9929219 -0.5839176  0.80141969
    ## 50                -1.14147304         0.1063845  2.0020033  0.80141969
    ## 51                -0.57880347         0.1063845 -0.5839176  0.80141969
    ## 52                -0.57880347         0.1063845  2.0020033  2.33816261
    ## 53                 1.48431830         1.2056909 -0.5839176 -0.73532323
    ## 54                 1.29676177         1.2056909 -0.5839176 -0.73532323
    ## 55                 0.92164872        -0.9929219 -0.5839176 -0.73532323
    ## 56                -0.95391651         1.2056909  0.7090428  0.80141969
    ## 57                -0.76635999        -0.9929219  2.0020033 -0.73532323
    ## 58                -0.01613389        -0.9929219  2.0020033 -0.73532323
    ## 59                -0.76635999         0.1063845  2.0020033  0.80141969
    ## 60                -0.57880347        -0.9929219 -0.5839176 -0.73532323
    ## 61                -0.57880347         1.2056909  2.0020033  0.80141969
    ## 62                 0.73409220         1.2056909 -0.5839176 -0.73532323
    ## 63                -0.95391651        -0.9929219 -0.5839176  0.80141969
    ## 64                 0.73409220        -0.9929219 -0.5839176 -0.73532323
    ## 65                 0.17142263        -0.9929219 -0.5839176 -0.73532323
    ## 66                -1.14147304         1.2056909 -0.5839176  0.80141969
    ## 67                -0.57880347        -0.9929219 -0.5839176  0.80141969
    ## 68                 0.35897915         1.2056909 -0.5839176 -0.73532323
    ## 69                 0.35897915        -0.9929219 -0.5839176 -0.73532323
    ## 70                -1.14147304         1.2056909 -0.5839176  0.80141969
    ## 71                -0.20369042        -0.9929219 -0.5839176  0.80141969
    ## 72                 0.17142263         1.2056909  0.7090428 -0.73532323
    ## 73                 2.23454439         1.2056909 -0.5839176 -0.73532323
    ## 74                 0.35897915         1.2056909 -0.5839176 -0.73532323
    ## 75                -0.20369042         0.1063845  2.0020033  0.80141969
    ## 76                -0.39124694         1.2056909 -0.5839176  0.80141969
    ## 77                -0.20369042         0.1063845 -0.5839176  0.80141969
    ## 78                -0.57880347        -0.9929219 -0.5839176 -0.73532323
    ## 79                 1.67187482        -0.9929219 -0.5839176 -0.73532323
    ## 80                 1.48431830         1.2056909  0.7090428 -1.50369469
    ## 81                 0.17142263         1.2056909  0.7090428 -0.73532323
    ## 82                 0.17142263        -0.9929219  0.7090428 -0.73532323
    ## 83                 2.60965744         1.2056909 -0.5839176 -1.50369469
    ## 84                 1.48431830        -0.9929219 -0.5839176 -0.73532323
    ## 85                 0.54653568        -0.9929219 -0.5839176 -0.73532323
    ## 86                -0.01613389        -0.9929219 -0.5839176 -0.73532323
    ## 87                -1.32902956        -0.9929219  0.7090428 -0.73532323
    ## 88                 0.73409220         1.2056909 -0.5839176 -0.73532323
    ## 89                -1.51658608         1.2056909 -0.5839176  0.03304823
    ## 90                 0.17142263         1.2056909 -0.5839176 -0.73532323
    ## 91                -0.76635999         1.2056909 -0.5839176  0.80141969
    ## 92                -0.20369042        -0.9929219  2.0020033 -0.73532323
    ## 93                -0.20369042         0.1063845 -0.5839176  0.03304823
    ##    litros_motor caballos_fuerza
    ## 1    -0.9977793     -0.07308831
    ## 2     0.5776617      1.07250933
    ## 3     0.2625735      0.53789710
    ## 4     0.2625735      0.53789710
    ## 5     1.0502940      1.22525568
    ## 6    -0.3676029     -0.64588713
    ## 7     1.2078381      0.49971051
    ## 8     2.1531027      0.69064345
    ## 9     1.2078381      0.49971051
    ## 10    1.8380145      1.07250933
    ## 11    1.6804704      2.88637226
    ## 12   -0.3676029     -0.64588713
    ## 13   -0.3676029     -0.64588713
    ## 14    0.8927499      0.30877757
    ## 15   -0.3676029     -0.64588713
    ## 16    1.2078381      0.49971051
    ## 17    1.3653822      0.40424404
    ## 18    1.9955586      0.49971051
    ## 19    2.1531027      2.98183873
    ## 20    0.7352058      0.17512451
    ## 21    0.4201176     -0.05399501
    ## 22    0.7352058      0.06056475
    ## 23   -1.3128675     -0.98956642
    ## 24   -0.3676029     -0.97047313
    ## 25    0.1050294     -0.83682007
    ## 26    0.4201176     -0.03490172
    ## 27    0.1050294     -0.83682007
    ## 28    0.4201176      2.98183873
    ## 29   -1.3128675     -0.98956642
    ## 30    1.0502940      1.33981545
    ## 31   -1.4704116     -1.54327195
    ## 32   -0.9977793     -0.32130113
    ## 33   -0.2100588     -0.91319324
    ## 34   -0.2100588     -0.74135360
    ## 35   -0.6826911     -0.55042066
    ## 36    0.4201176      0.02237816
    ## 37    0.4201176     -0.07308831
    ## 38    1.6804704      0.88157639
    ## 39   -1.7854998     -1.69601830
    ## 40   -1.1553234     -1.02775301
    ## 41   -0.2100588      0.30877757
    ## 42   -1.3128675     -0.79863348
    ## 43   -0.3676029     -0.07308831
    ## 44   -1.3128675     -1.19959265
    ## 45   -0.9977793     -0.37858101
    ## 46   -1.3128675     -0.98956642
    ## 47   -0.6826911     -0.30220784
    ## 48    1.5229263      2.56178627
    ## 49    0.4201176      0.78610992
    ## 50    0.4201176      1.54984168
    ## 51    1.2078381      0.30877757
    ## 52    1.6804704      1.26344227
    ## 53   -1.1553234     -1.18049936
    ## 54   -0.9977793     -0.77954019
    ## 55    0.1050294      0.38515075
    ## 56    0.4201176      0.21331110
    ## 57   -1.4704116      2.12264050
    ## 58   -0.2100588     -0.26402125
    ## 59    0.5776617      1.39709533
    ## 60   -1.1553234     -0.83682007
    ## 61    1.2078381     -0.07308831
    ## 62   -1.3128675     -0.98956642
    ## 63    0.4201176      1.11069592
    ## 64   -1.1553234     -0.64588713
    ## 65   -0.0525147      0.11784463
    ## 66    0.4201176      0.13693793
    ## 67    0.4201176      0.30877757
    ## 68   -0.2100588      0.21331110
    ## 69   -0.3676029     -0.64588713
    ## 70    1.2078381      0.49971051
    ## 71    1.2078381      0.49971051
    ## 72   -0.9977793     -0.98956642
    ## 73   -1.1553234     -1.33324571
    ## 74   -0.6826911     -0.64588713
    ## 75    0.8927499      0.30877757
    ## 76    0.8927499      1.07250933
    ## 77    1.2078381      0.49971051
    ## 78   -0.5251470     -0.07308831
    ## 79   -0.8402352     -1.12321948
    ## 80   -1.6279557     -1.35233901
    ## 81   -0.9977793     -1.02775301
    ## 82   -0.3676029     -0.26402125
    ## 83   -1.4704116     -1.40961889
    ## 84   -1.3128675     -1.18049936
    ## 85   -0.3676029     -0.16855478
    ## 86   -0.3676029     -0.26402125
    ## 87   -0.0525147     -0.11127490
    ## 88   -0.9977793     -1.19959265
    ## 89    0.1050294     -0.66498042
    ## 90   -0.6826911     -0.18764807
    ## 91    0.2625735      0.65245686
    ## 92   -0.2100588     -0.56951395
    ## 93   -0.0525147      0.46152392
    library(caret)
    pre_procesamiento<-preProcess(carros[,4:9], method = "range") 
    predict(pre_procesamiento, carros[,4:9]) 
    ##    millas_por_galon_carretera numero_de_airbags tracciÃ.n cilindros
    ## 1                  0.36666667               1.0       0.0       0.2
    ## 2                  0.16666667               0.5       0.0       0.6
    ## 3                  0.20000000               0.0       0.0       0.6
    ## 4                  0.20000000               0.5       0.0       0.6
    ## 5                  0.33333333               0.0       1.0       0.2
    ## 6                  0.36666667               0.0       0.0       0.2
    ## 7                  0.26666667               0.0       0.0       0.6
    ## 8                  0.16666667               0.0       1.0       0.6
    ## 9                  0.23333333               0.0       0.0       0.6
    ## 10                 0.16666667               0.0       0.0       1.0
    ## 11                 0.16666667               0.5       0.0       1.0
    ## 12                 0.53333333               1.0       0.0       0.2
    ## 13                 0.46666667               0.0       0.0       0.2
    ## 14                 0.26666667               0.5       1.0       0.6
    ## 15                 0.30000000               1.0       0.0       0.2
    ## 16                 0.10000000               1.0       0.0       0.6
    ## 17                 0.00000000               1.0       0.5       0.6
    ## 18                 0.20000000               0.0       1.0       1.0
    ## 19                 0.16666667               0.0       1.0       1.0
    ## 20                 0.26666667               0.5       0.0       0.6
    ## 21                 0.26666667               0.5       0.0       0.2
    ## 22                 0.20000000               0.0       0.0       0.6
    ## 23                 0.43333333               1.0       0.0       0.2
    ## 24                 0.30000000               0.0       0.0       0.2
    ## 25                 0.23333333               0.0       0.0       0.2
    ## 26                 0.03333333               0.0       0.5       0.6
    ## 27                 0.23333333               0.0       0.0       0.2
    ## 28                 0.13333333               0.0       0.5       0.6
    ## 29                 0.43333333               1.0       0.0       0.2
    ## 30                 0.26666667               0.5       0.0       0.6
    ## 31                 0.43333333               1.0       0.0       0.2
    ## 32                 0.33333333               1.0       0.0       0.2
    ## 33                 0.23333333               1.0       0.0       0.2
    ## 34                 0.30000000               0.0       1.0       0.2
    ## 35                 0.33333333               0.0       0.0       0.2
    ## 36                 0.00000000               0.0       0.5       0.6
    ## 37                 0.33333333               0.0       0.0       0.6
    ## 38                 0.20000000               0.0       1.0       1.0
    ## 39                 1.00000000               1.0       0.0       0.0
    ## 40                 0.53333333               0.0       0.0       0.2
    ## 41                 0.36666667               0.5       0.0       0.2
    ## 42                 0.86666667               0.0       0.0       0.2
    ## 43                 0.36666667               0.5       0.0       0.2
    ## 44                 0.43333333               1.0       0.0       0.2
    ## 45                 0.30000000               1.0       0.0       0.2
    ## 46                 0.46666667               1.0       0.0       0.2
    ## 47                 0.23333333               1.0       0.0       0.2
    ## 48                 0.06666667               0.0       1.0       1.0
    ## 49                 0.13333333               0.0       0.0       0.6
    ## 50                 0.10000000               0.5       1.0       0.6
    ## 51                 0.20000000               0.5       0.0       0.6
    ## 52                 0.20000000               0.5       1.0       1.0
    ## 53                 0.56666667               1.0       0.0       0.2
    ## 54                 0.53333333               1.0       0.0       0.2
    ## 55                 0.46666667               0.0       0.0       0.2
    ## 56                 0.13333333               1.0       0.5       0.6
    ## 57                 0.16666667               0.0       1.0       0.2
    ## 58                 0.30000000               0.0       1.0       0.2
    ## 59                 0.16666667               0.5       1.0       0.6
    ## 60                 0.20000000               0.0       0.0       0.2
    ## 61                 0.20000000               1.0       1.0       0.6
    ## 62                 0.43333333               1.0       0.0       0.2
    ## 63                 0.13333333               0.0       0.0       0.6
    ## 64                 0.43333333               0.0       0.0       0.2
    ## 65                 0.33333333               0.0       0.0       0.2
    ## 66                 0.10000000               1.0       0.0       0.6
    ## 67                 0.20000000               0.0       0.0       0.6
    ## 68                 0.36666667               1.0       0.0       0.2
    ## 69                 0.36666667               0.0       0.0       0.2
    ## 70                 0.10000000               1.0       0.0       0.6
    ## 71                 0.26666667               0.0       0.0       0.6
    ## 72                 0.33333333               1.0       0.5       0.2
    ## 73                 0.70000000               1.0       0.0       0.2
    ## 74                 0.36666667               1.0       0.0       0.2
    ## 75                 0.26666667               0.5       1.0       0.6
    ## 76                 0.23333333               1.0       0.0       0.6
    ## 77                 0.26666667               0.5       0.0       0.6
    ## 78                 0.20000000               0.0       0.0       0.2
    ## 79                 0.60000000               0.0       0.0       0.2
    ## 80                 0.56666667               1.0       0.5       0.0
    ## 81                 0.33333333               1.0       0.5       0.2
    ## 82                 0.33333333               0.0       0.5       0.2
    ## 83                 0.76666667               1.0       0.0       0.0
    ## 84                 0.56666667               0.0       0.0       0.2
    ## 85                 0.40000000               0.0       0.0       0.2
    ## 86                 0.30000000               0.0       0.0       0.2
    ## 87                 0.06666667               0.0       0.5       0.2
    ## 88                 0.43333333               1.0       0.0       0.2
    ## 89                 0.03333333               1.0       0.0       0.4
    ## 90                 0.33333333               1.0       0.0       0.2
    ## 91                 0.16666667               1.0       0.0       0.6
    ## 92                 0.26666667               0.0       1.0       0.2
    ## 93                 0.26666667               0.5       0.0       0.4
    ##    litros_motor caballos_fuerza
    ## 1          0.20      0.34693878
    ## 2          0.60      0.59183673
    ## 3          0.52      0.47755102
    ## 4          0.52      0.47755102
    ## 5          0.72      0.62448980
    ## 6          0.36      0.22448980
    ## 7          0.76      0.46938776
    ## 8          1.00      0.51020408
    ## 9          0.76      0.46938776
    ## 10         0.92      0.59183673
    ## 11         0.88      0.97959184
    ## 12         0.36      0.22448980
    ## 13         0.36      0.22448980
    ## 14         0.68      0.42857143
    ## 15         0.36      0.22448980
    ## 16         0.76      0.46938776
    ## 17         0.80      0.44897959
    ## 18         0.96      0.46938776
    ## 19         1.00      1.00000000
    ## 20         0.64      0.40000000
    ## 21         0.56      0.35102041
    ## 22         0.64      0.37551020
    ## 23         0.12      0.15102041
    ## 24         0.36      0.15510204
    ## 25         0.48      0.18367347
    ## 26         0.56      0.35510204
    ## 27         0.48      0.18367347
    ## 28         0.56      1.00000000
    ## 29         0.12      0.15102041
    ## 30         0.72      0.64897959
    ## 31         0.08      0.03265306
    ## 32         0.20      0.29387755
    ## 33         0.40      0.16734694
    ## 34         0.40      0.20408163
    ## 35         0.28      0.24489796
    ## 36         0.56      0.36734694
    ## 37         0.56      0.34693878
    ## 38         0.88      0.55102041
    ## 39         0.00      0.00000000
    ## 40         0.16      0.14285714
    ## 41         0.40      0.42857143
    ## 42         0.12      0.19183673
    ## 43         0.36      0.34693878
    ## 44         0.12      0.10612245
    ## 45         0.20      0.28163265
    ## 46         0.12      0.15102041
    ## 47         0.28      0.29795918
    ## 48         0.84      0.91020408
    ## 49         0.56      0.53061224
    ## 50         0.56      0.69387755
    ## 51         0.76      0.42857143
    ## 52         0.88      0.63265306
    ## 53         0.16      0.11020408
    ## 54         0.20      0.19591837
    ## 55         0.48      0.44489796
    ## 56         0.56      0.40816327
    ## 57         0.08      0.81632653
    ## 58         0.40      0.30612245
    ## 59         0.60      0.66122449
    ## 60         0.16      0.18367347
    ## 61         0.76      0.34693878
    ## 62         0.12      0.15102041
    ## 63         0.56      0.60000000
    ## 64         0.16      0.22448980
    ## 65         0.44      0.38775510
    ## 66         0.56      0.39183673
    ## 67         0.56      0.42857143
    ## 68         0.40      0.40816327
    ## 69         0.36      0.22448980
    ## 70         0.76      0.46938776
    ## 71         0.76      0.46938776
    ## 72         0.20      0.15102041
    ## 73         0.16      0.07755102
    ## 74         0.28      0.22448980
    ## 75         0.68      0.42857143
    ## 76         0.68      0.59183673
    ## 77         0.76      0.46938776
    ## 78         0.32      0.34693878
    ## 79         0.24      0.12244898
    ## 80         0.04      0.07346939
    ## 81         0.20      0.14285714
    ## 82         0.36      0.30612245
    ## 83         0.08      0.06122449
    ## 84         0.12      0.11020408
    ## 85         0.36      0.32653061
    ## 86         0.36      0.30612245
    ## 87         0.44      0.33877551
    ## 88         0.20      0.10612245
    ## 89         0.48      0.22040816
    ## 90         0.28      0.32244898
    ## 91         0.52      0.50204082
    ## 92         0.40      0.24081633
    ## 93         0.44      0.46122449

    XIII. Modelamiento predictivo

    13.1. Regreción lineal

    13.1.1. Diagrama de dispersión o puntos

    Los siguientes datos son extraidos desde carros.csv

    nuevos_datos <- data.frame(
      millas_por_galon_ciudad = c(25, 18, 20, 19, 22, 22, 19, 16, 19, 16, 16, 25, 25, 19, 21, 18, 15),
      millas_por_galon_carretera = c(31, 25, 26, 26, 30, 31, 28, 27, 25, 25, 36, 34, 28, 29, 23, 20, 17)
    )
    
    nuevos_datos
    ##    millas_por_galon_ciudad millas_por_galon_carretera
    ## 1                       25                         31
    ## 2                       18                         25
    ## 3                       20                         26
    ## 4                       19                         26
    ## 5                       22                         30
    ## 6                       22                         31
    ## 7                       19                         28
    ## 8                       16                         27
    ## 9                       19                         25
    ## 10                      16                         25
    ## 11                      16                         36
    ## 12                      25                         34
    ## 13                      25                         28
    ## 14                      19                         29
    ## 15                      21                         23
    ## 16                      18                         20
    ## 17                      15                         17
    # Gráfico con plot
    plot(nuevos_datos)

    # Gráfico con pairs
    pairs(nuevos_datos)

    # Realizamos un gráfico mejorado
    library(PerformanceAnalytics)
    chart.Correlation(nuevos_datos)
    ## Warning in par(usr): argument 1 does not name a graphical parameter

    #Realizamos un gráfico mejorado
    library(corrplot)
    ## Warning: package 'corrplot' was built under R version 4.3.2
    ## corrplot 0.92 loaded
    corrplot(cor(nuevos_datos))

    13.1.2. Coeficiente de correlación

    # Mediante la función cor
    cor(nuevos_datos) # Matriz de correlaciones
    ##                            millas_por_galon_ciudad millas_por_galon_carretera
    ## millas_por_galon_ciudad                  1.0000000                  0.4529831
    ## millas_por_galon_carretera               0.4529831                  1.0000000

    Coeficiente de correlación:

    r = 0.4529831

    13.1.3. Regreción lineal simple

    # lm, notación: Y ~ X, data=
    modelo_carros <- lm(millas_por_galon_ciudad ~ millas_por_galon_carretera, data=carros)
    
    # Resumen de resultados
    summary(modelo_carros)
    ## 
    ## Call:
    ## lm(formula = millas_por_galon_ciudad ~ millas_por_galon_carretera, 
    ##     data = carros)
    ## 
    ## Residuals:
    ##     Min      1Q  Median      3Q     Max 
    ## -4.2446 -1.2901 -0.2749  1.6846  4.7402 
    ## 
    ## Coefficients:
    ##                            Estimate Std. Error t value Pr(>|t|)    
    ## (Intercept)                -6.57322    1.07846  -6.095  2.6e-08 ***
    ## millas_por_galon_carretera  0.99494    0.03648  27.276  < 2e-16 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Residual standard error: 1.865 on 91 degrees of freedom
    ## Multiple R-squared:  0.891,  Adjusted R-squared:  0.8898 
    ## F-statistic:   744 on 1 and 91 DF,  p-value: < 2.2e-16
    ## Coefficients:
    ##                            Estimate Std. Error t value Pr(>|t|)    
    ## (Intercept)                -6.57322    1.07846  -6.095  2.6e-08 ***
    ## millas_por_galon_carretera  0.99494    0.03648  27.276  < 2e-16 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Residual standard error: 1.865 on 91 degrees of freedom
    ## Multiple R-squared:  0.891,  Adjusted R-squared:  0.8898 
    ## F-statistic:   744 on 1 and 91 DF,  p-value: < 2.2e-16

    13.2. Regreción angular

    13.2.1. Representación de las observaciones

    # Mejoramos el grafico
    ggplot(data = carros, aes(x = millas_por_galon_ciudad, y = millas_por_galon_carretera, color = millas_por_galon_ciudad)) +
      geom_boxplot(outlier.shape = NA) +
      geom_jitter(width = 0.1) +
      theme_bw() +
      theme(legend.position = "null")
    ## Warning: Continuous x aesthetic
    ## ℹ did you forget `aes(group = ...)`?
    ## Warning: The following aesthetics were dropped during statistical transformation: colour
    ## ℹ This can happen when ggplot fails to infer the correct grouping structure in
    ##   the data.
    ## ℹ Did you forget to specify a `group` aesthetic or to convert a numerical
    ##   variable into a factor?

    13.2.2. Generar el modelo de regresión logística

    modelgest<-glm(millas_por_galon_ciudad~millas_por_galon_carretera, data= carros, family = gaussian())
    
    summary(modelgest)
    ## 
    ## Call:
    ## glm(formula = millas_por_galon_ciudad ~ millas_por_galon_carretera, 
    ##     family = gaussian(), data = carros)
    ## 
    ## Coefficients:
    ##                            Estimate Std. Error t value Pr(>|t|)    
    ## (Intercept)                -6.57322    1.07846  -6.095  2.6e-08 ***
    ## millas_por_galon_carretera  0.99494    0.03648  27.276  < 2e-16 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## (Dispersion parameter for gaussian family taken to be 3.479826)
    ## 
    ##     Null deviance: 2905.57  on 92  degrees of freedom
    ## Residual deviance:  316.66  on 91  degrees of freedom
    ## AIC: 383.87
    ## 
    ## Number of Fisher Scoring iterations: 2

    13.2.3. Gráfico del modelo

    # Codificación 0,1 de la variable respuesta
    carros$millas_por_galon_carretera <- as.character(carros$millas_por_galon_carretera)
    carros$millas_por_galon_carretera <- as.numeric(carros$millas_por_galon_carretera)
    
    # Gráfico de dispersión
    plot(millas_por_galon_carretera ~ millas_por_galon_ciudad, carros, col = "darkblue",
         main = "Modelo regresión lineal general",
         ylab = "P(millas_por_galon_carretera=1|millas_por_galon_ciudad)",
         xlab = "millas_por_galon_ciudad", pch = 16)
    
    # Añade la línea de regresión
    abline(coef(modelgest), col = "firebrick", lwd = 2.5)

    13.2.4. Frecuencias de las variables millas por galon en ciudad y millas por galon en carretera

    ggplot(carros, aes(millas_por_galon_ciudad))+
      geom_histogram(binwidth= .25, fill="red", colour="black")+
      labs(x = "Millas por galón en la ciudad", y = "Frecuencia")+
      
      ggtitle("Frecuencia vs Millad por galón en ciudad")

    ggplot(carros, aes(millas_por_galon_carretera))+
      geom_histogram(binwidth= 4, fill="red", colour="black")+
      labs(x= "millas_por_galon_carretera", y="Frecuancia")+
      
      ggtitle("Frecuencia vs Millad por galón en carretera")

    13.2.5. Comparando modelos

    ggplot(carros, aes(x=millas_por_galon_ciudad, y=millas_por_galon_carretera)) +
      geom_jitter(height=0.10) +
      stat_smooth( method="glm", method.args = list(family = "binomial")) +
      geom_smooth(color="yellow")+
      geom_smooth(method = lm, color="purple")+
      labs(x= "Millad por galón en ciudad", y= "Millad por galón en carretera")+
      ggtitle("Modelos de probabilidades de Millad por galón en ciudad que puede ver en  Millad por galón en carretera")
    ## `geom_smooth()` using formula = 'y ~ x'
    ## Warning: Computation failed in `stat_smooth()`
    ## Caused by error:
    ## ! y values must be 0 <= y <= 1
    ## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
    ## `geom_smooth()` using formula = 'y ~ x'