2.3 Muestra
8.1 Categorizar en 4 grupos a las Millas por galón en ciudad
8.2 Calcular e interpretar los cuartiles para las revoluciones del motor por millas
8.5 Asimetria
8.6 Curtosis
9.1 Verificación de valores perdidos
9.2.1 Eliminar filas o columnas con missin
9.2.2 Aplicando técnicas de imputación
10.1 Detección de outtliers univariado - gráfica
10.1.1 Gráfico de cajas
10.2. Correción
10.2.1 Eliminar los atípicos
11.1 Transformación de raíz cuadrada
11.2 Transformación exponencial
12.1 Estandarización
12.1.1 Método 1 Por partes
12.1.2 Método 2 Directo
12.1.3 Método 3 Apoyarse en las funciones de R
12.2 Normalización
12.2.1 Método 1
12.2.2 Método 2 Función
12.2.3 Aplicando a todo el caso
13.1 Regreción lineal
13.1.1 Diagrama de dispersión o puntos
13.1.2 Coeficiente de correlación
13.1.3. Regresión lineal simple
13.2 Regreción angular
13.2.1 Representación de las observaciones
13.2.2 Generar el modelo de regresión logística
13.2.3 Gráfico del modelo
13.2.4 Frecuencias de las variables millas por galon en ciudad y millas por galon en carretera
13.2.5 Comparando modelos
AutoWorld Dealership
AutoWorld Dealership, una cadena de concesionarios de automóviles, está interesada en mejorar su estrategia de venta de vehículos. La empresa ha recopilado datos detallados de diferentes modelos de automóviles en su inventario, incluyendo información sobre características técnicas, rendimiento, y precios. AutoWorld desea analizar estos datos para identificar patrones y tendencias que puedan ayudarles a optimizar su inventario y mejorar la satisfacción del cliente.
El objetivo de este estudio es analizar y entender las características de diferentes modelos de automóviles con base en diversas especificaciones técnicas y de rendimiento. Se busca proporcionar insights sobre la variabilidad en las características de los vehículos, así como identificar posibles patrones o tendencias en relación con aspectos como eficiencia de combustible, capacidad de pasajeros, dimensiones físicas, características de motor, y precios.
La población de estudio en este caso está compuesta por una muestra representativa de automóviles de diferentes fabricantes y modelos. La población incluye vehículos de diversas categorías, como pequeños, medianos, grandes, deportivos, compactos y vans. Se consideran automóviles fabricados tanto en Estados Unidos como fuera de este país.
La muestra consiste en los automóviles listados en el conjunto de datos proporcionado. Cada fila del conjunto de datos representa un vehículo específico con sus respectivas características. La muestra abarca una variedad de fabricantes, modelos y categorías de automóviles, permitiendo así un análisis más completo y representativo de la diversidad en el mercado automotriz.
La unidad de análisis en este caso es cada entrada individual en el conjunto de datos, es decir, cada fila que representa un modelo específico de automóvil. Cada automóvil se considera como una unidad independiente que puede ser evaluada en función de sus características y atributos. El análisis se realizará a nivel de cada unidad de análisis para obtener información detallada sobre las variaciones y similitudes entre los diferentes modelos de automóviles.
# Instalar y cargar los paquetes necesarios
if (!require(ggplot2)) {
install.packages("ggplot2")
library(ggplot2)
}
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 4.3.2
ID: Número de identificación único para cada modelo de automóvil. Tipo: Clasificación del tamaño del vehículo (Pequeño, Tamaño Medio, Compacto, Grande, Deportivo, Van). Millas por galón en ciudad: Eficiencia de combustible en millas por galón en entornos urbanos. Millas por galón en carretera: Eficiencia de combustible en millas por galón en carreteras. Número de airbags: Cantidad de airbags en el vehículo. Tracción: Tipo de tracción (Delantera, Trasera, Doble tracción). Cilindros: Número de cilindros en el motor. Litros del motor: Capacidad del motor en litros. Caballos de fuerza: Potencia del motor en caballos de fuerza. Revoluciones por minuto: Número de revoluciones por minuto del motor. Transmisión manual: Indica si el vehículo tiene transmisión manual (Si/No). Capacidad del tanque: Capacidad del tanque de combustible en galones. Capacidad de pasajeros: Número máximo de pasajeros que puede acomodar el vehículo. Longitud: Longitud del vehículo en pulgadas. Distancia entre ruedas: Distancia entre las ruedas delanteras y traseras en pulgadas. Ancho: Ancho del vehículo en pulgadas. Espacio para dar la vuelta: Espacio necesario para dar una vuelta completa en pulgadas. Espacio en el asiento trasero: Espacio disponible en el asiento trasero en pulgadas. Capacidad del baúl: Capacidad del baúl en pies cúbicos. Peso en libras: Peso del vehículo en libras. Hecho en USA: Indica si el vehículo fue fabricado en Estados Unidos (Si/No). Precio básico: Precio básico del vehículo. Precio promedio: Precio promedio del vehículo. Precio equipado: Precio del vehículo con características adicionales. Fabricante: Nombre del fabricante del vehículo. Modelo: Nombre del modelo del vehículo.
# Cargar los datos
carros <- read.csv("carros.csv", sep = ";", stringsAsFactors = TRUE, encoding = "latin1");
# Visualizar las primeras filas de los datos simulados de Tipos y Número de airbags de Carros
head(carros)
## ID tipo millas_por_galon_ciudad millas_por_galon_carretera
## 1 1 Pequeño 25 31
## 2 2 Tamaño Medio 18 25
## 3 3 Compacto 20 26
## 4 4 Tamaño Medio 19 26
## 5 5 Tamaño Medio 22 30
## 6 6 Tamaño Medio 22 31
## numero_de_airbags tracciÃ.n cilindros litros_motor caballos_fuerza
## 1 No tiene Delantera 4 1,8 140
## 2 Conductor y copiloto Delantera 6 3,2 200
## 3 Conductor Delantera 6 2,8 172
## 4 Conductor y copiloto Delantera 6 2,8 172
## 5 Conductor Trasera 4 3,5 208
## 6 Conductor Delantera 4 2,2 110
## revoluciones_por_minuto rev_motor_por_milla transmisiÃ.n_manual
## 1 6300 2890 Si
## 2 5500 2335 Si
## 3 5500 2280 Si
## 4 5500 2535 Si
## 5 5700 2545 Si
## 6 5200 2565 No
## capacidad_tanque capacidad_pasajeros longitud distancia_entre_ruedas ancho
## 1 13,2 5 177 102 68
## 2 18 5 195 115 71
## 3 16,9 5 180 102 67
## 4 21,1 6 193 106 70
## 5 21,1 4 186 109 69
## 6 16,4 6 189 105 69
## espacio_para_dar_la_u espacio_asiento_trasero capacidad_baul peso_en_libras
## 1 37 26,5 11 2705
## 2 38 30 15 3560
## 3 37 28 14 3375
## 4 37 31 17 3405
## 5 39 27 13 3640
## 6 41 28 16 2880
## hecho_o_no_en_USA precio_basico precio_promedio precio_equipado fabricante
## 1 Hecho fuera de USA 12,9 15,9 18,8 Acura
## 2 Hecho fuera de USA 29,2 33,9 38,7 Acura
## 3 Hecho fuera de USA 25,9 29,1 32,3 Audi
## 4 Hecho fuera de USA 30,8 37,7 44,6 Audi
## 5 Hecho fuera de USA 23,7 30 36,2 BMW
## 6 Hecho en USA 14,2 15,7 17,3 Buick
## modelo
## 1 Integra
## 2 Legend
## 3 90
## 4 100
## 5 535i
## 6 Century
# Tabla de frecuencia para la tabla id
library(agricolae)
## Warning: package 'agricolae' was built under R version 4.3.2
tabla_frecuencia_id <- table.freq(hist(carros$ID,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_id
## Lower Upper Main Frequency Percentage CF CPF
## 1 0 10 5 10 10.8 10 10.8
## 2 10 20 15 10 10.8 20 21.5
## 3 20 30 25 10 10.8 30 32.3
## 4 30 40 35 10 10.8 40 43.0
## 5 40 50 45 10 10.8 50 53.8
## 6 50 60 55 10 10.8 60 64.5
## 7 60 70 65 10 10.8 70 75.3
## 8 70 80 75 10 10.8 80 86.0
## 9 80 90 85 10 10.8 90 96.8
## 10 90 100 95 3 3.2 93 100.0
# Tabla de frecuencia para la tabla millas_por_galon_ciudad
library(agricolae)
tabla_frecuencia_millas_por_galon_ciudad <- table.freq(hist(carros$millas_por_galon_ciudad,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_millas_por_galon_ciudad
## Lower Upper Main Frequency Percentage CF CPF
## 1 15 20 17.5 43 46.2 43 46.2
## 2 20 25 22.5 32 34.4 75 80.6
## 3 25 30 27.5 11 11.8 86 92.5
## 4 30 35 32.5 4 4.3 90 96.8
## 5 35 40 37.5 1 1.1 91 97.8
## 6 40 45 42.5 1 1.1 92 98.9
## 7 45 50 47.5 1 1.1 93 100.0
# Tabla de frecuencia para la tabla millas_por_galon_carretera
library(agricolae)
tabla_frecuencia_millas_por_galon_carretera <- table.freq(hist(carros$millas_por_galon_carretera,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_millas_por_galon_carretera
## Lower Upper Main Frequency Percentage CF CPF
## 1 20 25 22.5 22 23.7 22 23.7
## 2 25 30 27.5 42 45.2 64 68.8
## 3 30 35 32.5 18 19.4 82 88.2
## 4 35 40 37.5 7 7.5 89 95.7
## 5 40 45 42.5 2 2.2 91 97.8
## 6 45 50 47.5 2 2.2 93 100.0
# Tabla de frecuencia para la tabla cilindros
library(agricolae)
tabla_frecuencia_cilindros <- table.freq(hist(carros$cilindros,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_cilindros
## Lower Upper Main Frequency Percentage CF CPF
## 1 3.0 3.5 3.25 3 3.2 3 3.2
## 2 3.5 4.0 3.75 50 53.8 53 57.0
## 3 4.0 4.5 4.25 0 0.0 53 57.0
## 4 4.5 5.0 4.75 2 2.2 55 59.1
## 5 5.0 5.5 5.25 0 0.0 55 59.1
## 6 5.5 6.0 5.75 31 33.3 86 92.5
## 7 6.0 6.5 6.25 0 0.0 86 92.5
## 8 6.5 7.0 6.75 0 0.0 86 92.5
## 9 7.0 7.5 7.25 0 0.0 86 92.5
## 10 7.5 8.0 7.75 7 7.5 93 100.0
# Tabla de frecuencia para la tabla caballos_fuerza
library(agricolae)
tabla_frecuencia_caballos_fuerza <- table.freq(hist(carros$caballos_fuerza,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_caballos_fuerza
## Lower Upper Main Frequency Percentage CF CPF
## 1 50 100 75 22 23.7 22 23.7
## 2 100 150 125 32 34.4 54 58.1
## 3 150 200 175 28 30.1 82 88.2
## 4 200 250 225 6 6.5 88 94.6
## 5 250 300 275 5 5.4 93 100.0
# Tabla de frecuencia para la tabla revoluciones_por_minuto
library(agricolae)
tabla_frecuencia_revoluciones_por_minuto <- table.freq(hist(carros$revoluciones_por_minuto,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_revoluciones_por_minuto
## Lower Upper Main Frequency Percentage CF CPF
## 1 3500 4000 3750 3 3.2 3 3.2
## 2 4000 4500 4250 6 6.5 9 9.7
## 3 4500 5000 4750 27 29.0 36 38.7
## 4 5000 5500 5250 24 25.8 60 64.5
## 5 5500 6000 5750 29 31.2 89 95.7
## 6 6000 6500 6250 4 4.3 93 100.0
# Tabla de frecuencia para la tabla rev_motor_por_milla
library(agricolae)
tabla_frecuencia_rev_motor_por_milla <- table.freq(hist(carros$rev_motor_por_milla,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_rev_motor_por_milla
## Lower Upper Main Frequency Percentage CF CPF
## 1 1000 1500 1250 4 4.3 4 4.3
## 2 1500 2000 1750 21 22.6 25 26.9
## 3 2000 2500 2250 33 35.5 58 62.4
## 4 2500 3000 2750 27 29.0 85 91.4
## 5 3000 3500 3250 6 6.5 91 97.8
## 6 3500 4000 3750 2 2.2 93 100.0
# Tabla de frecuencia para la tabla capacidad_pasajeros
library(agricolae)
tabla_frecuencia_capacidad_pasajeros <- table.freq(hist(carros$capacidad_pasajeros,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_capacidad_pasajeros
## Lower Upper Main Frequency Percentage CF CPF
## 1 2 3 2.5 2 2.2 2 2.2
## 2 3 4 3.5 23 24.7 25 26.9
## 3 4 5 4.5 41 44.1 66 71.0
## 4 5 6 5.5 18 19.4 84 90.3
## 5 6 7 6.5 8 8.6 92 98.9
## 6 7 8 7.5 1 1.1 93 100.0
# Tabla de frecuencia para la tabla longitud
library(agricolae)
tabla_frecuencia_longitud <- table.freq(hist(carros$longitud,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_longitud
## Lower Upper Main Frequency Percentage CF CPF
## 1 140 150 145 2 2.2 2 2.2
## 2 150 160 155 2 2.2 4 4.3
## 3 160 170 165 10 10.8 14 15.1
## 4 170 180 175 28 30.1 42 45.2
## 5 180 190 185 25 26.9 67 72.0
## 6 190 200 195 15 16.1 82 88.2
## 7 200 210 205 7 7.5 89 95.7
## 8 210 220 215 4 4.3 93 100.0
# Tabla de frecuencia para la tabla distancia_entre_ruedas
library(agricolae)
tabla_frecuencia_distancia_entre_ruedas <- table.freq(hist(carros$distancia_entre_ruedas,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_distancia_entre_ruedas
## Lower Upper Main Frequency Percentage CF CPF
## 1 90 95 92.5 9 9.7 9 9.7
## 2 95 100 97.5 21 22.6 30 32.3
## 3 100 105 102.5 28 30.1 58 62.4
## 4 105 110 107.5 15 16.1 73 78.5
## 5 110 115 112.5 16 17.2 89 95.7
## 6 115 120 117.5 4 4.3 93 100.0
# Tabla de frecuencia para la tabla ancho
library(agricolae)
tabla_frecuencia_ancho <- table.freq(hist(carros$ancho,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_ancho
## Lower Upper Main Frequency Percentage CF CPF
## 1 60 62 61 1 1.1 1 1.1
## 2 62 64 63 6 6.5 7 7.5
## 3 64 66 65 13 14.0 20 21.5
## 4 66 68 67 22 23.7 42 45.2
## 5 68 70 69 18 19.4 60 64.5
## 6 70 72 71 12 12.9 72 77.4
## 7 72 74 73 15 16.1 87 93.5
## 8 74 76 75 1 1.1 88 94.6
## 9 76 78 77 5 5.4 93 100.0
# Tabla de frecuencia para la tabla espacio_para_dar_la_u
library(agricolae)
tabla_frecuencia_espacio_para_dar_la_u <- table.freq(hist(carros$espacio_para_dar_la_u,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_espacio_para_dar_la_u
## Lower Upper Main Frequency Percentage CF CPF
## 1 32 34 33 10 10.8 10 10.8
## 2 34 36 35 13 14.0 23 24.7
## 3 36 38 37 17 18.3 40 43.0
## 4 38 40 39 21 22.6 61 65.6
## 5 40 42 41 18 19.4 79 84.9
## 6 42 44 43 11 11.8 90 96.8
## 7 44 46 45 3 3.2 93 100.0
# Tabla de frecuencia para la tabla peso_en_libras
library(agricolae)
tabla_frecuencia_peso_en_libras <- table.freq(hist(carros$peso_en_libras,breaks = "Sturges",
plot = FALSE))
tabla_frecuencia_peso_en_libras
## Lower Upper Main Frequency Percentage CF CPF
## 1 1500 2000 1750 3 3.2 3 3.2
## 2 2000 2500 2250 17 18.3 20 21.5
## 3 2500 3000 2750 25 26.9 45 48.4
## 4 3000 3500 3250 21 22.6 66 71.0
## 5 3500 4000 3750 23 24.7 89 95.7
## 6 4000 4500 4250 4 4.3 93 100.0
# Cargar librería ggplot2 para visualización de datos
library(ggplot2)
# Crear gráfico de barras para Millas por Tipo con colores
grafico_barras_tipo_millas <- ggplot(carros, aes(x = tipo, y = millas_por_galon_ciudad, fill = tipo)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Distribución de Millas por Tipo de Carro",
x = "Tipo",
y = "Millas",
fill = "tipo") +
scale_fill_manual(values = c(
"Grande" = "blue",
"Deportivo" = "pink",
"Compacto" = "green",
"Van" = "purple",
"Tamaño Medio" = "orange",
"Pequeño" = "yellow"
)) +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
# Visualizar gráfico de barras
print(grafico_barras_tipo_millas)
# Crear histograma para los Millas de Tipo de carros
histograma_millas <- ggplot(carros, aes(x = millas_por_galon_ciudad, fill = tipo)) +
geom_bar(position = "identity", alpha = 0.7) + # Cambiar a geom_bar y quitar binwidth
labs(title = "Histograma de millas de tipos de Carros",
x = "Millas",
y = "Count", # Cambiar a Count ya que ahora estamos usando stat="count"
fill = "tipo") +
theme_minimal()
# Visualizar el histograma
print(histograma_millas)
# Crear gráfico de cajas para las millas de los tipos de carros
boxplot_millas <- ggplot(carros, aes(x = tipo, y = millas_por_galon_ciudad)) +
geom_boxplot() +
labs(title = "Distribución de Millas por Tipo de Carro",
x = "Tipo",
y = "Millas") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
# Visualizar el gráfico de cajas
print(boxplot_millas)
# Crear gráfico de densidad para las millas de los tipos de carros
density_plot <- ggplot(carros, aes(x = millas_por_galon_ciudad, fill = tipo)) +
geom_density(alpha = 0.5) +
labs(title = "Distribución de Densidad de Millas por Tipo de Carro",
x = "Millas",
y = "Densidad") +
theme_minimal()
# Visualizar el gráfico de densidad
print(density_plot)
# Crear diagrama circular para tipo y millas
pie_chart_tipo_millas <- ggplot(carros, aes(x = "tipo", y = millas_por_galon_ciudad, fill = tipo)) +
geom_bar(stat = "identity", width = 1, color = "white") +
coord_polar("y") +
labs(title = "Distribución de Millas por Tipo",
fill = "tipo") +
theme_minimal() +
theme(legend.position = "bottom")
# Visualizar diagrama circular
print(pie_chart_tipo_millas)
##Datos de las Millas por galón en ciudad
millas<- c(25,18,20,19,22,22,19,16,19,16,16,25,25,19,21,18,15)
#Opción 1
promedio = sum(millas)/length(millas)
promedio
## [1] 19.70588
#Opción 2
mean(millas)
## [1] 19.70588
median(millas)
## [1] 19
# Opción 1 (tabla)
table(millas)
## millas
## 15 16 18 19 20 21 22 25
## 1 3 2 4 1 1 2 3
# Opción 2
library(modeest)
## Warning: package 'modeest' was built under R version 4.3.2
##
## Attaching package: 'modeest'
## The following object is masked from 'package:agricolae':
##
## skewness
mfv(millas)
## [1] 19
quantile(carros$millas_por_galon_ciudad)
## 0% 25% 50% 75% 100%
## 15 18 21 25 46
quantile(carros$rev_motor_por_milla)
## 0% 25% 50% 75% 100%
## 1320 1985 2340 2565 3755
quantile(carros$millas_por_galon_ciudad, probs = seq(0, 1, 0.1))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 15.0 17.0 18.0 19.0 20.0 21.0 22.2 24.0 25.0 29.0 46.0
quantile(carros$millas_por_galon_ciudad, probs = seq(0, 1, 0.01))
## 0% 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12%
## 15.00 15.00 15.84 16.00 16.00 16.60 17.00 17.00 17.00 17.00 17.00 17.00 17.00
## 13% 14% 15% 16% 17% 18% 19% 20% 21% 22% 23% 24% 25%
## 17.00 17.88 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00
## 26% 27% 28% 29% 30% 31% 32% 33% 34% 35% 36% 37% 38%
## 18.00 18.84 19.00 19.00 19.00 19.00 19.00 19.00 19.00 19.00 19.00 19.04 19.96
## 39% 40% 41% 42% 43% 44% 45% 46% 47% 48% 49% 50% 51%
## 20.00 20.00 20.00 20.00 20.00 20.00 20.00 20.32 21.00 21.00 21.00 21.00 21.00
## 52% 53% 54% 55% 56% 57% 58% 59% 60% 61% 62% 63% 64%
## 21.00 21.76 22.00 22.00 22.00 22.00 22.00 22.00 22.20 23.00 23.00 23.00 23.00
## 65% 66% 67% 68% 69% 70% 71% 72% 73% 74% 75% 76% 77%
## 23.00 23.00 23.00 23.00 23.48 24.00 24.00 24.00 24.00 24.08 25.00 25.00 25.00
## 78% 79% 80% 81% 82% 83% 84% 85% 86% 87% 88% 89% 90%
## 25.00 25.00 25.00 25.52 26.00 26.72 28.00 28.20 29.00 29.00 29.00 29.00 29.00
## 91% 92% 93% 94% 95% 96% 97% 98% 99% 100%
## 29.00 29.64 30.56 31.00 31.40 32.32 34.44 39.48 42.32 46.00
library(fBasics)
## Warning: package 'fBasics' was built under R version 4.3.2
##
## Attaching package: 'fBasics'
## The following objects are masked from 'package:modeest':
##
## ghMode, ghtMode, gldMode, hypMode, nigMode, skewness
## The following objects are masked from 'package:agricolae':
##
## kurtosis, skewness
skewness(carros$millas_por_galon_ciudad)
## [1] 1.649843
## attr(,"method")
## [1] "moment"
hist(carros$millas_por_galon_ciudad)
kurtosis(carros$millas_por_galon_ciudad)
## [1] 3.584488
## attr(,"method")
## [1] "excess"
# Mostrar
head(carros)
## ID tipo millas_por_galon_ciudad millas_por_galon_carretera
## 1 1 Pequeño 25 31
## 2 2 Tamaño Medio 18 25
## 3 3 Compacto 20 26
## 4 4 Tamaño Medio 19 26
## 5 5 Tamaño Medio 22 30
## 6 6 Tamaño Medio 22 31
## numero_de_airbags tracciÃ.n cilindros litros_motor caballos_fuerza
## 1 No tiene Delantera 4 1,8 140
## 2 Conductor y copiloto Delantera 6 3,2 200
## 3 Conductor Delantera 6 2,8 172
## 4 Conductor y copiloto Delantera 6 2,8 172
## 5 Conductor Trasera 4 3,5 208
## 6 Conductor Delantera 4 2,2 110
## revoluciones_por_minuto rev_motor_por_milla transmisiÃ.n_manual
## 1 6300 2890 Si
## 2 5500 2335 Si
## 3 5500 2280 Si
## 4 5500 2535 Si
## 5 5700 2545 Si
## 6 5200 2565 No
## capacidad_tanque capacidad_pasajeros longitud distancia_entre_ruedas ancho
## 1 13,2 5 177 102 68
## 2 18 5 195 115 71
## 3 16,9 5 180 102 67
## 4 21,1 6 193 106 70
## 5 21,1 4 186 109 69
## 6 16,4 6 189 105 69
## espacio_para_dar_la_u espacio_asiento_trasero capacidad_baul peso_en_libras
## 1 37 26,5 11 2705
## 2 38 30 15 3560
## 3 37 28 14 3375
## 4 37 31 17 3405
## 5 39 27 13 3640
## 6 41 28 16 2880
## hecho_o_no_en_USA precio_basico precio_promedio precio_equipado fabricante
## 1 Hecho fuera de USA 12,9 15,9 18,8 Acura
## 2 Hecho fuera de USA 29,2 33,9 38,7 Acura
## 3 Hecho fuera de USA 25,9 29,1 32,3 Audi
## 4 Hecho fuera de USA 30,8 37,7 44,6 Audi
## 5 Hecho fuera de USA 23,7 30 36,2 BMW
## 6 Hecho en USA 14,2 15,7 17,3 Buick
## modelo
## 1 Integra
## 2 Legend
## 3 90
## 4 100
## 5 535i
## 6 Century
str(carros)
## 'data.frame': 93 obs. of 27 variables:
## $ ID : int 1 2 3 4 5 6 7 8 9 10 ...
## $ tipo : Factor w/ 6 levels "Compacto","Deportivo",..: 4 5 1 5 5 5 3 3 5 3 ...
## $ millas_por_galon_ciudad : int 25 18 20 19 22 22 19 16 19 16 ...
## $ millas_por_galon_carretera: int 31 25 26 26 30 31 28 25 27 25 ...
## $ numero_de_airbags : Factor w/ 3 levels "Conductor","Conductor y copiloto",..: 3 2 1 2 1 1 1 1 1 1 ...
## $ tracciÃ.n : Factor w/ 3 levels "Delantera","Doble tracción",..: 1 1 1 1 3 1 1 3 1 1 ...
## $ cilindros : int 4 6 6 6 4 4 6 6 6 8 ...
## $ litros_motor : Factor w/ 26 levels "1","1,2","1,3",..: 6 16 14 14 19 10 20 26 20 24 ...
## $ caballos_fuerza : int 140 200 172 172 208 110 170 180 170 200 ...
## $ revoluciones_por_minuto : int 6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
## $ rev_motor_por_milla : int 2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
## $ transmisiÃ.n_manual : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 1 1 1 ...
## $ capacidad_tanque : Factor w/ 38 levels "10","10,6","11,1",..: 7 23 20 34 34 18 23 36 26 23 ...
## $ capacidad_pasajeros : int 5 5 5 6 4 6 6 6 5 6 ...
## $ longitud : int 177 195 180 193 186 189 200 216 198 206 ...
## $ distancia_entre_ruedas : int 102 115 102 106 109 105 111 116 108 114 ...
## $ ancho : int 68 71 67 70 69 69 74 78 73 73 ...
## $ espacio_para_dar_la_u : int 37 38 37 37 39 41 42 45 41 43 ...
## $ espacio_asiento_trasero : Factor w/ 26 levels "178,129,531,871,822",..: 12 19 15 21 13 15 20 20 12 25 ...
## $ capacidad_baul : Factor w/ 27 levels "10","11","116,914,413,363,161",..: 2 7 6 13 5 10 13 21 6 17 ...
## $ peso_en_libras : int 2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
## $ hecho_o_no_en_USA : Factor w/ 2 levels "Hecho en USA",..: 2 2 2 2 2 1 1 1 1 1 ...
## $ precio_basico : Factor w/ 79 levels "10,4","10,5",..: 10 52 48 54 46 17 38 44 49 56 ...
## $ precio_promedio : Factor w/ 81 levels "10","10,1","10,3",..: 25 63 58 68 60 23 45 50 54 65 ...
## $ precio_equipado : Factor w/ 79 levels "10","10,6","11",..: 32 69 59 72 65 25 40 50 52 66 ...
## $ fabricante : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
## $ modelo : Factor w/ 93 levels "100","190E","240",..: 49 54 9 1 6 24 56 73 72 35 ...
# Verificar columnas con missing
which(colSums(is.na(carros))!= 0)
## named integer(0)
Realizar el análisis utilizando librerias
library(VIM)
library(mice)
resumen_missing <- aggr(carros, numbers=T)
summary(resumen_missing)
##
## Missings per variable:
## Variable Count
## ID 0
## tipo 0
## millas_por_galon_ciudad 0
## millas_por_galon_carretera 0
## numero_de_airbags 0
## tracciÃ.n 0
## cilindros 0
## litros_motor 0
## caballos_fuerza 0
## revoluciones_por_minuto 0
## rev_motor_por_milla 0
## transmisiÃ.n_manual 0
## capacidad_tanque 0
## capacidad_pasajeros 0
## longitud 0
## distancia_entre_ruedas 0
## ancho 0
## espacio_para_dar_la_u 0
## espacio_asiento_trasero 0
## capacidad_baul 0
## peso_en_libras 0
## hecho_o_no_en_USA 0
## precio_basico 0
## precio_promedio 0
## precio_equipado 0
## fabricante 0
## modelo 0
##
## Missings in combinations of variables:
## Combinations Count Percent
## 0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0 93 100
Para determinar mejor lo patrones de comportamiento de missing se puede utilizar la siguiente función
library(VIM)
matrixplot(carros)
otra representación
#Con librería mice
library(mice)
md.pattern(carros, rotate.names = TRUE)
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## ID tipo millas_por_galon_ciudad millas_por_galon_carretera numero_de_airbags
## 93 1 1 1 1 1
## 0 0 0 0 0
## tracciÃ.n cilindros litros_motor caballos_fuerza revoluciones_por_minuto
## 93 1 1 1 1 1
## 0 0 0 0 0
## rev_motor_por_milla transmisiÃ.n_manual capacidad_tanque capacidad_pasajeros
## 93 1 1 1 1
## 0 0 0 0
## longitud distancia_entre_ruedas ancho espacio_para_dar_la_u
## 93 1 1 1 1
## 0 0 0 0
## espacio_asiento_trasero capacidad_baul peso_en_libras hecho_o_no_en_USA
## 93 1 1 1 1
## 0 0 0 0
## precio_basico precio_promedio precio_equipado fabricante modelo
## 93 1 1 1 1 1 0
## 0 0 0 0 0 0
La librería visdat permite visualizar missing pero los ordena por tipo de datos
library(visdat)
vis_dat(carros)
Para obtener columnas con porcentajes de missing
vis_miss(carros)
En este caso se va a eliminar filas:
carros_corregido1 <- na.omit(carros)
str(carros_corregido1)
## 'data.frame': 93 obs. of 27 variables:
## $ ID : int 1 2 3 4 5 6 7 8 9 10 ...
## $ tipo : Factor w/ 6 levels "Compacto","Deportivo",..: 4 5 1 5 5 5 3 3 5 3 ...
## $ millas_por_galon_ciudad : int 25 18 20 19 22 22 19 16 19 16 ...
## $ millas_por_galon_carretera: int 31 25 26 26 30 31 28 25 27 25 ...
## $ numero_de_airbags : Factor w/ 3 levels "Conductor","Conductor y copiloto",..: 3 2 1 2 1 1 1 1 1 1 ...
## $ tracciÃ.n : Factor w/ 3 levels "Delantera","Doble tracción",..: 1 1 1 1 3 1 1 3 1 1 ...
## $ cilindros : int 4 6 6 6 4 4 6 6 6 8 ...
## $ litros_motor : Factor w/ 26 levels "1","1,2","1,3",..: 6 16 14 14 19 10 20 26 20 24 ...
## $ caballos_fuerza : int 140 200 172 172 208 110 170 180 170 200 ...
## $ revoluciones_por_minuto : int 6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
## $ rev_motor_por_milla : int 2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
## $ transmisiÃ.n_manual : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 1 1 1 ...
## $ capacidad_tanque : Factor w/ 38 levels "10","10,6","11,1",..: 7 23 20 34 34 18 23 36 26 23 ...
## $ capacidad_pasajeros : int 5 5 5 6 4 6 6 6 5 6 ...
## $ longitud : int 177 195 180 193 186 189 200 216 198 206 ...
## $ distancia_entre_ruedas : int 102 115 102 106 109 105 111 116 108 114 ...
## $ ancho : int 68 71 67 70 69 69 74 78 73 73 ...
## $ espacio_para_dar_la_u : int 37 38 37 37 39 41 42 45 41 43 ...
## $ espacio_asiento_trasero : Factor w/ 26 levels "178,129,531,871,822",..: 12 19 15 21 13 15 20 20 12 25 ...
## $ capacidad_baul : Factor w/ 27 levels "10","11","116,914,413,363,161",..: 2 7 6 13 5 10 13 21 6 17 ...
## $ peso_en_libras : int 2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
## $ hecho_o_no_en_USA : Factor w/ 2 levels "Hecho en USA",..: 2 2 2 2 2 1 1 1 1 1 ...
## $ precio_basico : Factor w/ 79 levels "10,4","10,5",..: 10 52 48 54 46 17 38 44 49 56 ...
## $ precio_promedio : Factor w/ 81 levels "10","10,1","10,3",..: 25 63 58 68 60 23 45 50 54 65 ...
## $ precio_equipado : Factor w/ 79 levels "10","10,6","11",..: 32 69 59 72 65 25 40 50 52 66 ...
## $ fabricante : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
## $ modelo : Factor w/ 93 levels "100","190E","240",..: 49 54 9 1 6 24 56 73 72 35 ...
# Verificar columnas con missing
which(colSums(is.na(carros_corregido1))!= 0)
## named integer(0)
Imputación por medidas de tendencia central
library(DMwR2)
carros_corregido2<-centralImputation(carros) #DMwR, mediana (númerico), moda(no númerico)
str(carros_corregido2)
## 'data.frame': 93 obs. of 27 variables:
## $ ID : int 1 2 3 4 5 6 7 8 9 10 ...
## $ tipo : Factor w/ 6 levels "Compacto","Deportivo",..: 4 5 1 5 5 5 3 3 5 3 ...
## $ millas_por_galon_ciudad : int 25 18 20 19 22 22 19 16 19 16 ...
## $ millas_por_galon_carretera: int 31 25 26 26 30 31 28 25 27 25 ...
## $ numero_de_airbags : Factor w/ 3 levels "Conductor","Conductor y copiloto",..: 3 2 1 2 1 1 1 1 1 1 ...
## $ tracciÃ.n : Factor w/ 3 levels "Delantera","Doble tracción",..: 1 1 1 1 3 1 1 3 1 1 ...
## $ cilindros : int 4 6 6 6 4 4 6 6 6 8 ...
## $ litros_motor : Factor w/ 26 levels "1","1,2","1,3",..: 6 16 14 14 19 10 20 26 20 24 ...
## $ caballos_fuerza : int 140 200 172 172 208 110 170 180 170 200 ...
## $ revoluciones_por_minuto : int 6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
## $ rev_motor_por_milla : int 2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
## $ transmisiÃ.n_manual : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 1 1 1 ...
## $ capacidad_tanque : Factor w/ 38 levels "10","10,6","11,1",..: 7 23 20 34 34 18 23 36 26 23 ...
## $ capacidad_pasajeros : int 5 5 5 6 4 6 6 6 5 6 ...
## $ longitud : int 177 195 180 193 186 189 200 216 198 206 ...
## $ distancia_entre_ruedas : int 102 115 102 106 109 105 111 116 108 114 ...
## $ ancho : int 68 71 67 70 69 69 74 78 73 73 ...
## $ espacio_para_dar_la_u : int 37 38 37 37 39 41 42 45 41 43 ...
## $ espacio_asiento_trasero : Factor w/ 26 levels "178,129,531,871,822",..: 12 19 15 21 13 15 20 20 12 25 ...
## $ capacidad_baul : Factor w/ 27 levels "10","11","116,914,413,363,161",..: 2 7 6 13 5 10 13 21 6 17 ...
## $ peso_en_libras : int 2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
## $ hecho_o_no_en_USA : Factor w/ 2 levels "Hecho en USA",..: 2 2 2 2 2 1 1 1 1 1 ...
## $ precio_basico : Factor w/ 79 levels "10,4","10,5",..: 10 52 48 54 46 17 38 44 49 56 ...
## $ precio_promedio : Factor w/ 81 levels "10","10,1","10,3",..: 25 63 58 68 60 23 45 50 54 65 ...
## $ precio_equipado : Factor w/ 79 levels "10","10,6","11",..: 32 69 59 72 65 25 40 50 52 66 ...
## $ fabricante : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
## $ modelo : Factor w/ 93 levels "100","190E","240",..: 49 54 9 1 6 24 56 73 72 35 ...
# Verificar columnas con missing
which(colSums(is.na(carros_corregido2))!= 0)
## named integer(0)
library(VIM)
carros_corregido3 <- initialise(carros, method = "median") #media (continuos) mediana (discretos), moda(no númerico)
str(carros_corregido3)
## 'data.frame': 93 obs. of 27 variables:
## $ ID : int 1 2 3 4 5 6 7 8 9 10 ...
## $ tipo : Factor w/ 6 levels "Compacto","Deportivo",..: 4 5 1 5 5 5 3 3 5 3 ...
## $ millas_por_galon_ciudad : int 25 18 20 19 22 22 19 16 19 16 ...
## $ millas_por_galon_carretera: int 31 25 26 26 30 31 28 25 27 25 ...
## $ numero_de_airbags : Factor w/ 3 levels "Conductor","Conductor y copiloto",..: 3 2 1 2 1 1 1 1 1 1 ...
## $ tracciÃ.n : Factor w/ 3 levels "Delantera","Doble tracción",..: 1 1 1 1 3 1 1 3 1 1 ...
## $ cilindros : int 4 6 6 6 4 4 6 6 6 8 ...
## $ litros_motor : Factor w/ 26 levels "1","1,2","1,3",..: 6 16 14 14 19 10 20 26 20 24 ...
## $ caballos_fuerza : int 140 200 172 172 208 110 170 180 170 200 ...
## $ revoluciones_por_minuto : int 6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
## $ rev_motor_por_milla : int 2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
## $ transmisiÃ.n_manual : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 1 1 1 ...
## $ capacidad_tanque : Factor w/ 38 levels "10","10,6","11,1",..: 7 23 20 34 34 18 23 36 26 23 ...
## $ capacidad_pasajeros : int 5 5 5 6 4 6 6 6 5 6 ...
## $ longitud : int 177 195 180 193 186 189 200 216 198 206 ...
## $ distancia_entre_ruedas : int 102 115 102 106 109 105 111 116 108 114 ...
## $ ancho : int 68 71 67 70 69 69 74 78 73 73 ...
## $ espacio_para_dar_la_u : int 37 38 37 37 39 41 42 45 41 43 ...
## $ espacio_asiento_trasero : Factor w/ 26 levels "178,129,531,871,822",..: 12 19 15 21 13 15 20 20 12 25 ...
## $ capacidad_baul : Factor w/ 27 levels "10","11","116,914,413,363,161",..: 2 7 6 13 5 10 13 21 6 17 ...
## $ peso_en_libras : int 2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
## $ hecho_o_no_en_USA : Factor w/ 2 levels "Hecho en USA",..: 2 2 2 2 2 1 1 1 1 1 ...
## $ precio_basico : Factor w/ 79 levels "10,4","10,5",..: 10 52 48 54 46 17 38 44 49 56 ...
## $ precio_promedio : Factor w/ 81 levels "10","10,1","10,3",..: 25 63 58 68 60 23 45 50 54 65 ...
## $ precio_equipado : Factor w/ 79 levels "10","10,6","11",..: 32 69 59 72 65 25 40 50 52 66 ...
## $ fabricante : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
## $ modelo : Factor w/ 93 levels "100","190E","240",..: 49 54 9 1 6 24 56 73 72 35 ...
# Verificar columnas con missing
which(colSums(is.na(carros_corregido3))!= 0)
## named integer(0)
library(DMwR2)
carros_corregido4<-knnImputation(carros, k=10)
str(carros_corregido4)
## 'data.frame': 93 obs. of 27 variables:
## $ ID : int 1 2 3 4 5 6 7 8 9 10 ...
## $ tipo : Factor w/ 6 levels "Compacto","Deportivo",..: 4 5 1 5 5 5 3 3 5 3 ...
## $ millas_por_galon_ciudad : int 25 18 20 19 22 22 19 16 19 16 ...
## $ millas_por_galon_carretera: int 31 25 26 26 30 31 28 25 27 25 ...
## $ numero_de_airbags : Factor w/ 3 levels "Conductor","Conductor y copiloto",..: 3 2 1 2 1 1 1 1 1 1 ...
## $ tracciÃ.n : Factor w/ 3 levels "Delantera","Doble tracción",..: 1 1 1 1 3 1 1 3 1 1 ...
## $ cilindros : int 4 6 6 6 4 4 6 6 6 8 ...
## $ litros_motor : Factor w/ 26 levels "1","1,2","1,3",..: 6 16 14 14 19 10 20 26 20 24 ...
## $ caballos_fuerza : int 140 200 172 172 208 110 170 180 170 200 ...
## $ revoluciones_por_minuto : int 6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
## $ rev_motor_por_milla : int 2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
## $ transmisiÃ.n_manual : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 1 1 1 ...
## $ capacidad_tanque : Factor w/ 38 levels "10","10,6","11,1",..: 7 23 20 34 34 18 23 36 26 23 ...
## $ capacidad_pasajeros : int 5 5 5 6 4 6 6 6 5 6 ...
## $ longitud : int 177 195 180 193 186 189 200 216 198 206 ...
## $ distancia_entre_ruedas : int 102 115 102 106 109 105 111 116 108 114 ...
## $ ancho : int 68 71 67 70 69 69 74 78 73 73 ...
## $ espacio_para_dar_la_u : int 37 38 37 37 39 41 42 45 41 43 ...
## $ espacio_asiento_trasero : Factor w/ 26 levels "178,129,531,871,822",..: 12 19 15 21 13 15 20 20 12 25 ...
## $ capacidad_baul : Factor w/ 27 levels "10","11","116,914,413,363,161",..: 2 7 6 13 5 10 13 21 6 17 ...
## $ peso_en_libras : int 2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
## $ hecho_o_no_en_USA : Factor w/ 2 levels "Hecho en USA",..: 2 2 2 2 2 1 1 1 1 1 ...
## $ precio_basico : Factor w/ 79 levels "10,4","10,5",..: 10 52 48 54 46 17 38 44 49 56 ...
## $ precio_promedio : Factor w/ 81 levels "10","10,1","10,3",..: 25 63 58 68 60 23 45 50 54 65 ...
## $ precio_equipado : Factor w/ 79 levels "10","10,6","11",..: 32 69 59 72 65 25 40 50 52 66 ...
## $ fabricante : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
## $ modelo : Factor w/ 93 levels "100","190E","240",..: 49 54 9 1 6 24 56 73 72 35 ...
# Verificar columnas con missing
which(colSums(is.na(carros_corregido4))!= 0)
## named integer(0)
El análisis solo se realiza para variable cuantitativas
Gráfico de cajas y bigotes
#Gráfico de cajas y bigotes
boxplot(carros$millas_por_galon_ciudad)
Según los resultados, las millas por galon en ciudad no tiene valores atípicos
Obteniendo valores atípicos para la variable millas_por_galon_carretera
boxplot(carros$millas_por_galon_carretera)
Para todo
boxplot(carros)
Para longitud
boxplot(carros$longitud)
Según los resultados, se identifica valores atípicos. Vamos a identificarlo y plantear estrategia de corrección
# Calcular el RIC (RIC = Q3 - Q1)
q1 <- quantile(carros$longitud, 0.25)
q3 <- quantile(carros$longitud, 0.75)
RIC <- q3-q1
RIC
## 75%
## 18
# Limites o bigotes (Superior e inferior)
bigote_inferior <- q1-1.5*RIC
bigote_inferior
## 25%
## 147
bigote_superior <- q3+1.5*RIC
bigote_superior
## 75%
## 219
# Identificar lo valores atípicos
outliers_det <- carros$longitud[carros$longitud < bigote_inferior | carros$longitud > bigote_superior]
outliers_det
## [1] 141 146
carros_sin_atipicos <- carros[!carros$longitud %in% outliers_det,]
carros_sin_atipicos
## ID tipo millas_por_galon_ciudad millas_por_galon_carretera
## 1 1 Pequeño 25 31
## 2 2 Tamaño Medio 18 25
## 3 3 Compacto 20 26
## 4 4 Tamaño Medio 19 26
## 5 5 Tamaño Medio 22 30
## 6 6 Tamaño Medio 22 31
## 7 7 Grande 19 28
## 8 8 Grande 16 25
## 9 9 Tamaño Medio 19 27
## 10 10 Grande 16 25
## 11 11 Tamaño Medio 16 25
## 12 12 Compacto 25 36
## 13 13 Compacto 25 34
## 14 14 Deportivo 19 28
## 15 15 Tamaño Medio 21 29
## 16 16 Van 18 23
## 17 17 Van 15 20
## 18 18 Grande 17 26
## 19 19 Deportivo 17 25
## 20 20 Grande 20 28
## 21 21 Compacto 23 28
## 22 22 Grande 20 26
## 23 23 Pequeño 29 33
## 24 24 Pequeño 23 29
## 25 25 Compacto 22 27
## 26 26 Van 17 21
## 27 27 Tamaño Medio 21 27
## 28 28 Deportivo 18 24
## 29 29 Pequeño 29 33
## 30 30 Grande 20 28
## 32 32 Pequeño 23 30
## 33 33 Compacto 22 27
## 34 34 Deportivo 22 29
## 35 35 Deportivo 24 30
## 36 36 Van 15 20
## 37 37 Tamaño Medio 21 30
## 38 38 Grande 18 26
## 39 39 Pequeño 46 50
## 40 40 Deportivo 30 36
## 41 41 Deportivo 24 31
## 42 42 Pequeño 42 46
## 43 43 Compacto 24 31
## 44 44 Pequeño 29 33
## 45 45 Pequeño 22 29
## 46 46 Deportivo 26 34
## 47 47 Tamaño Medio 20 27
## 48 48 Tamaño Medio 17 22
## 49 49 Tamaño Medio 18 24
## 50 50 Tamaño Medio 18 23
## 51 51 Tamaño Medio 17 26
## 52 52 Grande 18 26
## 53 53 Pequeño 29 37
## 54 54 Pequeño 28 36
## 55 55 Compacto 26 34
## 56 56 Van 18 24
## 57 57 Deportivo 17 25
## 58 58 Compacto 20 29
## 59 59 Tamaño Medio 19 25
## 60 60 Deportivo 23 26
## 61 61 Tamaño Medio 19 26
## 62 62 Pequeño 29 33
## 63 63 Tamaño Medio 18 24
## 64 64 Pequeño 29 33
## 65 65 Compacto 24 30
## 66 66 Van 17 23
## 67 67 Tamaño Medio 21 26
## 68 68 Compacto 24 31
## 69 69 Tamaño Medio 23 31
## 70 70 Van 18 23
## 71 71 Grande 19 28
## 72 72 Deportivo 23 30
## 73 73 Pequeño 31 41
## 74 74 Compacto 23 31
## 75 75 Deportivo 19 28
## 76 76 Tamaño Medio 19 27
## 77 77 Grande 19 28
## 78 78 Compacto 20 26
## 79 79 Pequeño 28 38
## 81 81 Pequeño 25 30
## 82 82 Compacto 23 30
## 83 83 Pequeño 39 43
## 84 84 Pequeño 32 37
## 85 85 Deportivo 25 32
## 86 86 Tamaño Medio 22 29
## 87 87 Van 18 22
## 88 88 Pequeño 25 33
## 89 89 Van 17 21
## 90 90 Compacto 21 30
## 91 91 Deportivo 18 25
## 92 92 Compacto 21 28
## 93 93 Tamaño Medio 20 28
## numero_de_airbags tracciÃ.n cilindros litros_motor caballos_fuerza
## 1 No tiene Delantera 4 1,8 140
## 2 Conductor y copiloto Delantera 6 3,2 200
## 3 Conductor Delantera 6 2,8 172
## 4 Conductor y copiloto Delantera 6 2,8 172
## 5 Conductor Trasera 4 3,5 208
## 6 Conductor Delantera 4 2,2 110
## 7 Conductor Delantera 6 3,8 170
## 8 Conductor Trasera 6 5,7 180
## 9 Conductor Delantera 6 3,8 170
## 10 Conductor Delantera 8 4,9 200
## 11 Conductor y copiloto Delantera 8 4,6 295
## 12 No tiene Delantera 4 2,2 110
## 13 Conductor Delantera 4 2,2 110
## 14 Conductor y copiloto Trasera 6 3,4 160
## 15 No tiene Delantera 4 2,2 110
## 16 No tiene Delantera 6 3,8 170
## 17 No tiene Doble tracción 6 4,3 165
## 18 Conductor Trasera 8 5 170
## 19 Conductor Trasera 8 5,7 300
## 20 Conductor y copiloto Delantera 6 3,3 153
## 21 Conductor y copiloto Delantera 4 3 141
## 22 Conductor Delantera 6 3,3 147
## 23 No tiene Delantera 4 1,5 92
## 24 Conductor Delantera 4 2,2 93
## 25 Conductor Delantera 4 2,5 100
## 26 Conductor Doble tracción 6 3 142
## 27 Conductor Delantera 4 2,5 100
## 28 Conductor Doble tracción 6 3 300
## 29 No tiene Delantera 4 1,5 92
## 30 Conductor y copiloto Delantera 6 3,5 214
## 32 No tiene Delantera 4 1,8 127
## 33 No tiene Delantera 4 2,3 96
## 34 Conductor Trasera 4 2,3 105
## 35 Conductor Delantera 4 2 115
## 36 Conductor Doble tracción 6 3 145
## 37 Conductor Delantera 6 3 140
## 38 Conductor Trasera 8 4,6 190
## 39 No tiene Delantera 3 1 55
## 40 Conductor Delantera 4 1,6 90
## 41 Conductor y copiloto Delantera 4 2,3 160
## 42 Conductor Delantera 4 1,5 102
## 43 Conductor y copiloto Delantera 4 2,2 140
## 44 No tiene Delantera 4 1,5 81
## 45 No tiene Delantera 4 1,8 124
## 46 No tiene Delantera 4 1,5 92
## 47 No tiene Delantera 4 2 128
## 48 Conductor Trasera 8 4,5 278
## 49 Conductor Delantera 6 3 185
## 50 Conductor y copiloto Trasera 6 3 225
## 51 Conductor y copiloto Delantera 6 3,8 160
## 52 Conductor y copiloto Trasera 8 4,6 210
## 53 No tiene Delantera 4 1,6 82
## 54 No tiene Delantera 4 1,8 103
## 55 Conductor Delantera 4 2,5 164
## 56 No tiene Doble tracción 6 3 155
## 57 Conductor Trasera 4 1,3 255
## 58 Conductor Trasera 4 2,3 130
## 59 Conductor y copiloto Trasera 6 3,2 217
## 60 Conductor Delantera 4 1,6 100
## 61 No tiene Trasera 6 3,8 140
## 62 No tiene Delantera 4 1,5 92
## 63 Conductor Delantera 6 3 202
## 64 Conductor Delantera 4 1,6 110
## 65 Conductor Delantera 4 2,4 150
## 66 No tiene Delantera 6 3 151
## 67 Conductor Delantera 6 3 160
## 68 No tiene Delantera 4 2,3 155
## 69 Conductor Delantera 4 2,2 110
## 70 No tiene Delantera 6 3,8 170
## 71 Conductor Delantera 6 3,8 170
## 72 No tiene Doble tracción 4 1,8 92
## 73 No tiene Delantera 4 1,6 74
## 74 No tiene Delantera 4 2 110
## 75 Conductor y copiloto Trasera 6 3,4 160
## 76 No tiene Delantera 6 3,4 200
## 77 Conductor y copiloto Delantera 6 3,8 170
## 78 Conductor Delantera 4 2,1 140
## 79 Conductor Delantera 4 1,9 85
## 81 No tiene Doble tracción 4 1,8 90
## 82 Conductor Doble tracción 4 2,2 130
## 83 No tiene Delantera 3 1,3 70
## 84 Conductor Delantera 4 1,5 82
## 85 Conductor Delantera 4 2,2 135
## 86 Conductor Delantera 4 2,2 130
## 87 Conductor Doble tracción 4 2,4 138
## 88 No tiene Delantera 4 1,8 81
## 89 No tiene Delantera 5 2,5 109
## 90 No tiene Delantera 4 2 134
## 91 No tiene Delantera 6 2,8 178
## 92 Conductor Trasera 4 2,3 114
## 93 Conductor y copiloto Delantera 5 2,4 168
## revoluciones_por_minuto rev_motor_por_milla transmisiÃ.n_manual
## 1 6300 2890 Si
## 2 5500 2335 Si
## 3 5500 2280 Si
## 4 5500 2535 Si
## 5 5700 2545 Si
## 6 5200 2565 No
## 7 4800 1570 No
## 8 4000 1320 No
## 9 4800 1690 No
## 10 4100 1510 No
## 11 6000 1985 No
## 12 5200 2380 Si
## 13 5200 2665 Si
## 14 4600 1805 Si
## 15 5200 2595 No
## 16 4800 1690 No
## 17 4000 1790 No
## 18 4200 1350 No
## 19 5000 1450 Si
## 20 5300 1990 No
## 21 5000 2090 No
## 22 4800 1785 No
## 23 6000 3285 Si
## 24 4800 2595 Si
## 25 4800 2535 Si
## 26 5000 1970 No
## 27 4800 2465 No
## 28 6000 2120 Si
## 29 6000 2505 Si
## 30 5800 1980 No
## 32 6500 2410 Si
## 33 4200 2805 Si
## 34 4600 2285 Si
## 35 5500 2340 Si
## 36 4800 2080 Si
## 37 4800 1885 No
## 38 4200 1415 No
## 39 5700 3755 Si
## 40 5400 3250 Si
## 41 5800 2855 Si
## 42 5900 2650 Si
## 43 5600 2610 Si
## 44 5500 2710 Si
## 45 6000 2745 Si
## 46 5550 2540 Si
## 47 6000 2335 Si
## 48 6000 1955 No
## 49 5200 2325 Si
## 50 6000 2510 Si
## 51 4400 1835 No
## 52 4600 1840 No
## 53 5000 2370 Si
## 54 5500 2220 Si
## 55 5600 2505 Si
## 56 5000 2240 No
## 57 6500 2325 Si
## 58 5100 2425 Si
## 59 5500 2220 No
## 60 5750 2475 Si
## 61 3800 1730 No
## 62 6000 2505 Si
## 63 6000 2210 No
## 64 6000 2435 Si
## 65 5600 2130 Si
## 66 4800 2065 No
## 67 5200 2045 No
## 68 6000 2380 No
## 69 5200 2565 No
## 70 4800 1690 No
## 71 4800 1570 No
## 72 5000 2360 Si
## 73 5600 3130 Si
## 74 5200 2665 Si
## 75 4600 1805 Si
## 76 5000 1890 Si
## 77 4800 1565 No
## 78 6000 2910 Si
## 79 5000 2145 Si
## 81 5200 3375 Si
## 82 5600 2330 Si
## 83 6000 3360 Si
## 84 5200 3505 Si
## 85 5400 2405 Si
## 86 5400 2340 Si
## 87 5000 2515 Si
## 88 5500 2550 Si
## 89 4500 2915 Si
## 90 5800 2685 Si
## 91 5800 2385 Si
## 92 5400 2215 Si
## 93 6200 2310 Si
## capacidad_tanque capacidad_pasajeros longitud distancia_entre_ruedas ancho
## 1 13,2 5 177 102 68
## 2 18 5 195 115 71
## 3 16,9 5 180 102 67
## 4 21,1 6 193 106 70
## 5 21,1 4 186 109 69
## 6 16,4 6 189 105 69
## 7 18 6 200 111 74
## 8 23 6 216 116 78
## 9 18,8 5 198 108 73
## 10 18 6 206 114 73
## 11 20 5 204 111 74
## 12 15,2 5 182 101 66
## 13 15,6 5 184 103 68
## 14 15,5 4 193 101 74
## 15 16,5 6 198 108 71
## 16 20 7 178 110 74
## 17 27 8 194 111 78
## 18 23 6 214 116 77
## 19 20 2 179 96 74
## 20 18 6 203 113 74
## 21 16 6 183 104 68
## 22 16 6 203 110 69
## 23 13,2 5 174 98 66
## 24 14 5 172 97 67
## 25 16 6 181 104 68
## 26 20 7 175 112 72
## 27 16 6 192 105 69
## 28 19,8 4 180 97 72
## 29 13,2 5 174 98 66
## 30 18 6 202 113 74
## 32 13,2 5 171 98 67
## 33 15,9 5 177 100 68
## 34 15,4 4 180 101 68
## 35 15,5 4 179 103 70
## 36 21 7 176 119 72
## 37 16 5 192 106 71
## 38 20 6 212 114 78
## 39 10,6 4 151 93 63
## 40 12,4 4 164 97 67
## 41 15,9 4 175 100 70
## 42 11,9 4 173 103 67
## 43 17 4 185 107 67
## 44 11,9 5 168 94 63
## 45 13,7 5 172 98 66
## 46 11,9 4 166 94 64
## 47 17,2 5 184 104 69
## 48 22,5 5 200 113 72
## 49 18,5 5 188 103 70
## 50 20,6 4 191 106 71
## 51 18,4 6 205 109 73
## 52 20 6 219 117 77
## 53 13,2 4 164 97 66
## 54 14,5 5 172 98 66
## 55 15,5 5 184 103 69
## 56 19,6 7 190 110 72
## 57 20 2 169 96 69
## 58 14,5 5 175 105 67
## 59 18,5 5 187 110 69
## 60 11,1 4 166 95 65
## 61 18 5 199 113 73
## 62 13,2 5 172 98 67
## 63 19 5 190 107 70
## 64 13,2 5 170 96 66
## 65 15,9 5 181 103 67
## 66 20 7 190 112 74
## 67 18,5 5 188 104 69
## 68 15,2 5 188 103 67
## 69 16,5 5 190 105 70
## 70 20 7 194 110 74
## 71 18 6 201 111 74
## 72 15,9 4 173 97 67
## 73 13,2 4 177 99 66
## 74 15,2 5 181 101 66
## 75 15,5 4 196 101 75
## 76 16,5 5 195 108 72
## 77 18 6 177 111 74
## 78 18 5 184 99 67
## 79 12,8 5 176 102 68
## 81 15,9 5 175 97 65
## 82 15,9 5 179 102 67
## 83 10,6 4 161 93 63
## 84 11,9 5 162 94 65
## 85 15,9 4 174 99 69
## 86 18,5 5 188 103 70
## 87 19,8 7 187 113 71
## 88 12,4 4 163 93 63
## 89 21,1 7 187 115 72
## 90 18,5 5 180 103 67
## 91 18,5 4 159 97 66
## 92 15,8 5 190 104 67
## 93 19,3 5 184 105 69
## espacio_para_dar_la_u espacio_asiento_trasero capacidad_baul
## 1 37 26,5 11
## 2 38 30 15
## 3 37 28 14
## 4 37 31 17
## 5 39 27 13
## 6 41 28 16
## 7 42 30,5 17
## 8 45 30,5 21
## 9 41 26,5 14
## 10 43 35 18
## 11 44 31 14
## 12 38 25 13
## 13 39 26 14
## 14 43 25 13
## 15 40 28,5 16
## 16 44 30,5 165,471,108,431,435
## 17 42 33,5 206,511,897,553,928
## 18 42 29,5 20
## 19 43 242,866,514,494,107 92,027,296,528,776
## 20 40 31 15
## 21 41 30,5 14
## 22 44 36 17
## 23 32 26,5 11
## 24 38 26,5 13
## 25 39 30,5 14
## 26 42 26,5 116,914,413,363,161
## 27 42 30,5 16
## 28 40 20 11
## 29 36 26,5 11
## 30 40 30 15
## 32 36 28 12
## 33 39 27,5 13
## 34 40 24 12
## 35 38 23 18
## 36 45 30 176,790,845,859,601
## 37 40 27,5 18
## 38 43 30 21
## 39 34 27,5 10
## 40 37 24,5 11
## 41 39 23,5 8
## 42 36 28 12
## 43 41 28 14
## 44 35 26 11
## 45 36 28 12
## 46 34 23,5 9
## 47 41 31 14
## 48 42 29 15
## 49 40 27,5 14
## 50 39 25 9
## 51 42 30 19
## 52 45 31,5 22
## 53 34 27 16
## 54 36 26,5 13
## 55 40 29,5 14
## 56 39 27,5 166,738,755,846,993
## 57 37 178,129,531,871,822 644,033,010,304,593
## 58 34 26 12
## 59 37 27 15
## 60 36 19 6
## 61 38 28 15
## 62 36 26 11
## 63 43 27,5 14
## 64 33 26 12
## 65 40 28,5 14
## 66 41 27 154,314,903,627,743
## 67 41 28,5 14
## 68 39 28 14
## 69 42 28 16
## 70 44 30,5 172,174,376,189,628
## 71 42 31,5 17
## 72 39 24,5 8
## 73 35 25,5 17
## 74 39 25 13
## 75 43 25 13
## 76 41 28,5 16
## 77 43 30,5 18
## 78 37 26,5 14
## 79 40 26,5 12
## 81 35 27,5 15
## 82 37 27 14
## 83 34 27,5 10
## 84 36 24 11
## 85 39 23 13
## 86 38 28,5 15
## 87 41 35 171,605,718,147,114
## 88 34 26 10
## 89 38 34 159,326,856,846,829
## 90 35 31,5 14
## 91 36 26 15
## 92 37 29,5 14
## 93 38 30 15
## peso_en_libras hecho_o_no_en_USA precio_basico precio_promedio
## 1 2705 Hecho fuera de USA 12,9 15,9
## 2 3560 Hecho fuera de USA 29,2 33,9
## 3 3375 Hecho fuera de USA 25,9 29,1
## 4 3405 Hecho fuera de USA 30,8 37,7
## 5 3640 Hecho fuera de USA 23,7 30
## 6 2880 Hecho en USA 14,2 15,7
## 7 3470 Hecho en USA 19,9 20,8
## 8 4105 Hecho en USA 22,6 23,7
## 9 3495 Hecho en USA 26,3 26,3
## 10 3620 Hecho en USA 33 34,7
## 11 3935 Hecho en USA 37,5 40,1
## 12 2490 Hecho en USA 8,5 13,4
## 13 2785 Hecho en USA 11,4 11,4
## 14 3240 Hecho en USA 13,4 15,1
## 15 3195 Hecho en USA 13,4 15,9
## 16 3715 Hecho en USA 14,7 16,3
## 17 4025 Hecho en USA 14,7 16,6
## 18 3910 Hecho en USA 18 18,8
## 19 3380 Hecho en USA 34,6 38
## 20 3515 Hecho en USA 18,4 18,4
## 21 3085 Hecho en USA 14,5 15,8
## 22 3570 Hecho en USA 29,5 29,5
## 23 2270 Hecho en USA 7,9 9,2
## 24 2670 Hecho en USA 8,4 11,3
## 25 2970 Hecho en USA 11,9 13,3
## 26 3705 Hecho en USA 13,6 19
## 27 3080 Hecho en USA 14,8 15,6
## 28 3805 Hecho en USA 18,5 25,8
## 29 2295 Hecho en USA 7,9 12,2
## 30 3490 Hecho en USA 17,5 19,3
## 32 2530 Hecho en USA 8,4 10,1
## 33 2690 Hecho en USA 10,4 11,3
## 34 2850 Hecho en USA 10,8 15,9
## 35 2710 Hecho en USA 12,8 14
## 36 3735 Hecho en USA 14,5 19,9
## 37 3325 Hecho en USA 15,6 20,2
## 38 3950 Hecho en USA 20,1 20,9
## 39 1695 Hecho fuera de USA 6,7 8,4
## 40 2475 Hecho fuera de USA 11,5 12,5
## 41 2865 Hecho fuera de USA 17 19,8
## 42 2350 Hecho fuera de USA 8,4 12,1
## 43 3040 Hecho fuera de USA 13,8 17,5
## 44 2345 Hecho fuera de USA 6,8 8
## 45 2620 Hecho fuera de USA 9 10
## 46 2285 Hecho fuera de USA 9,1 10
## 47 2885 Hecho fuera de USA 12,4 13,9
## 48 4000 Hecho fuera de USA 45,4 47,9
## 49 3510 Hecho fuera de USA 27,5 28
## 50 3515 Hecho fuera de USA 34,7 35,2
## 51 3695 Hecho en USA 33,3 34,3
## 52 4055 Hecho en USA 34,4 36,1
## 53 2325 Hecho fuera de USA 7,4 8,3
## 54 2440 Hecho fuera de USA 10,9 11,6
## 55 2970 Hecho fuera de USA 14,3 16,5
## 56 3735 Hecho fuera de USA 16,6 19,1
## 57 2895 Hecho fuera de USA 32,5 32,5
## 58 2920 Hecho fuera de USA 29 31,9
## 59 3525 Hecho fuera de USA 43,8 61,9
## 60 2450 Hecho en USA 13,3 14,1
## 61 3610 Hecho en USA 14,9 14,9
## 62 2295 Hecho fuera de USA 7,7 10,3
## 63 3730 Hecho fuera de USA 22,4 26,1
## 64 2545 Hecho fuera de USA 8,7 11,8
## 65 3050 Hecho fuera de USA 13 15,7
## 66 4100 Hecho fuera de USA 16,7 19,1
## 67 3200 Hecho fuera de USA 21 21,5
## 68 2910 Hecho en USA 13 13,5
## 69 2890 Hecho en USA 14,2 16,3
## 70 3715 Hecho en USA 19,5 19,5
## 71 3470 Hecho en USA 19,5 20,7
## 72 2640 Hecho en USA 11,4 14,4
## 73 2350 Hecho en USA 8,2 9
## 74 2575 Hecho en USA 9,4 11,1
## 75 3240 Hecho en USA 14 17,7
## 76 3450 Hecho en USA 15,4 18,5
## 77 3495 Hecho en USA 19,4 24,4
## 78 2775 Hecho fuera de USA 20,3 28,7
## 79 2495 Hecho en USA 9,2 11,1
## 81 2490 Hecho fuera de USA 10,5 10,9
## 82 3085 Hecho fuera de USA 16,3 19,5
## 83 1965 Hecho fuera de USA 7,3 8,6
## 84 2055 Hecho fuera de USA 7,8 9,8
## 85 2950 Hecho fuera de USA 14,2 18,4
## 86 3030 Hecho fuera de USA 15,2 18,2
## 87 3785 Hecho fuera de USA 18,9 22,7
## 88 2240 Hecho fuera de USA 8,7 9,1
## 89 3960 Hecho fuera de USA 16,6 19,7
## 90 2985 Hecho fuera de USA 17,6 20
## 91 2810 Hecho fuera de USA 22,9 23,3
## 92 2985 Hecho fuera de USA 21,8 22,7
## 93 3245 Hecho fuera de USA 24,8 26,7
## precio_equipado fabricante modelo
## 1 18,8 Acura Integra
## 2 38,7 Acura Legend
## 3 32,3 Audi 90
## 4 44,6 Audi 100
## 5 36,2 BMW 535i
## 6 17,3 Buick Century
## 7 21,7 Buick LeSabre
## 8 24,9 Buick Roadmaster
## 9 26,3 Buick Riviera
## 10 36,3 Cadillac DeVille
## 11 42,7 Cadillac Seville
## 12 18,3 Chevrolet Cavalier
## 13 11,4 Chevrolet Corsica
## 14 16,8 Chevrolet Camaro
## 15 18,4 Chevrolet Lumina
## 16 18 Chevrolet Lumina_APV
## 17 18,6 Chevrolet Astro
## 18 19,6 Chevrolet Caprice
## 19 41,5 Chevrolet Corvette
## 20 18,4 Chrylser Concorde
## 21 17,1 Chrysler LeBaron
## 22 29,5 Chrysler Imperial
## 23 10,6 Dodge Colt
## 24 14,2 Dodge Shadow
## 25 14,7 Dodge Spirit
## 26 24,4 Dodge Caravan
## 27 16,4 Dodge Dynasty
## 28 33,1 Dodge Stealth
## 29 16,5 Eagle Summit
## 30 21,2 Eagle Vision
## 32 11,9 Ford Escort
## 33 12,2 Ford Tempo
## 34 21 Ford Mustang
## 35 15,2 Ford Probe
## 36 25,3 Ford Aerostar
## 37 24,8 Ford Taurus
## 38 21,7 Ford Crown_Victoria
## 39 10 Geo Metro
## 40 13,5 Geo Storm
## 41 22,7 Honda Prelude
## 42 15,8 Honda Civic
## 43 21,2 Honda Accord
## 44 9,2 Hyundai Excel
## 45 11 Hyundai Elantra
## 46 11 Hyundai Scoupe
## 47 15,3 Hyundai Sonata
## 48 50,4 Infiniti Q45
## 49 28,4 Lexus ES300
## 50 35,6 Lexus SC300
## 51 35,3 Lincoln Continental
## 52 37,8 Lincoln Town_Car
## 53 9,1 Mazda 323
## 54 12,3 Mazda Protege
## 55 18,7 Mazda 626
## 56 21,7 Mazda MPV
## 57 32,5 Mazda RX-7
## 58 34,9 Mercedes-Benz 190E
## 59 80 Mercedes-Benz 300E
## 60 15 Mercury Capri
## 61 14,9 Mercury Cougar
## 62 12,9 Mitsubishi Mirage
## 63 29,9 Mitsubishi Diamante
## 64 14,9 Nissan Sentra
## 65 18,3 Nissan Altima
## 66 21,5 Nissan Quest
## 67 22 Nissan Maxima
## 68 14 Oldsmobile Achieva
## 69 18,4 Oldsmobile Cutlass_Ciera
## 70 19,5 Oldsmobile Silhouette
## 71 21,9 Oldsmobile Eighty-Eight
## 72 17,4 Plymouth Laser
## 73 9,9 Pontiac LeMans
## 74 12,8 Pontiac Sunbird
## 75 21,4 Pontiac Firebird
## 76 21,6 Pontiac Grand_Prix
## 77 29,4 Pontiac Bonneville
## 78 37,1 Saab 900
## 79 12,9 Saturn SL
## 81 11,3 Subaru Loyale
## 82 22,7 Subaru Legacy
## 83 10 Suzuki Swift
## 84 11,8 Toyota Tercel
## 85 22,6 Toyota Celica
## 86 21,2 Toyota Camry
## 87 26,6 Toyota Previa
## 88 9,5 Volkswagen Fox
## 89 22,7 Volkswagen Eurovan
## 90 22,4 Volkswagen Passat
## 91 23,7 Volkswagen Corrado
## 92 23,5 Volvo 240
## 93 28,5 Volvo 850
Para confirmar vamos a realizar un gráfico de cajas con la nueva data
boxplot(carros_sin_atipicos$longitud)
# Original
hist(carros$longitud, 12)
Para sacar la raiz cuadrada, simplemente se puede utilizar la función sqrt
sqrt(carros$longitud)
## [1] 13.30413 13.96424 13.41641 13.89244 13.63818 13.74773 14.14214 14.69694
## [9] 14.07125 14.35270 14.28286 13.49074 13.56466 13.89244 14.07125 13.34166
## [17] 13.92839 14.62874 13.37909 14.24781 13.52775 14.24781 13.19091 13.11488
## [25] 13.45362 13.22876 13.85641 13.41641 13.19091 14.21267 11.87434 13.07670
## [33] 13.30413 13.41641 13.37909 13.26650 13.85641 14.56022 12.28821 12.80625
## [41] 13.22876 13.15295 13.60147 12.96148 13.11488 12.88410 13.56466 14.14214
## [49] 13.71131 13.82027 14.31782 14.79865 12.80625 13.11488 13.56466 13.78405
## [57] 13.00000 13.22876 13.67479 12.88410 14.10674 13.11488 13.78405 13.03840
## [65] 13.45362 13.78405 13.71131 13.71131 13.78405 13.92839 14.17745 13.15295
## [73] 13.30413 13.45362 14.00000 13.96424 13.30413 13.56466 13.26650 12.08305
## [81] 13.22876 13.37909 12.68858 12.72792 13.19091 13.71131 13.67479 12.76715
## [89] 13.67479 13.41641 12.60952 13.78405 13.56466
Graficamente
hist(sqrt(carros$longitud))
exp(carros$longitud)
## [1] 7.415207e+76 4.868823e+84 1.489384e+78 6.589235e+83 6.008605e+80
## [6] 1.206861e+82 7.225974e+86 6.421080e+93 9.779292e+85 2.915166e+89
## [11] 3.945248e+88 1.100514e+79 8.131762e+79 6.589235e+83 9.779292e+85
## [16] 2.015662e+77 1.791140e+84 8.689987e+92 5.479138e+77 1.451376e+88
## [21] 2.991508e+79 1.451376e+88 3.691814e+75 4.996327e+74 4.048566e+78
## [26] 1.003539e+76 2.424044e+83 1.489384e+78 3.691814e+75 5.339313e+87
## [31] 1.719974e+61 1.838046e+74 7.415207e+76 1.489384e+78 5.479138e+77
## [36] 2.727902e+76 2.424044e+83 1.176062e+92 3.788495e+65 1.676081e+71
## [41] 1.003539e+76 1.358143e+75 2.210442e+80 9.151093e+72 4.996327e+74
## [46] 1.238466e+72 8.131762e+79 7.225974e+86 4.439792e+81 8.917560e+82
## [51] 1.072430e+89 1.289708e+95 1.676081e+71 4.996327e+74 8.131762e+79
## [56] 3.280587e+82 2.487525e+73 1.003539e+76 1.633308e+81 1.238466e+72
## [61] 2.658287e+86 4.996327e+74 3.280587e+82 6.761794e+73 4.048566e+78
## [66] 3.280587e+82 4.439792e+81 4.439792e+81 3.280587e+82 1.791140e+84
## [71] 1.964223e+87 1.358143e+75 7.415207e+76 4.048566e+78 1.323483e+85
## [76] 4.868823e+84 7.415207e+76 8.131762e+79 2.727902e+76 2.552668e+63
## [81] 1.003539e+76 5.479138e+77 8.344716e+69 2.268329e+70 3.691814e+75
## [86] 4.439792e+81 1.633308e+81 6.165958e+70 1.633308e+81 1.489384e+78
## [91] 1.129335e+69 3.280587e+82 8.131762e+79
para poder observarlo graficamente se tiene:
hist(exp(carros$longitud))
Forma 2
longitud_exp<- exp(carros$longitud)
hist(longitud_exp)
log(carros$longitud)
## [1] 5.176150 5.273000 5.192957 5.262690 5.225747 5.241747 5.298317 5.375278
## [9] 5.288267 5.327876 5.318120 5.204007 5.214936 5.262690 5.288267 5.181784
## [17] 5.267858 5.365976 5.187386 5.313206 5.209486 5.313206 5.159055 5.147494
## [25] 5.198497 5.164786 5.257495 5.192957 5.159055 5.308268 4.948760 5.141664
## [33] 5.176150 5.192957 5.187386 5.170484 5.257495 5.356586 5.017280 5.099866
## [41] 5.164786 5.153292 5.220356 5.123964 5.147494 5.111988 5.214936 5.298317
## [49] 5.236442 5.252273 5.323010 5.389072 5.099866 5.147494 5.214936 5.247024
## [57] 5.129899 5.164786 5.231109 5.111988 5.293305 5.147494 5.247024 5.135798
## [65] 5.198497 5.247024 5.236442 5.236442 5.247024 5.267858 5.303305 5.153292
## [73] 5.176150 5.198497 5.278115 5.273000 5.176150 5.214936 5.170484 4.983607
## [81] 5.164786 5.187386 5.081404 5.087596 5.159055 5.236442 5.231109 5.093750
## [89] 5.231109 5.192957 5.068904 5.247024 5.214936
graficamente
hist(log(carros$longitud))
Cambiar la base 2
log(carros$longitud, base=2)
## [1] 7.467606 7.607330 7.491853 7.592457 7.539159 7.562242 7.643856 7.754888
## [9] 7.629357 7.686501 7.672425 7.507795 7.523562 7.592457 7.629357 7.475733
## [17] 7.599913 7.741467 7.483816 7.665336 7.515700 7.665336 7.442943 7.426265
## [25] 7.499846 7.451211 7.584963 7.491853 7.442943 7.658211 7.139551 7.417853
## [33] 7.467606 7.491853 7.483816 7.459432 7.584963 7.727920 7.238405 7.357552
## [41] 7.451211 7.434628 7.531381 7.392317 7.426265 7.375039 7.523562 7.643856
## [49] 7.554589 7.577429 7.679480 7.774787 7.357552 7.426265 7.523562 7.569856
## [57] 7.400879 7.451211 7.546894 7.375039 7.636625 7.426265 7.569856 7.409391
## [65] 7.499846 7.569856 7.554589 7.554589 7.569856 7.599913 7.651052 7.434628
## [73] 7.467606 7.499846 7.614710 7.607330 7.467606 7.523562 7.459432 7.189825
## [81] 7.451211 7.483816 7.330917 7.339850 7.442943 7.554589 7.546894 7.348728
## [89] 7.546894 7.491853 7.312883 7.569856 7.523562
graficamente
hist(log(carros$longitud, base=2))
#Obtener solo tranaformaciones
longitud_sqrt <- sqrt(carros$longitud)
longitud_exp <- exp(carros$longitud)
longitud_ln <- log(carros$longitud)
longitud_log2 <- log(carros$longitud, base=2)
longitud_log5 <- log(carros$longitud, base=5)
Ver graficamente cada una:
par(mfrow=c(3,2))
hist(carros$longitud)
hist(longitud_sqrt)
hist(longitud_exp)
hist(longitud_ln)
hist(longitud_log2)
hist(longitud_log5)
par(mfrow=c(1,1))
La visualización de la distribución puede mejorarse con la gráfica de densidad
par(mfrow=c(3,2))
plot(density(carros$longitud), main = "Distribución de longitud originales")
plot(density(longitud_sqrt), main = "Distribución de longitud transformadas - sqrt")
plot(density(longitud_exp), main = "Distribución de longitud transformadas - exp")
plot(density(longitud_ln), main = "Distribución de longitud transformadas - ln")
plot(density(longitud_log2), main = "Distribución de longitud transformadas - log2")
plot(density(longitud_log5), main = "Distribución de longitud transformadas - log5")
par(mfrow=c(1,1))
gráfica general
# Convertir las columnas seleccionadas a numéricas si es necesario
carros[, 4:8] <- sapply(carros[, 4:8], as.numeric)
# Verificar si hay algún problema con la conversión
print(sapply(carros[, 4:8], class))
## millas_por_galon_carretera numero_de_airbags
## "numeric" "numeric"
## tracciÃ.n cilindros
## "numeric" "numeric"
## litros_motor
## "numeric"
# Ahora puedes calcular la correlación sin problemas
library(PerformanceAnalytics)
chart.Correlation(cor(carros[, 4:8]), histogram = TRUE)
head(carros)
## ID tipo millas_por_galon_ciudad millas_por_galon_carretera
## 1 1 Pequeño 25 31
## 2 2 Tamaño Medio 18 25
## 3 3 Compacto 20 26
## 4 4 Tamaño Medio 19 26
## 5 5 Tamaño Medio 22 30
## 6 6 Tamaño Medio 22 31
## numero_de_airbags tracciÃ.n cilindros litros_motor caballos_fuerza
## 1 3 1 4 6 140
## 2 2 1 6 16 200
## 3 1 1 6 14 172
## 4 2 1 6 14 172
## 5 1 3 4 19 208
## 6 1 1 4 10 110
## revoluciones_por_minuto rev_motor_por_milla transmisiÃ.n_manual
## 1 6300 2890 Si
## 2 5500 2335 Si
## 3 5500 2280 Si
## 4 5500 2535 Si
## 5 5700 2545 Si
## 6 5200 2565 No
## capacidad_tanque capacidad_pasajeros longitud distancia_entre_ruedas ancho
## 1 13,2 5 177 102 68
## 2 18 5 195 115 71
## 3 16,9 5 180 102 67
## 4 21,1 6 193 106 70
## 5 21,1 4 186 109 69
## 6 16,4 6 189 105 69
## espacio_para_dar_la_u espacio_asiento_trasero capacidad_baul peso_en_libras
## 1 37 26,5 11 2705
## 2 38 30 15 3560
## 3 37 28 14 3375
## 4 37 31 17 3405
## 5 39 27 13 3640
## 6 41 28 16 2880
## hecho_o_no_en_USA precio_basico precio_promedio precio_equipado fabricante
## 1 Hecho fuera de USA 12,9 15,9 18,8 Acura
## 2 Hecho fuera de USA 29,2 33,9 38,7 Acura
## 3 Hecho fuera de USA 25,9 29,1 32,3 Audi
## 4 Hecho fuera de USA 30,8 37,7 44,6 Audi
## 5 Hecho fuera de USA 23,7 30 36,2 BMW
## 6 Hecho en USA 14,2 15,7 17,3 Buick
## modelo
## 1 Integra
## 2 Legend
## 3 90
## 4 100
## 5 535i
## 6 Century
Vamos a aplicar estandarización Z a la variable longitud de manera manual
carros$longitud
## [1] 177 195 180 193 186 189 200 216 198 206 204 182 184 193 198 178 194 214 179
## [20] 203 183 203 174 172 181 175 192 180 174 202 141 171 177 180 179 176 192 212
## [39] 151 164 175 173 185 168 172 166 184 200 188 191 205 219 164 172 184 190 169
## [58] 175 187 166 199 172 190 170 181 190 188 188 190 194 201 173 177 181 196 195
## [77] 177 184 176 146 175 179 161 162 174 188 187 163 187 180 159 190 184
media_longitud <- mean(carros$longitud)
media_longitud
## [1] 183.2043
desv_est <- sd(carros$longitud)
desv_est
## [1] 14.60238
longitud_estandar <- (carros$longitud-media_longitud)/desv_est
longitud_estandar
## [1] -0.42488282 0.80779282 -0.21943688 0.67082886 0.19145500 0.39690094
## [7] 1.15020272 2.24591440 1.01323876 1.56109460 1.42413064 -0.08247292
## [13] 0.05449104 0.67082886 1.01323876 -0.35640084 0.73931084 2.10895044
## [19] -0.28791886 1.35564866 -0.01399094 1.35564866 -0.63032876 -0.76729272
## [25] -0.15095490 -0.56184678 0.60234688 -0.21943688 -0.63032876 1.28716668
## [31] -2.89023410 -0.83577470 -0.42488282 -0.21943688 -0.28791886 -0.49336480
## [37] 0.60234688 1.97198648 -2.20541430 -1.31514856 -0.56184678 -0.69881074
## [43] 0.12297302 -1.04122064 -0.76729272 -1.17818460 0.05449104 1.15020272
## [49] 0.32841896 0.53386490 1.49261262 2.45136034 -1.31514856 -0.76729272
## [55] 0.05449104 0.46538292 -0.97273866 -0.56184678 0.25993698 -1.17818460
## [61] 1.08172074 -0.76729272 0.46538292 -0.90425668 -0.15095490 0.46538292
## [67] 0.32841896 0.32841896 0.46538292 0.73931084 1.21868470 -0.69881074
## [73] -0.42488282 -0.15095490 0.87627480 0.80779282 -0.42488282 0.05449104
## [79] -0.49336480 -2.54782420 -0.56184678 -0.28791886 -1.52059450 -1.45211252
## [85] -0.63032876 0.32841896 0.25993698 -1.38363054 0.25993698 -0.21943688
## [91] -1.65755846 0.46538292 0.05449104
longitud_estandar2 <- (carros$longitud-mean(carros$longitud))/sd(carros$longitud)
longitud_estandar2
## [1] -0.42488282 0.80779282 -0.21943688 0.67082886 0.19145500 0.39690094
## [7] 1.15020272 2.24591440 1.01323876 1.56109460 1.42413064 -0.08247292
## [13] 0.05449104 0.67082886 1.01323876 -0.35640084 0.73931084 2.10895044
## [19] -0.28791886 1.35564866 -0.01399094 1.35564866 -0.63032876 -0.76729272
## [25] -0.15095490 -0.56184678 0.60234688 -0.21943688 -0.63032876 1.28716668
## [31] -2.89023410 -0.83577470 -0.42488282 -0.21943688 -0.28791886 -0.49336480
## [37] 0.60234688 1.97198648 -2.20541430 -1.31514856 -0.56184678 -0.69881074
## [43] 0.12297302 -1.04122064 -0.76729272 -1.17818460 0.05449104 1.15020272
## [49] 0.32841896 0.53386490 1.49261262 2.45136034 -1.31514856 -0.76729272
## [55] 0.05449104 0.46538292 -0.97273866 -0.56184678 0.25993698 -1.17818460
## [61] 1.08172074 -0.76729272 0.46538292 -0.90425668 -0.15095490 0.46538292
## [67] 0.32841896 0.32841896 0.46538292 0.73931084 1.21868470 -0.69881074
## [73] -0.42488282 -0.15095490 0.87627480 0.80779282 -0.42488282 0.05449104
## [79] -0.49336480 -2.54782420 -0.56184678 -0.28791886 -1.52059450 -1.45211252
## [85] -0.63032876 0.32841896 0.25993698 -1.38363054 0.25993698 -0.21943688
## [91] -1.65755846 0.46538292 0.05449104
R tiene múltiple funciones para estandarizar, la clásica es la función scale
#Función scale
longitud_estandar3 <- scale(carros$longitud)
longitud_estandar3
## [,1]
## [1,] -0.42488282
## [2,] 0.80779282
## [3,] -0.21943688
## [4,] 0.67082886
## [5,] 0.19145500
## [6,] 0.39690094
## [7,] 1.15020272
## [8,] 2.24591440
## [9,] 1.01323876
## [10,] 1.56109460
## [11,] 1.42413064
## [12,] -0.08247292
## [13,] 0.05449104
## [14,] 0.67082886
## [15,] 1.01323876
## [16,] -0.35640084
## [17,] 0.73931084
## [18,] 2.10895044
## [19,] -0.28791886
## [20,] 1.35564866
## [21,] -0.01399094
## [22,] 1.35564866
## [23,] -0.63032876
## [24,] -0.76729272
## [25,] -0.15095490
## [26,] -0.56184678
## [27,] 0.60234688
## [28,] -0.21943688
## [29,] -0.63032876
## [30,] 1.28716668
## [31,] -2.89023410
## [32,] -0.83577470
## [33,] -0.42488282
## [34,] -0.21943688
## [35,] -0.28791886
## [36,] -0.49336480
## [37,] 0.60234688
## [38,] 1.97198648
## [39,] -2.20541430
## [40,] -1.31514856
## [41,] -0.56184678
## [42,] -0.69881074
## [43,] 0.12297302
## [44,] -1.04122064
## [45,] -0.76729272
## [46,] -1.17818460
## [47,] 0.05449104
## [48,] 1.15020272
## [49,] 0.32841896
## [50,] 0.53386490
## [51,] 1.49261262
## [52,] 2.45136034
## [53,] -1.31514856
## [54,] -0.76729272
## [55,] 0.05449104
## [56,] 0.46538292
## [57,] -0.97273866
## [58,] -0.56184678
## [59,] 0.25993698
## [60,] -1.17818460
## [61,] 1.08172074
## [62,] -0.76729272
## [63,] 0.46538292
## [64,] -0.90425668
## [65,] -0.15095490
## [66,] 0.46538292
## [67,] 0.32841896
## [68,] 0.32841896
## [69,] 0.46538292
## [70,] 0.73931084
## [71,] 1.21868470
## [72,] -0.69881074
## [73,] -0.42488282
## [74,] -0.15095490
## [75,] 0.87627480
## [76,] 0.80779282
## [77,] -0.42488282
## [78,] 0.05449104
## [79,] -0.49336480
## [80,] -2.54782420
## [81,] -0.56184678
## [82,] -0.28791886
## [83,] -1.52059450
## [84,] -1.45211252
## [85,] -0.63032876
## [86,] 0.32841896
## [87,] 0.25993698
## [88,] -1.38363054
## [89,] 0.25993698
## [90,] -0.21943688
## [91,] -1.65755846
## [92,] 0.46538292
## [93,] 0.05449104
## attr(,"scaled:center")
## [1] 183.2043
## attr(,"scaled:scale")
## [1] 14.60238
La ventaja de la función de R, es que se puede enviar todo el caso
carros_cuanti_scale <- scale(carros[ ,4:9])
head(carros_cuanti_scale)
## millas_por_galon_carretera numero_de_airbags tracciÃ.n cilindros
## [1,] 0.3589792 1.2056909 -0.5839176 -0.7353232
## [2,] -0.7663600 0.1063845 -0.5839176 0.8014197
## [3,] -0.5788035 -0.9929219 -0.5839176 0.8014197
## [4,] -0.5788035 0.1063845 -0.5839176 0.8014197
## [5,] 0.1714226 -0.9929219 2.0020033 -0.7353232
## [6,] 0.3589792 -0.9929219 -0.5839176 -0.7353232
## litros_motor caballos_fuerza
## [1,] -0.9977793 -0.07308831
## [2,] 0.5776617 1.07250933
## [3,] 0.2625735 0.53789710
## [4,] 0.2625735 0.53789710
## [5,] 1.0502940 1.22525568
## [6,] -0.3676029 -0.64588713
longitud_normal <- (carros$longitud-min(carros$longitud))/(max(carros$longitud)-min(carros$longitud))
longitud_normal
## [1] 0.46153846 0.69230769 0.50000000 0.66666667 0.57692308 0.61538462
## [7] 0.75641026 0.96153846 0.73076923 0.83333333 0.80769231 0.52564103
## [13] 0.55128205 0.66666667 0.73076923 0.47435897 0.67948718 0.93589744
## [19] 0.48717949 0.79487179 0.53846154 0.79487179 0.42307692 0.39743590
## [25] 0.51282051 0.43589744 0.65384615 0.50000000 0.42307692 0.78205128
## [31] 0.00000000 0.38461538 0.46153846 0.50000000 0.48717949 0.44871795
## [37] 0.65384615 0.91025641 0.12820513 0.29487179 0.43589744 0.41025641
## [43] 0.56410256 0.34615385 0.39743590 0.32051282 0.55128205 0.75641026
## [49] 0.60256410 0.64102564 0.82051282 1.00000000 0.29487179 0.39743590
## [55] 0.55128205 0.62820513 0.35897436 0.43589744 0.58974359 0.32051282
## [61] 0.74358974 0.39743590 0.62820513 0.37179487 0.51282051 0.62820513
## [67] 0.60256410 0.60256410 0.62820513 0.67948718 0.76923077 0.41025641
## [73] 0.46153846 0.51282051 0.70512821 0.69230769 0.46153846 0.55128205
## [79] 0.44871795 0.06410256 0.43589744 0.48717949 0.25641026 0.26923077
## [85] 0.42307692 0.60256410 0.58974359 0.28205128 0.58974359 0.50000000
## [91] 0.23076923 0.62820513 0.55128205
library(scales)
## Warning: package 'scales' was built under R version 4.3.2
rescale(carros$longitud)
## [1] 0.46153846 0.69230769 0.50000000 0.66666667 0.57692308 0.61538462
## [7] 0.75641026 0.96153846 0.73076923 0.83333333 0.80769231 0.52564103
## [13] 0.55128205 0.66666667 0.73076923 0.47435897 0.67948718 0.93589744
## [19] 0.48717949 0.79487179 0.53846154 0.79487179 0.42307692 0.39743590
## [25] 0.51282051 0.43589744 0.65384615 0.50000000 0.42307692 0.78205128
## [31] 0.00000000 0.38461538 0.46153846 0.50000000 0.48717949 0.44871795
## [37] 0.65384615 0.91025641 0.12820513 0.29487179 0.43589744 0.41025641
## [43] 0.56410256 0.34615385 0.39743590 0.32051282 0.55128205 0.75641026
## [49] 0.60256410 0.64102564 0.82051282 1.00000000 0.29487179 0.39743590
## [55] 0.55128205 0.62820513 0.35897436 0.43589744 0.58974359 0.32051282
## [61] 0.74358974 0.39743590 0.62820513 0.37179487 0.51282051 0.62820513
## [67] 0.60256410 0.60256410 0.62820513 0.67948718 0.76923077 0.41025641
## [73] 0.46153846 0.51282051 0.70512821 0.69230769 0.46153846 0.55128205
## [79] 0.44871795 0.06410256 0.43589744 0.48717949 0.25641026 0.26923077
## [85] 0.42307692 0.60256410 0.58974359 0.28205128 0.58974359 0.50000000
## [91] 0.23076923 0.62820513 0.55128205
la función rescale solo permite aplicarse a vectores, no es posible directamente apicar al data frame.
library(caret)
## Warning: package 'caret' was built under R version 4.3.2
## Loading required package: lattice
pre_procesamiento<-preProcess(carros[,4:9]) # Así por defecto muestra la est. Z
predict(pre_procesamiento, carros[,4:9])
## millas_por_galon_carretera numero_de_airbags tracciÃ.n cilindros
## 1 0.35897915 1.2056909 -0.5839176 -0.73532323
## 2 -0.76635999 0.1063845 -0.5839176 0.80141969
## 3 -0.57880347 -0.9929219 -0.5839176 0.80141969
## 4 -0.57880347 0.1063845 -0.5839176 0.80141969
## 5 0.17142263 -0.9929219 2.0020033 -0.73532323
## 6 0.35897915 -0.9929219 -0.5839176 -0.73532323
## 7 -0.20369042 -0.9929219 -0.5839176 0.80141969
## 8 -0.76635999 -0.9929219 2.0020033 0.80141969
## 9 -0.39124694 -0.9929219 -0.5839176 0.80141969
## 10 -0.76635999 -0.9929219 -0.5839176 2.33816261
## 11 -0.76635999 0.1063845 -0.5839176 2.33816261
## 12 1.29676177 1.2056909 -0.5839176 -0.73532323
## 13 0.92164872 -0.9929219 -0.5839176 -0.73532323
## 14 -0.20369042 0.1063845 2.0020033 0.80141969
## 15 -0.01613389 1.2056909 -0.5839176 -0.73532323
## 16 -1.14147304 1.2056909 -0.5839176 0.80141969
## 17 -1.70414261 1.2056909 0.7090428 0.80141969
## 18 -0.57880347 -0.9929219 2.0020033 2.33816261
## 19 -0.76635999 -0.9929219 2.0020033 2.33816261
## 20 -0.20369042 0.1063845 -0.5839176 0.80141969
## 21 -0.20369042 0.1063845 -0.5839176 -0.73532323
## 22 -0.57880347 -0.9929219 -0.5839176 0.80141969
## 23 0.73409220 1.2056909 -0.5839176 -0.73532323
## 24 -0.01613389 -0.9929219 -0.5839176 -0.73532323
## 25 -0.39124694 -0.9929219 -0.5839176 -0.73532323
## 26 -1.51658608 -0.9929219 0.7090428 0.80141969
## 27 -0.39124694 -0.9929219 -0.5839176 -0.73532323
## 28 -0.95391651 -0.9929219 0.7090428 0.80141969
## 29 0.73409220 1.2056909 -0.5839176 -0.73532323
## 30 -0.20369042 0.1063845 -0.5839176 0.80141969
## 31 0.73409220 1.2056909 -0.5839176 -0.73532323
## 32 0.17142263 1.2056909 -0.5839176 -0.73532323
## 33 -0.39124694 1.2056909 -0.5839176 -0.73532323
## 34 -0.01613389 -0.9929219 2.0020033 -0.73532323
## 35 0.17142263 -0.9929219 -0.5839176 -0.73532323
## 36 -1.70414261 -0.9929219 0.7090428 0.80141969
## 37 0.17142263 -0.9929219 -0.5839176 0.80141969
## 38 -0.57880347 -0.9929219 2.0020033 2.33816261
## 39 3.92255310 1.2056909 -0.5839176 -1.50369469
## 40 1.29676177 -0.9929219 -0.5839176 -0.73532323
## 41 0.35897915 0.1063845 -0.5839176 -0.73532323
## 42 3.17232701 -0.9929219 -0.5839176 -0.73532323
## 43 0.35897915 0.1063845 -0.5839176 -0.73532323
## 44 0.73409220 1.2056909 -0.5839176 -0.73532323
## 45 -0.01613389 1.2056909 -0.5839176 -0.73532323
## 46 0.92164872 1.2056909 -0.5839176 -0.73532323
## 47 -0.39124694 1.2056909 -0.5839176 -0.73532323
## 48 -1.32902956 -0.9929219 2.0020033 2.33816261
## 49 -0.95391651 -0.9929219 -0.5839176 0.80141969
## 50 -1.14147304 0.1063845 2.0020033 0.80141969
## 51 -0.57880347 0.1063845 -0.5839176 0.80141969
## 52 -0.57880347 0.1063845 2.0020033 2.33816261
## 53 1.48431830 1.2056909 -0.5839176 -0.73532323
## 54 1.29676177 1.2056909 -0.5839176 -0.73532323
## 55 0.92164872 -0.9929219 -0.5839176 -0.73532323
## 56 -0.95391651 1.2056909 0.7090428 0.80141969
## 57 -0.76635999 -0.9929219 2.0020033 -0.73532323
## 58 -0.01613389 -0.9929219 2.0020033 -0.73532323
## 59 -0.76635999 0.1063845 2.0020033 0.80141969
## 60 -0.57880347 -0.9929219 -0.5839176 -0.73532323
## 61 -0.57880347 1.2056909 2.0020033 0.80141969
## 62 0.73409220 1.2056909 -0.5839176 -0.73532323
## 63 -0.95391651 -0.9929219 -0.5839176 0.80141969
## 64 0.73409220 -0.9929219 -0.5839176 -0.73532323
## 65 0.17142263 -0.9929219 -0.5839176 -0.73532323
## 66 -1.14147304 1.2056909 -0.5839176 0.80141969
## 67 -0.57880347 -0.9929219 -0.5839176 0.80141969
## 68 0.35897915 1.2056909 -0.5839176 -0.73532323
## 69 0.35897915 -0.9929219 -0.5839176 -0.73532323
## 70 -1.14147304 1.2056909 -0.5839176 0.80141969
## 71 -0.20369042 -0.9929219 -0.5839176 0.80141969
## 72 0.17142263 1.2056909 0.7090428 -0.73532323
## 73 2.23454439 1.2056909 -0.5839176 -0.73532323
## 74 0.35897915 1.2056909 -0.5839176 -0.73532323
## 75 -0.20369042 0.1063845 2.0020033 0.80141969
## 76 -0.39124694 1.2056909 -0.5839176 0.80141969
## 77 -0.20369042 0.1063845 -0.5839176 0.80141969
## 78 -0.57880347 -0.9929219 -0.5839176 -0.73532323
## 79 1.67187482 -0.9929219 -0.5839176 -0.73532323
## 80 1.48431830 1.2056909 0.7090428 -1.50369469
## 81 0.17142263 1.2056909 0.7090428 -0.73532323
## 82 0.17142263 -0.9929219 0.7090428 -0.73532323
## 83 2.60965744 1.2056909 -0.5839176 -1.50369469
## 84 1.48431830 -0.9929219 -0.5839176 -0.73532323
## 85 0.54653568 -0.9929219 -0.5839176 -0.73532323
## 86 -0.01613389 -0.9929219 -0.5839176 -0.73532323
## 87 -1.32902956 -0.9929219 0.7090428 -0.73532323
## 88 0.73409220 1.2056909 -0.5839176 -0.73532323
## 89 -1.51658608 1.2056909 -0.5839176 0.03304823
## 90 0.17142263 1.2056909 -0.5839176 -0.73532323
## 91 -0.76635999 1.2056909 -0.5839176 0.80141969
## 92 -0.20369042 -0.9929219 2.0020033 -0.73532323
## 93 -0.20369042 0.1063845 -0.5839176 0.03304823
## litros_motor caballos_fuerza
## 1 -0.9977793 -0.07308831
## 2 0.5776617 1.07250933
## 3 0.2625735 0.53789710
## 4 0.2625735 0.53789710
## 5 1.0502940 1.22525568
## 6 -0.3676029 -0.64588713
## 7 1.2078381 0.49971051
## 8 2.1531027 0.69064345
## 9 1.2078381 0.49971051
## 10 1.8380145 1.07250933
## 11 1.6804704 2.88637226
## 12 -0.3676029 -0.64588713
## 13 -0.3676029 -0.64588713
## 14 0.8927499 0.30877757
## 15 -0.3676029 -0.64588713
## 16 1.2078381 0.49971051
## 17 1.3653822 0.40424404
## 18 1.9955586 0.49971051
## 19 2.1531027 2.98183873
## 20 0.7352058 0.17512451
## 21 0.4201176 -0.05399501
## 22 0.7352058 0.06056475
## 23 -1.3128675 -0.98956642
## 24 -0.3676029 -0.97047313
## 25 0.1050294 -0.83682007
## 26 0.4201176 -0.03490172
## 27 0.1050294 -0.83682007
## 28 0.4201176 2.98183873
## 29 -1.3128675 -0.98956642
## 30 1.0502940 1.33981545
## 31 -1.4704116 -1.54327195
## 32 -0.9977793 -0.32130113
## 33 -0.2100588 -0.91319324
## 34 -0.2100588 -0.74135360
## 35 -0.6826911 -0.55042066
## 36 0.4201176 0.02237816
## 37 0.4201176 -0.07308831
## 38 1.6804704 0.88157639
## 39 -1.7854998 -1.69601830
## 40 -1.1553234 -1.02775301
## 41 -0.2100588 0.30877757
## 42 -1.3128675 -0.79863348
## 43 -0.3676029 -0.07308831
## 44 -1.3128675 -1.19959265
## 45 -0.9977793 -0.37858101
## 46 -1.3128675 -0.98956642
## 47 -0.6826911 -0.30220784
## 48 1.5229263 2.56178627
## 49 0.4201176 0.78610992
## 50 0.4201176 1.54984168
## 51 1.2078381 0.30877757
## 52 1.6804704 1.26344227
## 53 -1.1553234 -1.18049936
## 54 -0.9977793 -0.77954019
## 55 0.1050294 0.38515075
## 56 0.4201176 0.21331110
## 57 -1.4704116 2.12264050
## 58 -0.2100588 -0.26402125
## 59 0.5776617 1.39709533
## 60 -1.1553234 -0.83682007
## 61 1.2078381 -0.07308831
## 62 -1.3128675 -0.98956642
## 63 0.4201176 1.11069592
## 64 -1.1553234 -0.64588713
## 65 -0.0525147 0.11784463
## 66 0.4201176 0.13693793
## 67 0.4201176 0.30877757
## 68 -0.2100588 0.21331110
## 69 -0.3676029 -0.64588713
## 70 1.2078381 0.49971051
## 71 1.2078381 0.49971051
## 72 -0.9977793 -0.98956642
## 73 -1.1553234 -1.33324571
## 74 -0.6826911 -0.64588713
## 75 0.8927499 0.30877757
## 76 0.8927499 1.07250933
## 77 1.2078381 0.49971051
## 78 -0.5251470 -0.07308831
## 79 -0.8402352 -1.12321948
## 80 -1.6279557 -1.35233901
## 81 -0.9977793 -1.02775301
## 82 -0.3676029 -0.26402125
## 83 -1.4704116 -1.40961889
## 84 -1.3128675 -1.18049936
## 85 -0.3676029 -0.16855478
## 86 -0.3676029 -0.26402125
## 87 -0.0525147 -0.11127490
## 88 -0.9977793 -1.19959265
## 89 0.1050294 -0.66498042
## 90 -0.6826911 -0.18764807
## 91 0.2625735 0.65245686
## 92 -0.2100588 -0.56951395
## 93 -0.0525147 0.46152392
library(caret)
pre_procesamiento<-preProcess(carros[,4:9], method = "range")
predict(pre_procesamiento, carros[,4:9])
## millas_por_galon_carretera numero_de_airbags tracciÃ.n cilindros
## 1 0.36666667 1.0 0.0 0.2
## 2 0.16666667 0.5 0.0 0.6
## 3 0.20000000 0.0 0.0 0.6
## 4 0.20000000 0.5 0.0 0.6
## 5 0.33333333 0.0 1.0 0.2
## 6 0.36666667 0.0 0.0 0.2
## 7 0.26666667 0.0 0.0 0.6
## 8 0.16666667 0.0 1.0 0.6
## 9 0.23333333 0.0 0.0 0.6
## 10 0.16666667 0.0 0.0 1.0
## 11 0.16666667 0.5 0.0 1.0
## 12 0.53333333 1.0 0.0 0.2
## 13 0.46666667 0.0 0.0 0.2
## 14 0.26666667 0.5 1.0 0.6
## 15 0.30000000 1.0 0.0 0.2
## 16 0.10000000 1.0 0.0 0.6
## 17 0.00000000 1.0 0.5 0.6
## 18 0.20000000 0.0 1.0 1.0
## 19 0.16666667 0.0 1.0 1.0
## 20 0.26666667 0.5 0.0 0.6
## 21 0.26666667 0.5 0.0 0.2
## 22 0.20000000 0.0 0.0 0.6
## 23 0.43333333 1.0 0.0 0.2
## 24 0.30000000 0.0 0.0 0.2
## 25 0.23333333 0.0 0.0 0.2
## 26 0.03333333 0.0 0.5 0.6
## 27 0.23333333 0.0 0.0 0.2
## 28 0.13333333 0.0 0.5 0.6
## 29 0.43333333 1.0 0.0 0.2
## 30 0.26666667 0.5 0.0 0.6
## 31 0.43333333 1.0 0.0 0.2
## 32 0.33333333 1.0 0.0 0.2
## 33 0.23333333 1.0 0.0 0.2
## 34 0.30000000 0.0 1.0 0.2
## 35 0.33333333 0.0 0.0 0.2
## 36 0.00000000 0.0 0.5 0.6
## 37 0.33333333 0.0 0.0 0.6
## 38 0.20000000 0.0 1.0 1.0
## 39 1.00000000 1.0 0.0 0.0
## 40 0.53333333 0.0 0.0 0.2
## 41 0.36666667 0.5 0.0 0.2
## 42 0.86666667 0.0 0.0 0.2
## 43 0.36666667 0.5 0.0 0.2
## 44 0.43333333 1.0 0.0 0.2
## 45 0.30000000 1.0 0.0 0.2
## 46 0.46666667 1.0 0.0 0.2
## 47 0.23333333 1.0 0.0 0.2
## 48 0.06666667 0.0 1.0 1.0
## 49 0.13333333 0.0 0.0 0.6
## 50 0.10000000 0.5 1.0 0.6
## 51 0.20000000 0.5 0.0 0.6
## 52 0.20000000 0.5 1.0 1.0
## 53 0.56666667 1.0 0.0 0.2
## 54 0.53333333 1.0 0.0 0.2
## 55 0.46666667 0.0 0.0 0.2
## 56 0.13333333 1.0 0.5 0.6
## 57 0.16666667 0.0 1.0 0.2
## 58 0.30000000 0.0 1.0 0.2
## 59 0.16666667 0.5 1.0 0.6
## 60 0.20000000 0.0 0.0 0.2
## 61 0.20000000 1.0 1.0 0.6
## 62 0.43333333 1.0 0.0 0.2
## 63 0.13333333 0.0 0.0 0.6
## 64 0.43333333 0.0 0.0 0.2
## 65 0.33333333 0.0 0.0 0.2
## 66 0.10000000 1.0 0.0 0.6
## 67 0.20000000 0.0 0.0 0.6
## 68 0.36666667 1.0 0.0 0.2
## 69 0.36666667 0.0 0.0 0.2
## 70 0.10000000 1.0 0.0 0.6
## 71 0.26666667 0.0 0.0 0.6
## 72 0.33333333 1.0 0.5 0.2
## 73 0.70000000 1.0 0.0 0.2
## 74 0.36666667 1.0 0.0 0.2
## 75 0.26666667 0.5 1.0 0.6
## 76 0.23333333 1.0 0.0 0.6
## 77 0.26666667 0.5 0.0 0.6
## 78 0.20000000 0.0 0.0 0.2
## 79 0.60000000 0.0 0.0 0.2
## 80 0.56666667 1.0 0.5 0.0
## 81 0.33333333 1.0 0.5 0.2
## 82 0.33333333 0.0 0.5 0.2
## 83 0.76666667 1.0 0.0 0.0
## 84 0.56666667 0.0 0.0 0.2
## 85 0.40000000 0.0 0.0 0.2
## 86 0.30000000 0.0 0.0 0.2
## 87 0.06666667 0.0 0.5 0.2
## 88 0.43333333 1.0 0.0 0.2
## 89 0.03333333 1.0 0.0 0.4
## 90 0.33333333 1.0 0.0 0.2
## 91 0.16666667 1.0 0.0 0.6
## 92 0.26666667 0.0 1.0 0.2
## 93 0.26666667 0.5 0.0 0.4
## litros_motor caballos_fuerza
## 1 0.20 0.34693878
## 2 0.60 0.59183673
## 3 0.52 0.47755102
## 4 0.52 0.47755102
## 5 0.72 0.62448980
## 6 0.36 0.22448980
## 7 0.76 0.46938776
## 8 1.00 0.51020408
## 9 0.76 0.46938776
## 10 0.92 0.59183673
## 11 0.88 0.97959184
## 12 0.36 0.22448980
## 13 0.36 0.22448980
## 14 0.68 0.42857143
## 15 0.36 0.22448980
## 16 0.76 0.46938776
## 17 0.80 0.44897959
## 18 0.96 0.46938776
## 19 1.00 1.00000000
## 20 0.64 0.40000000
## 21 0.56 0.35102041
## 22 0.64 0.37551020
## 23 0.12 0.15102041
## 24 0.36 0.15510204
## 25 0.48 0.18367347
## 26 0.56 0.35510204
## 27 0.48 0.18367347
## 28 0.56 1.00000000
## 29 0.12 0.15102041
## 30 0.72 0.64897959
## 31 0.08 0.03265306
## 32 0.20 0.29387755
## 33 0.40 0.16734694
## 34 0.40 0.20408163
## 35 0.28 0.24489796
## 36 0.56 0.36734694
## 37 0.56 0.34693878
## 38 0.88 0.55102041
## 39 0.00 0.00000000
## 40 0.16 0.14285714
## 41 0.40 0.42857143
## 42 0.12 0.19183673
## 43 0.36 0.34693878
## 44 0.12 0.10612245
## 45 0.20 0.28163265
## 46 0.12 0.15102041
## 47 0.28 0.29795918
## 48 0.84 0.91020408
## 49 0.56 0.53061224
## 50 0.56 0.69387755
## 51 0.76 0.42857143
## 52 0.88 0.63265306
## 53 0.16 0.11020408
## 54 0.20 0.19591837
## 55 0.48 0.44489796
## 56 0.56 0.40816327
## 57 0.08 0.81632653
## 58 0.40 0.30612245
## 59 0.60 0.66122449
## 60 0.16 0.18367347
## 61 0.76 0.34693878
## 62 0.12 0.15102041
## 63 0.56 0.60000000
## 64 0.16 0.22448980
## 65 0.44 0.38775510
## 66 0.56 0.39183673
## 67 0.56 0.42857143
## 68 0.40 0.40816327
## 69 0.36 0.22448980
## 70 0.76 0.46938776
## 71 0.76 0.46938776
## 72 0.20 0.15102041
## 73 0.16 0.07755102
## 74 0.28 0.22448980
## 75 0.68 0.42857143
## 76 0.68 0.59183673
## 77 0.76 0.46938776
## 78 0.32 0.34693878
## 79 0.24 0.12244898
## 80 0.04 0.07346939
## 81 0.20 0.14285714
## 82 0.36 0.30612245
## 83 0.08 0.06122449
## 84 0.12 0.11020408
## 85 0.36 0.32653061
## 86 0.36 0.30612245
## 87 0.44 0.33877551
## 88 0.20 0.10612245
## 89 0.48 0.22040816
## 90 0.28 0.32244898
## 91 0.52 0.50204082
## 92 0.40 0.24081633
## 93 0.44 0.46122449
Los siguientes datos son extraidos desde carros.csv
nuevos_datos <- data.frame(
millas_por_galon_ciudad = c(25, 18, 20, 19, 22, 22, 19, 16, 19, 16, 16, 25, 25, 19, 21, 18, 15),
millas_por_galon_carretera = c(31, 25, 26, 26, 30, 31, 28, 27, 25, 25, 36, 34, 28, 29, 23, 20, 17)
)
nuevos_datos
## millas_por_galon_ciudad millas_por_galon_carretera
## 1 25 31
## 2 18 25
## 3 20 26
## 4 19 26
## 5 22 30
## 6 22 31
## 7 19 28
## 8 16 27
## 9 19 25
## 10 16 25
## 11 16 36
## 12 25 34
## 13 25 28
## 14 19 29
## 15 21 23
## 16 18 20
## 17 15 17
# Gráfico con plot
plot(nuevos_datos)
# Gráfico con pairs
pairs(nuevos_datos)
# Realizamos un gráfico mejorado
library(PerformanceAnalytics)
chart.Correlation(nuevos_datos)
## Warning in par(usr): argument 1 does not name a graphical parameter
#Realizamos un gráfico mejorado
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.3.2
## corrplot 0.92 loaded
corrplot(cor(nuevos_datos))
# Mediante la función cor
cor(nuevos_datos) # Matriz de correlaciones
## millas_por_galon_ciudad millas_por_galon_carretera
## millas_por_galon_ciudad 1.0000000 0.4529831
## millas_por_galon_carretera 0.4529831 1.0000000
Coeficiente de correlación:
r = 0.4529831
# lm, notación: Y ~ X, data=
modelo_carros <- lm(millas_por_galon_ciudad ~ millas_por_galon_carretera, data=carros)
# Resumen de resultados
summary(modelo_carros)
##
## Call:
## lm(formula = millas_por_galon_ciudad ~ millas_por_galon_carretera,
## data = carros)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.2446 -1.2901 -0.2749 1.6846 4.7402
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.57322 1.07846 -6.095 2.6e-08 ***
## millas_por_galon_carretera 0.99494 0.03648 27.276 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.865 on 91 degrees of freedom
## Multiple R-squared: 0.891, Adjusted R-squared: 0.8898
## F-statistic: 744 on 1 and 91 DF, p-value: < 2.2e-16
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.57322 1.07846 -6.095 2.6e-08 ***
## millas_por_galon_carretera 0.99494 0.03648 27.276 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.865 on 91 degrees of freedom
## Multiple R-squared: 0.891, Adjusted R-squared: 0.8898
## F-statistic: 744 on 1 and 91 DF, p-value: < 2.2e-16
# Mejoramos el grafico
ggplot(data = carros, aes(x = millas_por_galon_ciudad, y = millas_por_galon_carretera, color = millas_por_galon_ciudad)) +
geom_boxplot(outlier.shape = NA) +
geom_jitter(width = 0.1) +
theme_bw() +
theme(legend.position = "null")
## Warning: Continuous x aesthetic
## ℹ did you forget `aes(group = ...)`?
## Warning: The following aesthetics were dropped during statistical transformation: colour
## ℹ This can happen when ggplot fails to infer the correct grouping structure in
## the data.
## ℹ Did you forget to specify a `group` aesthetic or to convert a numerical
## variable into a factor?
modelgest<-glm(millas_por_galon_ciudad~millas_por_galon_carretera, data= carros, family = gaussian())
summary(modelgest)
##
## Call:
## glm(formula = millas_por_galon_ciudad ~ millas_por_galon_carretera,
## family = gaussian(), data = carros)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.57322 1.07846 -6.095 2.6e-08 ***
## millas_por_galon_carretera 0.99494 0.03648 27.276 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 3.479826)
##
## Null deviance: 2905.57 on 92 degrees of freedom
## Residual deviance: 316.66 on 91 degrees of freedom
## AIC: 383.87
##
## Number of Fisher Scoring iterations: 2
# Codificación 0,1 de la variable respuesta
carros$millas_por_galon_carretera <- as.character(carros$millas_por_galon_carretera)
carros$millas_por_galon_carretera <- as.numeric(carros$millas_por_galon_carretera)
# Gráfico de dispersión
plot(millas_por_galon_carretera ~ millas_por_galon_ciudad, carros, col = "darkblue",
main = "Modelo regresión lineal general",
ylab = "P(millas_por_galon_carretera=1|millas_por_galon_ciudad)",
xlab = "millas_por_galon_ciudad", pch = 16)
# Añade la línea de regresión
abline(coef(modelgest), col = "firebrick", lwd = 2.5)
ggplot(carros, aes(millas_por_galon_ciudad))+
geom_histogram(binwidth= .25, fill="red", colour="black")+
labs(x = "Millas por galón en la ciudad", y = "Frecuencia")+
ggtitle("Frecuencia vs Millad por galón en ciudad")
ggplot(carros, aes(millas_por_galon_carretera))+
geom_histogram(binwidth= 4, fill="red", colour="black")+
labs(x= "millas_por_galon_carretera", y="Frecuancia")+
ggtitle("Frecuencia vs Millad por galón en carretera")
ggplot(carros, aes(x=millas_por_galon_ciudad, y=millas_por_galon_carretera)) +
geom_jitter(height=0.10) +
stat_smooth( method="glm", method.args = list(family = "binomial")) +
geom_smooth(color="yellow")+
geom_smooth(method = lm, color="purple")+
labs(x= "Millad por galón en ciudad", y= "Millad por galón en carretera")+
ggtitle("Modelos de probabilidades de Millad por galón en ciudad que puede ver en Millad por galón en carretera")
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Computation failed in `stat_smooth()`
## Caused by error:
## ! y values must be 0 <= y <= 1
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'