Paralelo : 4 Link de la base de datos a usar: “https://archive.ics.uci.edu/ml/datasets/Automobile”
#Cargamos la base de datos a usar
library("readxl")
imports.85 <- read.csv("C:/Users/HP/Desktop/Estadistica/Datos/imports-85.data", header=FALSE)
#View(imports.85)
data=imports.85
#install.packages("vcd")
#install.packages("nortest")
#Obtencion de datos conversion y limpieza de datos
dtaMarca=data$V3
dtaCharacterPrecio=as.numeric(data$V26) #Convertir de caracter a numeric
## Warning: NAs introduced by coercion
data$Precio<-ifelse(is.na(dtaCharacterPrecio),mean(dtaCharacterPrecio, na.rm = TRUE),dtaCharacterPrecio) #nueva variable tipo numeric sin variables N/A
dtaPrecio=data$Precio
dtaCharacterC=as.numeric(data$V22)
## Warning: NAs introduced by coercion
data$CballoF <-ifelse(is.na(dtaCharacterC),mean(dtaCharacterC, na.rm = TRUE),dtaCharacterC)
dtaCaballos=data$CballoF
dtaCharacterCa=as.numeric(data$V19)
## Warning: NAs introduced by coercion
data$CalibreNumeric <-ifelse(is.na(dtaCharacterCa),mean(dtaCharacterCa, na.rm = TRUE),dtaCharacterCa)
dtaCalibre=data$CalibreNumeric
dtaCarroceria=data$V7
dtaAltura=data$V13
dtaLongitud=data$V11
dtaAnchura=data$V12
characteMotor = as.numeric(data$V17)
data$MotorTa <-ifelse(is.na(characteMotor),mean(characteMotor, na.rm = TRUE),characteMotor)
TamañoMotor=data$MotorTa
characterPeso = as.numeric(data$V14)
data$PesoVacio <-ifelse(is.na(characterPeso ),mean(characterPeso , na.rm = TRUE),characterPeso )
PesoVacio = data$PesoVacio
Aspiracion = data$V5
dtaCombustible=data$V4
dtaCharacterC=as.numeric(data$V23)
## Warning: NAs introduced by coercion
data$rpm_pico<-ifelse(is.na(dtaCharacterC),mean(dtaCharacterC, na.rm = TRUE),dtaCharacterC)
dtarpm_pico=data$rpm_pico
dtampg_ciudad=as.numeric(data$V24)
dtampg_autopista=as.numeric(data$V25)
dtaSistemaCombustible = data$V18
BaseRuedas = as.numeric(data$V10)
dtaUbiMotor= data$V9
dtaCharacterCarrera= as.numeric(data$V20)
## Warning: NAs introduced by coercion
data$V20<-ifelse(is.na(dtaCharacterCarrera),mean(dtaCharacterCarrera, na.rm = TRUE),dtaCharacterCarrera)
dtaCarrera = data$V20
dtaCharacterCompresion= as.numeric(data$V21)
data$V21<-ifelse(is.na(dtaCharacterCompresion),mean(dtaCharacterCompresion, na.rm = TRUE),dtaCharacterCompresion)
dtaCompresion=data$V21
#Estadistica descriptiva univariante
Variable Marca
Tabla de frecuencia
tableMarca=table(dtaMarca)
frecRelMarca= prop.table(tableMarca)
tblMarca=cbind(Abosulta=tableMarca, Relativa=frecRelMarca)
tblMarca
## Abosulta Relativa
## alfa-romero 3 0.014634146
## audi 7 0.034146341
## bmw 8 0.039024390
## chevrolet 3 0.014634146
## dodge 9 0.043902439
## honda 13 0.063414634
## isuzu 4 0.019512195
## jaguar 3 0.014634146
## mazda 17 0.082926829
## mercedes-benz 8 0.039024390
## mercury 1 0.004878049
## mitsubishi 13 0.063414634
## nissan 18 0.087804878
## peugot 11 0.053658537
## plymouth 7 0.034146341
## porsche 5 0.024390244
## renault 2 0.009756098
## saab 6 0.029268293
## subaru 12 0.058536585
## toyota 32 0.156097561
## volkswagen 12 0.058536585
## volvo 11 0.053658537
Diagrama de barras
Esta gráfica nos muestra la frecuencia con la que se han observado los datos de una variable discreta, con una barra para cada categoría de esta variable.
barplot(tableMarca,main="Diagrama marcas de automoviles", xlab="tipos de marcas",ylab="cantidad",col = palette("Pastel 2"))
#En esta grafica observamos que la marca toyota prevalece ante las otras marcas
Variable Estilo de Carrocería
Tabla de frecuencia
tableCarroceria=table(dtaCarroceria)
frecRelCarroceria= prop.table(tableCarroceria)
tblCarroceria=cbind(Abosulta=tableCarroceria, Relativa=frecRelCarroceria)
tblCarroceria
## Abosulta Relativa
## convertible 6 0.02926829
## hardtop 8 0.03902439
## hatchback 70 0.34146341
## sedan 96 0.46829268
## wagon 25 0.12195122
Diagrama de barras
barplot(tableCarroceria,main="Diagrama estilo de carrocería", xlab="Estilos",ylab="Cantidad de automóviles",col = "purple")
Variable ASPIRACION
tabFreAbs = table(Aspiracion)
tabFreRlt = prop.table(tabFreAbs)
tabFrecuencia = cbind(Absoluta = tabFreAbs , Relativa = tabFreRlt)
tabFrecuencia
## Absoluta Relativa
## std 168 0.8195122
## turbo 37 0.1804878
barplot(tabFreAbs, main="Diagrama de barras Aspiracion de vehiculos" , xlab="Tipos de aspiracion", col="aliceblue")
Variable Tipo de combustible
Tabla de Frecuencia
tableCombustible=table(dtaCombustible)
frecRelCombustible= prop.table(tableCombustible)
tblCombustible=cbind(Abosulta=tableCombustible, Relativa=frecRelCombustible)
tblCombustible
## Abosulta Relativa
## diesel 20 0.09756098
## gas 185 0.90243902
Diagrama de Barras
barplot(tableCombustible,main="Diagrama Tipo de Combustible", xlab="Combustibles",ylab="Cantidad de automóviles",col = "Pink")
Variable Sistema de Combustible
Tabla de frecuencia
tableSistemaCombustible = table(dtaSistemaCombustible)
frecRelSistemaCombustible = prop.table(tableSistemaCombustible)
tblSistemaCombustible= cbind(Absoluta = tableSistemaCombustible, Relativa = frecRelSistemaCombustible)
tblSistemaCombustible
## Absoluta Relativa
## 1bbl 11 0.053658537
## 2bbl 66 0.321951220
## 4bbl 3 0.014634146
## idi 20 0.097560976
## mfi 1 0.004878049
## mpfi 94 0.458536585
## spdi 9 0.043902439
## spfi 1 0.004878049
Diagrama de barras
barplot(tableSistemaCombustible,main="Diagrama Sistema de Combustible", xlab="Sistemas",ylab="Cantidad",col = "693")
Variable Ubicacion de motor
Tabla de frecuencia
tableUbicacionMotor = table(dtaUbiMotor)
frecRelUbicacionMotor = prop.table(tableUbicacionMotor)
tblUbicacionMotor= cbind(Absoluta = tableUbicacionMotor, Relativa = frecRelUbicacionMotor)
tblUbicacionMotor
## Absoluta Relativa
## front 202 0.98536585
## rear 3 0.01463415
Diagrama de barras
barplot(tableUbicacionMotor,main="Diagrama Ubicacion del Motor", xlab="Ubicacion",ylab="Cantidad",col = "674")
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
table=fdt(data, breaks = "Sturges",plot = F)
###Histograma Es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados
Calcularemos los intervalos para los histogramas usando el método “Sturges”
Variable Precio Frecuencia absoluta
table=dtaPrecio
dist=fdt(table ,breaks = "Sturges")
hist(table, breaks = "Sturges",main="Histograma Precio Automoviles",xlab="Precios",ylab="frecuencia absoluta", col = "366")
Frecuencia relativa
hist(dtaPrecio , breaks = "Sturges", freq = FALSE, main = "Histograma Precio",xlab = "Marca de clase",col = "366")
lines(density(dtaPrecio), col="blue", lwd=3)
lines(density(dtaPrecio, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtaPrecio), lwd=2, lty=3, col="darkblue")
###Medidas de tendencia central y dispersion
Media
mediaPrecio=mean(dtaPrecio)
mediaPrecio
## [1] 13207.13
Mediana
mdPrecio=median(dtaPrecio)
mdPrecio
## [1] 10595
Moda
conteo=table(dtaPrecio)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 13207.1293532338
## 4
Varianza y desviacion estandar
Varianza
varPrecio=var(dtaPrecio)
varPrecio
## [1] 61917513
Desviacion estandar
sdPrecio=sd(dtaPrecio)
sdPrecio
## [1] 7868.768
Quantiles
xdtaPrecio= sort(dtaPrecio)
rango=max(xdtaPrecio)-min(xdtaPrecio)
rango
## [1] 40282
quantile(xdtaPrecio)
## 0% 25% 50% 75% 100%
## 5118 7788 10595 16500 45400
Deciles
quantile(dtaPrecio, prob=seq(0, 1, length = 11))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90%
## 5118.0 6657.0 7385.8 8022.0 9248.0 10595.0 12834.4 15005.8 17099.8 22289.2
## 100%
## 45400.0
Diagrama de cajas
Muestran la distribución de una variable usando cuartiles
boxplot(dtaPrecio, horizontal = T, xlab="Precio", col = "366")
Variable Caballos de Fuerza
Histograma Frecuencia absoluta
dist=fdt(dtaCaballos,breaks = "Sturges")
hist(dtaCaballos, breaks = "Sturges",main="Histograma",xlab="Datos de Caballos de fuerza",ylab="frecuencia absoluta", col = "633")
Frecuencia relativa
hist(dtaCaballos, breaks = "Sturges", freq = FALSE, main = "Histograma Caballos de fuerza",xlab = "Marca de clase",col = "633")
lines(density(dtaCaballos), col="blue", lwd=3)
lines(density(dtaCaballos, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtaCaballos), lwd=2, lty=3, col="darkblue")
Medidas de tendencia central y dispersion
Media
mediadtaCaballos=mean(dtaCaballos)
mediadtaCaballos
## [1] 104.2562
Mediana
mddtaCaballos=median(dtaCaballos)
mddtaCaballos
## [1] 95
Moda
conteo=table(dtaCaballos)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 68
## 19
Varianza y desviacion estandar
Varianza
vardtaCaballos=var(dtaCaballos)
vardtaCaballos
## [1] 1561.768
Desviacion estandar
sddtaCaballos=sd(dtaCaballos)
sddtaCaballos
## [1] 39.51921
Quantiles
xdtaCaballos= sort(dtaCaballos)
rango=max(xdtaCaballos)-min(xdtaCaballos)
rango
## [1] 240
quantile(xdtaCaballos)
## 0% 25% 50% 75% 100%
## 48 70 95 116 288
Deciles
quantile(dtaCaballos, prob=seq(0, 1, length = 11))
## 0% 10% 20% 30% 40% 50% 60% 70%
## 48.0000 68.0000 69.0000 76.0000 87.2000 95.0000 104.2562 114.0000
## 80% 90% 100%
## 134.2000 160.0000 288.0000
Diagrama de cajas
boxplot(dtaCaballos, horizontal = T, xlab="Caballos de fuerza", col = "633")
Variable Calibre
Histograma Frecuencia absoluta
dist=fdt(dtaCalibre ,breaks = "Sturges")
hist(dtaCalibre , breaks = "Sturges",main="Histograma Calibre",xlab="Datos de calibre automovil",ylab="frecuencia absoluta", col = "099")
Frecuencia relativa
hist(dtaCalibre , breaks = "Sturges", freq = FALSE, main = "Histograma tiempo de viaje",xlab = "Marca de clase",col = "099")
lines(density(dtaCalibre ), col="blue", lwd=3)
lines(density(dtaCalibre , adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtaCalibre ), lwd=2, lty=3, col="darkblue")
Medidas de tendencia central y dispersion
Media
medtaCalibre =mean(dtaCalibre )
medtaCalibre
## [1] 3.329751
Mediana
mddtaCalibre =median(dtaCalibre )
mddtaCalibre
## [1] 3.31
Moda
conteo=table(dtaCalibre )
v_logico=conteo==max(conteo)
conteo[v_logico]
## 3.62
## 23
Varianza y desviacion estandar
Varianza
vardtaCalibre =var(dtaCalibre )
vardtaCalibre
## [1] 0.07335631
Desviacion estandar
sdtaCalibre=sd(dtaCalibre )
sdtaCalibre
## [1] 0.2708437
Quantiles
xdtaCalibre = sort(dtaCalibre )
rango=max(dtaCalibre )-min(xdtaCalibre )
rango
## [1] 1.4
quantile(xdtaCalibre )
## 0% 25% 50% 75% 100%
## 2.54 3.15 3.31 3.58 3.94
Deciles
quantile(dtaCalibre , prob=seq(0, 1, length = 11))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 2.540 2.970 3.050 3.150 3.190 3.310 3.430 3.540 3.620 3.672 3.940
Diagrama de cajas
boxplot(dtaCalibre , horizontal = T, xlab="Calibre", col = "099")
Variable Altura Histograma Frecuencia absoluta
table=dtaAltura
dist=fdt(table ,breaks = "Sturges")
hist(table, breaks = "Sturges",main="Histograma Altura de Automoviles",xlab="Alturas",ylab="Frecuencia Absoluta", col = "#2297E6")
Frecuencia relativa
hist(dtaAltura , breaks = "Sturges", freq = FALSE, main = "Histograma Altura de Automoviles",xlab = "Marca de clase",col = "#2297E6")
lines(density(dtaAltura), col="purple", lwd=3)
lines(density(dtaAltura, adjust=2), col="yellow", lwd=3, lty=2)
abline(v=mean(dtaAltura), lwd=2, lty=3, col="red")
Medidas de tendencia central y dispersion
Media
mediaAltura=mean(dtaAltura)
mediaAltura
## [1] 53.72488
Mediana
mdAltura=median(dtaAltura)
mdAltura
## [1] 54.1
Moda
conteo=table(dtaAltura)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 50.8
## 14
Varianza y desviacion estandar
Varianza
varAltura=var(dtaAltura)
varAltura
## [1] 5.9708
Desviacion estandar
sdAltura=sd(dtaAltura)
sdAltura
## [1] 2.443522
Quantiles
xdtaAltura= sort(dtaAltura)
rango=max(xdtaAltura)-min(xdtaAltura)
rango
## [1] 12
quantile(xdtaAltura)
## 0% 25% 50% 75% 100%
## 47.8 52.0 54.1 55.5 59.8
Deciles
quantile(dtaAltura, prob=seq(0, 1, length = 11))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 47.80 50.60 51.40 52.42 53.00 54.10 54.50 55.10 55.70 56.62 59.80
Diagrama de cajas
boxplot(dtaAltura, horizontal = T, xlab="Altura", col = "#2297E6")
Variable Anchura
Histograma Frecuencia absoluta
dist=fdt(dtaAnchura,breaks = "Sturges")
hist(dtaAnchura, breaks = "Sturges",main="Histograma",xlab="Anchura de automoviles",ylab="frecuencia Absoluta", col = "#F5C710")
Frecuencia relativa
hist(dtaAnchura, breaks = "Sturges", freq = FALSE, main = "Histograma Anchura",xlab = "Marca de clase",col = "#F5C710")
lines(density(dtaAnchura), col="blue", lwd=3)
lines(density(dtaAnchura, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtaAnchura), lwd=2, lty=3, col="green")
Medidas de tendencia central y dispersion
Media
mediaAnchura=mean(dtaAnchura)
mediaAnchura
## [1] 65.9078
Mediana
mdAnchura=median(dtaAnchura)
mdAnchura
## [1] 65.5
Moda
conteo=table(dtaAnchura)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 63.8
## 24
Varianza y desviacion estandar
Varianza
varAnchura=var(dtaAnchura)
varAnchura
## [1] 4.6019
Desviacion estandar
sdAnchura=sd(dtaAnchura)
sdAnchura
## [1] 2.145204
Quantiles
xdtaAnchura= sort(dtaAnchura)
rango=max(xdtaAnchura)-min(xdtaAnchura)
rango
## [1] 12
quantile(xdtaAnchura)
## 0% 25% 50% 75% 100%
## 60.3 64.1 65.5 66.9 72.3
Deciles
quantile(dtaAnchura, prob=seq(0, 1, length = 11))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 60.30 63.80 63.90 64.40 65.20 65.50 66.30 66.50 67.30 68.64 72.30
Diagrama de cajas
boxplot(dtaAnchura, horizontal = T, xlab="Anchura", col = "#f5c710")
Variable Longitud
Histograma Frecuencia absoluta
dist=fdt(dtaLongitud,breaks = "Sturges")
hist(dtaLongitud, breaks = "Sturges",main="Histograma Longitud",xlab="Longitud de automoviles",ylab="Frecuencia Absoluta", col = "#ff6633")
Frecuencia relativa
hist(dtaLongitud, breaks = "Sturges", freq = FALSE, main = "Histograma Longitud",xlab = "Marca de clase",col = "#ff6633")
lines(density(dtaLongitud), col="#66ff33", lwd=3)
lines(density(dtaLongitud, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtaLongitud), lwd=2, lty=3, col="#3366cc")
Medidas de tendencia central y dispersion
Media
mediaLongitud=mean(dtaLongitud)
mediaLongitud
## [1] 174.0493
Mediana
mdLongitud=median(dtaLongitud)
mdLongitud
## [1] 173.2
Moda
conteo=table(dtaLongitud)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 157.3
## 15
Varianza y desviacion estandar
Varianza
varLongitud=var(dtaLongitud)
varLongitud
## [1] 152.2087
Desviacion estandar
sdLongitud=sd(dtaLongitud)
sdLongitud
## [1] 12.33729
Quantiles
xdtaLongitud= sort(dtaLongitud)
rango=max(dtaLongitud)-min(xdtaLongitud)
rango
## [1] 67
quantile(xdtaLongitud)
## 0% 25% 50% 75% 100%
## 141.1 166.3 173.2 183.1 208.1
Deciles
quantile(dtaLongitud, prob=seq(0, 1, length = 11))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 141.10 157.30 165.30 168.72 171.50 173.20 175.60 177.80 186.62 188.80 208.10
Diagrama de cajas
boxplot(dtaLongitud, horizontal = T, xlab="Longitud", col = "#ff6633")
Variable Tamaño del motor
tabla de frecuencia y histograma de frecuencias
dist=fdt(TamañoMotor, breaks="Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [60.39,90.2644) 18 0.09 8.78 18 8.78
## [90.2644,120.139) 91 0.44 44.39 109 53.17
## [120.139,150.013) 52 0.25 25.37 161 78.54
## [150.013,179.888) 20 0.10 9.76 181 88.29
## [179.888,209.762) 17 0.08 8.29 198 96.59
## [209.762,239.637) 2 0.01 0.98 200 97.56
## [239.637,269.511) 2 0.01 0.98 202 98.54
## [269.511,299.386) 0 0.00 0.00 202 98.54
## [299.386,329.26) 3 0.01 1.46 205 100.00
plot(dist , type = "cfh", xlab = "Tamaño de Ruedas" , ylab = "Frecuencia",col = "bisque")
diagrama de cajas
boxplot(TamañoMotor, horizontal = T, xlab="Tamaño Motor", col = "bisque")
Medidas Estadistica
## Media
mediaTamañoMotor = mean(TamañoMotor)
mediaTamañoMotor
## [1] 126.9073
## Mediana
medianaTamañoMotor = median(TamañoMotor)
medianaTamañoMotor
## [1] 120
## Moda
conteo=table(TamañoMotor)
v_logico=conteo==max(conteo)
conteo[v_logico]
## TamañoMotor
## 92 122
## 15 15
## varianza
varTamañoMotor = var(TamañoMotor)
varTamañoMotor
## [1] 1734.114
## desviación
sdTamañoMotor = sd(TamañoMotor)
sdTamañoMotor
## [1] 41.64269
## quantiles
dataMotor = sort(TamañoMotor)
rango=max(dataMotor )-min(dataMotor)
rango
## [1] 265
quantile(dataMotor)
## 0% 25% 50% 75% 100%
## 61 97 120 141 326
Variable Base de las ruedas Tabla de frecuencia y Histograma de Frecuencias
dist=fdt(BaseRuedas, breaks="Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [85.734,89.7757) 8 0.04 3.90 8 3.90
## [89.7757,93.8173) 29 0.14 14.15 37 18.05
## [93.8173,97.859) 81 0.40 39.51 118 57.56
## [97.859,101.901) 34 0.17 16.59 152 74.15
## [101.901,105.942) 27 0.13 13.17 179 87.32
## [105.942,109.984) 13 0.06 6.34 192 93.66
## [109.984,114.026) 6 0.03 2.93 198 96.59
## [114.026,118.067) 6 0.03 2.93 204 99.51
## [118.067,122.109) 1 0.00 0.49 205 100.00
plot(dist , type = "cfh", xlab = "Base de Ruedas", ylab = "Frecuencia", col = "azure2")
Diagrama de cajas
boxplot(BaseRuedas, horizontal = T, xlab="Base De Ruedas", col = "azure2")
Medidas Estadisticas
## Media
mediaBaseRuedas = mean(BaseRuedas)
mediaBaseRuedas
## [1] 98.75659
## Mediana
medianaBaseRuedas = median(BaseRuedas)
medianaBaseRuedas
## [1] 97
## Moda
conteo=table(BaseRuedas)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 94.5
## 21
## varianza
varBaseRuedas = var(BaseRuedas)
varBaseRuedas
## [1] 36.26178
## desviación
sdBaseRuedas = sd(BaseRuedas)
sdBaseRuedas
## [1] 6.021776
## quantiles
dataRuedas = sort(BaseRuedas)
rango=max(dataRuedas )-min(dataRuedas)
rango
## [1] 34.3
quantile(dataRuedas)
## 0% 25% 50% 75% 100%
## 86.6 94.5 97.0 102.4 120.9
Variable Peso al Vacio
Tabla de frecuencia y Histograma de Frecuencias
dist=fdt(PesoVacio, breaks="Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [1473.12,1765.736) 2 0.01 0.98 2 0.98
## [1765.736,2058.351) 40 0.20 19.51 42 20.49
## [2058.351,2350.967) 43 0.21 20.98 85 41.46
## [2350.967,2643.582) 39 0.19 19.02 124 60.49
## [2643.582,2936.198) 30 0.15 14.63 154 75.12
## [2936.198,3228.813) 29 0.14 14.15 183 89.27
## [3228.813,3521.429) 13 0.06 6.34 196 95.61
## [3521.429,3814.044) 5 0.02 2.44 201 98.05
## [3814.044,4106.66) 4 0.02 1.95 205 100.00
plot(dist , type = "cfh", xlab = "Peso en Vacio", ylab = "Frecuencia", col = "626")
Diagrama de cajas
boxplot(PesoVacio, horizontal = T, xlab="Peso en vacio", col = "626")
Medidas Estadisticas
## Media
mediaPesoVacio = mean(PesoVacio)
mediaPesoVacio
## [1] 2555.566
## Mediana
medianaPesoVacio = median(PesoVacio)
medianaPesoVacio
## [1] 2414
## Moda
conteo=table(PesoVacio)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 2385
## 4
## varianza
varPesoVacio = var(PesoVacio)
varPesoVacio
## [1] 271107.9
## desviación
sdPesoVacio = sd(PesoVacio)
sdPesoVacio
## [1] 520.6802
## quantiles
dataPesoVacio = sort(PesoVacio)
rango=max(dataPesoVacio )-min(dataPesoVacio)
rango
## [1] 2578
quantile(dataPesoVacio)
## 0% 25% 50% 75% 100%
## 1488 2145 2414 2935 4066
Variable rpm pico Histograma Frecuencia absoluta
table=dtarpm_pico
dist=fdt(table ,breaks = "Sturges")
hist(table, breaks = "Sturges",main="Histograma Rpm Pico",xlab="Rpm",ylab="Frecuencia Absoluta", col = "cyan")
Frecuencia relativa
hist(dtarpm_pico , breaks = "Sturges", freq = FALSE, main = "Histograma Rpm Pico",xlab = "Marca de clase",col = "cyan")
lines(density(dtarpm_pico), col="blue", lwd=3)
lines(density(dtarpm_pico, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtarpm_pico), lwd=2, lty=3, col="darkblue")
Medidas de tendencia central y dispersion Media
mediarpm_pico=mean(dtarpm_pico)
mediarpm_pico
## [1] 5125.369
Mediana
mdrpm_pico=median(dtarpm_pico)
mdrpm_pico
## [1] 5200
Moda
conteo=table(dtarpm_pico)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 5500
## 37
Varianza y desviacion estandar varianza
varrpm_pico=var(dtarpm_pico)
varrpm_pico
## [1] 227509.1
Desviacion estandar
sdrpm_pico=sd(dtarpm_pico)
sdrpm_pico
## [1] 476.9791
Quantiles
xdtarpm_pico= sort(dtarpm_pico)
rango=max(xdtarpm_pico)-min(xdtarpm_pico)
rango
## [1] 2450
quantile(xdtarpm_pico)
## 0% 25% 50% 75% 100%
## 4150 4800 5200 5500 6600
Deciles
quantile(dtarpm_pico, prob=seq(0, 1, length = 11))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 4150 4500 4800 4800 5000 5200 5200 5400 5500 5780 6600
Diagrama de cajas
boxplot(dtarpm_pico, horizontal = T, xlab="Revoluciones por minuto en Pico", col = "cyan")
Variable mpg (millas por galón) en ciudad
Histograma Frecuencia absoluta
table=dtampg_ciudad
dist=fdt(table ,breaks = "Sturges")
hist(table, breaks = "Sturges",main="Histograma mpg en ciudad",xlab="Mpg",ylab="Frecuencia Absoluta", col = "437")
Frecuencia relativa
hist(dtampg_ciudad, breaks = "Sturges", freq = FALSE, main = "Histograma Mpg en ciudad",xlab = "Marca de clase",col = "437")
lines(density(dtampg_ciudad), col="blue", lwd=3)
lines(density(dtampg_ciudad, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtampg_ciudad), lwd=2, lty=3, col="darkblue")
Medidas de tendencia central y dispersion Media
mediadtampg_ciudad=mean(dtampg_ciudad)
mediadtampg_ciudad
## [1] 25.21951
Mediana
mddtampg_ciudad=median(dtampg_ciudad)
mddtampg_ciudad
## [1] 24
Moda
conteo=table(dtampg_ciudad)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 31
## 28
Varianza y desviacion estandar varianza
vardtampg_ciudad=var(dtampg_ciudad)
vardtampg_ciudad
## [1] 42.79962
Desviacion estandar
sddtampg_ciudad=sd(dtampg_ciudad)
sddtampg_ciudad
## [1] 6.542142
Quantiles
xdtampg_ciudad= sort(dtampg_ciudad)
rango=max(xdtampg_ciudad)-min(xdtampg_ciudad)
rango
## [1] 36
quantile(xdtampg_ciudad)
## 0% 25% 50% 75% 100%
## 13 19 24 30 49
Deciles
quantile(dtampg_ciudad, prob=seq(0, 1, length = 11))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 13.0 17.0 19.0 21.0 23.6 24.0 26.0 28.0 31.0 31.6 49.0
Diagrama de cajas
boxplot(dtampg_ciudad, horizontal = T, xlab="Millas por Galón en ciudad", col = "437")
Variable mpg (Millas por galón) en autopista
Histograma Frecuencia absoluta
table=dtampg_autopista
dist=fdt(table ,breaks = "Sturges")
hist(table, breaks = "Sturges",main="Histograma mpg en autopista",xlab="Mpg",ylab="Frecuencia Absoluta", col = "peachpuff3")
Frecuencia relativa
hist(dtampg_autopista, breaks = "Sturges", freq = FALSE, main = "Histograma Mpg en autopista",xlab = "Marca de clase",col = "peachpuff3")
lines(density(dtampg_autopista), col="blue", lwd=3)
lines(density(dtampg_autopista, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtampg_autopista), lwd=2, lty=3, col="darkblue")
Medidas de tendencia central y dispersion Media
mediadtampg_autopista=mean(dtampg_autopista)
mediadtampg_autopista
## [1] 30.75122
Mediana
mddtampg_autopista=median(dtampg_autopista)
mddtampg_autopista
## [1] 30
Moda
conteo=table(dtampg_autopista)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 25
## 19
Varianza y desviacion estandar varianza
vardtampg_autopista=var(dtampg_autopista)
vardtampg_ciudad
## [1] 42.79962
Desviacion estandar
sddtampg_autopista=sd(dtampg_autopista)
sddtampg_autopista
## [1] 6.886443
Quantiles
xdtampg_autopista= sort(dtampg_autopista)
rango=max(xdtampg_autopista)-min(xdtampg_autopista)
rango
## [1] 38
quantile(xdtampg_autopista)
## 0% 25% 50% 75% 100%
## 16 25 30 34 54
Deciles
quantile(dtampg_autopista, prob=seq(0, 1, length = 11))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 16.0 23.0 24.8 26.0 29.0 30.0 32.0 34.0 37.0 38.0 54.0
Diagrama de cajas
boxplot(dtampg_autopista, horizontal = T, xlab="Millas por Galón en autopista", col = "peachpuff3")
Variable Relacion de Compresion
Histograma Frecuencia absoluta
dist=fdt(dtaCompresion ,breaks = "Sturges")
hist(dtaCompresion, breaks = "Sturges",main="Histograma Relacion de Compresion",xlab="Compresion",ylab="Frecuencia Absoluta", col = "377")
Frecuencia relativa
hist(dtaCompresion , breaks = "Sturges", freq = FALSE, main = "Histograma Relacion de Compresion",xlab = "Marca de clase",col = "377")
lines(density(dtaCompresion), col="purple", lwd=3)
lines(density(dtaCompresion, adjust=2), col="yellow", lwd=3, lty=2)
abline(v=mean(dtaCompresion), lwd=2, lty=3, col="red")
Medidas de tendencia central y dispersion
Media
mediaCompresion=mean(dtaCompresion)
mediaCompresion
## [1] 10.14254
Mediana
mdCompresion=median(dtaCompresion)
mdCompresion
## [1] 9
Moda
conteo=table(dtaCompresion)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 9
## 46
Varianza y desviacion estandar
Varianza
varCompresion=var(dtaCompresion)
varCompresion
## [1] 15.7771
Desviacion estandar
sdCompresion=sd(dtaCompresion)
sdCompresion
## [1] 3.97204
Quantiles
xdtaCompresion= sort(dtaCompresion)
rango=max(xdtaCompresion)-min(xdtaCompresion)
rango
## [1] 16
quantile(xdtaCompresion)
## 0% 25% 50% 75% 100%
## 7.0 8.6 9.0 9.4 23.0
Deciles
quantile(dtaCompresion, prob=seq(0, 1, length = 11))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 7.00 8.00 8.50 8.70 9.00 9.00 9.24 9.40 9.50 10.94 23.00
Diagrama de cajas
boxplot(dtaCompresion, horizontal = T, xlab="Altura", col = "377")
Variable Carrera
Histograma Frecuencia absoluta
dist=fdt(dtaCarrera ,breaks = "Sturges")
hist(dtaCarrera, breaks = "Sturges",main="Histograma Carrera",xlab="Carrera",ylab="Frecuencia Absoluta", col = "898")
Frecuencia relativa
hist(dtaCarrera , breaks = "Sturges", freq = FALSE, main = "Histograma Carrera",xlab = "Marca de clase",col = "898")
lines(density(dtaCarrera), col="purple", lwd=3)
lines(density(dtaCarrera, adjust=2), col="yellow", lwd=3, lty=2)
abline(v=mean(dtaCarrera), lwd=2, lty=3, col="red")
Medidas de tendencia central y dispersion
Media
mediaCarrera=mean(dtaCarrera)
mediaCarrera
## [1] 3.255423
Mediana
mdCarrera=median(dtaCarrera)
mdCarrera
## [1] 3.29
Moda
conteo=table(dtaCarrera)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 3.4
## 20
Varianza y desviacion estandar
Varianza
varCarrera=var(dtaCarrera)
varCarrera
## [1] 0.09834308
Desviacion estandar
sdCarrera=sd(dtaCarrera)
sdCarrera
## [1] 0.313597
Quantiles
xdtaCarrera= sort(dtaCarrera)
rango=max(xdtaCarrera)-min(xdtaCarrera)
rango
## [1] 2.1
quantile(xdtaCarrera)
## 0% 25% 50% 75% 100%
## 2.07 3.11 3.29 3.41 4.17
Deciles
quantile(dtaCarrera, prob=seq(0, 1, length = 11))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 2.070 2.882 3.070 3.150 3.230 3.290 3.390 3.400 3.460 3.540 4.170
Diagrama de cajas
boxplot(dtaCarrera, horizontal = T, xlab="Altura", col = "898")
##Estadistica descriptiva bivariante
Compararemos las distribución de una misma variable para diferentes grupos.
Variable Marca
Diagrama de caja de Precio segmentado por Marca de automoviles
boxplot(dtaPrecio~dtaMarca,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Marca",xlab="Precio",horizontal = TRUE)
Diagrama de calibre segmentado por Marca
boxplot(dtaCalibre~dtaMarca,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Marca",xlab="Calibre",horizontal = TRUE)
Diagrama de caja de carrera segmentado por sistema de combustible
boxplot(dtaCarrera~dtaSistemaCombustible,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Sistema de Combustible ",xlab="Carrera",horizontal = TRUE)
Diagrama de caja de Relacion de compresion segmentado por Ubicacion del Motor
boxplot(dtaCharacterCompresion~dtaUbiMotor,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Ubicacion del Motor",xlab=" Relacion Compresion",horizontal = TRUE)
Diagrama de cajas Mpg en ciudad segmentado por Tipo de Combustible
boxplot(dtampg_ciudad~dtaCombustible,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Tipo de combustible ",xlab="Mptg en ciudad",horizontal = TRUE)
Diagrama de cajas Mpg en autopista segmentado por Tipo de Combustible
boxplot(dtampg_autopista~dtaCombustible,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Tipo de combustible ",xlab="Mptg en autopista",horizontal = TRUE)
Diagrama de cajas longitud segmentado por estilo de carroceria
boxplot(dtaLongitud~dtaCarroceria,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Estilo de Carroceria",xlab="Longitud",horizontal = TRUE)
Diagrama de cajas anchura segmentado por estilo de carroceria
boxplot(dtaAnchura~dtaCarroceria,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Estilo de Carroceria",xlab="Anchura",horizontal = TRUE)
Diagrama de cajas Tamaño de Motor segmentado por aspiracion
boxplot(TamañoMotor~Aspiracion,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Aspiracion",xlab="Tamaño de Motor",horizontal = TRUE)
Diagrama de cajas Peso al vacio segmentado por aspiracion
boxplot(PesoVacio~Aspiracion,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Aspiracion",xlab="Peso al Vacio",horizontal = TRUE)
Matriz de correlación
data.Matriz <- data[, c( 11,12,13,20,21, 27, 28,29)]
colnames(data.Matriz) <- c('Longitud','Anchura','Altura', 'Carrera','Relacion de compresion','Precio', 'CabllosFuerza', 'Calibre')
library('corrplot')
## corrplot 0.84 loaded
M <- round(cor(data.Matriz), digits=2)
M
## Longitud Anchura Altura Carrera Relacion de compresion
## Longitud 1.00 0.84 0.49 0.13 0.16
## Anchura 0.84 1.00 0.28 0.18 0.18
## Altura 0.49 0.28 1.00 -0.06 0.26
## Carrera 0.13 0.18 -0.06 1.00 0.19
## Relacion de compresion 0.16 0.18 0.26 0.19 1.00
## Precio 0.68 0.73 0.13 0.08 0.07
## CabllosFuerza 0.55 0.64 -0.11 0.09 -0.21
## Calibre 0.61 0.56 0.17 -0.06 0.01
## Precio CabllosFuerza Calibre
## Longitud 0.68 0.55 0.61
## Anchura 0.73 0.64 0.56
## Altura 0.13 -0.11 0.17
## Carrera 0.08 0.09 -0.06
## Relacion de compresion 0.07 -0.21 0.01
## Precio 1.00 0.76 0.53
## CabllosFuerza 0.76 1.00 0.58
## Calibre 0.53 0.58 1.00
corrplot.mixed(M)
Matriz de covarianza
Es una matriz cuadrada que contiene las varianzas y covarianzas asociadas con diferentes variables. Los elementos de la diagonal de la matriz contienen las varianzas de las variables, mientras que los elementos que se encuentran fuera de la diagonal contienen las covarianzas entre todos los pares posibles de variables.
s=cov(data.Matriz)
s
## Longitud Anchura Altura Carrera
## Longitud 1.522087e+02 2.226104e+01 14.80278790 0.501111623
## Anchura 2.226104e+01 4.601900e+00 1.46357939 0.123068554
## Altura 1.480279e+01 1.463579e+00 5.97079962 -0.042414667
## Carrera 5.011116e-01 1.230686e-01 -0.04241467 0.098343084
## Relacion de compresion 7.762938e+00 1.543367e+00 2.53528462 0.231816315
## Precio 6.630381e+04 1.230052e+04 2583.93709150 202.580171350
## CabllosFuerza 2.703199e+02 5.444325e+01 -10.63549937 1.093860491
## Calibre 2.026478e+00 3.248755e-01 0.11323700 -0.004748671
## Relacion de compresion Precio CabllosFuerza
## Longitud 7.76293814 6.630381e+04 270.319859
## Anchura 1.54336736 1.230052e+04 54.443251
## Altura 2.53528462 2.583937e+03 -10.635499
## Carrera 0.23181632 2.025802e+02 1.093860
## Relacion de compresion 15.77710432 2.218808e+03 -32.295348
## Precio 2218.80837626 6.191751e+07 235687.548889
## CabllosFuerza -32.29534773 2.356875e+05 1561.768038
## Calibre 0.00559493 1.134441e+03 6.162423
## Calibre
## Longitud 2.026478e+00
## Anchura 3.248755e-01
## Altura 1.132370e-01
## Carrera -4.748671e-03
## Relacion de compresion 5.594930e-03
## Precio 1.134441e+03
## CabllosFuerza 6.162423e+00
## Calibre 7.335631e-02
mpg en ciudad y mpg en autopista
data = data.frame(dtampg_ciudad, dtampg_autopista)
matrizCor1 = cor(data,method = "pearson")
matrizCor1
## dtampg_ciudad dtampg_autopista
## dtampg_ciudad 1.000000 0.971337
## dtampg_autopista 0.971337 1.000000
plot(TamañoMotor ~ BaseRuedas, main = "Diagrama de dispercion y correlacion\nentre Mpg en ciudad y Mpg en autopista", xlab = "Mpg en autopista" , ylab = "Mpg en ciudad", col=dtaCaballos )
abline(lm(dtampg_ciudad ~ dtampg_autopista))
## vemos que la correlacion entre ambas variables es de 0.9713 lo cual es una relacion creciente muy buena y cercana a 1 , por lo que existe una correlacion lineal.
Matriz de covarianza
s=cov(data)
s
## dtampg_ciudad dtampg_autopista
## dtampg_ciudad 42.79962 43.76076
## dtampg_autopista 43.76076 47.42310
Diagramas de dispersion
Mpg en ciudad ~ Mpg en autopista
plot(x = dtampg_ciudad, y = dtampg_autopista, main = "Diagrama de dispersion", xlab = "Mpg ciudad", ylab = "Mpg autopista", col = dtaCaballos)
Tamaño del motor y Base de Rueda
data = data.frame(TamañoMotor,BaseRuedas)
matrizCor1 = cor(data,method = "pearson")
matrizCor1
## TamañoMotor BaseRuedas
## TamañoMotor 1.0000000 0.5693287
## BaseRuedas 0.5693287 1.0000000
plot(TamañoMotor ~ BaseRuedas, main = "Diagraa de dispercion y correlacion\nentre Tamaño del motor y Base de la Rueda", xlab = "Base de la Rueda" , ylab = "Tamaño del motor")
abline(lm(TamañoMotor ~ BaseRuedas))
## vemos que la correlacion entre ambas variables es de 0.569 lo cual es una relacion creciente buena , pero aun es muy lejana a 1 , por lo que existe una correlacion ineal pero no muy buena
Digramas de dispersion
Precio- Calibre
plot(x = dtaPrecio, y = dtaCalibre, main = "Diagrama de dispersion", xlab = "Precio", ylab = "Calibre", col = dtaCaballos)
Altura- Anchura
plot(x = dtaAltura, y = dtaAnchura, main = "Diagrama de dispersion", xlab = "Altura", ylab = "Anchura", col = dtaLongitud)
##ESTADISTICA INFERENCIAL
Bondad de ajuste
Distribucion Normal HO: Si cumple con la distribucion normal H1: No cumple con la distribucion normal Bajo el supuesto que trabajos con un nivel de significancia de 0.05
Si el valor de probabilidad (p-value) que obtenemos por la prueba es menor a 0.05 diremos que “nuestros datos no siguen una distribución normal”. Si el valor de probabilidad es mayor a 0.05, diremos que “nuestros datos sí siguen una distribución normal”.
Calibre
require(nortest)
## Loading required package: nortest
ad.test(dtaCalibre)
##
## Anderson-Darling normality test
##
## data: dtaCalibre
## A = 2.5271, p-value = 2.113e-06
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia
Tamano Motor
ad.test(TamañoMotor)
##
## Anderson-Darling normality test
##
## data: TamañoMotor
## A = 8.7408, p-value < 2.2e-16
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia
Base rueda
ad.test(BaseRuedas)
##
## Anderson-Darling normality test
##
## data: BaseRuedas
## A = 6.9217, p-value < 2.2e-16
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia
Peso Vacio
#HO:
#H1: NO cumple con
ad.test(PesoVacio)
##
## Anderson-Darling normality test
##
## data: PesoVacio
## A = 2.8001, p-value = 4.542e-07
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia
Rpm pico
#HO:
#H1: NO cumple con
ad.test(dtarpm_pico)
##
## Anderson-Darling normality test
##
## data: dtarpm_pico
## A = 2.0644, p-value = 2.878e-05
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia
Mpg ciudad
ad.test(dtampg_ciudad)
##
## Anderson-Darling normality test
##
## data: dtampg_ciudad
## A = 2.082, p-value = 2.606e-05
##No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia
Mpg autopista
ad.test(dtampg_autopista)
##
## Anderson-Darling normality test
##
## data: dtampg_autopista
## A = 1.4759, p-value = 0.0008068
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia
Altura
ad.test(dtaAltura)
##
## Anderson-Darling normality test
##
## data: dtaAltura
## A = 1.0331, p-value = 0.00999
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia
Longitud
ad.test(dtaLongitud)
##
## Anderson-Darling normality test
##
## data: dtaLongitud
## A = 1.5322, p-value = 0.000586
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia
Anchura
ad.test(dtaAnchura)
##
## Anderson-Darling normality test
##
## data: dtaAnchura
## A = 5.0263, p-value = 1.816e-12
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia
Carrera
ad.test(dtaCarrera)
##
## Anderson-Darling normality test
##
## data: dtaCarrera
## A = 4.1089, p-value = 2.977e-10
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia
Compresion
ad.test(dtaCompresion)
##
## Anderson-Darling normality test
##
## data: dtaCompresion
## A = 45.111, p-value < 2.2e-16
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia
Distribucion de Possion HO: Si cumple con la distribucion Poisson H1: No cumple con la distribucion Poisson Diremos que nuestro nivel de significancia es 0.05 Si el valor de probabilidad (p-value) que obtenemos por la prueba es menor a 0.05 diremos que “nuestros datos no siguen una distribución normal”. Si el valor de probabilidad es mayor a 0.05, diremos que “nuestros datos sí siguen una distribución de possion”.
Calibre
require(vcd)
## Loading required package: vcd
## Loading required package: grid
gfCalibre=goodfit(dtaCalibre, type="poisson", method= "MinChisq")
summary(gfCalibre)
## Warning in summary.goodfit(gfCalibre): Chi-squared approximation may be
## incorrect
##
## Goodness-of-fit test for poisson distribution
##
## X^2 df P(> X^2)
## Pearson 0.7994124 2 0.670517
#Sigue la distribucion de poision puesto que el p-value es mayor al nivel de significancia
Tamano Motor
gfTamano<-goodfit(TamañoMotor ,type= "poisson", method= "MinChisq")
## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value
## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value
## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value
## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value
## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value
## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value
## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value
summary(gfTamano)
## Warning in summary.goodfit(gfTamano): Chi-squared approximation may be incorrect
##
## Goodness-of-fit test for poisson distribution
##
## X^2 df P(> X^2)
## Pearson 3.789555e+27 325 0
#No sigue una distribucion de poision por que el pValue es menor que el nivel de significancia
Base rueda
gfBase<-goodfit(BaseRuedas ,type= "poisson", method= "MinChisq")
## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value
summary(gfBase)
## Warning in summary.goodfit(gfBase): Chi-squared approximation may be incorrect
##
## Goodness-of-fit test for poisson distribution
##
## X^2 df P(> X^2)
## Pearson 169.6616 119 0.001591362
#No sigue una distribucion de poision por que el pValue es menor que el nivel de significancia
Mpg ciudad
#HO:
#H1: NO cumple con
gf<-goodfit(dtampg_ciudad ,type= "poisson", method= "MinChisq")
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
##
## Goodness-of-fit test for poisson distribution
##
## X^2 df P(> X^2)
## Pearson 369.6869 48 3.197751e-51
#No sigue una distribucion de poision por que el pValue es menor que el nivel de significancia
Mpg autopista
#HO:
#H1: NO cumple con
gf<-goodfit(dtampg_autopista ,type= "poisson", method= "MinChisq")
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
##
## Goodness-of-fit test for poisson distribution
##
## X^2 df P(> X^2)
## Pearson 198.3066 53 1.189057e-18
#No sigue una distribucion de poision por que el pValue es menor que el nivel de significancia
Altura
gf<-goodfit(dtaAltura,type= "poisson", method= "MinChisq")
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
##
## Goodness-of-fit test for poisson distribution
##
## X^2 df P(> X^2)
## Pearson 81.25059 58 0.02366112
#No sigue una distribucion de poision por que el pValue es menor que el nivel de significancia
Longitud
gf<-goodfit(dtaLongitud ,type= "poisson", method= "MinChisq")
## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
##
## Goodness-of-fit test for poisson distribution
##
## X^2 df P(> X^2)
## Pearson 173.5824 207 0.9560813
#Sigue la distribucion de poision puesto que el p-value es mayor al nivel de significancia
Anchura
gf<-goodfit(dtaAnchura ,type= "poisson", method= "MinChisq")
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
##
## Goodness-of-fit test for poisson distribution
##
## X^2 df P(> X^2)
## Pearson 40.25853 71 0.9987793
#Sigue la distribucion de poision puesto que el p-value es mayor al nivel de significancia
Carrera
gf<-goodfit(dtaCarrera ,type= "poisson", method= "MinChisq")
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
##
## Goodness-of-fit test for poisson distribution
##
## X^2 df P(> X^2)
## Pearson 3.395694 3 0.3345444
#Sigue la distribucion de poision puesto que el p-value es mayor al nivel de significancia
Compresion
gf<-goodfit(dtaCompresion ,type= "poisson", method= "MinChisq")
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
##
## Goodness-of-fit test for poisson distribution
##
## X^2 df P(> X^2)
## Pearson 104.6892 22 9.677662e-13
##No sigue una distribucion de poision por que el pValue es menor que el nivel de significancia
Tabla de contingencia Esta tabla nos cuenta las observaciones por múltiples variables categóricas.
#Variable Marca y estilo de carroceria
tabla_dta1=table(dtaMarca,dtaCarroceria)
tabla_cont1=addmargins(tabla_dta1,c(1,2))
tabla_cont1
## dtaCarroceria
## dtaMarca convertible hardtop hatchback sedan wagon Sum
## alfa-romero 2 0 1 0 0 3
## audi 0 0 1 5 1 7
## bmw 0 0 0 8 0 8
## chevrolet 0 0 2 1 0 3
## dodge 0 0 5 3 1 9
## honda 0 0 7 5 1 13
## isuzu 0 0 1 3 0 4
## jaguar 0 0 0 3 0 3
## mazda 0 0 10 7 0 17
## mercedes-benz 1 2 0 4 1 8
## mercury 0 0 1 0 0 1
## mitsubishi 0 0 9 4 0 13
## nissan 0 1 5 9 3 18
## peugot 0 0 0 7 4 11
## plymouth 0 0 4 2 1 7
## porsche 1 2 2 0 0 5
## renault 0 0 1 0 1 2
## saab 0 0 3 3 0 6
## subaru 0 0 3 5 4 12
## toyota 1 3 14 10 4 32
## volkswagen 1 0 1 9 1 12
## volvo 0 0 0 8 3 11
## Sum 6 8 70 96 25 205
#Variable tipo de combustible y sistema de combustible
tabla_dta2=table(dtaCombustible,dtaSistemaCombustible)
tabla_cont2=addmargins(tabla_dta2,c(1,2))
tabla_cont2
## dtaSistemaCombustible
## dtaCombustible 1bbl 2bbl 4bbl idi mfi mpfi spdi spfi Sum
## diesel 0 0 0 20 0 0 0 0 20
## gas 11 66 3 0 1 94 9 1 185
## Sum 11 66 3 20 1 94 9 1 205
#Variable Marca y Sistema de combustible
tabla3=table(dtaMarca,dtaCombustible)
tabla3=addmargins(tabla3,c(1,2))
tabla3
## dtaCombustible
## dtaMarca diesel gas Sum
## alfa-romero 0 3 3
## audi 0 7 7
## bmw 0 8 8
## chevrolet 0 3 3
## dodge 0 9 9
## honda 0 13 13
## isuzu 0 4 4
## jaguar 0 3 3
## mazda 2 15 17
## mercedes-benz 4 4 8
## mercury 0 1 1
## mitsubishi 0 13 13
## nissan 1 17 18
## peugot 5 6 11
## plymouth 0 7 7
## porsche 0 5 5
## renault 0 2 2
## saab 0 6 6
## subaru 0 12 12
## toyota 3 29 32
## volkswagen 4 8 12
## volvo 1 10 11
## Sum 20 185 205
Regresion Lineal
Precios en relaci[on con los caballos de fuerzas del motor
Modelo1 = data.frame(dtaPrecio,dtaCaballos)
modRegresion1 = lm(dtaPrecio ~ dtaCaballos , data = Modelo1, na.action = na.exclude)
summary(modRegresion1)
##
## Call:
## lm(formula = dtaPrecio ~ dtaCaballos, data = Modelo1, na.action = na.exclude)
##
## Residuals:
## Min 1Q Median 3Q Max
## -27729 -2460 -1038 1837 20159
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2526.243 1016.140 -2.486 0.0137 *
## dtaCaballos 150.911 9.117 16.553 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5146 on 203 degrees of freedom
## Multiple R-squared: 0.5744, Adjusted R-squared: 0.5723
## F-statistic: 274 on 1 and 203 DF, p-value: < 2.2e-16
B0 = modRegresion1$coefficients[1]
B0 = round(B0,2)
B0
## (Intercept)
## -2526.24
B1 = round(modRegresion1$coefficients[2],2)
B1
## dtaCaballos
## 150.91
plot(dtaCaballos, dtaPrecio, xlab='Caballos Fuerza', ylab='Precio' )
abline(modRegresion1)
El modelo de regresión queda de la siguiente forma Y = B0 + B1*X Y = -2526.26 + 150.91X Donde Y es una función que depende de los caballos de fuerza, es decir el precio dependerá de los caballos de fuerza. Vemos que tiene un intercepto en -2526.26 Tienen una relación creciente, es decir a mayores caballos de fuerzas mayor es el precio, este valor de precio crece a una medida de 150.91
Peso con Precio
Modelo2 = data.frame(dtaPrecio,PesoVacio)
modRegrecion2 = lm(dtaPrecio ~ PesoVacio , data = Modelo2, na.action = na.exclude)
summary(modRegrecion2)
##
## Call:
## lm(formula = dtaPrecio ~ PesoVacio, data = Modelo2, na.action = na.exclude)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11306.7 -2035.6 -469.6 1205.8 20788.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.849e+04 1.580e+03 -11.71 <2e-16 ***
## PesoVacio 1.240e+01 6.058e-01 20.48 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4506 on 203 degrees of freedom
## Multiple R-squared: 0.6738, Adjusted R-squared: 0.6721
## F-statistic: 419.2 on 1 and 203 DF, p-value: < 2.2e-16
B0 = modRegrecion2$coefficients[1]
B0 = round(B0,2)
B0
## (Intercept)
## -18493.89
B1 = round(modRegrecion2$coefficients[2],2)
B1
## PesoVacio
## 12.4
## el modelo de regrecion queda de la siguiente forma Y = B0 + B1*X Y = -18493.89 + 12.4X Vemos que el peso del vehiculo innfluye en el precio del mismo, tienen una relacion lineal creciente , es decir que mientras mas pesado mas costoso es , crece en una medida de 12.4
plot(PesoVacio, dtaPrecio, xlab='Peso en Basio', ylab='Precio' )
abline(modRegrecion2)
Ahora analizemos que correlacion hay entre el peso de auto con los caballos de fuerza que debe ejercer el motor(su potencia) que nesecita para mover el vehiculo de dicho peso
Peso en Vacio y Caballos de fuerza
Modelo3 = data.frame(dtaCaballos,PesoVacio)
modRegrecion3 = lm(dtaCaballos ~ PesoVacio , data = Modelo3, na.action = na.exclude)
summary(modRegrecion3)
##
## Call:
## lm(formula = dtaCaballos ~ PesoVacio, data = Modelo3, na.action = na.exclude)
##
## Residuals:
## Min 1Q Median 3Q Max
## -73.858 -11.959 -0.266 8.512 137.551
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -41.405724 9.173445 -4.514 1.08e-05 ***
## PesoVacio 0.056998 0.003518 16.203 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 26.16 on 203 degrees of freedom
## Multiple R-squared: 0.564, Adjusted R-squared: 0.5618
## F-statistic: 262.5 on 1 and 203 DF, p-value: < 2.2e-16
B0 = modRegrecion3$coefficients[1]
B0 = round(B0,2)
B0
## (Intercept)
## -41.41
B1 = round(modRegrecion3$coefficients[2],2)
B1
## PesoVacio
## 0.06
plot(PesoVacio, dtaCaballos, xlab='Peso en Basio', ylab='Caballos Fuerza' )
abline(modRegrecion3)
El modelo de regresión queda de la siguiente forma Y = B0 + B1*X Y = -41.41 + 0.06X Vemos que el peso del vehículo influye en el precio del mismo, tienen una relación lineal creciente, es decir que mientras más pesado más costoso es, crece en una medida de 12.4
Ahora encontremos un modelo que relacione todas las variables mencionadas anteriormente Precio en relación con el peso en vacío y los caballos de fuerza El modelo debe tomar la siguiente forma Y = B0 + B1X1 + B2X2 + e
modelo4 = data.frame(dtaPrecio,dtaCaballos,PesoVacio)
modelo = lm(dtaPrecio ~ dtaCaballos + PesoVacio , data = modelo4 )
summary(modelo)
##
## Call:
## lm(formula = dtaPrecio ~ dtaCaballos + PesoVacio, data = modelo4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -18941.0 -2133.7 -75.8 1318.7 16927.9
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.582e+04 1.540e+03 -10.271 < 2e-16 ***
## dtaCaballos 6.461e+01 1.123e+01 5.752 3.22e-08 ***
## PesoVacio 8.722e+00 8.526e-01 10.230 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4187 on 202 degrees of freedom
## Multiple R-squared: 0.7197, Adjusted R-squared: 0.7169
## F-statistic: 259.3 on 2 and 202 DF, p-value: < 2.2e-16
## el modelo queda
## Y = -0.0001582 + 64.61X1 + 8.722X2
## donde x1 son los caballos de fuerza y x2 son el peso en vacio, vemos que es una relacion creciente en una medida de 64.61 a razon de los caballos de fuerza y de 8.722 a razon del eso en vacio
Prueba de hipotesis Ahora hagamos una prueba de hipotesis , a traves de intervalos de confianza para para el modelo encontrado anteriormente trabajando con una confianza de 95% h0 : los coeficientes cumplen con el modelo h1: los coeficientes no cumplen con el modelo
confint(modelo, conf.level=0.95)
## 2.5 % 97.5 %
## (Intercept) -18855.106794 -12781.81154
## dtaCaballos 42.466334 86.76356
## PesoVacio 7.040718 10.40284
Intervalos de confianza y pruebas de hipostesis
Precio
Una media
t.test(dtaPrecio, y=NULL, alternative = "two.sided", mu=0, paired=FALSE, var.equal=FALSE, conf.level = 0.95)
##
## One Sample t-test
##
## data: dtaPrecio
## t = 24.031, df = 204, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 12123.55 14290.71
## sample estimates:
## mean of x
## 13207.13
Dos medias
Precio - Caballos de fuerza HO:No existe diferencia entre las medias de ambas poblaciones estudiadas H1: Si existe diferencia entre estas poblaciones Nivel de significancia o alpha 0.05
t.test(dtaPrecio, dtaCaballos, alternative = "two.sided", mu=0, paired=FALSE, var.equal=FALSE, conf.level = 0.95)
##
## Welch Two Sample t-test
##
## data: dtaPrecio and dtaCaballos
## t = 23.841, df = 204.01, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 12019.28 14186.47
## sample estimates:
## mean of x mean of y
## 13207.1294 104.2562
chisq.test(dtaPrecio,dtaCaballos)
## Warning in chisq.test(dtaPrecio, dtaCaballos): Chi-squared approximation may be
## incorrect
##
## Pearson's Chi-squared test
##
## data: dtaPrecio and dtaCaballos
## X-squared = 11408, df = 10974, p-value = 0.001872
#El valor del pValue es pequeño por tanto se rechaza la hipotesis que las variables caballos de fuerza y precio sean independientes.
Dos varianza H0: No hay diferencias entre ambas variables estudiadas(Precio y Caballos de fuerza) H1: Existe diferencias entre estas variables
Precio - Caballo de fuerzas
var.test(dtaPrecio, dtaCaballos, alternative = "two.sided", null.value=1, conf.level = 0.95)
##
## F test to compare two variances
##
## data: dtaPrecio and dtaCaballos
## F = 39646, num df = 204, denom df = 204, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 30107.26 52206.28
## sample estimates:
## ratio of variances
## 39645.78
#el p-valor sale es muy pequeño: rechazaremos la hipótesis de que precio y caballo de fuerza provengan de distribuciones con la misma varianza.
Altura
Una media
t.test(dtaAltura, y=NULL, alternative = "two.sided", mu=0, paired=FALSE, var.equal=FALSE, conf.level = 0.95)
##
## One Sample t-test
##
## data: dtaAltura
## t = 314.8, df = 204, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 53.38839 54.06137
## sample estimates:
## mean of x
## 53.72488
Dos medias
Altura - Anchura HO:No existe diferencia entre las medias de ambas poblaciones estudiadas H1: Si existe diferencia entre estas poblaciones Nivel de significancia o alpha 0.05
t.test(dtaAltura, dtaAnchura, alternative = "two.sided", mu=0, paired=FALSE, var.equal=FALSE, conf.level = 0.95)
##
## Welch Two Sample t-test
##
## data: dtaAltura and dtaAnchura
## t = -53.646, df = 401.27, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -12.62938 -11.73647
## sample estimates:
## mean of x mean of y
## 53.72488 65.90780
Una varianza
Altura
chisq.test(dtaAltura)
##
## Chi-squared test for given probabilities
##
## data: dtaAltura
## X-squared = 22.672, df = 204, p-value = 1
Dos varianza H0: No hay diferencias entre ambas variables estudiadas(Altura y anchura) H1: Existe diferencias entre estas variables
var.test(dtaAltura, dtaAnchura, alternative = "two.sided", null.value=1, conf.level = 0.95)
##
## F test to compare two variances
##
## data: dtaAltura and dtaAnchura
## F = 1.2975, num df = 204, denom df = 204, p-value = 0.06362
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.9853024 1.7085243
## sample estimates:
## ratio of variances
## 1.297464
Prueba de Hipotesis - Mpg en autospista
En La Administración de Obama se emitió estándares para automóviles que aumentarán la eficiencia de combustible al equivalente de 54,5 millas por galón (87.7 KM por galón), en promedio, para el 2025. Para probar tal afirmación se pide a una muestra de 205 propietarios de automóviles seleccionada de de la data de 1987 que lleven un registro de los kilómetros que recorren. ¿Se podria afirmar que en el año (1987) esta lejos de las expectativas del gobierno del 2012? Utilice media y desviacion estandar de la variable, un valor P en su conclusión y use una significancia del 0.05%.
#Ho: u >= 54.5
#Ha: u < 54.5
xbarra <- mediadtampg_autopista # Datos del problema
desvia <- sddtampg_autopista # Datos del problema
n <- 205 # Datos del problema
mu <- 54.5 # Media de referencia
alpha<- 0.05
est <- (xbarra-mu) /(desvia/sqrt(n))
est
## [1] -49.37684
#Valor p
pnorm(est)
## [1] 0
#Se rechaza la hipotesis nula
#Existe suficiente evidencia estadistica para afirmar que el promedio de recorrido de Millas en el año 1987 esta muy lejos de las expectativas del año 2025.
##Hallazgos por estudiante
ROSADO ZAMBRANO VICTORIA
Inicialmente mediante el diagrama de barras podemos observar que en el año de 1987 las personas que poseían automóviles preferían utilizar gas como combustible que diésel, en la tabla de contingencia entre las variables de Combustible y Aspiración las frecuencias marginales del gas frente al diésel son mayores en relación a la aspiración estándar y turbo. En el diagrama de cajas la variable Mpg en ciudad segmentada por Combustible Observamos que el desplazamiento de las gráficas de caja hacia la izquierda indica que el combustible utilizado es un factor al momento de medir cuantas Millas por galón recorre un automóvil en ciudad, con diese recorremos más millas que con gas. Y por último relacionamos datos establecidos en el 2012 que se esperan den resultados en el 2025, para comprobar si es posible que antes se utilice el mismo promedio establecido para el 2012 (54.5 Mpg) se realizó la prueba de hipótesis, llegando a la conclusión que el ese promedio fue inalcanzable en 1987.
YEPEZ VERA TATIANA LISBETH
Esta base de datos fue elaborada en el año 1987 y con la ayuda del diagrama de barras para la variable marca podemos concluir que la marca más usada en esa época era Toyota, se hace una suposición a que esto se debe porque es el vehículo con más estilos de carrocería esto se lo puede observar con la tabla de contingencia, hay al menos unos en cada tipo, también notamos que la mayoría de los vehículos tayotas son a diésel un total de 29 y 3 son a gas, aparte de esto gracias a las pruebas de hipotesis notamos que los caballos de fuerza y el precio son variables muy dependiente, entre más caballo de fuerza tenga un vehículo mayor será su costo, esto también lo podemos verificar con el uso de regresión lineal, en donde notamos que tiene la función crece esto se debe a que su pendiente es positiva. En conclusión, a más caballo de fuerza más precio
MOREANO MARTINEZ JEAN CARLOS
La base de datos usada proviene del a?o 1987, con la ayuda de una analisis estadistico tando descriptivo e inferencial podemos concluir ciertas especificaciones que se imponian en los vehiculos o automoviles de en esa epoca, podemos darnos cuenta analizando el diagrama de barras de la variable cualitativa Ubicacion del Motor, se observa que la mayoria de vehiculos llevaba el motor en la parte delantera, teniendo una frecuencia absoluta de 202, por el contrario los motores en la parte trasera solo contiene una frecuencia absoluta de 3,podemos ver que existen varios valores aberrantes o atipicos en la variable Relacion de Compresion al igual que la variable Carrera analizando los diagramas de cajas realizado.
PITA ESTRELLA JORGE BRYAN
Tenemos que con una confianza del 95 %el coeficiente de regresión para X1 (caballos fuerza), esta entre 42.47 y 86.76 el valor que salió en el modelo fue de 64.61, lo cual cae dentro del intervalo, por lo que sí es un buen coeficiente de regresión para el modelo Tenemos que, con una confianza de 95, e intervalo en el cual se encuentra el coeficiente de regresión para x2(Peso en vacío), esta entre 7.04 y 10.40 el valor que se obtuvo en el modelo fue de 8.722 por lo que cae dentro del intervalo de confianza por lo que no existe evidencia estadística para rechazar el supuesto de que los coeficientes representan un buen modelo de regresión
Ramirez Pacheco Stefanie Belen Haciendo un análisis al diagrama de barras de ma variable estilo de carrocería, podemos observar que entre los cinco estilos, el sedan era el más predominante de la época ya que representa un 47% de las observaciones, seguido del hatchback al que le corresponde un 34%. Por otro lado, para la variable altura, hay un promedio de 53.72 y el 70% de las observaciones tienen una altura menor a 55.10 Para esta variable no se observó datos aberrantes en el diagrama de cajas. En la variable anchura, el promedio fue de 65.91, la mediana de 65.5 y la moda fue de 63.8 con un total de 24 observaciones. Además se observó una varianza pequeña de 4.6, el 25% de las observaciones toma valores menores o iguales a 64.1. En este caso el diagrama de cajas no fue tan grande, lo cual significa que no existe mucha dispersión de datos aunque existan valores aberrantes. Finalmente, de la variable longitud, pudimos observar en el histograma de frecuencias que la distribución es casi simétrica, el 40% de las observaciones registran valores menores o iguales a 171.5 y no hay mucha dispersión entre los datos.