Paralelo : 4 Link de la base de datos a usar: “https://archive.ics.uci.edu/ml/datasets/Automobile

#Cargamos la base de datos a usar

library("readxl")
imports.85 <- read.csv("C:/Users/HP/Desktop/Estadistica/Datos/imports-85.data", header=FALSE)
#View(imports.85)
data=imports.85
#install.packages("vcd")
#install.packages("nortest")

#Obtencion de datos conversion y limpieza de datos

dtaMarca=data$V3
dtaCharacterPrecio=as.numeric(data$V26) #Convertir de caracter a numeric 
## Warning: NAs introduced by coercion
data$Precio<-ifelse(is.na(dtaCharacterPrecio),mean(dtaCharacterPrecio, na.rm = TRUE),dtaCharacterPrecio) #nueva variable tipo numeric sin variables N/A
dtaPrecio=data$Precio

dtaCharacterC=as.numeric(data$V22)
## Warning: NAs introduced by coercion
data$CballoF <-ifelse(is.na(dtaCharacterC),mean(dtaCharacterC, na.rm = TRUE),dtaCharacterC)
dtaCaballos=data$CballoF

dtaCharacterCa=as.numeric(data$V19)
## Warning: NAs introduced by coercion
data$CalibreNumeric <-ifelse(is.na(dtaCharacterCa),mean(dtaCharacterCa, na.rm = TRUE),dtaCharacterCa)
dtaCalibre=data$CalibreNumeric

dtaCarroceria=data$V7

dtaAltura=data$V13

dtaLongitud=data$V11

dtaAnchura=data$V12

characteMotor = as.numeric(data$V17)
data$MotorTa <-ifelse(is.na(characteMotor),mean(characteMotor, na.rm = TRUE),characteMotor)
TamañoMotor=data$MotorTa


characterPeso = as.numeric(data$V14)
data$PesoVacio <-ifelse(is.na(characterPeso ),mean(characterPeso , na.rm = TRUE),characterPeso )
PesoVacio = data$PesoVacio

Aspiracion = data$V5

dtaCombustible=data$V4

dtaCharacterC=as.numeric(data$V23)
## Warning: NAs introduced by coercion
data$rpm_pico<-ifelse(is.na(dtaCharacterC),mean(dtaCharacterC, na.rm = TRUE),dtaCharacterC)
dtarpm_pico=data$rpm_pico

dtampg_ciudad=as.numeric(data$V24)
dtampg_autopista=as.numeric(data$V25)
  dtaSistemaCombustible = data$V18
BaseRuedas = as.numeric(data$V10)

dtaUbiMotor= data$V9

dtaCharacterCarrera= as.numeric(data$V20)   
## Warning: NAs introduced by coercion
data$V20<-ifelse(is.na(dtaCharacterCarrera),mean(dtaCharacterCarrera, na.rm = TRUE),dtaCharacterCarrera)
  dtaCarrera = data$V20
  
  
dtaCharacterCompresion= as.numeric(data$V21)
data$V21<-ifelse(is.na(dtaCharacterCompresion),mean(dtaCharacterCompresion, na.rm = TRUE),dtaCharacterCompresion)
  dtaCompresion=data$V21

#Estadistica descriptiva univariante

Variable Marca

Tabla de frecuencia

tableMarca=table(dtaMarca)
frecRelMarca= prop.table(tableMarca)
tblMarca=cbind(Abosulta=tableMarca, Relativa=frecRelMarca)
tblMarca
##               Abosulta    Relativa
## alfa-romero          3 0.014634146
## audi                 7 0.034146341
## bmw                  8 0.039024390
## chevrolet            3 0.014634146
## dodge                9 0.043902439
## honda               13 0.063414634
## isuzu                4 0.019512195
## jaguar               3 0.014634146
## mazda               17 0.082926829
## mercedes-benz        8 0.039024390
## mercury              1 0.004878049
## mitsubishi          13 0.063414634
## nissan              18 0.087804878
## peugot              11 0.053658537
## plymouth             7 0.034146341
## porsche              5 0.024390244
## renault              2 0.009756098
## saab                 6 0.029268293
## subaru              12 0.058536585
## toyota              32 0.156097561
## volkswagen          12 0.058536585
## volvo               11 0.053658537

Diagrama de barras

Esta gráfica nos muestra la frecuencia con la que se han observado los datos de una variable discreta, con una barra para cada categoría de esta variable.

barplot(tableMarca,main="Diagrama marcas de automoviles", xlab="tipos de marcas",ylab="cantidad",col = palette("Pastel 2"))

#En esta grafica observamos que la marca toyota prevalece ante las otras marcas 

Variable Estilo de Carrocería

Tabla de frecuencia

tableCarroceria=table(dtaCarroceria)
frecRelCarroceria= prop.table(tableCarroceria)
tblCarroceria=cbind(Abosulta=tableCarroceria, Relativa=frecRelCarroceria)
tblCarroceria
##             Abosulta   Relativa
## convertible        6 0.02926829
## hardtop            8 0.03902439
## hatchback         70 0.34146341
## sedan             96 0.46829268
## wagon             25 0.12195122

Diagrama de barras

barplot(tableCarroceria,main="Diagrama estilo de carrocería", xlab="Estilos",ylab="Cantidad de automóviles",col = "purple")

Variable ASPIRACION

tabFreAbs = table(Aspiracion)
tabFreRlt = prop.table(tabFreAbs)
tabFrecuencia = cbind(Absoluta = tabFreAbs , Relativa = tabFreRlt)
tabFrecuencia
##       Absoluta  Relativa
## std        168 0.8195122
## turbo       37 0.1804878
barplot(tabFreAbs, main="Diagrama de barras Aspiracion de vehiculos" , xlab="Tipos de aspiracion", col="aliceblue") 

Variable Tipo de combustible

Tabla de Frecuencia

tableCombustible=table(dtaCombustible)
frecRelCombustible= prop.table(tableCombustible)
tblCombustible=cbind(Abosulta=tableCombustible, Relativa=frecRelCombustible)
tblCombustible
##        Abosulta   Relativa
## diesel       20 0.09756098
## gas         185 0.90243902

Diagrama de Barras

barplot(tableCombustible,main="Diagrama Tipo de Combustible", xlab="Combustibles",ylab="Cantidad de automóviles",col = "Pink")

Variable Sistema de Combustible

Tabla de frecuencia

  tableSistemaCombustible = table(dtaSistemaCombustible)
  frecRelSistemaCombustible = prop.table(tableSistemaCombustible)
  tblSistemaCombustible= cbind(Absoluta = tableSistemaCombustible, Relativa = frecRelSistemaCombustible)
  tblSistemaCombustible
##      Absoluta    Relativa
## 1bbl       11 0.053658537
## 2bbl       66 0.321951220
## 4bbl        3 0.014634146
## idi        20 0.097560976
## mfi         1 0.004878049
## mpfi       94 0.458536585
## spdi        9 0.043902439
## spfi        1 0.004878049

Diagrama de barras

  barplot(tableSistemaCombustible,main="Diagrama Sistema de Combustible", xlab="Sistemas",ylab="Cantidad",col = "693")

Variable Ubicacion de motor

Tabla de frecuencia

  tableUbicacionMotor = table(dtaUbiMotor)
  frecRelUbicacionMotor = prop.table(tableUbicacionMotor)
  tblUbicacionMotor= cbind(Absoluta = tableUbicacionMotor, Relativa = frecRelUbicacionMotor)
  tblUbicacionMotor
##       Absoluta   Relativa
## front      202 0.98536585
## rear         3 0.01463415

Diagrama de barras

  barplot(tableUbicacionMotor,main="Diagrama Ubicacion del Motor", xlab="Ubicacion",ylab="Cantidad",col = "674")

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
table=fdt(data, breaks = "Sturges",plot = F)

###Histograma Es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados

Calcularemos los intervalos para los histogramas usando el método “Sturges”

Variable Precio Frecuencia absoluta

table=dtaPrecio
dist=fdt(table ,breaks = "Sturges")
hist(table, breaks = "Sturges",main="Histograma Precio Automoviles",xlab="Precios",ylab="frecuencia absoluta", col = "366")

Frecuencia relativa

hist(dtaPrecio , breaks = "Sturges", freq = FALSE, main = "Histograma Precio",xlab = "Marca de clase",col = "366")
lines(density(dtaPrecio), col="blue", lwd=3)
lines(density(dtaPrecio, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtaPrecio), lwd=2, lty=3, col="darkblue")

###Medidas de tendencia central y dispersion

Media

mediaPrecio=mean(dtaPrecio)
mediaPrecio
## [1] 13207.13

Mediana

mdPrecio=median(dtaPrecio)
mdPrecio
## [1] 10595

Moda

conteo=table(dtaPrecio)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 13207.1293532338 
##                4

Varianza y desviacion estandar

Varianza

varPrecio=var(dtaPrecio)
varPrecio
## [1] 61917513

Desviacion estandar

sdPrecio=sd(dtaPrecio)
sdPrecio
## [1] 7868.768

Quantiles

xdtaPrecio= sort(dtaPrecio)
rango=max(xdtaPrecio)-min(xdtaPrecio)
rango  
## [1] 40282
quantile(xdtaPrecio)
##    0%   25%   50%   75%  100% 
##  5118  7788 10595 16500 45400

Deciles

quantile(dtaPrecio, prob=seq(0, 1, length = 11))
##      0%     10%     20%     30%     40%     50%     60%     70%     80%     90% 
##  5118.0  6657.0  7385.8  8022.0  9248.0 10595.0 12834.4 15005.8 17099.8 22289.2 
##    100% 
## 45400.0

Diagrama de cajas

Muestran la distribución de una variable usando cuartiles

boxplot(dtaPrecio, horizontal = T, xlab="Precio", col = "366")

Variable Caballos de Fuerza

Histograma Frecuencia absoluta

dist=fdt(dtaCaballos,breaks = "Sturges")
hist(dtaCaballos, breaks = "Sturges",main="Histograma",xlab="Datos de Caballos de fuerza",ylab="frecuencia absoluta", col = "633")

Frecuencia relativa

hist(dtaCaballos, breaks = "Sturges", freq = FALSE, main = "Histograma Caballos de fuerza",xlab = "Marca de clase",col = "633")
lines(density(dtaCaballos), col="blue", lwd=3)
lines(density(dtaCaballos, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtaCaballos), lwd=2, lty=3, col="darkblue")

Medidas de tendencia central y dispersion

Media

mediadtaCaballos=mean(dtaCaballos)
mediadtaCaballos
## [1] 104.2562

Mediana

mddtaCaballos=median(dtaCaballos)
mddtaCaballos
## [1] 95

Moda

conteo=table(dtaCaballos)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 68 
## 19

Varianza y desviacion estandar

Varianza

vardtaCaballos=var(dtaCaballos)
vardtaCaballos
## [1] 1561.768

Desviacion estandar

sddtaCaballos=sd(dtaCaballos)
sddtaCaballos
## [1] 39.51921

Quantiles

xdtaCaballos= sort(dtaCaballos)
rango=max(xdtaCaballos)-min(xdtaCaballos)
rango  
## [1] 240
quantile(xdtaCaballos)
##   0%  25%  50%  75% 100% 
##   48   70   95  116  288

Deciles

quantile(dtaCaballos, prob=seq(0, 1, length = 11))
##       0%      10%      20%      30%      40%      50%      60%      70% 
##  48.0000  68.0000  69.0000  76.0000  87.2000  95.0000 104.2562 114.0000 
##      80%      90%     100% 
## 134.2000 160.0000 288.0000

Diagrama de cajas

boxplot(dtaCaballos, horizontal = T, xlab="Caballos de fuerza", col = "633")

Variable Calibre

Histograma Frecuencia absoluta

dist=fdt(dtaCalibre ,breaks = "Sturges")
hist(dtaCalibre , breaks = "Sturges",main="Histograma Calibre",xlab="Datos de calibre automovil",ylab="frecuencia absoluta", col = "099")

Frecuencia relativa

hist(dtaCalibre , breaks = "Sturges", freq = FALSE, main = "Histograma tiempo de viaje",xlab = "Marca de clase",col = "099")
lines(density(dtaCalibre ), col="blue", lwd=3)
lines(density(dtaCalibre , adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtaCalibre ), lwd=2, lty=3, col="darkblue")

Medidas de tendencia central y dispersion

Media

medtaCalibre =mean(dtaCalibre )
medtaCalibre 
## [1] 3.329751

Mediana

mddtaCalibre =median(dtaCalibre )
mddtaCalibre 
## [1] 3.31

Moda

conteo=table(dtaCalibre )
v_logico=conteo==max(conteo)
conteo[v_logico]
## 3.62 
##   23

Varianza y desviacion estandar

Varianza

vardtaCalibre =var(dtaCalibre )
vardtaCalibre 
## [1] 0.07335631

Desviacion estandar

sdtaCalibre=sd(dtaCalibre )
sdtaCalibre 
## [1] 0.2708437

Quantiles

xdtaCalibre = sort(dtaCalibre )
rango=max(dtaCalibre )-min(xdtaCalibre )
rango  
## [1] 1.4
quantile(xdtaCalibre )
##   0%  25%  50%  75% 100% 
## 2.54 3.15 3.31 3.58 3.94

Deciles

quantile(dtaCalibre , prob=seq(0, 1, length = 11))
##    0%   10%   20%   30%   40%   50%   60%   70%   80%   90%  100% 
## 2.540 2.970 3.050 3.150 3.190 3.310 3.430 3.540 3.620 3.672 3.940

Diagrama de cajas

boxplot(dtaCalibre , horizontal = T, xlab="Calibre", col = "099")

Variable Altura Histograma Frecuencia absoluta

table=dtaAltura
dist=fdt(table ,breaks = "Sturges")
hist(table, breaks = "Sturges",main="Histograma Altura de Automoviles",xlab="Alturas",ylab="Frecuencia Absoluta", col = "#2297E6")

Frecuencia relativa

hist(dtaAltura , breaks = "Sturges", freq = FALSE, main = "Histograma Altura de Automoviles",xlab = "Marca de clase",col = "#2297E6")
lines(density(dtaAltura), col="purple", lwd=3)
lines(density(dtaAltura, adjust=2), col="yellow", lwd=3, lty=2)
abline(v=mean(dtaAltura), lwd=2, lty=3, col="red")

Medidas de tendencia central y dispersion

Media

mediaAltura=mean(dtaAltura)
mediaAltura
## [1] 53.72488

Mediana

mdAltura=median(dtaAltura)
mdAltura
## [1] 54.1

Moda

conteo=table(dtaAltura)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 50.8 
##   14

Varianza y desviacion estandar

Varianza

varAltura=var(dtaAltura)
varAltura
## [1] 5.9708

Desviacion estandar

sdAltura=sd(dtaAltura)
sdAltura
## [1] 2.443522

Quantiles

xdtaAltura= sort(dtaAltura)
rango=max(xdtaAltura)-min(xdtaAltura)
rango  
## [1] 12
quantile(xdtaAltura)
##   0%  25%  50%  75% 100% 
## 47.8 52.0 54.1 55.5 59.8

Deciles

quantile(dtaAltura, prob=seq(0, 1, length = 11))
##    0%   10%   20%   30%   40%   50%   60%   70%   80%   90%  100% 
## 47.80 50.60 51.40 52.42 53.00 54.10 54.50 55.10 55.70 56.62 59.80

Diagrama de cajas

boxplot(dtaAltura, horizontal = T, xlab="Altura", col = "#2297E6")

Variable Anchura

Histograma Frecuencia absoluta

dist=fdt(dtaAnchura,breaks = "Sturges")
hist(dtaAnchura, breaks = "Sturges",main="Histograma",xlab="Anchura de automoviles",ylab="frecuencia Absoluta", col = "#F5C710")

Frecuencia relativa

hist(dtaAnchura, breaks = "Sturges", freq = FALSE, main = "Histograma Anchura",xlab = "Marca de clase",col = "#F5C710")
lines(density(dtaAnchura), col="blue", lwd=3)
lines(density(dtaAnchura, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtaAnchura), lwd=2, lty=3, col="green")

Medidas de tendencia central y dispersion

Media

mediaAnchura=mean(dtaAnchura)
mediaAnchura
## [1] 65.9078

Mediana

mdAnchura=median(dtaAnchura)
mdAnchura
## [1] 65.5

Moda

conteo=table(dtaAnchura)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 63.8 
##   24

Varianza y desviacion estandar

Varianza

varAnchura=var(dtaAnchura)
varAnchura
## [1] 4.6019

Desviacion estandar

sdAnchura=sd(dtaAnchura)
sdAnchura
## [1] 2.145204

Quantiles

xdtaAnchura= sort(dtaAnchura)
rango=max(xdtaAnchura)-min(xdtaAnchura)
rango  
## [1] 12
quantile(xdtaAnchura)
##   0%  25%  50%  75% 100% 
## 60.3 64.1 65.5 66.9 72.3

Deciles

quantile(dtaAnchura, prob=seq(0, 1, length = 11))
##    0%   10%   20%   30%   40%   50%   60%   70%   80%   90%  100% 
## 60.30 63.80 63.90 64.40 65.20 65.50 66.30 66.50 67.30 68.64 72.30

Diagrama de cajas

boxplot(dtaAnchura, horizontal = T, xlab="Anchura", col = "#f5c710")

Variable Longitud

Histograma Frecuencia absoluta

dist=fdt(dtaLongitud,breaks = "Sturges")
hist(dtaLongitud, breaks = "Sturges",main="Histograma Longitud",xlab="Longitud de automoviles",ylab="Frecuencia Absoluta", col = "#ff6633")

Frecuencia relativa

hist(dtaLongitud, breaks = "Sturges", freq = FALSE, main = "Histograma Longitud",xlab = "Marca de clase",col = "#ff6633")
lines(density(dtaLongitud), col="#66ff33", lwd=3)
lines(density(dtaLongitud, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtaLongitud), lwd=2, lty=3, col="#3366cc")

Medidas de tendencia central y dispersion

Media

mediaLongitud=mean(dtaLongitud)
mediaLongitud
## [1] 174.0493

Mediana

mdLongitud=median(dtaLongitud)
mdLongitud 
## [1] 173.2

Moda

conteo=table(dtaLongitud)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 157.3 
##    15

Varianza y desviacion estandar

Varianza

varLongitud=var(dtaLongitud)
varLongitud
## [1] 152.2087

Desviacion estandar

sdLongitud=sd(dtaLongitud)
sdLongitud
## [1] 12.33729

Quantiles

xdtaLongitud= sort(dtaLongitud)
rango=max(dtaLongitud)-min(xdtaLongitud)
rango  
## [1] 67
quantile(xdtaLongitud)
##    0%   25%   50%   75%  100% 
## 141.1 166.3 173.2 183.1 208.1

Deciles

quantile(dtaLongitud, prob=seq(0, 1, length = 11))
##     0%    10%    20%    30%    40%    50%    60%    70%    80%    90%   100% 
## 141.10 157.30 165.30 168.72 171.50 173.20 175.60 177.80 186.62 188.80 208.10

Diagrama de cajas

boxplot(dtaLongitud, horizontal = T, xlab="Longitud", col = "#ff6633")

Variable Tamaño del motor

tabla de frecuencia y histograma de frecuencias

dist=fdt(TamañoMotor, breaks="Sturges")
dist
##       Class limits  f   rf rf(%)  cf  cf(%)
##    [60.39,90.2644) 18 0.09  8.78  18   8.78
##  [90.2644,120.139) 91 0.44 44.39 109  53.17
##  [120.139,150.013) 52 0.25 25.37 161  78.54
##  [150.013,179.888) 20 0.10  9.76 181  88.29
##  [179.888,209.762) 17 0.08  8.29 198  96.59
##  [209.762,239.637)  2 0.01  0.98 200  97.56
##  [239.637,269.511)  2 0.01  0.98 202  98.54
##  [269.511,299.386)  0 0.00  0.00 202  98.54
##   [299.386,329.26)  3 0.01  1.46 205 100.00
plot(dist , type = "cfh", xlab = "Tamaño de Ruedas" , ylab = "Frecuencia",col = "bisque")

diagrama de cajas

boxplot(TamañoMotor, horizontal = T, xlab="Tamaño Motor", col = "bisque")

Medidas Estadistica

## Media
mediaTamañoMotor = mean(TamañoMotor)
mediaTamañoMotor
## [1] 126.9073
## Mediana
medianaTamañoMotor = median(TamañoMotor)
medianaTamañoMotor
## [1] 120
## Moda
conteo=table(TamañoMotor)
v_logico=conteo==max(conteo)
conteo[v_logico]
## TamañoMotor
##  92 122 
##  15  15
## varianza
varTamañoMotor = var(TamañoMotor)
varTamañoMotor
## [1] 1734.114
## desviación
sdTamañoMotor = sd(TamañoMotor)
sdTamañoMotor
## [1] 41.64269
## quantiles
dataMotor = sort(TamañoMotor)
rango=max(dataMotor )-min(dataMotor)
rango
## [1] 265
quantile(dataMotor)
##   0%  25%  50%  75% 100% 
##   61   97  120  141  326

Variable Base de las ruedas Tabla de frecuencia y Histograma de Frecuencias

dist=fdt(BaseRuedas, breaks="Sturges")
dist
##       Class limits  f   rf rf(%)  cf  cf(%)
##   [85.734,89.7757)  8 0.04  3.90   8   3.90
##  [89.7757,93.8173) 29 0.14 14.15  37  18.05
##   [93.8173,97.859) 81 0.40 39.51 118  57.56
##   [97.859,101.901) 34 0.17 16.59 152  74.15
##  [101.901,105.942) 27 0.13 13.17 179  87.32
##  [105.942,109.984) 13 0.06  6.34 192  93.66
##  [109.984,114.026)  6 0.03  2.93 198  96.59
##  [114.026,118.067)  6 0.03  2.93 204  99.51
##  [118.067,122.109)  1 0.00  0.49 205 100.00
plot(dist , type = "cfh", xlab = "Base de Ruedas", ylab = "Frecuencia", col = "azure2")

Diagrama de cajas

boxplot(BaseRuedas, horizontal = T, xlab="Base De Ruedas", col = "azure2")

Medidas Estadisticas

## Media
mediaBaseRuedas = mean(BaseRuedas)
mediaBaseRuedas
## [1] 98.75659
## Mediana
medianaBaseRuedas = median(BaseRuedas)
medianaBaseRuedas
## [1] 97
## Moda
conteo=table(BaseRuedas)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 94.5 
##   21
## varianza
varBaseRuedas = var(BaseRuedas)
varBaseRuedas
## [1] 36.26178
## desviación
sdBaseRuedas = sd(BaseRuedas)
sdBaseRuedas
## [1] 6.021776
## quantiles
dataRuedas = sort(BaseRuedas)
rango=max(dataRuedas )-min(dataRuedas)
rango
## [1] 34.3
quantile(dataRuedas)
##    0%   25%   50%   75%  100% 
##  86.6  94.5  97.0 102.4 120.9

Variable Peso al Vacio

Tabla de frecuencia y Histograma de Frecuencias

dist=fdt(PesoVacio, breaks="Sturges")
dist
##         Class limits  f   rf rf(%)  cf  cf(%)
##   [1473.12,1765.736)  2 0.01  0.98   2   0.98
##  [1765.736,2058.351) 40 0.20 19.51  42  20.49
##  [2058.351,2350.967) 43 0.21 20.98  85  41.46
##  [2350.967,2643.582) 39 0.19 19.02 124  60.49
##  [2643.582,2936.198) 30 0.15 14.63 154  75.12
##  [2936.198,3228.813) 29 0.14 14.15 183  89.27
##  [3228.813,3521.429) 13 0.06  6.34 196  95.61
##  [3521.429,3814.044)  5 0.02  2.44 201  98.05
##   [3814.044,4106.66)  4 0.02  1.95 205 100.00
plot(dist , type = "cfh", xlab = "Peso en Vacio", ylab = "Frecuencia", col = "626")

Diagrama de cajas

boxplot(PesoVacio, horizontal = T, xlab="Peso en vacio", col = "626")

Medidas Estadisticas

## Media
mediaPesoVacio = mean(PesoVacio)
mediaPesoVacio
## [1] 2555.566
## Mediana
medianaPesoVacio = median(PesoVacio)
medianaPesoVacio
## [1] 2414
## Moda
conteo=table(PesoVacio)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 2385 
##    4
## varianza
varPesoVacio = var(PesoVacio)
varPesoVacio
## [1] 271107.9
## desviación
sdPesoVacio = sd(PesoVacio)
sdPesoVacio
## [1] 520.6802
## quantiles
dataPesoVacio = sort(PesoVacio)
rango=max(dataPesoVacio )-min(dataPesoVacio)
rango
## [1] 2578
quantile(dataPesoVacio)
##   0%  25%  50%  75% 100% 
## 1488 2145 2414 2935 4066

Variable rpm pico Histograma Frecuencia absoluta

table=dtarpm_pico
dist=fdt(table ,breaks = "Sturges")
hist(table, breaks = "Sturges",main="Histograma Rpm Pico",xlab="Rpm",ylab="Frecuencia Absoluta", col = "cyan")

Frecuencia relativa

hist(dtarpm_pico , breaks = "Sturges", freq = FALSE, main = "Histograma Rpm Pico",xlab = "Marca de clase",col = "cyan")
lines(density(dtarpm_pico), col="blue", lwd=3)
lines(density(dtarpm_pico, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtarpm_pico), lwd=2, lty=3, col="darkblue")

Medidas de tendencia central y dispersion Media

mediarpm_pico=mean(dtarpm_pico)
mediarpm_pico
## [1] 5125.369

Mediana

mdrpm_pico=median(dtarpm_pico)
mdrpm_pico
## [1] 5200

Moda

conteo=table(dtarpm_pico)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 5500 
##   37

Varianza y desviacion estandar varianza

varrpm_pico=var(dtarpm_pico)
varrpm_pico
## [1] 227509.1

Desviacion estandar

sdrpm_pico=sd(dtarpm_pico)
sdrpm_pico
## [1] 476.9791

Quantiles

xdtarpm_pico= sort(dtarpm_pico)
rango=max(xdtarpm_pico)-min(xdtarpm_pico)
rango  
## [1] 2450
quantile(xdtarpm_pico)
##   0%  25%  50%  75% 100% 
## 4150 4800 5200 5500 6600

Deciles

quantile(dtarpm_pico, prob=seq(0, 1, length = 11))
##   0%  10%  20%  30%  40%  50%  60%  70%  80%  90% 100% 
## 4150 4500 4800 4800 5000 5200 5200 5400 5500 5780 6600

Diagrama de cajas

boxplot(dtarpm_pico, horizontal = T, xlab="Revoluciones por minuto en Pico", col = "cyan")

Variable mpg (millas por galón) en ciudad

Histograma Frecuencia absoluta

table=dtampg_ciudad
dist=fdt(table ,breaks = "Sturges")
hist(table, breaks = "Sturges",main="Histograma mpg en ciudad",xlab="Mpg",ylab="Frecuencia Absoluta", col = "437")

Frecuencia relativa

hist(dtampg_ciudad, breaks = "Sturges", freq = FALSE, main = "Histograma Mpg en ciudad",xlab = "Marca de clase",col = "437")
lines(density(dtampg_ciudad), col="blue", lwd=3)
lines(density(dtampg_ciudad, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtampg_ciudad), lwd=2, lty=3, col="darkblue")

Medidas de tendencia central y dispersion Media

mediadtampg_ciudad=mean(dtampg_ciudad)
mediadtampg_ciudad
## [1] 25.21951

Mediana

mddtampg_ciudad=median(dtampg_ciudad)
mddtampg_ciudad
## [1] 24

Moda

conteo=table(dtampg_ciudad)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 31 
## 28

Varianza y desviacion estandar varianza

vardtampg_ciudad=var(dtampg_ciudad)
vardtampg_ciudad
## [1] 42.79962

Desviacion estandar

sddtampg_ciudad=sd(dtampg_ciudad)
sddtampg_ciudad
## [1] 6.542142

Quantiles

xdtampg_ciudad= sort(dtampg_ciudad)
rango=max(xdtampg_ciudad)-min(xdtampg_ciudad)
rango  
## [1] 36
quantile(xdtampg_ciudad)
##   0%  25%  50%  75% 100% 
##   13   19   24   30   49

Deciles

quantile(dtampg_ciudad, prob=seq(0, 1, length = 11))
##   0%  10%  20%  30%  40%  50%  60%  70%  80%  90% 100% 
## 13.0 17.0 19.0 21.0 23.6 24.0 26.0 28.0 31.0 31.6 49.0

Diagrama de cajas

boxplot(dtampg_ciudad, horizontal = T, xlab="Millas por Galón en ciudad", col = "437")

Variable mpg (Millas por galón) en autopista

Histograma Frecuencia absoluta

table=dtampg_autopista
dist=fdt(table ,breaks = "Sturges")
hist(table, breaks = "Sturges",main="Histograma mpg en autopista",xlab="Mpg",ylab="Frecuencia Absoluta", col = "peachpuff3")

Frecuencia relativa

hist(dtampg_autopista, breaks = "Sturges", freq = FALSE, main = "Histograma Mpg en autopista",xlab = "Marca de clase",col = "peachpuff3")
lines(density(dtampg_autopista), col="blue", lwd=3)
lines(density(dtampg_autopista, adjust=2), col="red", lwd=3, lty=2)
abline(v=mean(dtampg_autopista), lwd=2, lty=3, col="darkblue")

Medidas de tendencia central y dispersion Media

mediadtampg_autopista=mean(dtampg_autopista)
mediadtampg_autopista
## [1] 30.75122

Mediana

mddtampg_autopista=median(dtampg_autopista)
mddtampg_autopista
## [1] 30

Moda

conteo=table(dtampg_autopista)
v_logico=conteo==max(conteo)
conteo[v_logico]
## 25 
## 19

Varianza y desviacion estandar varianza

vardtampg_autopista=var(dtampg_autopista)
vardtampg_ciudad
## [1] 42.79962

Desviacion estandar

sddtampg_autopista=sd(dtampg_autopista)
sddtampg_autopista
## [1] 6.886443

Quantiles

xdtampg_autopista= sort(dtampg_autopista)
rango=max(xdtampg_autopista)-min(xdtampg_autopista)
rango  
## [1] 38
quantile(xdtampg_autopista)
##   0%  25%  50%  75% 100% 
##   16   25   30   34   54

Deciles

quantile(dtampg_autopista, prob=seq(0, 1, length = 11))
##   0%  10%  20%  30%  40%  50%  60%  70%  80%  90% 100% 
## 16.0 23.0 24.8 26.0 29.0 30.0 32.0 34.0 37.0 38.0 54.0

Diagrama de cajas

boxplot(dtampg_autopista, horizontal = T, xlab="Millas por Galón en autopista", col = "peachpuff3")

Variable Relacion de Compresion

Histograma Frecuencia absoluta

  dist=fdt(dtaCompresion ,breaks = "Sturges")
  hist(dtaCompresion, breaks = "Sturges",main="Histograma Relacion de Compresion",xlab="Compresion",ylab="Frecuencia Absoluta", col = "377")

Frecuencia relativa

  hist(dtaCompresion , breaks = "Sturges", freq = FALSE, main = "Histograma Relacion de Compresion",xlab = "Marca de clase",col = "377")
  lines(density(dtaCompresion), col="purple", lwd=3)
  lines(density(dtaCompresion, adjust=2), col="yellow", lwd=3, lty=2)
  abline(v=mean(dtaCompresion), lwd=2, lty=3, col="red")

Medidas de tendencia central y dispersion

Media

  mediaCompresion=mean(dtaCompresion)
  mediaCompresion
## [1] 10.14254

Mediana

  mdCompresion=median(dtaCompresion)
  mdCompresion
## [1] 9

Moda

  conteo=table(dtaCompresion)
  v_logico=conteo==max(conteo)
  conteo[v_logico]
##  9 
## 46

Varianza y desviacion estandar

Varianza

  varCompresion=var(dtaCompresion)
  varCompresion
## [1] 15.7771

Desviacion estandar

  sdCompresion=sd(dtaCompresion)
  sdCompresion
## [1] 3.97204

Quantiles

  xdtaCompresion= sort(dtaCompresion)
  rango=max(xdtaCompresion)-min(xdtaCompresion)
  rango  
## [1] 16
  quantile(xdtaCompresion)
##   0%  25%  50%  75% 100% 
##  7.0  8.6  9.0  9.4 23.0

Deciles

  quantile(dtaCompresion, prob=seq(0, 1, length = 11))
##    0%   10%   20%   30%   40%   50%   60%   70%   80%   90%  100% 
##  7.00  8.00  8.50  8.70  9.00  9.00  9.24  9.40  9.50 10.94 23.00

Diagrama de cajas

  boxplot(dtaCompresion, horizontal = T, xlab="Altura", col = "377")

Variable Carrera

Histograma Frecuencia absoluta

  dist=fdt(dtaCarrera ,breaks = "Sturges")
  hist(dtaCarrera, breaks = "Sturges",main="Histograma Carrera",xlab="Carrera",ylab="Frecuencia Absoluta", col = "898")

Frecuencia relativa

  hist(dtaCarrera , breaks = "Sturges", freq = FALSE, main = "Histograma Carrera",xlab = "Marca de clase",col = "898")
  lines(density(dtaCarrera), col="purple", lwd=3)
  lines(density(dtaCarrera, adjust=2), col="yellow", lwd=3, lty=2)
  abline(v=mean(dtaCarrera), lwd=2, lty=3, col="red")

Medidas de tendencia central y dispersion

Media

  mediaCarrera=mean(dtaCarrera)
  mediaCarrera
## [1] 3.255423

Mediana

  mdCarrera=median(dtaCarrera)
  mdCarrera
## [1] 3.29

Moda

  conteo=table(dtaCarrera)
  v_logico=conteo==max(conteo)
  conteo[v_logico]
## 3.4 
##  20

Varianza y desviacion estandar

Varianza

  varCarrera=var(dtaCarrera)
  varCarrera
## [1] 0.09834308

Desviacion estandar

  sdCarrera=sd(dtaCarrera)
  sdCarrera
## [1] 0.313597

Quantiles

  xdtaCarrera= sort(dtaCarrera)
  rango=max(xdtaCarrera)-min(xdtaCarrera)
  rango  
## [1] 2.1
  quantile(xdtaCarrera)
##   0%  25%  50%  75% 100% 
## 2.07 3.11 3.29 3.41 4.17

Deciles

  quantile(dtaCarrera, prob=seq(0, 1, length = 11))
##    0%   10%   20%   30%   40%   50%   60%   70%   80%   90%  100% 
## 2.070 2.882 3.070 3.150 3.230 3.290 3.390 3.400 3.460 3.540 4.170

Diagrama de cajas

  boxplot(dtaCarrera, horizontal = T, xlab="Altura", col = "898")

##Estadistica descriptiva bivariante

Compararemos las distribución de una misma variable para diferentes grupos.

Variable Marca

Diagrama de caja de Precio segmentado por Marca de automoviles

boxplot(dtaPrecio~dtaMarca,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Marca",xlab="Precio",horizontal = TRUE)

Diagrama de calibre segmentado por Marca

boxplot(dtaCalibre~dtaMarca,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Marca",xlab="Calibre",horizontal = TRUE)

Diagrama de caja de carrera segmentado por sistema de combustible

boxplot(dtaCarrera~dtaSistemaCombustible,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Sistema de Combustible ",xlab="Carrera",horizontal = TRUE)

Diagrama de caja de Relacion de compresion segmentado por Ubicacion del Motor

boxplot(dtaCharacterCompresion~dtaUbiMotor,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Ubicacion del Motor",xlab=" Relacion Compresion",horizontal = TRUE)

Diagrama de cajas Mpg en ciudad segmentado por Tipo de Combustible

boxplot(dtampg_ciudad~dtaCombustible,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Tipo de combustible ",xlab="Mptg en ciudad",horizontal = TRUE)

Diagrama de cajas Mpg en autopista segmentado por Tipo de Combustible

boxplot(dtampg_autopista~dtaCombustible,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Tipo de combustible ",xlab="Mptg en autopista",horizontal = TRUE)

Diagrama de cajas longitud segmentado por estilo de carroceria

boxplot(dtaLongitud~dtaCarroceria,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Estilo de Carroceria",xlab="Longitud",horizontal = TRUE)

Diagrama de cajas anchura segmentado por estilo de carroceria

boxplot(dtaAnchura~dtaCarroceria,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Estilo de Carroceria",xlab="Anchura",horizontal = TRUE)

Diagrama de cajas Tamaño de Motor segmentado por aspiracion

boxplot(TamañoMotor~Aspiracion,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Aspiracion",xlab="Tamaño de Motor",horizontal = TRUE)

Diagrama de cajas Peso al vacio segmentado por aspiracion

boxplot(PesoVacio~Aspiracion,main="Diagrama de Cajas",col=c("pink","orange"),ylab="Aspiracion",xlab="Peso al Vacio",horizontal = TRUE)

Matriz de correlación

data.Matriz <- data[, c( 11,12,13,20,21, 27, 28,29)]
colnames(data.Matriz) <- c('Longitud','Anchura','Altura', 'Carrera','Relacion de compresion','Precio', 'CabllosFuerza', 'Calibre')
library('corrplot')
## corrplot 0.84 loaded
M <- round(cor(data.Matriz), digits=2)
M
##                        Longitud Anchura Altura Carrera Relacion de compresion
## Longitud                   1.00    0.84   0.49    0.13                   0.16
## Anchura                    0.84    1.00   0.28    0.18                   0.18
## Altura                     0.49    0.28   1.00   -0.06                   0.26
## Carrera                    0.13    0.18  -0.06    1.00                   0.19
## Relacion de compresion     0.16    0.18   0.26    0.19                   1.00
## Precio                     0.68    0.73   0.13    0.08                   0.07
## CabllosFuerza              0.55    0.64  -0.11    0.09                  -0.21
## Calibre                    0.61    0.56   0.17   -0.06                   0.01
##                        Precio CabllosFuerza Calibre
## Longitud                 0.68          0.55    0.61
## Anchura                  0.73          0.64    0.56
## Altura                   0.13         -0.11    0.17
## Carrera                  0.08          0.09   -0.06
## Relacion de compresion   0.07         -0.21    0.01
## Precio                   1.00          0.76    0.53
## CabllosFuerza            0.76          1.00    0.58
## Calibre                  0.53          0.58    1.00
corrplot.mixed(M)

Matriz de covarianza

Es una matriz cuadrada que contiene las varianzas y covarianzas asociadas con diferentes variables. Los elementos de la diagonal de la matriz contienen las varianzas de las variables, mientras que los elementos que se encuentran fuera de la diagonal contienen las covarianzas entre todos los pares posibles de variables.

s=cov(data.Matriz)
s
##                            Longitud      Anchura        Altura       Carrera
## Longitud               1.522087e+02 2.226104e+01   14.80278790   0.501111623
## Anchura                2.226104e+01 4.601900e+00    1.46357939   0.123068554
## Altura                 1.480279e+01 1.463579e+00    5.97079962  -0.042414667
## Carrera                5.011116e-01 1.230686e-01   -0.04241467   0.098343084
## Relacion de compresion 7.762938e+00 1.543367e+00    2.53528462   0.231816315
## Precio                 6.630381e+04 1.230052e+04 2583.93709150 202.580171350
## CabllosFuerza          2.703199e+02 5.444325e+01  -10.63549937   1.093860491
## Calibre                2.026478e+00 3.248755e-01    0.11323700  -0.004748671
##                        Relacion de compresion       Precio CabllosFuerza
## Longitud                           7.76293814 6.630381e+04    270.319859
## Anchura                            1.54336736 1.230052e+04     54.443251
## Altura                             2.53528462 2.583937e+03    -10.635499
## Carrera                            0.23181632 2.025802e+02      1.093860
## Relacion de compresion            15.77710432 2.218808e+03    -32.295348
## Precio                          2218.80837626 6.191751e+07 235687.548889
## CabllosFuerza                    -32.29534773 2.356875e+05   1561.768038
## Calibre                            0.00559493 1.134441e+03      6.162423
##                              Calibre
## Longitud                2.026478e+00
## Anchura                 3.248755e-01
## Altura                  1.132370e-01
## Carrera                -4.748671e-03
## Relacion de compresion  5.594930e-03
## Precio                  1.134441e+03
## CabllosFuerza           6.162423e+00
## Calibre                 7.335631e-02

mpg en ciudad y mpg en autopista

data = data.frame(dtampg_ciudad, dtampg_autopista)
matrizCor1 = cor(data,method = "pearson")
matrizCor1
##                  dtampg_ciudad dtampg_autopista
## dtampg_ciudad         1.000000         0.971337
## dtampg_autopista      0.971337         1.000000
plot(TamañoMotor ~ BaseRuedas, main = "Diagrama de dispercion y correlacion\nentre Mpg en ciudad y Mpg en autopista", xlab = "Mpg en autopista" , ylab = "Mpg en ciudad", col=dtaCaballos )
abline(lm(dtampg_ciudad ~ dtampg_autopista))

## vemos que la correlacion entre ambas variables es de 0.9713 lo cual es una relacion creciente muy buena y cercana a 1 , por lo que existe una correlacion lineal.

Matriz de covarianza

s=cov(data)
s
##                  dtampg_ciudad dtampg_autopista
## dtampg_ciudad         42.79962         43.76076
## dtampg_autopista      43.76076         47.42310

Diagramas de dispersion

Mpg en ciudad ~ Mpg en autopista

plot(x = dtampg_ciudad, y = dtampg_autopista, main = "Diagrama de dispersion", xlab = "Mpg ciudad", ylab = "Mpg autopista", col = dtaCaballos)

Tamaño del motor y Base de Rueda

data = data.frame(TamañoMotor,BaseRuedas)
matrizCor1 = cor(data,method = "pearson")
matrizCor1
##             TamañoMotor BaseRuedas
## TamañoMotor   1.0000000  0.5693287
## BaseRuedas    0.5693287  1.0000000
plot(TamañoMotor ~ BaseRuedas, main = "Diagraa de dispercion y correlacion\nentre Tamaño del motor y Base de la Rueda", xlab = "Base de la Rueda" , ylab = "Tamaño del motor")
abline(lm(TamañoMotor ~ BaseRuedas))

## vemos que la correlacion entre ambas variables es de 0.569 lo cual es una relacion creciente buena , pero aun es muy lejana a 1 , por lo que existe una correlacion ineal pero no muy buena

Digramas de dispersion

Precio- Calibre

plot(x = dtaPrecio, y = dtaCalibre, main = "Diagrama de dispersion", xlab = "Precio", ylab = "Calibre", col = dtaCaballos)

Altura- Anchura

plot(x = dtaAltura, y = dtaAnchura, main = "Diagrama de dispersion", xlab = "Altura", ylab = "Anchura", col = dtaLongitud)

##ESTADISTICA INFERENCIAL

Bondad de ajuste

Distribucion Normal HO: Si cumple con la distribucion normal H1: No cumple con la distribucion normal Bajo el supuesto que trabajos con un nivel de significancia de 0.05

Si el valor de probabilidad (p-value) que obtenemos por la prueba es menor a 0.05 diremos que “nuestros datos no siguen una distribución normal”. Si el valor de probabilidad es mayor a 0.05, diremos que “nuestros datos sí siguen una distribución normal”.

Calibre

require(nortest)
## Loading required package: nortest
ad.test(dtaCalibre)
## 
##  Anderson-Darling normality test
## 
## data:  dtaCalibre
## A = 2.5271, p-value = 2.113e-06
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia 

Tamano Motor

ad.test(TamañoMotor)
## 
##  Anderson-Darling normality test
## 
## data:  TamañoMotor
## A = 8.7408, p-value < 2.2e-16
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia

Base rueda

ad.test(BaseRuedas)
## 
##  Anderson-Darling normality test
## 
## data:  BaseRuedas
## A = 6.9217, p-value < 2.2e-16
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia

Peso Vacio

#HO: 
#H1: NO cumple con 

ad.test(PesoVacio)
## 
##  Anderson-Darling normality test
## 
## data:  PesoVacio
## A = 2.8001, p-value = 4.542e-07
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia

Rpm pico

#HO: 
#H1: NO cumple con 

ad.test(dtarpm_pico)
## 
##  Anderson-Darling normality test
## 
## data:  dtarpm_pico
## A = 2.0644, p-value = 2.878e-05
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia

Mpg ciudad

ad.test(dtampg_ciudad)
## 
##  Anderson-Darling normality test
## 
## data:  dtampg_ciudad
## A = 2.082, p-value = 2.606e-05
##No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia

Mpg autopista

ad.test(dtampg_autopista)
## 
##  Anderson-Darling normality test
## 
## data:  dtampg_autopista
## A = 1.4759, p-value = 0.0008068
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia

Altura

ad.test(dtaAltura)
## 
##  Anderson-Darling normality test
## 
## data:  dtaAltura
## A = 1.0331, p-value = 0.00999
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia

Longitud

ad.test(dtaLongitud)
## 
##  Anderson-Darling normality test
## 
## data:  dtaLongitud
## A = 1.5322, p-value = 0.000586
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia

Anchura

ad.test(dtaAnchura)
## 
##  Anderson-Darling normality test
## 
## data:  dtaAnchura
## A = 5.0263, p-value = 1.816e-12
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia

Carrera

ad.test(dtaCarrera)
## 
##  Anderson-Darling normality test
## 
## data:  dtaCarrera
## A = 4.1089, p-value = 2.977e-10
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia

Compresion

ad.test(dtaCompresion)
## 
##  Anderson-Darling normality test
## 
## data:  dtaCompresion
## A = 45.111, p-value < 2.2e-16
#No sigue una distribucion normal puesto que el pValue es menor que el nivel de significancia

Distribucion de Possion HO: Si cumple con la distribucion Poisson H1: No cumple con la distribucion Poisson Diremos que nuestro nivel de significancia es 0.05 Si el valor de probabilidad (p-value) que obtenemos por la prueba es menor a 0.05 diremos que “nuestros datos no siguen una distribución normal”. Si el valor de probabilidad es mayor a 0.05, diremos que “nuestros datos sí siguen una distribución de possion”.

Calibre

require(vcd)
## Loading required package: vcd
## Loading required package: grid
gfCalibre=goodfit(dtaCalibre, type="poisson", method= "MinChisq")
summary(gfCalibre)
## Warning in summary.goodfit(gfCalibre): Chi-squared approximation may be
## incorrect
## 
##   Goodness-of-fit test for poisson distribution
## 
##               X^2 df P(> X^2)
## Pearson 0.7994124  2 0.670517
#Sigue la distribucion de poision puesto que el p-value es mayor al nivel de significancia

Tamano Motor

gfTamano<-goodfit(TamañoMotor ,type= "poisson", method= "MinChisq")
## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value

## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value

## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value

## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value

## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value

## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value

## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value
summary(gfTamano)
## Warning in summary.goodfit(gfTamano): Chi-squared approximation may be incorrect
## 
##   Goodness-of-fit test for poisson distribution
## 
##                  X^2  df P(> X^2)
## Pearson 3.789555e+27 325        0
#No sigue una distribucion de poision por que el pValue es menor que el nivel de significancia 

Base rueda

gfBase<-goodfit(BaseRuedas ,type= "poisson", method= "MinChisq")
## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value
summary(gfBase)
## Warning in summary.goodfit(gfBase): Chi-squared approximation may be incorrect
## 
##   Goodness-of-fit test for poisson distribution
## 
##              X^2  df    P(> X^2)
## Pearson 169.6616 119 0.001591362
#No sigue una distribucion de poision por que el pValue es menor que el nivel de significancia 

Mpg ciudad

#HO: 
#H1: NO cumple con 

gf<-goodfit(dtampg_ciudad ,type= "poisson", method= "MinChisq")
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
## 
##   Goodness-of-fit test for poisson distribution
## 
##              X^2 df     P(> X^2)
## Pearson 369.6869 48 3.197751e-51
#No sigue una distribucion de poision por que el pValue es menor que el nivel de significancia 

Mpg autopista

#HO: 
#H1: NO cumple con 
gf<-goodfit(dtampg_autopista ,type= "poisson", method= "MinChisq")
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
## 
##   Goodness-of-fit test for poisson distribution
## 
##              X^2 df     P(> X^2)
## Pearson 198.3066 53 1.189057e-18
#No sigue una distribucion de poision por que el pValue es menor que el nivel de significancia 

Altura

gf<-goodfit(dtaAltura,type= "poisson", method= "MinChisq")
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
## 
##   Goodness-of-fit test for poisson distribution
## 
##              X^2 df   P(> X^2)
## Pearson 81.25059 58 0.02366112
#No sigue una distribucion de poision por que el pValue es menor que el nivel de significancia 

Longitud

gf<-goodfit(dtaLongitud ,type= "poisson", method= "MinChisq")
## Warning in optimize(chi2, range(count)): NA/Inf replaced by maximum positive
## value
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
## 
##   Goodness-of-fit test for poisson distribution
## 
##              X^2  df  P(> X^2)
## Pearson 173.5824 207 0.9560813
#Sigue la distribucion de poision puesto que el p-value es mayor al nivel de significancia

Anchura

gf<-goodfit(dtaAnchura ,type= "poisson", method= "MinChisq")
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
## 
##   Goodness-of-fit test for poisson distribution
## 
##              X^2 df  P(> X^2)
## Pearson 40.25853 71 0.9987793
#Sigue la distribucion de poision puesto que el p-value es mayor al nivel de significancia

Carrera

gf<-goodfit(dtaCarrera ,type= "poisson", method= "MinChisq")
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
## 
##   Goodness-of-fit test for poisson distribution
## 
##              X^2 df  P(> X^2)
## Pearson 3.395694  3 0.3345444
#Sigue la distribucion de poision puesto que el p-value es mayor al nivel de significancia

Compresion

gf<-goodfit(dtaCompresion ,type= "poisson", method= "MinChisq")
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
## 
##   Goodness-of-fit test for poisson distribution
## 
##              X^2 df     P(> X^2)
## Pearson 104.6892 22 9.677662e-13
##No sigue una distribucion de poision por que el pValue es menor que el nivel de significancia

Tabla de contingencia Esta tabla nos cuenta las observaciones por múltiples variables categóricas.

#Variable Marca y estilo de carroceria 
tabla_dta1=table(dtaMarca,dtaCarroceria)
tabla_cont1=addmargins(tabla_dta1,c(1,2))
tabla_cont1
##                dtaCarroceria
## dtaMarca        convertible hardtop hatchback sedan wagon Sum
##   alfa-romero             2       0         1     0     0   3
##   audi                    0       0         1     5     1   7
##   bmw                     0       0         0     8     0   8
##   chevrolet               0       0         2     1     0   3
##   dodge                   0       0         5     3     1   9
##   honda                   0       0         7     5     1  13
##   isuzu                   0       0         1     3     0   4
##   jaguar                  0       0         0     3     0   3
##   mazda                   0       0        10     7     0  17
##   mercedes-benz           1       2         0     4     1   8
##   mercury                 0       0         1     0     0   1
##   mitsubishi              0       0         9     4     0  13
##   nissan                  0       1         5     9     3  18
##   peugot                  0       0         0     7     4  11
##   plymouth                0       0         4     2     1   7
##   porsche                 1       2         2     0     0   5
##   renault                 0       0         1     0     1   2
##   saab                    0       0         3     3     0   6
##   subaru                  0       0         3     5     4  12
##   toyota                  1       3        14    10     4  32
##   volkswagen              1       0         1     9     1  12
##   volvo                   0       0         0     8     3  11
##   Sum                     6       8        70    96    25 205
#Variable tipo de combustible y sistema de combustible
tabla_dta2=table(dtaCombustible,dtaSistemaCombustible)
tabla_cont2=addmargins(tabla_dta2,c(1,2))
tabla_cont2
##               dtaSistemaCombustible
## dtaCombustible 1bbl 2bbl 4bbl idi mfi mpfi spdi spfi Sum
##         diesel    0    0    0  20   0    0    0    0  20
##         gas      11   66    3   0   1   94    9    1 185
##         Sum      11   66    3  20   1   94    9    1 205
#Variable Marca y Sistema de combustible 
tabla3=table(dtaMarca,dtaCombustible)
tabla3=addmargins(tabla3,c(1,2))
tabla3
##                dtaCombustible
## dtaMarca        diesel gas Sum
##   alfa-romero        0   3   3
##   audi               0   7   7
##   bmw                0   8   8
##   chevrolet          0   3   3
##   dodge              0   9   9
##   honda              0  13  13
##   isuzu              0   4   4
##   jaguar             0   3   3
##   mazda              2  15  17
##   mercedes-benz      4   4   8
##   mercury            0   1   1
##   mitsubishi         0  13  13
##   nissan             1  17  18
##   peugot             5   6  11
##   plymouth           0   7   7
##   porsche            0   5   5
##   renault            0   2   2
##   saab               0   6   6
##   subaru             0  12  12
##   toyota             3  29  32
##   volkswagen         4   8  12
##   volvo              1  10  11
##   Sum               20 185 205

Regresion Lineal

Precios en relaci[on con los caballos de fuerzas del motor

Modelo1 = data.frame(dtaPrecio,dtaCaballos)
modRegresion1 = lm(dtaPrecio ~ dtaCaballos , data = Modelo1, na.action = na.exclude)
summary(modRegresion1)
## 
## Call:
## lm(formula = dtaPrecio ~ dtaCaballos, data = Modelo1, na.action = na.exclude)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -27729  -2460  -1038   1837  20159 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -2526.243   1016.140  -2.486   0.0137 *  
## dtaCaballos   150.911      9.117  16.553   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5146 on 203 degrees of freedom
## Multiple R-squared:  0.5744, Adjusted R-squared:  0.5723 
## F-statistic:   274 on 1 and 203 DF,  p-value: < 2.2e-16
B0 = modRegresion1$coefficients[1]
B0 = round(B0,2)
B0
## (Intercept) 
##    -2526.24
B1 = round(modRegresion1$coefficients[2],2)
B1
## dtaCaballos 
##      150.91
plot(dtaCaballos, dtaPrecio, xlab='Caballos Fuerza', ylab='Precio' )
abline(modRegresion1)

El modelo de regresión queda de la siguiente forma Y = B0 + B1*X Y = -2526.26 + 150.91X Donde Y es una función que depende de los caballos de fuerza, es decir el precio dependerá de los caballos de fuerza. Vemos que tiene un intercepto en -2526.26 Tienen una relación creciente, es decir a mayores caballos de fuerzas mayor es el precio, este valor de precio crece a una medida de 150.91

Peso con Precio

Modelo2 = data.frame(dtaPrecio,PesoVacio)
modRegrecion2 = lm(dtaPrecio ~ PesoVacio , data = Modelo2, na.action = na.exclude)
summary(modRegrecion2)
## 
## Call:
## lm(formula = dtaPrecio ~ PesoVacio, data = Modelo2, na.action = na.exclude)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11306.7  -2035.6   -469.6   1205.8  20788.7 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.849e+04  1.580e+03  -11.71   <2e-16 ***
## PesoVacio    1.240e+01  6.058e-01   20.48   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4506 on 203 degrees of freedom
## Multiple R-squared:  0.6738, Adjusted R-squared:  0.6721 
## F-statistic: 419.2 on 1 and 203 DF,  p-value: < 2.2e-16
B0 = modRegrecion2$coefficients[1]
B0 = round(B0,2)
B0
## (Intercept) 
##   -18493.89
B1 = round(modRegrecion2$coefficients[2],2)
B1
## PesoVacio 
##      12.4
## el modelo de regrecion queda de la siguiente forma Y = B0 + B1*X  Y = -18493.89 + 12.4X Vemos que el peso del vehiculo innfluye en el precio del mismo, tienen una relacion lineal creciente , es decir que mientras mas pesado mas costoso es , crece en una medida de 12.4

plot(PesoVacio, dtaPrecio, xlab='Peso en Basio', ylab='Precio' )
abline(modRegrecion2)

Ahora analizemos que correlacion hay entre el peso de auto con los caballos de fuerza que debe ejercer el motor(su potencia) que nesecita para mover el vehiculo de dicho peso

Peso en Vacio y Caballos de fuerza

Modelo3 = data.frame(dtaCaballos,PesoVacio)
modRegrecion3 = lm(dtaCaballos ~ PesoVacio , data = Modelo3, na.action = na.exclude)
summary(modRegrecion3)
## 
## Call:
## lm(formula = dtaCaballos ~ PesoVacio, data = Modelo3, na.action = na.exclude)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -73.858 -11.959  -0.266   8.512 137.551 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -41.405724   9.173445  -4.514 1.08e-05 ***
## PesoVacio     0.056998   0.003518  16.203  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 26.16 on 203 degrees of freedom
## Multiple R-squared:  0.564,  Adjusted R-squared:  0.5618 
## F-statistic: 262.5 on 1 and 203 DF,  p-value: < 2.2e-16
B0 = modRegrecion3$coefficients[1]
B0 = round(B0,2)
B0
## (Intercept) 
##      -41.41
B1 = round(modRegrecion3$coefficients[2],2)
B1
## PesoVacio 
##      0.06
plot(PesoVacio, dtaCaballos, xlab='Peso en Basio', ylab='Caballos Fuerza' )
abline(modRegrecion3)

El modelo de regresión queda de la siguiente forma Y = B0 + B1*X Y = -41.41 + 0.06X Vemos que el peso del vehículo influye en el precio del mismo, tienen una relación lineal creciente, es decir que mientras más pesado más costoso es, crece en una medida de 12.4

Ahora encontremos un modelo que relacione todas las variables mencionadas anteriormente Precio en relación con el peso en vacío y los caballos de fuerza El modelo debe tomar la siguiente forma Y = B0 + B1X1 + B2X2 + e

modelo4 = data.frame(dtaPrecio,dtaCaballos,PesoVacio)
modelo = lm(dtaPrecio ~ dtaCaballos + PesoVacio , data = modelo4 )
summary(modelo)
## 
## Call:
## lm(formula = dtaPrecio ~ dtaCaballos + PesoVacio, data = modelo4)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -18941.0  -2133.7    -75.8   1318.7  16927.9 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.582e+04  1.540e+03 -10.271  < 2e-16 ***
## dtaCaballos  6.461e+01  1.123e+01   5.752 3.22e-08 ***
## PesoVacio    8.722e+00  8.526e-01  10.230  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4187 on 202 degrees of freedom
## Multiple R-squared:  0.7197, Adjusted R-squared:  0.7169 
## F-statistic: 259.3 on 2 and 202 DF,  p-value: < 2.2e-16
## el modelo queda
## Y = -0.0001582 + 64.61X1 + 8.722X2
## donde x1 son los caballos de fuerza y x2 son el peso en vacio, vemos que es una relacion creciente en una medida de 64.61 a razon de los caballos de fuerza y de 8.722 a razon del eso en vacio

Prueba de hipotesis Ahora hagamos una prueba de hipotesis , a traves de intervalos de confianza para para el modelo encontrado anteriormente trabajando con una confianza de 95% h0 : los coeficientes cumplen con el modelo h1: los coeficientes no cumplen con el modelo

confint(modelo, conf.level=0.95)
##                     2.5 %       97.5 %
## (Intercept) -18855.106794 -12781.81154
## dtaCaballos     42.466334     86.76356
## PesoVacio        7.040718     10.40284

Intervalos de confianza y pruebas de hipostesis

Precio

Una media

t.test(dtaPrecio, y=NULL, alternative = "two.sided", mu=0, paired=FALSE, var.equal=FALSE, conf.level = 0.95) 
## 
##  One Sample t-test
## 
## data:  dtaPrecio
## t = 24.031, df = 204, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  12123.55 14290.71
## sample estimates:
## mean of x 
##  13207.13

Dos medias

Precio - Caballos de fuerza HO:No existe diferencia entre las medias de ambas poblaciones estudiadas H1: Si existe diferencia entre estas poblaciones Nivel de significancia o alpha 0.05

t.test(dtaPrecio, dtaCaballos, alternative = "two.sided", mu=0, paired=FALSE, var.equal=FALSE, conf.level = 0.95)
## 
##  Welch Two Sample t-test
## 
## data:  dtaPrecio and dtaCaballos
## t = 23.841, df = 204.01, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  12019.28 14186.47
## sample estimates:
##  mean of x  mean of y 
## 13207.1294   104.2562
chisq.test(dtaPrecio,dtaCaballos)
## Warning in chisq.test(dtaPrecio, dtaCaballos): Chi-squared approximation may be
## incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  dtaPrecio and dtaCaballos
## X-squared = 11408, df = 10974, p-value = 0.001872
#El valor del pValue es pequeño por tanto se rechaza la hipotesis que las variables caballos de fuerza y precio sean independientes. 

Dos varianza H0: No hay diferencias entre ambas variables estudiadas(Precio y Caballos de fuerza) H1: Existe diferencias entre estas variables

Precio - Caballo de fuerzas

var.test(dtaPrecio, dtaCaballos, alternative = "two.sided",  null.value=1, conf.level = 0.95) 
## 
##  F test to compare two variances
## 
## data:  dtaPrecio and dtaCaballos
## F = 39646, num df = 204, denom df = 204, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  30107.26 52206.28
## sample estimates:
## ratio of variances 
##           39645.78
#el p-valor sale es muy pequeño: rechazaremos la hipótesis de que precio y caballo de fuerza provengan de distribuciones con la misma varianza.

Altura

Una media

t.test(dtaAltura, y=NULL, alternative = "two.sided", mu=0, paired=FALSE, var.equal=FALSE, conf.level = 0.95) 
## 
##  One Sample t-test
## 
## data:  dtaAltura
## t = 314.8, df = 204, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  53.38839 54.06137
## sample estimates:
## mean of x 
##  53.72488

Dos medias

Altura - Anchura HO:No existe diferencia entre las medias de ambas poblaciones estudiadas H1: Si existe diferencia entre estas poblaciones Nivel de significancia o alpha 0.05

t.test(dtaAltura, dtaAnchura, alternative = "two.sided", mu=0, paired=FALSE, var.equal=FALSE, conf.level = 0.95)
## 
##  Welch Two Sample t-test
## 
## data:  dtaAltura and dtaAnchura
## t = -53.646, df = 401.27, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -12.62938 -11.73647
## sample estimates:
## mean of x mean of y 
##  53.72488  65.90780

Una varianza

Altura

chisq.test(dtaAltura)
## 
##  Chi-squared test for given probabilities
## 
## data:  dtaAltura
## X-squared = 22.672, df = 204, p-value = 1

Dos varianza H0: No hay diferencias entre ambas variables estudiadas(Altura y anchura) H1: Existe diferencias entre estas variables

var.test(dtaAltura, dtaAnchura, alternative = "two.sided",  null.value=1, conf.level = 0.95) 
## 
##  F test to compare two variances
## 
## data:  dtaAltura and dtaAnchura
## F = 1.2975, num df = 204, denom df = 204, p-value = 0.06362
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.9853024 1.7085243
## sample estimates:
## ratio of variances 
##           1.297464

Prueba de Hipotesis - Mpg en autospista

En La Administración de Obama se emitió estándares para automóviles que aumentarán la eficiencia de combustible al equivalente de 54,5 millas por galón (87.7 KM por galón), en promedio, para el 2025. Para probar tal afirmación se pide a una muestra de 205 propietarios de automóviles seleccionada de de la data de 1987 que lleven un registro de los kilómetros que recorren. ¿Se podria afirmar que en el año (1987) esta lejos de las expectativas del gobierno del 2012? Utilice media y desviacion estandar de la variable, un valor P en su conclusión y use una significancia del 0.05%.

#Ho: u >= 54.5
#Ha: u < 54.5
xbarra <- mediadtampg_autopista  # Datos del problema
desvia <- sddtampg_autopista   # Datos del problema
n <- 205        # Datos del problema
mu <- 54.5     # Media de referencia
alpha<- 0.05
est <- (xbarra-mu) /(desvia/sqrt(n))
est 
## [1] -49.37684
#Valor p
pnorm(est)
## [1] 0
#Se rechaza la hipotesis nula 
#Existe suficiente evidencia estadistica para afirmar que el promedio de recorrido de Millas en el año 1987 esta muy lejos de las expectativas del año 2025.

##Hallazgos por estudiante

ROSADO ZAMBRANO VICTORIA

Inicialmente mediante el diagrama de barras podemos observar que en el año de 1987 las personas que poseían automóviles preferían utilizar gas como combustible que diésel, en la tabla de contingencia entre las variables de Combustible y Aspiración las frecuencias marginales del gas frente al diésel son mayores en relación a la aspiración estándar y turbo. En el diagrama de cajas la variable Mpg en ciudad segmentada por Combustible Observamos que el desplazamiento de las gráficas de caja hacia la izquierda indica que el combustible utilizado es un factor al momento de medir cuantas Millas por galón recorre un automóvil en ciudad, con diese recorremos más millas que con gas. Y por último relacionamos datos establecidos en el 2012 que se esperan den resultados en el 2025, para comprobar si es posible que antes se utilice el mismo promedio establecido para el 2012 (54.5 Mpg) se realizó la prueba de hipótesis, llegando a la conclusión que el ese promedio fue inalcanzable en 1987.

YEPEZ VERA TATIANA LISBETH

Esta base de datos fue elaborada en el año 1987 y con la ayuda del diagrama de barras para la variable marca podemos concluir que la marca más usada en esa época era Toyota, se hace una suposición a que esto se debe porque es el vehículo con más estilos de carrocería esto se lo puede observar con la tabla de contingencia, hay al menos unos en cada tipo, también notamos que la mayoría de los vehículos tayotas son a diésel un total de 29 y 3 son a gas, aparte de esto gracias a las pruebas de hipotesis notamos que los caballos de fuerza y el precio son variables muy dependiente, entre más caballo de fuerza tenga un vehículo mayor será su costo, esto también lo podemos verificar con el uso de regresión lineal, en donde notamos que tiene la función crece esto se debe a que su pendiente es positiva. En conclusión, a más caballo de fuerza más precio

MOREANO MARTINEZ JEAN CARLOS

La base de datos usada proviene del a?o 1987, con la ayuda de una analisis estadistico tando descriptivo e inferencial podemos concluir ciertas especificaciones que se imponian en los vehiculos o automoviles de en esa epoca, podemos darnos cuenta analizando el diagrama de barras de la variable cualitativa Ubicacion del Motor, se observa que la mayoria de vehiculos llevaba el motor en la parte delantera, teniendo una frecuencia absoluta de 202, por el contrario los motores en la parte trasera solo contiene una frecuencia absoluta de 3,podemos ver que existen varios valores aberrantes o atipicos en la variable Relacion de Compresion al igual que la variable Carrera analizando los diagramas de cajas realizado.

PITA ESTRELLA JORGE BRYAN

Tenemos que con una confianza del 95 %el coeficiente de regresión para X1 (caballos fuerza), esta entre 42.47 y 86.76 el valor que salió en el modelo fue de 64.61, lo cual cae dentro del intervalo, por lo que sí es un buen coeficiente de regresión para el modelo Tenemos que, con una confianza de 95, e intervalo en el cual se encuentra el coeficiente de regresión para x2(Peso en vacío), esta entre 7.04 y 10.40 el valor que se obtuvo en el modelo fue de 8.722 por lo que cae dentro del intervalo de confianza por lo que no existe evidencia estadística para rechazar el supuesto de que los coeficientes representan un buen modelo de regresión

Ramirez Pacheco Stefanie Belen Haciendo un análisis al diagrama de barras de ma variable estilo de carrocería, podemos observar que entre los cinco estilos, el sedan era el más predominante de la época ya que representa un 47% de las observaciones, seguido del hatchback al que le corresponde un 34%. Por otro lado, para la variable altura, hay un promedio de 53.72 y el 70% de las observaciones tienen una altura menor a 55.10 Para esta variable no se observó datos aberrantes en el diagrama de cajas. En la variable anchura, el promedio fue de 65.91, la mediana de 65.5 y la moda fue de 63.8 con un total de 24 observaciones. Además se observó una varianza pequeña de 4.6, el 25% de las observaciones toma valores menores o iguales a 64.1. En este caso el diagrama de cajas no fue tan grande, lo cual significa que no existe mucha dispersión de datos aunque existan valores aberrantes. Finalmente, de la variable longitud, pudimos observar en el histograma de frecuencias que la distribución es casi simétrica, el 40% de las observaciones registran valores menores o iguales a 171.5 y no hay mucha dispersión entre los datos.