TRANSFORMACION Y ESTANDARIZACION DE VARIABLES

CARGAR CONJUNTO DE DATOS

telco <- read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Estadistica-R/master/Caso_telefon%C3%ADa.csv", sep=";", encoding="latin1", stringsAsFactors = TRUE)
head(telco)
##   Código    Género  Sucursal Reclamos Llamadas Edad Minutos Monto Tiempo
## 1 CLIPE1 Masculino Suc. Este        5        7   27    33.0  90.7   16.9
## 2 CLIPE2  Femenino Suc. Este        2        4   28    31.7  95.7    1.5
## 3 CLIPE3 Masculino Suc. Este        5        7   28    39.9 114.5    4.0
## 4 CLIPE4 Masculino Suc. Este        3        5   21    39.3 106.0   14.5
## 5 CLIPE5  Femenino Suc. Este        2        3   29    37.8  99.0    2.7
## 6 CLIPE6 Masculino Suc. Este        3        4   26    43.7  90.2   11.5
##     Opinión
## 1   Regular
## 2     Bueno
## 3    Pésimo
## 4 Muy Bueno
## 5    Pésimo
## 6     Bueno

TRANSFORMACION RAIZ CUADRADA

VARIABLE RECLAMOS

ORIGINAL

hist(telco$Reclamos, 12)

RAIZ CUADRADA

sqrt(telco$Reclamos)
##  [1] 2.236068 1.414214 2.236068 1.732051 1.414214 1.732051 2.449490 1.414214
##  [9] 1.732051 1.000000 1.732051 1.732051 1.414214 1.000000 2.000000 1.732051
## [17] 1.732051 2.000000 2.000000 1.000000 1.732051 1.000000 2.645751 1.732051
## [25] 1.732051 1.414214 2.000000 2.236068 1.000000 2.236068 1.414214 1.732051
## [33] 1.732051 2.000000 1.000000 1.414214 1.414214 1.000000 2.000000 2.000000
## [41] 1.732051 1.000000 1.732051 1.000000 1.414214 2.645751 1.732051 2.236068
## [49] 1.732051 2.645751 2.828427 2.236068 2.828427 2.000000 2.000000 1.732051
## [57] 2.645751 2.236068 1.414214 1.732051 2.828427 2.000000 2.828427 3.316625
## [65] 2.236068 2.000000 3.000000 2.828427 1.732051 1.414214 1.000000 1.000000
## [73] 1.732051 2.000000 1.414214 1.000000 1.414214 1.732051 1.414214 1.414214

GRAFICAMENTE

hist(sqrt(telco$Reclamos))

VARIABLE LLAMADAS

ORIGINAL

hist(telco$Llamadas, 12)

RAIZ CUADRADA

sqrt(telco$Llamadas)
##  [1] 2.645751 2.000000 2.645751 2.236068 1.732051 2.000000 2.828427 2.000000
##  [9] 2.449490 2.000000 2.236068 1.732051 2.000000 1.414214 2.236068 2.236068
## [17] 2.449490 2.236068 2.000000 2.449490 2.645751 1.000000 3.000000 2.236068
## [25] 2.449490 2.449490 2.449490 2.645751 1.000000 2.645751 2.000000 2.236068
## [33] 1.732051 2.000000 1.000000 1.732051 1.732051 1.414214 2.645751 2.236068
## [41] 2.828427 1.414214 2.828427 1.000000 1.732051 2.828427 2.000000 2.828427
## [49] 2.645751 2.828427 3.000000 2.236068 2.828427 2.000000 2.236068 2.000000
## [57] 2.645751 2.236068 1.732051 2.000000 2.828427 2.000000 2.828427 3.605551
## [65] 2.449490 2.645751 3.000000 2.828427 1.732051 1.414214 1.000000 1.000000
## [73] 1.732051 2.236068 1.414214 1.414214 1.732051 1.732051 1.732051 1.414214

GRAFICAMENTE

hist(sqrt(telco$Llamadas))

VARIABLE MINUTOS

ORIGINAL

hist(telco$Minutos, 12)

RAIZ CUADRADA

sqrt(telco$Minutos)
##  [1] 5.744563 5.630275 6.316645 6.268971 6.148170 6.610598 6.789698 6.131884
##  [9] 6.480741 6.557439 6.693280 6.131884 5.196152 5.486347 5.147815 5.319774
## [17] 5.449771 5.700877 4.969909 4.979960 5.674504 5.167204 5.603570 5.576737
## [25] 5.167204 5.839521 5.215362 5.329165 7.042727 5.347897 6.107373 5.822371
## [33] 6.164414 6.457554 6.188699 6.971370 5.761944 6.403124 6.457554 5.882176
## [41] 6.892024 5.916080 6.066300 6.603030 5.932959 6.148170 6.140033 6.442049
## [49] 7.092249 5.796551 7.211103 7.099296 6.016644 6.308724 7.886698 6.752777
## [57] 6.971370 6.300794 5.069517 6.356099 6.804410 6.603030 7.429670 6.252999
## [65] 7.183314 6.640783 6.244998 7.224957 7.321202 6.024948 4.929503 5.639149
## [73] 5.744563 5.630275 5.603570 5.186521 4.183300 5.468089 6.024948 5.639149

GRAFICAMENTE

hist(sqrt(telco$Minutos))

VARIABLE MONTO

ORIGINAL

hist(telco$Monto, 12)

RAIZ CUADRADA

sqrt(telco$Monto)
##  [1]  9.523655  9.782638 10.700467 10.295630  9.949874  9.497368 10.124228
##  [8]  9.602083 10.492855  9.823441  9.396808  9.252027  9.471008  9.423375
## [15]  9.165151  9.176056  9.576012  8.608136  9.423375  9.570789  8.944272
## [22]  9.402127  8.860023  9.396808  9.252027  9.412757  8.876936  9.033272
## [29]  9.289779  9.154234  9.523655  9.782638  9.964939  9.126883  9.864076
## [36]  9.099451  9.710819  9.823441  8.876936 10.009995  9.082951  9.088454
## [43]  9.721111  9.289779  9.396808  9.148770  9.154234  9.170605  9.121403
## [50]  9.208692  9.944848 10.913295 10.168579 10.469002 10.295630 10.029955
## [57] 10.148892 10.511898 10.601887  9.523655 10.606602 10.406729 10.295630
## [64]  9.949874  9.497368 10.124228  9.602083 10.492855  9.823441  9.591663
## [71]  9.176056  9.402127  8.860023  9.396808  9.252027  9.412757  8.876936
## [78]  9.033272  9.289779  9.154234

GRAFICAMENTE

hist(sqrt(telco$Monto))

VARIABLE TIEMPO

ORIGINAL

hist(telco$Tiempo, 12)

RAIZ CUADRADA

sqrt(telco$Tiempo)
##  [1] 4.1109610 1.2247449 2.0000000 3.8078866 1.6431677 3.3911650 0.7071068
##  [8] 1.1401754 2.3021729 1.0954451 1.3038405 4.5276926 0.8944272 0.6324555
## [15] 1.6733201 2.4083189 2.0493902 0.8944272 3.0822070 1.6124515 2.1213203
## [22] 1.1401754 1.6124515 2.3452079 1.6431677 3.3911650 0.7071068 1.1401754
## [29] 2.3021729 1.0954451 1.3038405 4.5276926 1.8165902 0.5477226 1.3038405
## [36] 4.0620192 1.9748418 5.1575188 1.5491933 0.5477226 1.6431677 4.7644517
## [43] 2.1213203 2.1447611 2.8635642 2.2803509 2.0000000 3.5355339 4.8682646
## [50] 1.6431677 6.0000000 0.7071068 1.2649111 1.3038405 0.8944272 1.4832397
## [57] 2.1908902 1.4832397 2.0000000 4.1109610 1.2247449 1.6733201 1.8708287
## [64] 2.0000000 3.8078866 1.7606817 2.1679483 1.9748418 2.5690465 3.4205263
## [71] 1.6124515 2.3021729 1.0954451 1.3038405 4.5276926 1.8165902 0.5477226
## [78] 1.3038405 1.4832397 2.0000000

GRAFICAMENTE

hist(sqrt(telco$Tiempo))

TRANSFORMACION EXPONENCIAL

VARIABLE RECLAMOS

reclamo_exp <- exp(telco$Reclamos)
hist(reclamo_exp)

VARIABLE LLAMADAS

llamada_exp <- exp(telco$Llamadas)
hist(llamada_exp)

## VARIABLE MINUTOS

minutos_exp <- exp(telco$Minutos)
hist(minutos_exp)

VARIABLE MONTO

monto_exp <- exp(telco$Monto)
hist(monto_exp)

VARIABLE TIEMPO

tiempo_exp <- exp(telco$Tiempo)
hist(tiempo_exp)

TRANSFORMACION LOGARITMICA

VARIABLE RECLAMOS

log(telco$Reclamos)
##  [1] 1.6094379 0.6931472 1.6094379 1.0986123 0.6931472 1.0986123 1.7917595
##  [8] 0.6931472 1.0986123 0.0000000 1.0986123 1.0986123 0.6931472 0.0000000
## [15] 1.3862944 1.0986123 1.0986123 1.3862944 1.3862944 0.0000000 1.0986123
## [22] 0.0000000 1.9459101 1.0986123 1.0986123 0.6931472 1.3862944 1.6094379
## [29] 0.0000000 1.6094379 0.6931472 1.0986123 1.0986123 1.3862944 0.0000000
## [36] 0.6931472 0.6931472 0.0000000 1.3862944 1.3862944 1.0986123 0.0000000
## [43] 1.0986123 0.0000000 0.6931472 1.9459101 1.0986123 1.6094379 1.0986123
## [50] 1.9459101 2.0794415 1.6094379 2.0794415 1.3862944 1.3862944 1.0986123
## [57] 1.9459101 1.6094379 0.6931472 1.0986123 2.0794415 1.3862944 2.0794415
## [64] 2.3978953 1.6094379 1.3862944 2.1972246 2.0794415 1.0986123 0.6931472
## [71] 0.0000000 0.0000000 1.0986123 1.3862944 0.6931472 0.0000000 0.6931472
## [78] 1.0986123 0.6931472 0.6931472

GRAFICAMENTE

hist(log(telco$Reclamos))

BASE 2

hist(log(telco$Reclamos, base=2))

VARIABLE LLAMADAS

log(telco$Llamadas)
##  [1] 1.9459101 1.3862944 1.9459101 1.6094379 1.0986123 1.3862944 2.0794415
##  [8] 1.3862944 1.7917595 1.3862944 1.6094379 1.0986123 1.3862944 0.6931472
## [15] 1.6094379 1.6094379 1.7917595 1.6094379 1.3862944 1.7917595 1.9459101
## [22] 0.0000000 2.1972246 1.6094379 1.7917595 1.7917595 1.7917595 1.9459101
## [29] 0.0000000 1.9459101 1.3862944 1.6094379 1.0986123 1.3862944 0.0000000
## [36] 1.0986123 1.0986123 0.6931472 1.9459101 1.6094379 2.0794415 0.6931472
## [43] 2.0794415 0.0000000 1.0986123 2.0794415 1.3862944 2.0794415 1.9459101
## [50] 2.0794415 2.1972246 1.6094379 2.0794415 1.3862944 1.6094379 1.3862944
## [57] 1.9459101 1.6094379 1.0986123 1.3862944 2.0794415 1.3862944 2.0794415
## [64] 2.5649494 1.7917595 1.9459101 2.1972246 2.0794415 1.0986123 0.6931472
## [71] 0.0000000 0.0000000 1.0986123 1.6094379 0.6931472 0.6931472 1.0986123
## [78] 1.0986123 1.0986123 0.6931472

GRAFICAMENTE

hist(log(telco$Llamadas))

BASE 2

hist(log(telco$Llamadas, base=2))

## VARIABLE MINUTOS

log(telco$Minutos)
##  [1] 3.496508 3.456317 3.686376 3.671225 3.632309 3.777348 3.830813 3.627004
##  [9] 3.737670 3.761200 3.802208 3.627004 3.295837 3.404525 3.277145 3.342862
## [17] 3.391147 3.481240 3.206803 3.210844 3.471966 3.284664 3.446808 3.437208
## [25] 3.284664 3.529297 3.303217 3.346389 3.903991 3.353407 3.618993 3.523415
## [33] 3.637586 3.730501 3.645450 3.883624 3.502550 3.713572 3.730501 3.543854
## [41] 3.860730 3.555348 3.605498 3.775057 3.561046 3.632309 3.629660 3.725693
## [49] 3.918005 3.514526 3.951244 3.919991 3.589059 3.683867 4.130355 3.819908
## [57] 3.883624 3.681351 3.246491 3.698830 3.835142 3.775057 4.010963 3.666122
## [65] 3.943522 3.786460 3.663562 3.955082 3.981549 3.591818 3.190476 3.459466
## [73] 3.496508 3.456317 3.446808 3.292126 2.862201 3.397858 3.591818 3.459466

GRAFICAMENTE

hist(log(telco$Minutos))

BASE 2

hist(log(telco$Minutos, base=2))

VARIABLE MONTO

log(telco$Monto)
##  [1] 4.507557 4.561218 4.740575 4.663439 4.595120 4.502029 4.629863 4.523960
##  [9] 4.701389 4.569543 4.480740 4.449685 4.496471 4.486387 4.430817 4.433195
## [17] 4.518522 4.305416 4.486387 4.517431 4.382027 4.481872 4.363099 4.480740
## [25] 4.449685 4.484132 4.366913 4.401829 4.457830 4.428433 4.507557 4.561218
## [33] 4.598146 4.422449 4.577799 4.416428 4.546481 4.569543 4.366913 4.607168
## [41] 4.412798 4.414010 4.548600 4.457830 4.480740 4.427239 4.428433 4.432007
## [49] 4.421247 4.440296 4.594109 4.779963 4.638605 4.696837 4.663439 4.611152
## [57] 4.634729 4.705016 4.722064 4.507557 4.722953 4.684905 4.663439 4.595120
## [65] 4.502029 4.629863 4.523960 4.701389 4.569543 4.521789 4.433195 4.481872
## [73] 4.363099 4.480740 4.449685 4.484132 4.366913 4.401829 4.457830 4.428433

GRAFICAMENTE

hist(log(telco$Monto))

BASE 2

hist(log(telco$Monto, base=2))

VARIABLE TIEMPO

log(telco$Tiempo)
##  [1]  2.8273136  0.4054651  1.3862944  2.6741486  0.9932518  2.4423470
##  [7] -0.6931472  0.2623643  1.6677068  0.1823216  0.5306283  3.0204249
## [13] -0.2231436 -0.9162907  1.0296194  1.7578579  1.4350845 -0.2231436
## [19]  2.2512918  0.9555114  1.5040774  0.2623643  0.9555114  1.7047481
## [25]  0.9932518  2.4423470 -0.6931472  0.2623643  1.6677068  0.1823216
## [31]  0.5306283  3.0204249  1.1939225 -1.2039728  0.5306283  2.8033604
## [37]  1.3609766  3.2809112  0.8754687 -1.2039728  0.9932518  3.1223649
## [43]  1.5040774  1.5260563  2.1041342  1.6486586  1.3862944  2.5257286
## [49]  3.1654750  0.9932518  3.5835189 -0.6931472  0.4700036  0.5306283
## [55] -0.2231436  0.7884574  1.5686159  0.7884574  1.3862944  2.8273136
## [61]  0.4054651  1.0296194  1.2527630  1.3862944  2.6741486  1.1314021
## [67]  1.5475625  1.3609766  1.8870696  2.4595888  0.9555114  1.6677068
## [73]  0.1823216  0.5306283  3.0204249  1.1939225 -1.2039728  0.5306283
## [79]  0.7884574  1.3862944

GRAFICAMENTE

hist(log(telco$Tiempo))

BASE 2

hist(log(telco$Tiempo, base=2))

COMPARACION DE TRANSFORMACIONES

VARIABLE RECLAMOS

reclamos_sqrt <- sqrt(telco$Reclamos)
reclamos_exp <- exp(telco$Reclamos)
reclamos_ln <- log(telco$Reclamos)
reclamos_log2 <- log(telco$Reclamos, base=2)
reclamos_log5 <- log(telco$Reclamos, base=5)

GRAFICAMENTE

par(mfrow=c(3,2))
hist(telco$Reclamos)
hist(reclamos_sqrt)
hist(reclamos_exp)
hist(reclamos_ln)
hist(reclamos_log2)
hist(reclamos_log5)

par(mfrow=c(1,1))

GRAFICA DE DENSIDAD

par(mfrow=c(3,2))
plot(density(telco$Reclamos), main = "Distribucion de Reclamos originales")
plot(density(reclamos_sqrt), main = "Distribucion de Reclamos transformadas - sqrt")
plot(density(reclamos_exp), main = "Distribucion de Reclamos transformadas - exp")
plot(density(reclamos_ln), main = "Distribucion de Reclamos transformadas - ln")
plot(density(reclamos_log2), main = "Distribucion de Reclamos transformadas - log2")
plot(density(reclamos_log5), main = "Distribucion de Reclamos transformadas - log5")

par(mfrow=c(1,1))

VARIABLE LLAMADAS

llamadas_sqrt <- sqrt(telco$Llamadas)
llamadas_exp <- exp(telco$Llamadas)
llamadas_ln <- log(telco$Llamadas)
llamadas_log2 <- log(telco$Llamadas, base=2)
llamadas_log5 <- log(telco$Llamadas, base=5)

GRAFICAMENTE

par(mfrow=c(3,2))
hist(telco$Llamadas)
hist(llamadas_sqrt)
hist(llamadas_exp)
hist(llamadas_ln)
hist(llamadas_log2)
hist(llamadas_log5)

par(mfrow=c(1,1))

GRAFICA DE DENSIDAD

par(mfrow=c(3,2))
plot(density(telco$Llamadas), main = "Distribucion de Llamadas originales")
plot(density(llamadas_sqrt), main = "Distribucion de Llamadas transformadas - sqrt")
plot(density(llamadas_exp), main = "Distribucion de Llamadas transformadas - exp")
plot(density(llamadas_ln), main = "Distribucion de Llamadas transformadas - ln")
plot(density(llamadas_log2), main = "Distribucion de Llamadas transformadas - log2")
plot(density(llamadas_log5), main = "Distribucion de Llamadas transformadas - log5")

par(mfrow=c(1,1))

VARIABLE MINUTOS

minutos_sqrt <- sqrt(telco$Minutos)
minutos_exp <- exp(telco$Minutos)
minutos_ln <- log(telco$Minutos)
minutos_log2 <- log(telco$Minutos, base=2)
minutos_log5 <- log(telco$Minutos, base=5)

GRAFICAMENTE

par(mfrow=c(3,2))
hist(telco$Minutos)
hist(minutos_sqrt)
hist(minutos_exp)
hist(minutos_ln)
hist(minutos_log2)
hist(minutos_log5)

par(mfrow=c(1,1))

GRAFICA DE DENSIDAD

par(mfrow=c(3,2))
plot(density(telco$Minutos), main = "Distribucion de Minutos originales")
plot(density(minutos_sqrt), main = "Distribucion de Minutos transformadas - sqrt")
plot(density(minutos_exp), main = "Distribucion de Minutos transformadas - exp")
plot(density(minutos_ln), main = "Distribucion de Minutos transformadas - ln")
plot(density(minutos_log2), main = "Distribucion de Minutos transformadas - log2")
plot(density(minutos_log5), main = "Distribucion de Minutos transformadas - log5")

par(mfrow=c(1,1))

VARIABLE MONTO

monto_sqrt <- sqrt(telco$Monto)
monto_exp <- exp(telco$Monto)
monto_ln <- log(telco$Monto)
monto_log2 <- log(telco$Monto, base=2)
monto_log5 <- log(telco$Monto, base=5)

GRAFICAMENTE

par(mfrow=c(3,2))
hist(telco$Monto)
hist(monto_sqrt)
hist(monto_exp)
hist(monto_ln)
hist(monto_log2)
hist(monto_log5)

par(mfrow=c(1,1))

GRAFICA DE DENSIDAD

par(mfrow=c(3,2))
plot(density(telco$Monto), main = "Distribucion de Monto originales")
plot(density(monto_sqrt), main = "Distribucion de Monto transformadas - sqrt")
plot(density(monto_exp), main = "Distribucion de Monto transformadas - exp")
plot(density(monto_ln), main = "Distribucion de Monto transformadas - ln")
plot(density(monto_log2), main = "Distribucion de Monto transformadas - log2")
plot(density(monto_log5), main = "Distribucion de Monto transformadas - log5")

par(mfrow=c(1,1))

VARIABLE TIEMPO

tiempo_sqrt <- sqrt(telco$Tiempo)
tiempo_exp <- exp(telco$Tiempo)
tiempo_ln <- log(telco$Tiempo)
tiempo_log2 <- log(telco$Tiempo, base=2)
tiempo_log5 <- log(telco$Tiempo, base=5)

GRAFICAMENTE

par(mfrow=c(3,2))
hist(telco$Tiempo)
hist(tiempo_sqrt)
hist(tiempo_exp)
hist(tiempo_ln)
hist(tiempo_log2)
hist(tiempo_log5)

par(mfrow=c(1,1))

GRAFICA DE DENSIDAD

par(mfrow=c(3,2))
plot(density(telco$Tiempo), main = "Distribucion de Tiempo originales")
plot(density(tiempo_sqrt), main = "Distribucion de Tiempo transformadas - sqrt")
plot(density(tiempo_exp), main = "Distribucion de Tiempo transformadas - exp")
plot(density(tiempo_ln), main = "Distribucion de Tiempo transformadas - ln")
plot(density(tiempo_log2), main = "Distribucion de Tiempo transformadas - log2")
plot(density(tiempo_log5), main = "Distribucion de Tiempo transformadas - log5")

par(mfrow=c(1,1))