En la actualiad, encontramos varias empresas de ceulares como lo puede ser Apple, Samsung, Redmi,entre otras compañías, las cuales crean diferentes gamas de celulares, como lo puede ser la gama baja, media, alta y muy alta, las cuales se clasifican dependiendo de la velocidad del microprocesador, los megapixeles de las cámaras tanto frontal como de la trasera, el número de nucleos del procesador, la ram, el tiempo de carga y demás variables. Por lo que en el presente análisis descubriremos como se comportan los datos, y a partir de ahí enfocar la relación del precio final junto con las demás varaibles.
battery_power
:
clock_speed
:
int_memory
:
ram
:
fc
:
pc
:
px_height
:
px_width
:
m_dep
:
mobile_wt
:
sc_h
:
sc_w
:
talk_time
:
bluetooth
:
dual_sim
:
three_g
:
four_g
:
touch_screen
:
wifi
:
n_cores
:
price_range
:
Importamos la base de datos y renombramos para trabajar en un análisis descriptivo
## # A tibble: 6 × 21
## battery_power bluetooth clock_speed int_memory n_cores ram dual_sim three_g
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 842 0 2.2 7 2 2549 0 0
## 2 1021 1 0.5 53 3 2631 1 1
## 3 563 1 0.5 41 5 2603 1 1
## 4 615 1 2.5 10 6 2769 0 1
## 5 1821 1 1.2 44 2 1411 0 1
## 6 1859 0 0.5 22 1 1067 1 1
## # ℹ 13 more variables: four_g <dbl>, fc <dbl>, pc <dbl>, px_height <dbl>,
## # px_width <dbl>, m_dep <dbl>, mobile_wt <dbl>, sc_h <dbl>, sc_w <dbl>,
## # talk_time <dbl>, touch_screen <dbl>, wifi <dbl>, price_range <dbl>
## # A tibble: 6 × 21
## battery_power bluetooth clock_speed int_memory n_cores ram dual_sim three_g
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 858 0 2.2 50 1 3978 0 1
## 2 794 1 0.5 2 6 668 1 1
## 3 1965 1 2.6 39 4 2032 1 1
## 4 1911 0 0.9 36 8 3057 1 1
## 5 1512 0 0.9 46 5 869 0 1
## 6 510 1 2 45 6 3919 1 1
## # ℹ 13 more variables: four_g <dbl>, fc <dbl>, pc <dbl>, px_height <dbl>,
## # px_width <dbl>, m_dep <dbl>, mobile_wt <dbl>, sc_h <dbl>, sc_w <dbl>,
## # talk_time <dbl>, touch_screen <dbl>, wifi <dbl>, price_range <dbl>
## [1] 2000 21
## battery_power bluetooth clock_speed int_memory n_cores
## 0 0 0 0 0
## ram dual_sim three_g four_g fc
## 0 0 0 0 0
## pc px_height px_width m_dep mobile_wt
## 0 0 0 0 0
## sc_h sc_w talk_time touch_screen wifi
## 0 0 0 0 0
## price_range
## 0
## battery_power bluetooth clock_speed int_memory
## Min. : 501.0 Min. :0.000 Min. :0.500 Min. : 2.00
## 1st Qu.: 851.8 1st Qu.:0.000 1st Qu.:0.700 1st Qu.:16.00
## Median :1226.0 Median :0.000 Median :1.500 Median :32.00
## Mean :1238.5 Mean :0.495 Mean :1.522 Mean :32.05
## 3rd Qu.:1615.2 3rd Qu.:1.000 3rd Qu.:2.200 3rd Qu.:48.00
## Max. :1998.0 Max. :1.000 Max. :3.000 Max. :64.00
## n_cores ram dual_sim three_g
## Min. :1.000 Min. : 256 Min. :0.0000 Min. :0.0000
## 1st Qu.:3.000 1st Qu.:1208 1st Qu.:0.0000 1st Qu.:1.0000
## Median :4.000 Median :2146 Median :1.0000 Median :1.0000
## Mean :4.521 Mean :2124 Mean :0.5095 Mean :0.7615
## 3rd Qu.:7.000 3rd Qu.:3064 3rd Qu.:1.0000 3rd Qu.:1.0000
## Max. :8.000 Max. :3998 Max. :1.0000 Max. :1.0000
## four_g fc pc px_height
## Min. :0.0000 Min. : 0.000 Min. : 0.000 Min. : 0.0
## 1st Qu.:0.0000 1st Qu.: 1.000 1st Qu.: 5.000 1st Qu.: 282.8
## Median :1.0000 Median : 3.000 Median :10.000 Median : 564.0
## Mean :0.5215 Mean : 4.309 Mean : 9.916 Mean : 645.1
## 3rd Qu.:1.0000 3rd Qu.: 7.000 3rd Qu.:15.000 3rd Qu.: 947.2
## Max. :1.0000 Max. :19.000 Max. :20.000 Max. :1960.0
## px_width m_dep mobile_wt sc_h
## Min. : 500.0 Min. :0.1000 Min. : 80.0 Min. : 5.00
## 1st Qu.: 874.8 1st Qu.:0.2000 1st Qu.:109.0 1st Qu.: 9.00
## Median :1247.0 Median :0.5000 Median :141.0 Median :12.00
## Mean :1251.5 Mean :0.5018 Mean :140.2 Mean :12.31
## 3rd Qu.:1633.0 3rd Qu.:0.8000 3rd Qu.:170.0 3rd Qu.:16.00
## Max. :1998.0 Max. :1.0000 Max. :200.0 Max. :19.00
## sc_w talk_time touch_screen wifi
## Min. : 0.000 Min. : 2.00 Min. :0.000 Min. :0.000
## 1st Qu.: 2.000 1st Qu.: 6.00 1st Qu.:0.000 1st Qu.:0.000
## Median : 5.000 Median :11.00 Median :1.000 Median :1.000
## Mean : 5.767 Mean :11.01 Mean :0.503 Mean :0.507
## 3rd Qu.: 9.000 3rd Qu.:16.00 3rd Qu.:1.000 3rd Qu.:1.000
## Max. :18.000 Max. :20.00 Max. :1.000 Max. :1.000
## price_range
## Min. :0.00
## 1st Qu.:0.75
## Median :1.50
## Mean :1.50
## 3rd Qu.:2.25
## Max. :3.00
De acuerdo al análisis descriptivo encontramos que 6 variables son cualitativas nominales y cuantitativas continuas son 2 y las 13 variables restantes son cuantitativas discretas.
Variables cualitativas: Nominal - Ordinal
Inicialmente vamos a convertir variables númericas a factores
Se realiza un análisis descriptivo de las variables bluetooth, doble
sim, wifi, touch_screen (pantalla táctil), en las que se observa si el
dispositivo tiene o no estás funciones (0 dispositivos que no tienen
está función y 1 cuando si), se muestra la cantidad de cada uno de ellos
con su respectivo porcentaje.
## [1] "Tabla de distribución de frecuencias: price_range"
## Frequencies
## price_range
## Type: Numeric
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## 0 500 25.00 25.00 25.00 25.00
## 1 500 25.00 50.00 25.00 50.00
## 2 500 25.00 75.00 25.00 75.00
## 3 500 25.00 100.00 25.00 100.00
## <NA> 0 0.00 100.00
## Total 2000 100.00 100.00 100.00 100.00
Se realizan las tablas de distribución para cada una de las variables:
cat(
"[1] \"Tabla de distribución de frecuencias: Doble sim\"\n"
)
## [1] "Tabla de distribución de frecuencias: Doble sim"
freq(dual_sim)
## Frequencies
## dual_sim
## Type: Numeric
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## 0 981 49.05 49.05 49.05 49.05
## 1 1019 50.95 100.00 50.95 100.00
## <NA> 0 0.00 100.00
## Total 2000 100.00 100.00 100.00 100.00
La primera tabla es de la variable Doble sim, en la que se evidencia que los dispositivos que tienen doble sim (1), son 1019, valor el cual representa el 51% de los datos, por otro lado, están los dispositivos que no tienen (0), son 981 con un valor porcentual del 49% respecto al total.
cat(
"[1] \"Tabla de distribución de frecuencias: bluetooth\"\n"
)
## [1] "Tabla de distribución de frecuencias: bluetooth"
freq(bluetooth)
## Frequencies
## bluetooth
## Type: Numeric
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## 0 1010 50.50 50.50 50.50 50.50
## 1 990 49.50 100.00 49.50 100.00
## <NA> 0 0.00 100.00
## Total 2000 100.00 100.00 100.00 100.00
La tabla de la variable bluetooth, indica los dispositivos que tienen bluetooth representado con el número (1), con un total de 1010, representando el 50.5% de los datos, por otro lado, están los dispositivos que no tienen (0), con un total de 990 y un valor porcentual del 49.5% respecto al total.
cat(
"[1] \"Tabla de distribución de frecuencias: touch_screen \"\n"
)
## [1] "Tabla de distribución de frecuencias: touch_screen "
freq(data$touch_screen )
## Frequencies
## data$touch_screen
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## 0 994 49.70 49.70 49.70 49.70
## 1 1006 50.30 100.00 50.30 100.00
## <NA> 0 0.00 100.00
## Total 2000 100.00 100.00 100.00 100.00
La tabla de la variable touch_screen, indica los dispositivos que tienen pantalla táctil representado con el número (1), con un total de 1006, representando el 50.3% de los datos, por otro lado, están los dispositivos que no tienen (0), con un total de 994 y un valor porcentual del 49.7% respecto al total.
cat(
"[1] \"Tabla de distribución de frecuencias: wifi \"\n"
)
## [1] "Tabla de distribución de frecuencias: wifi "
freq(data$wifi )
## Frequencies
## data$wifi
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## 0 986 49.30 49.30 49.30 49.30
## 1 1014 50.70 100.00 50.70 100.00
## <NA> 0 0.00 100.00
## Total 2000 100.00 100.00 100.00 100.00
La tabla de la variable wifi, indica los dispositivos que tienen wifi representado con el número (1), con un total de 1014, representando el 50.7% de los datos, por otro lado, están los dispositivos que no tienen (0), con un total de 986 y un valor porcentual del 49.3% respecto al total.
cat(
"[1] \"Tabla de distribución de frecuencias: $three_g \"\n"
)
## [1] "Tabla de distribución de frecuencias: $three_g "
freq(data$three_g )
## Frequencies
## data$three_g
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## 0 477 23.85 23.85 23.85 23.85
## 1 1523 76.15 100.00 76.15 100.00
## <NA> 0 0.00 100.00
## Total 2000 100.00 100.00 100.00 100.00
Tabla_three_g <- data %>% group_by(three_g ) %>% summarise(Total=n()) %>%
dplyr::mutate(Porcentaje = round(Total/sum(Total)*100, 1)) #16
ggplot(Tabla_three_g, aes(x = three_g, y=Total,fill=three_g) ) +
geom_bar(width = 0.9, stat="identity", position = position_dodge())+
ylim(c(0,1600))+
labs(x="three_g", y= "Frecuencia \n (Porcentajes)") + #17
labs(fill = "")+
geom_text(aes(label=paste0(Total," ", "", "(", Porcentaje, "%",")")), #18
vjust=-0.9,
color="black",
hjust=0.5,
position = position_dodge(0.9),
angle=0,
size=4.0
) +
scale_fill_discrete(name = "El dispositivo tiene 3G", labels = c("No", "Si")) + #19
theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1)) + #20
facet_wrap(~"Variable 3G")
La tabla de la variable three_g, indica los dispositivos que tienen 3G representado con el número (1), con un total de 1523, representando el 76.1% de los datos, por otro lado, están los dispositivos que no tienen (0), con un total de 477 y un valor porcentual del 23.8% respecto al total. Adicionalmente, se evidencia la gráfica con esta información.
cat(
"[1] \"Variable: four_g \"\n"
)
## [1] "Variable: four_g "
freq(data$four_g )
## Frequencies
## data$four_g
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## 0 957 47.85 47.85 47.85 47.85
## 1 1043 52.15 100.00 52.15 100.00
## <NA> 0 0.00 100.00
## Total 2000 100.00 100.00 100.00 100.00
Tabla_four_g <- data %>% group_by(four_g ) %>% summarise(Total=n()) %>%
dplyr::mutate(Porcentaje = round(Total/sum(Total)*100, 1)) #16
ggplot(Tabla_four_g, aes(x = four_g, y=Total,fill=four_g) ) +
geom_bar(width = 0.9, stat="identity", position = position_dodge())+
ylim(c(0,1100))+
labs(x="four_g", y= "Frecuencia \n (Porcentajes)") + #17
labs(fill = "")+
geom_text(aes(label=paste0(Total," ", "", "(", Porcentaje, "%",")")), #18
vjust=-0.9,
color="black",
hjust=0.5,
position = position_dodge(0.9),
angle=0,
size=4.0
) +
scale_fill_discrete(name = "El dispositivo tiene 4G", labels = c("No", "Si")) + #19
theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1)) + #20
facet_wrap(~"Variable 4G")
La tabla de la variable four_g, indica los dispositivos que tienen 4G
representado con el número (1), con un total de 1043, representando el
52.1% de los datos, por otro lado, están los dispositivos que no tienen
(0), con un total de 957 y un valor porcentual del 47.9% respecto al
total. Adicionalmente, se evidencia la gráfica con esta información.
cat(
"[1] \"Tabla de distribución de frecuencias: $n_cores \"\n"
)
## [1] "Tabla de distribución de frecuencias: $n_cores "
freq(data$n_cores )
## Frequencies
## data$n_cores
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## 1 242 12.10 12.10 12.10 12.10
## 2 247 12.35 24.45 12.35 24.45
## 3 246 12.30 36.75 12.30 36.75
## 4 274 13.70 50.45 13.70 50.45
## 5 246 12.30 62.75 12.30 62.75
## 6 230 11.50 74.25 11.50 74.25
## 7 259 12.95 87.20 12.95 87.20
## 8 256 12.80 100.00 12.80 100.00
## <NA> 0 0.00 100.00
## Total 2000 100.00 100.00 100.00 100.00
Tabla_n_cores <- data %>% group_by(n_cores ) %>% summarise(Total=n()) %>%
dplyr::mutate(Porcentaje = round(Total/sum(Total)*100, 1)) #16
ggplot(Tabla_n_cores, aes(x = n_cores, y=Total,fill=n_cores) ) +
geom_bar(width = 0.9, stat="identity", position = position_dodge())+
ylim(c(0,310))+
labs(x="n_cores", y= "Frecuencia \n (Porcentajes)") + #17
labs(fill = "")+
geom_text(aes(label=paste0(Total," ", "", "(", Porcentaje, "%",")")), #18
vjust=-0.6,
color="black",
hjust=0.5,
position = position_dodge(0.9),
angle=0,
size=3.0
) +
theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1)) + #20
facet_wrap(~"Variable n_cores")
La tabla de la variable n_cores, indica los número de núcleos en cada
dispositivo, tenemos que para los dispositivos con 1 núcleo son 242, lo
que representa el 12.1%,los que tienen 2 núcleos son 247, que
representan el 12.3%, quienes tienen 3 núcleos son 246 representado
porcentualmente por 12.3%, los que tienen 4 núcleos son 247 representado
por el 13.7%, los de 5 núcleos son 246 representado porcentualmente por
12.3%, los dispositivos con 6 núcleos son 230 representado
porcentualmente por 11.5%, los que tienen 7 núcleos son 259 representado
porcentualmente por 13% y por último los dispositivos con 8 núcleos son
256 representado porcentualmente por 12.8%
## "Medidas descriptivas: ram "
## Descriptive Statistics
## data$ram
## N: 2000
##
## ram
## ----------------- ---------
## Mean 2124.21
## Std.Dev 1084.73
## Min 256.00
## Q1 1207.00
## Median 2146.50
## Q3 3065.00
## Max 3998.00
## MAD 1382.52
## IQR 1857.00
## CV 0.51
## Skewness 0.01
## SE.Skewness 0.05
## Kurtosis -1.19
## N.Valid 2000.00
## N 2000.00
## Pct.Valid 100.00
## "Tabla de frecuencia: ram "
## Class limits f rf rf(%) cf cf(%)
## [253.44,568.8183) 168 0.08 8.40 168 8.40
## [568.8183,884.1967) 176 0.09 8.80 344 17.20
## [884.1967,1199.575) 149 0.07 7.45 493 24.65
## [1199.575,1514.953) 195 0.10 9.75 688 34.40
## [1514.953,1830.332) 150 0.07 7.50 838 41.90
## [1830.332,2145.71) 161 0.08 8.05 999 49.95
## [2145.71,2461.088) 188 0.09 9.40 1187 59.35
## [2461.088,2776.467) 179 0.09 8.95 1366 68.30
## [2776.467,3091.845) 145 0.07 7.25 1511 75.55
## [3091.845,3407.223) 164 0.08 8.20 1675 83.75
## [3407.223,3722.602) 176 0.09 8.80 1851 92.55
## [3722.602,4037.98) 149 0.07 7.45 2000 100.00
## "Test de normalidad de Shapiro-Wilk: ram "
##
## Shapiro-Wilk normality test
##
## data: ram
## W = 0.95462, p-value < 2.2e-16
## "Test de Wilcoxon Signed-Rank Test: ram "
##
## Wilcoxon signed rank test with continuity correction
##
## data: data$ram
## V = 2001000, p-value < 2.2e-16
## alternative hypothesis: true location is not equal to 0
## Size (n) Missing Minimum 1st Qu Mean Median
## 2000.000 0.000 256.000 1207.500 2124.213 2146.500
## TrMean 3rd Qu Max Stdev Var SE Mean
## 2123.541 3064.500 3998.000 1084.732 1176643.606 24.255
## I.Q.R. Range Kurtosis Skewness SW p-val
## 1857.000 3742.000 -1.194 0.007 0.000
Según las gráficas podemos observar que la distribución de los datos es bastante uniforme, o rectangular dado el histograma que se realizó, también observamos que podría existir multimodalidad, es decir que podrían haber subgrupos, tenemos posiblemente simetría, no hay outliers, y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.
Observamos que los datos tienen una media de 2124.21 con una desviación estandar de 1084.73, lo que significa que los datos son muy dispersos, con una mediana de 2146.50, valor el cual es cercano a la media y el valor mínimo del conjunto de datos es 256 y el máximo de 3998, con un coeficiente de variación del 0.51, adicionalmente se observa que el valor del sesgo es de 0.01, el cual es un valor cerca a 0 lo que indica que posiblemente es simétrico y curtosis de -1.19 es decir que tiene una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.
En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.95462, valor cercano a 1 lo que nos indica que los datos se ajustan a una distribución normal, pero al revisar el p-value < 2.2e-16 nos damos cuenta que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas
## "Medidas descriptivas: battery_power "
## Descriptive Statistics
## data$battery_power
## N: 2000
##
## battery_power
## ----------------- ---------------
## Mean 1238.52
## Std.Dev 439.42
## Min 501.00
## Q1 851.50
## Median 1226.00
## Q3 1615.50
## Max 1998.00
## MAD 566.35
## IQR 763.50
## CV 0.35
## Skewness 0.03
## SE.Skewness 0.05
## Kurtosis -1.23
## N.Valid 2000.00
## N 2000.00
## Pct.Valid 100.00
## "Tabla de frecuencia: battery_power "
## Class limits f rf rf(%) cf cf(%)
## [495.99,622.8225) 184 0.09 9.20 184 9.20
## [622.8225,749.655) 175 0.09 8.75 359 17.95
## [749.655,876.4875) 178 0.09 8.90 537 26.85
## [876.4875,1003.32) 166 0.08 8.30 703 35.15
## [1003.32,1130.153) 165 0.08 8.25 868 43.40
## [1130.153,1256.985) 162 0.08 8.10 1030 51.50
## [1256.985,1383.818) 163 0.08 8.15 1193 59.65
## [1383.818,1510.65) 156 0.08 7.80 1349 67.45
## [1510.65,1637.483) 174 0.09 8.70 1523 76.15
## [1637.483,1764.315) 166 0.08 8.30 1689 84.45
## [1764.315,1891.148) 167 0.08 8.35 1856 92.80
## [1891.148,2017.98) 144 0.07 7.20 2000 100.00
## "Test de normalidad de Shapiro-Wilk: battery_power "
##
## Shapiro-Wilk normality test
##
## data: battery_power
## W = 0.95188, p-value < 2.2e-16
## Size (n) Missing Minimum 1st Qu Mean Median TrMean
## 2000.000 0.000 501.000 851.750 1238.518 1226.000 1237.268
## 3rd Qu Max Stdev Var SE Mean I.Q.R. Range
## 1615.250 1998.000 439.418 193088.360 9.826 763.500 1497.000
## Kurtosis Skewness SW p-val
## -1.226 0.032 0.000
Según las gráficas podemos observar que la distribución de los datos es uniforme, tenemos posiblemente simetría, no hay outliers, y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.
Observamos que los datos tienen una media de 1238.52 con una desviación estandar de 439.42, lo que significa que los datos son moderadamente dispersos, con una mediana de 1226, valor el cual está cerca a la media y nos sugiere que la distribución es bastante simétrica, adicionalmente, el valor mínimo del conjunto de datos es 501 y el máximo de 1998, con un coeficiente de variación del 0.35 lo que sugiere una variabilidad relativamente baja en comparación con la media, además, se observa que el valor del sesgo es de 0.03, valor el cual es cercano a 0, lo que indica que posiblemente es simétrico y curtosis de -1.23 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.
En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.95188, valor cercano a 1 lo que nos indica que los datos se ajustan a una distribución normal, pero al revisar el p-value < 2.2e-16 nos damos cuenta que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas
## "Medidas descriptivas: clock_speed "
## Descriptive Statistics
## data$clock_speed
## N: 2000
##
## clock_speed
## ----------------- -------------
## Mean 1.52
## Std.Dev 0.82
## Min 0.50
## Q1 0.70
## Median 1.50
## Q3 2.20
## Max 3.00
## MAD 1.19
## IQR 1.50
## CV 0.54
## Skewness 0.18
## SE.Skewness 0.05
## Kurtosis -1.32
## N.Valid 2000.00
## N 2000.00
## Pct.Valid 100.00
## "Tabla de frecuencia: clock_speed "
## Class limits f rf rf(%) cf cf(%)
## [0.495,0.7062) 551 0.28 27.55 551 27.55
## [0.7062,0.9175) 116 0.06 5.80 667 33.35
## [0.9175,1.129) 112 0.06 5.60 779 38.95
## [1.129,1.34) 124 0.06 6.20 903 45.15
## [1.34,1.551) 137 0.07 6.85 1040 52.00
## [1.551,1.762) 136 0.07 6.80 1176 58.80
## [1.762,1.974) 127 0.06 6.35 1303 65.15
## [1.974,2.185) 143 0.07 7.15 1446 72.30
## [2.185,2.396) 137 0.07 6.85 1583 79.15
## [2.396,2.607) 187 0.09 9.35 1770 88.50
## [2.607,2.819) 140 0.07 7.00 1910 95.50
## [2.819,3.03) 90 0.04 4.50 2000 100.00
## "Test de normalidad de Shapiro-Wilk: clock_speed "
##
## Shapiro-Wilk normality test
##
## data: clock_speed
## W = 0.91123, p-value < 2.2e-16
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 2000.000 0.000 0.500 0.700 1.522 1.500 1.502 2.200
## Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
## 3.000 0.816 0.666 0.018 1.500 2.500 -1.325 0.178
## SW p-val
## 0.000
Según las gráficas podemos observar que la distribución de los datos es bimodal ya que hay una cola más larga hacia la derecha, lo que indica asimetría positiva o sesgo a la derecha, en el boxplot, los bigotes se extienden hasta los valores máximos y mínimos dentro de un rango definido y se evidencia que el bigote derecho es más largo que el izquierdo, lo que confirma la asimetría positiva y se tiene un posible outlier en los valores más altos, adicionalmente, el Q-Q Plot indica que posiblemente los datos no siguen una distribución normal.
Observamos que los datos tienen una media de 1.52 con una desviación estandar de 0.82, lo que significa que los datos son moderadamente dispersos, con una mediana de 1.50, valor el cual está cerca a la media y nos sugiere que la distribución es bastante simétrica, adicionalmente, el valor mínimo del conjunto de datos es 0.50 y el máximo de 3, con un coeficiente de variación del 0.54 lo que sugiere una variabilidad relativamente baja en comparación con la media, además, el valor del sesgo es de 0.18, lo que indica que posiblemente tiene asimetría positiva y curtosis de -1.32 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.
En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.91123, valor cercano a 1 lo que nos indica que los datos se ajustan a una distribución normal, pero al revisar el p-value < 2.2e-16 nos damos cuenta que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas.
## "Medidas descriptivas: int_memory "
## Descriptive Statistics
## data$int_memory
## N: 2000
##
## int_memory
## ----------------- ------------
## Mean 32.05
## Std.Dev 18.15
## Min 2.00
## Q1 16.00
## Median 32.00
## Q3 48.00
## Max 64.00
## MAD 23.72
## IQR 32.00
## CV 0.57
## Skewness 0.06
## SE.Skewness 0.05
## Kurtosis -1.22
## N.Valid 2000.00
## N 2000.00
## Pct.Valid 100.00
## "Tabla de frecuencia: int_memory "
## Class limits f rf rf(%) cf cf(%)
## [1.98,7.2017) 200 0.10 10.00 200 10.00
## [7.2017,12.423) 178 0.09 8.90 378 18.90
## [12.423,17.645) 177 0.09 8.85 555 27.75
## [17.645,22.867) 156 0.08 7.80 711 35.55
## [22.867,28.088) 192 0.10 9.60 903 45.15
## [28.088,33.31) 159 0.08 7.95 1062 53.10
## [33.31,38.532) 139 0.07 6.95 1201 60.05
## [38.532,43.753) 161 0.08 8.05 1362 68.10
## [43.753,48.975) 157 0.08 7.85 1519 75.95
## [48.975,54.197) 193 0.10 9.65 1712 85.60
## [54.197,59.418) 152 0.08 7.60 1864 93.20
## [59.418,64.64) 136 0.07 6.80 2000 100.00
## "Test de normalidad de Shapiro-Wilk: int_memory "
##
## Shapiro-Wilk normality test
##
## data: int_memory
## W = 0.95274, p-value < 2.2e-16
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 2000.000 0.000 2.000 16.000 32.047 32.000 31.953 48.000
## Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
## 64.000 18.146 329.267 0.406 32.000 62.000 -1.218 0.058
## SW p-val
## 0.000
Según las gráficas podemos observar que la distribución de los datos es uniforme, tenemos posiblemente simetría, no hay outliers, y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.
Observamos que los datos tienen una media de 32.05 con una desviación estandar de 18.15, lo que significa que los datos son moderadamente dispersos, con una mediana de 32, valor el cual está cerca a la media y nos sugiere que la distribución es bastante simétrica, adicionalmente, el valor mínimo del conjunto de datos es 2 y el máximo es 64, con un coeficiente de variación de 0.57 lo que sugiere una variabilidad moderada en comparación con la media, además, se observa que el valor del sesgo es de 0.06, valor el cual es cercano a 0, lo que indica que posiblemente es simétrico y curtosis de -1.22 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.
En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.95274, valor cercano a 1 lo que nos indica que los datos se ajustan a una distribución normal, pero al revisar el p-value < 2.2e-16 nos damos cuenta que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas
## "Medidas descriptivas: Megapíxeles de la cámara principal. "
## Descriptive Statistics
## data$pc
## N: 2000
##
## pc
## ----------------- ---------
## Mean 9.92
## Std.Dev 6.06
## Min 0.00
## Q1 5.00
## Median 10.00
## Q3 15.00
## Max 20.00
## MAD 7.41
## IQR 10.00
## CV 0.61
## Skewness 0.02
## SE.Skewness 0.05
## Kurtosis -1.17
## N.Valid 2000.00
## N 2000.00
## Pct.Valid 100.00
## "Tabla de frecuencia: pc "
## Class limits f rf rf(%) cf cf(%)
## [0,1.683) 205 0.10 10.25 205 10.25
## [1.683,3.367) 192 0.10 9.60 397 19.85
## [3.367,5.05) 154 0.08 7.70 551 27.55
## [5.05,6.733) 95 0.05 4.75 646 32.30
## [6.733,8.417) 208 0.10 10.40 854 42.70
## [8.417,10.1) 234 0.12 11.70 1088 54.40
## [10.1,11.78) 79 0.04 3.95 1167 58.35
## [11.78,13.47) 175 0.09 8.75 1342 67.10
## [13.47,15.15) 196 0.10 9.80 1538 76.90
## [15.15,16.83) 88 0.04 4.40 1626 81.30
## [16.83,18.52) 181 0.09 9.05 1807 90.35
## [18.52,20.2) 193 0.10 9.65 2000 100.00
## "Test de normalidad de Shapiro-Wilk: pc "
##
## Shapiro-Wilk normality test
##
## data: pc
## W = 0.95126, p-value < 2.2e-16
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 2000.000 0.000 0.000 5.000 9.916 10.000 9.907 15.000
## Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
## 20.000 6.064 36.776 0.136 10.000 20.000 -1.173 0.017
## SW p-val
## 0.000
Según las gráficas podemos observar que la distribución de los datos es bimodal, con posible asimétria hacía la derecha, el punto en el boxplot nos sugiere que la mediana está ligeramente desplazada hacia la izquierda de la caja, y el bigote derecho es ligeramente más largo que el izquierdo, además, hay algunos puntos fuera del bigote derecho, lo que sugiere la posible presencia de outliers en los valores más altos de “pc” y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.
Observamos que los datos tienen una media de 9.92 con una desviación estandar de 6.06, lo que significa que los datos son moderadamente dispersos, con una mediana de 10, valor el cual está cerca a la media, adicionalmente, el valor mínimo del conjunto de datos es 0 y el máximo es 20, con un coeficiente de variación de 0.61 lo que sugiere una variabilidad moderada en comparación con la media, además, se observa que el valor del sesgo es de 0.02, lo que indica que posiblemente es ligeramente asimétrico hacía la derecha y curtosis de -1.17 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.
En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.95126, valor cercano a 1 lo que nos indica que los datos se ajustan a una distribución normal, pero al revisar el p-value < 2.2e-16 nos damos cuenta que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas
## "Medidas descriptivas: Megapíxeles de la cámara frontal "
## Descriptive Statistics
## data$fc
## N: 2000
##
## fc
## ----------------- ---------
## Mean 4.31
## Std.Dev 4.34
## Min 0.00
## Q1 1.00
## Median 3.00
## Q3 7.00
## Max 19.00
## MAD 4.45
## IQR 6.00
## CV 1.01
## Skewness 1.02
## SE.Skewness 0.05
## Kurtosis 0.27
## N.Valid 2000.00
## N 2000.00
## Pct.Valid 100.00
## "Tabla de frecuencia: fc "
## Class limits f rf rf(%) cf cf(%)
## [0,1.5992) 719 0.36 35.95 719 35.95
## [1.5992,3.1983) 359 0.18 17.95 1078 53.90
## [3.1983,4.7975) 133 0.07 6.65 1211 60.55
## [4.7975,6.3967) 251 0.13 12.55 1462 73.10
## [6.3967,7.9958) 100 0.05 5.00 1562 78.10
## [7.9958,9.595) 155 0.08 7.75 1717 85.85
## [9.595,11.194) 113 0.06 5.65 1830 91.50
## [11.194,12.793) 45 0.02 2.25 1875 93.75
## [12.793,14.393) 60 0.03 3.00 1935 96.75
## [14.393,15.992) 23 0.01 1.15 1958 97.90
## [15.992,17.591) 30 0.01 1.50 1988 99.40
## [17.591,19.19) 12 0.01 0.60 2000 100.00
## "Test de normalidad de Shapiro-Wilk: fc "
##
## Shapiro-Wilk normality test
##
## data: fc
## W = 0.87374, p-value < 2.2e-16
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 2000.000 0.000 0.000 1.000 4.310 3.000 3.942 7.000
## Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
## 19.000 4.341 18.848 0.097 6.000 19.000 0.270 1.018
## SW p-val
## 0.000
Según las gráficas podemos observar que la distribución de la mayoría de los datos son demasiado bajos y tienen una cola larga, posible asimétria hacía la derecha, el punto en el boxplot nos sugiere que la mediana está desplazada hacia la izquierda de la caja, y el bigote derecho es más largo que el izquierdo, además, hay puntos fuera del bigote derecho, lo que sugiere la posible presencia de outliers en los valores más altos y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.
Observamos que los datos tienen una media de 4.31 con una desviación estandar de 4.34, lo que significa que los datos son considerablemente dispersos, con una mediana de 3, valor el cual es menor a la media y nos sugiere asimétria positiva, adicionalmente, el valor mínimo del conjunto de datos es 0 y el máximo es 19, con un coeficiente de variación de 1.01 lo que sugiere una alta variabilidad en comparación con la media, además, se observa que el valor del sesgo es de 1.02, lo que indica que posiblemente es asimétrico hacía la derecha y curtosis de 0.27 es decir que los datos tienen una distribución leptocúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.
En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.87374, al revisar el p-value < 2.2e-16 tenemos que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas.
## "Medidas descriptivas: Resolución de píxeles Altura "
## Descriptive Statistics
## data$px_height
## N: 2000
##
## px_height
## ----------------- -----------
## Mean 645.11
## Std.Dev 443.78
## Min 0.00
## Q1 282.50
## Median 564.00
## Q3 947.50
## Max 1960.00
## MAD 471.47
## IQR 664.50
## CV 0.69
## Skewness 0.67
## SE.Skewness 0.05
## Kurtosis -0.32
## N.Valid 2000.00
## N 2000.00
## Pct.Valid 100.00
## "Tabla de frecuencia: Resolución de píxeles Altura "
## Class limits f rf rf(%) cf cf(%)
## [0,164.967) 269 0.13 13.45 269 13.45
## [164.967,329.933) 320 0.16 16.00 589 29.45
## [329.933,494.9) 300 0.15 15.00 889 44.45
## [494.9,659.867) 262 0.13 13.10 1151 57.55
## [659.867,824.833) 217 0.11 10.85 1368 68.40
## [824.833,989.8) 183 0.09 9.15 1551 77.55
## [989.8,1154.77) 143 0.07 7.15 1694 84.70
## [1154.77,1319.73) 128 0.06 6.40 1822 91.10
## [1319.73,1484.7) 77 0.04 3.85 1899 94.95
## [1484.7,1649.67) 50 0.03 2.50 1949 97.45
## [1649.67,1814.63) 35 0.02 1.75 1984 99.20
## [1814.63,1979.6) 16 0.01 0.80 2000 100.00
## "Test de normalidad de Shapiro-Wilk: Resolución de píxeles Altura "
##
## Shapiro-Wilk normality test
##
## data: px_height
## W = 0.9469, p-value < 2.2e-16
## Size (n) Missing Minimum 1st Qu Mean Median TrMean
## 2000.000 0.000 0.000 282.750 645.108 564.000 621.618
## 3rd Qu Max Stdev Var SE Mean I.Q.R. Range
## 947.250 1960.000 443.781 196941.408 9.923 664.500 1960.000
## Kurtosis Skewness SW p-val
## -0.321 0.665 0.000
Según las gráficas podemos observar que la distribución de la mayoría de los datos son demasiado bajos y tienen una cola larga, posible asimétria hacía la derecha, el punto dentro de la caja representa la mediana en el boxplot nos sugiere que la mediana está desplazada hacia la izquierda de la caja, y el bigote derecho es más largo que el izquierdo, además, hay un punto fuera del bigote derecho, lo que sugiere la posible presencia de outliers en los valores más altos y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.
Observamos que los datos tienen una media de 645.11 con una desviación estandar de 443.78, lo que significa que los datos son considerablemente dispersos, con una mediana de 564, valor el cual es menor a la media y nos sugiere asimétria positiva, adicionalmente, el valor mínimo del conjunto de datos es 0 y el máximo es 1960, con un coeficiente de variación de 0.69 lo que sugiere una alta variabilidad en comparación con la media, además, se observa que el valor del sesgo es de 0.67, lo que indica que posiblemente es asimétrico hacía la derecha y curtosis de -0.32 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.
En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.9469, al revisar el p-value < 2.2e-16 tenemos que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas.
## "Medidas descriptivas: Ancho de resolución de píxeles "
## Descriptive Statistics
## data$px_width
## N: 2000
##
## px_width
## ----------------- ----------
## Mean 1251.52
## Std.Dev 432.20
## Min 500.00
## Q1 874.50
## Median 1247.00
## Q3 1633.00
## Max 1998.00
## MAD 557.46
## IQR 758.25
## CV 0.35
## Skewness 0.01
## SE.Skewness 0.05
## Kurtosis -1.19
## N.Valid 2000.00
## N 2000.00
## Pct.Valid 100.00
## "Tabla de frecuencia: Resolución de píxeles Altura "
## Class limits f rf rf(%) cf cf(%)
## [495,621.915) 147 0.07 7.35 147 7.35
## [621.915,748.83) 178 0.09 8.90 325 16.25
## [748.83,875.745) 176 0.09 8.80 501 25.05
## [875.745,1002.66) 158 0.08 7.90 659 32.95
## [1002.66,1129.575) 170 0.09 8.50 829 41.45
## [1129.575,1256.49) 186 0.09 9.30 1015 50.75
## [1256.49,1383.405) 171 0.09 8.55 1186 59.30
## [1383.405,1510.32) 175 0.09 8.75 1361 68.05
## [1510.32,1637.235) 146 0.07 7.30 1507 75.35
## [1637.235,1764.15) 177 0.09 8.85 1684 84.20
## [1764.15,1891.065) 156 0.08 7.80 1840 92.00
## [1891.065,2017.98) 160 0.08 8.00 2000 100.00
## "Test de normalidad de Shapiro-Wilk: Resolución de píxeles Altura "
##
## Shapiro-Wilk normality test
##
## data: px_width
## W = 0.95604, p-value < 2.2e-16
## Size (n) Missing Minimum 1st Qu Mean Median TrMean
## 2000.000 0.000 500.000 874.750 1251.515 1247.000 1251.566
## 3rd Qu Max Stdev Var SE Mean I.Q.R. Range
## 1633.000 1998.000 432.199 186796.362 9.664 758.250 1498.000
## Kurtosis Skewness SW p-val
## -1.188 0.015 0.000
Según las gráficas podemos observar que la distribución de los datos es uniforme y posiblemente es simétrica, el punto dentro de la caja representa la mediana en el boxplot lo que nos indica que la mediana está aproximadamente en el centro de la distribución, además, no hay outliers y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.
Observamos que los datos tienen una media de 1251.52 con una desviación estandar de 432.20, lo que significa que los datos tienen una variabilidad moderada, con una mediana de 1247, valor el cual es cercano a la media y nos sugiere simetría, adicionalmente, el valor mínimo del conjunto de datos es 500 y el máximo es 1998, con un coeficiente de variación de 0.35 lo que sugiere una baja variabilidad en comparación con la media, además, se observa que el valor del sesgo es de 0.01, lo que indica que posiblemente es simétrico y curtosis de -1.19 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.
En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.95604, al revisar el p-value < 2.2e-16 tenemos que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas.
## "Medidas descriptivas: Tiempo de la batería "
## Descriptive Statistics
## data$talk_time
## N: 2000
##
## talk_time
## ----------------- -----------
## Mean 11.01
## Std.Dev 5.46
## Min 2.00
## Q1 6.00
## Median 11.00
## Q3 16.00
## Max 20.00
## MAD 7.41
## IQR 10.00
## CV 0.50
## Skewness 0.01
## SE.Skewness 0.05
## Kurtosis -1.22
## N.Valid 2000.00
## N 2000.00
## Pct.Valid 100.00
## "Tabla de frecuencia: Resolución de píxeles Altura "
## Class limits f rf rf(%) cf cf(%)
## [1.98,3.498) 193 0.10 9.65 193 9.65
## [3.498,5.017) 216 0.11 10.80 409 20.45
## [5.017,6.535) 111 0.06 5.55 520 26.00
## [6.535,8.053) 228 0.11 11.40 748 37.40
## [8.053,9.572) 100 0.05 5.00 848 42.40
## [9.572,11.09) 208 0.10 10.40 1056 52.80
## [11.09,12.61) 99 0.05 4.95 1155 57.75
## [12.61,14.13) 201 0.10 10.05 1356 67.80
## [14.13,15.64) 115 0.06 5.75 1471 73.55
## [15.64,17.16) 214 0.11 10.70 1685 84.25
## [17.16,18.68) 100 0.05 5.00 1785 89.25
## [18.68,20.2) 215 0.11 10.75 2000 100.00
## "Test de normalidad de Shapiro-Wilk: Resolución de píxeles Altura "
##
## Shapiro-Wilk normality test
##
## data: talk_time
## W = 0.94821, p-value < 2.2e-16
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 2000.000 0.000 2.000 6.000 11.011 11.000 11.012 16.000
## Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
## 20.000 5.464 29.855 0.122 10.000 18.000 -1.220 0.009
## SW p-val
## 0.000
Según las gráficas podemos observar que la distribución de los datos es uniforme y posiblemente es simétrica, el punto dentro de la caja representa la mediana en el boxplot lo que nos indica que la mediana está aproximadamente en el centro de la distribución, además, no hay outliers y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.
Observamos que los datos tienen una media de 11.01 con una desviación estandar de 5.46, lo que significa que los datos tienen una variabilidad moderada, con una mediana de 11, valor el cual es cercano a la media y nos sugiere simetría, adicionalmente, el valor mínimo del conjunto de datos es 2 y el máximo es 20, con un coeficiente de variación de 0.50 lo que sugiere una variabilidad moderada en comparación con la media, además, se observa que el valor del sesgo es de 0.01, lo que indica que posiblemente es simétrico y curtosis de -1.22 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.
En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.95604, al revisar el p-value < 2.2e-16 tenemos que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas.
## [1] "Tabla cruzada entre dual_sim y wifi "
##
## 0 1
## 0 495 486
## 1 491 528
## [1] "Tabla cruzada entre dual_sim y wifi en proporciones "
##
## 0 1
## 0 0.5045872 0.4954128
## 1 0.4818449 0.5181551
En la gráfica doble sim respecto a la variable wifi, tenemos que 495 no
tienen wifi ni doble sim, 486 si tienen pero no doble sim, 491 no tienen
wifi pero si doble sim y 528 tienen wifi y doble sim.
Se realiza la misma comparación entre los dispositivos que no tienen doble sim y 479 no son táctiles y 502 si lo son, por otro lado, se tienen 515 que no son táctiles y 504 que si y tienen doble sim.
Se realiza la misma comparación entre los dispositivos que no tienen doble sim y 471 no tienen 4G y 510 si las tienen, por otro lado, se tienen 486 que tienen 4G y 533 que si y tienen doble sim.
Se realiza la gráfica entre wifi y ram, en donde los dispositivos que no
tienen wifi y si tienen, la capacidad de ram tiene un comportamiento
similar.
Los dispositivis que tienen 3G respecto al poder de batería tienen una
media similar.
ram según four_g (Celulares con y sin 4G)
Los dispositivis que tienen 4G respecto a ram tienen una media
similar.
##
## Pearson's product-moment correlation
##
## data: sc_w and sc_h
## t = 26.232, df = 1998, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4728023 0.5380389
## sample estimates:
## cor
## 0.5061442
Para obtener la matriz de varianzas y covarianzas de las variables objetivo para ello se utiliza la función cov(datos de interes)
## battery_power clock_speed int_memory ram
## battery_power 193088.359838 4.116921836 -31.92357204 -3.112180e+02
## clock_speed 4.116922 0.665862869 0.09691383 3.047585e+00
## int_memory -31.923572 0.096913832 329.26697124 6.458695e+02
## ram -311.218050 3.047584542 645.86953027 1.176644e+06
## fc 63.592320 -0.001537144 -2.29503927 7.110563e+01
## pc 83.782186 -0.025955103 -3.66144797 1.906581e+02
## px_height 2905.736870 -5.259132566 84.08051826 -9.797075e+03
## px_width -1595.644609 -3.341840795 -65.36665408 1.924610e+03
## m_dep 4.319702 -0.003380628 0.03603664 -2.951498e+00
## mobile_wt 28.689738 0.356738119 -21.97756728 -9.909058e+01
## sc_h -55.464653 -0.099969610 2.88769160 7.310627e+01
## sc_w -41.005692 -0.026228864 0.92729815 1.681137e+02
## talk_time 126.075334 -0.050970235 -0.27664982 6.412922e+01
## fc pc px_height px_width
## battery_power 63.592320410 83.78218584 2905.736870 -1595.644609
## clock_speed -0.001537144 -0.02595510 -5.259133 -3.341841
## int_memory -2.295039270 -3.66144797 84.080518 -65.366654
## ram 71.105629315 190.65811456 -9797.075042 1924.610004
## fc 18.848133817 16.97082866 -19.247050 -9.711403
## pc 16.970828664 36.77591571 -49.694829 10.997543
## px_height -19.247049525 -49.69482941 196941.408040 97946.365509
## px_width -9.711402951 10.99754302 97946.365509 186796.361941
## m_dep -0.002242746 0.04596911 3.233478 2.937617
## mobile_wt 3.629749375 4.04531416 14.756486 1.373327
## sc_h -0.201462481 0.12615583 111.466131 39.330164
## sc_w -0.234003502 -0.62927014 83.205267 65.332778
## talk_time -0.161985493 0.48566133 -25.812594 15.869264
## m_dep mobile_wt sc_h sc_w talk_time
## battery_power 4.319702476 28.6897384 -55.46465258 -41.00569235 126.07533417
## clock_speed -0.003380628 0.3567381 -0.09996961 -0.02622886 -0.05097024
## int_memory 0.036036643 -21.9775673 2.88769160 0.92729815 -0.27664982
## ram -2.951498499 -99.0905823 73.10626863 168.11368584 64.12922161
## fc -0.002242746 3.6297494 -0.20146248 -0.23400350 -0.16198549
## pc 0.045969110 4.0453142 0.12615583 -0.62927014 0.48566133
## px_height 3.233477739 14.7564862 111.46613107 83.20526663 -25.81259430
## px_width 2.937616683 1.3733272 39.33016433 65.33277789 15.86926413
## m_dep 0.083183529 0.2221253 -0.03080178 -0.02310380 0.02679415
## mobile_wt 0.222125313 1253.1355668 -5.04934317 -3.20158379 1.20086143
## sc_h -0.030801776 -5.0493432 17.75143347 9.29005953 -0.39907104
## sc_w -0.023103802 -3.2015838 9.29005953 18.97820010 -0.54320860
## talk_time 0.026794147 1.2008614 -0.39907104 -0.54320860 29.85480640
Después de estudiar la asociación de las variables, se delimita la información a través de la matriz de correlación.
Para visualizar mejor la anterior información se sugiere ver la matriz de correlación en un mapa de calor a través de la función corplot
Activar a partir de las librerias las técnicas
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 2000 individuals, described by 13 variables
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues"
## 2 "$var" "results for the variables"
## 3 "$var$coord" "coord. for the variables"
## 4 "$var$cor" "correlations variables - dimensions"
## 5 "$var$cos2" "cos2 for the variables"
## 6 "$var$contrib" "contributions of the variables"
## 7 "$ind" "results for the individuals"
## 8 "$ind$coord" "coord. for the individuals"
## 9 "$ind$cos2" "cos2 for the individuals"
## 10 "$ind$contrib" "contributions of the individuals"
## 11 "$call" "summary statistics"
## 12 "$call$centre" "mean of the variables"
## 13 "$call$ecart.type" "standard error of the variables"
## 14 "$call$row.w" "weights for the individuals"
## 15 "$call$col.w" "weights for the variables"
Se inicia la técnica evaluando los eigenvalores.
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 1.6670810 12.823700 12.82370
## Dim.2 1.5824019 12.172322 24.99602
## Dim.3 1.4434904 11.103772 36.09979
## Dim.4 1.0632455 8.178812 44.27861
## Dim.5 1.0397847 7.998344 52.27695
## Dim.6 1.0108781 7.775985 60.05293
## Dim.7 0.9942109 7.647776 67.70071
## Dim.8 0.9893837 7.610644 75.31135
## Dim.9 0.9447324 7.267172 82.57853
## Dim.10 0.9322331 7.171024 89.74955
## Dim.11 0.5038360 3.875661 93.62521
## Dim.12 0.4765985 3.666142 97.29135
## Dim.13 0.3521239 2.708646 100.00000
Un valor propio >1 indica que las CP representan una mayor varianza que representa una de las variables originales en datos estandarizados. Esto se usa comúnmente como un punto de corte para saber cuantas CP deben ser retenidas. Esto solo es cierto cuando los datos están estandarizados.
Se puede observar de manera visual el comportamiento de las componentes,
Del gráfico anterior, es posible que deseemos detenernos en el tercer componente principal. En 11.1% de la información (varianzas) contenida en los datos son retenidos por los primeros tres componentes principales.
## Principal Component Analysis Results for variables
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for the variables"
## 2 "$cor" "Correlations between variables and dimensions"
## 3 "$cos2" "Cos2 for the variables"
## 4 "$contrib" "contributions of the variables"
Iniciamos entendiendo las coordenadas de las variables
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## battery_power 0.10543241 -0.01086144 0.08641524 0.62975510 -0.025298024
## clock_speed 0.01602428 -0.06372760 0.01187400 -0.09812038 0.117180677
## int_memory -0.10176610 0.02070840 -0.06737472 0.11965952 0.673657356
## ram 0.03467708 0.05982865 -0.09959937 0.13270618 0.523515064
## fc 0.83615810 0.33434733 -0.04840719 -0.06638319 0.033980752
## pc 0.83712701 0.33764773 -0.04703155 -0.02870397 0.036305533
## px_height -0.22622055 0.58993068 0.59375560 -0.03458743 0.031508406
## px_width -0.19552265 0.57404147 0.61773349 -0.04915560 0.044784076
## m_dep 0.03998728 0.01748176 0.13411221 0.44658505 -0.164255597
## mobile_wt 0.08212352 -0.03143149 0.08117872 0.04570959 -0.493470508
## sc_h -0.26132178 0.58408978 -0.57318747 0.07315540 -0.090567960
## sc_w -0.27692099 0.57182735 -0.57094059 0.07982737 -0.115404151
## talk_time 0.03853480 -0.03791486 0.06028049 0.63482454 -0.006799372
Dado el resultado anterior, podemos interpretar que battery_power en la dimensión 1 se encuentra en 0.10543241, en la dimensión 2 en -0.01086144, por lo que en el plano cartesiano tendríamos que está ubicado en el eje x positivo, en la parte inferior.
La velocidad del microprocesador en la dimensión 1 se encuentra en 0.01602428, en la dimensión 2 en -0.06372760, por lo que en el plano cartesiano tendríamos que está ubicado en el eje x positivo, en la parte inferior.
La memoria interna en la dimensión 1 se encuentra en -0.10176610, en la dimensión 2 en 0.02070840, por lo que en el plano cartesiano tendríamos que está ubicado en el eje x negativo, en la parte superior.
La ram en la dimensión 1 se encuentra en 0.03467708, en la dimensión 2 en 0.05982865, por lo que en el plano cartesiano tendríamos que está ubicado en el eje x positivo, en la parte superior.
Los megapixeles de la cámara frontal en la dimensión 1 se encuentra en 0.83615810, en la dimensión 2 en 0.33434733, por lo que en el plano cartesiano tendríamos que está ubicado en el eje x positivo, en la parte superior.
Visualización de la contribución de las variables biplot
Correlación entre las variables
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## battery_power 0.10543241 -0.01086144 0.08641524 0.62975510 -0.025298024
## clock_speed 0.01602428 -0.06372760 0.01187400 -0.09812038 0.117180677
## int_memory -0.10176610 0.02070840 -0.06737472 0.11965952 0.673657356
## ram 0.03467708 0.05982865 -0.09959937 0.13270618 0.523515064
## fc 0.83615810 0.33434733 -0.04840719 -0.06638319 0.033980752
## pc 0.83712701 0.33764773 -0.04703155 -0.02870397 0.036305533
## px_height -0.22622055 0.58993068 0.59375560 -0.03458743 0.031508406
## px_width -0.19552265 0.57404147 0.61773349 -0.04915560 0.044784076
## m_dep 0.03998728 0.01748176 0.13411221 0.44658505 -0.164255597
## mobile_wt 0.08212352 -0.03143149 0.08117872 0.04570959 -0.493470508
## sc_h -0.26132178 0.58408978 -0.57318747 0.07315540 -0.090567960
## sc_w -0.27692099 0.57182735 -0.57094059 0.07982737 -0.115404151
## talk_time 0.03853480 -0.03791486 0.06028049 0.63482454 -0.006799372
En la dimensión 1, tenemos que pc tiene un valor de 0.83712701 y fc de 0.83615810, lo que indica que son quienes dan mayor significancia. En la dimensión 2, tenemos que px_height tiene un valor de 0.58993068 y sc_h de 0.58408978 son quienes nos dan mayor significancia. En la dimensión 3, tenemos que px_width tiene un valor de 0.61773349 y px_height de 0.59375560 son quienes nos dan mayor significancia. En la dimensión 4, tenemos que int_memory tiene un valor de 0.673657356 y battery_power de 0.62975510 son quienes nos dan mayor significancia. En la dimensión 5, tenemos que px_width tiene un valor de 0.61773349 y ram de 0.523515064 son quienes nos dan mayor significancia.
En el mapa de calor que habla de la correlación respecto a la dimensión,
tenemos que las variables fc y pc son las que aportan en la dimensión 1,
en la dimensión 2 las variables px_height, px_width, sc_h y sc_w son las
que mayor aportan, en la dimensión 3 las variables px_height y px_width,
en la dimensión 4 las variables battery_power y talk_time, por último,
en la dimensión 5 quien mayor aporta es la variable int_memory.
Análisis del coseno^2: Permite indicar la calidad de la variable
Un alto cos2 indica una buena representación de la variable en el componente principal.
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## battery_power 0.0111159928 0.0001179708 0.0074675944 0.3965914842 6.399900e-04
## clock_speed 0.0002567775 0.0040612073 0.0001409919 0.0096276099 1.373131e-02
## int_memory 0.0103563392 0.0004288376 0.0045393530 0.0143184002 4.538142e-01
## ram 0.0012025001 0.0035794672 0.0099200341 0.0176109307 2.740680e-01
## fc 0.6991603626 0.1117881349 0.0023432556 0.0044067275 1.154692e-03
## pc 0.7007816390 0.1140059867 0.0022119669 0.0008239179 1.318092e-03
## px_height 0.0511757389 0.3480182109 0.3525457086 0.0011962902 9.927796e-04
## px_width 0.0382291062 0.3295236129 0.3815946623 0.0024162728 2.005613e-03
## m_dep 0.0015989823 0.0003056120 0.0179860837 0.1994382056 2.697990e-02
## mobile_wt 0.0067442727 0.0009879385 0.0065899843 0.0020893664 2.435131e-01
## sc_h 0.0682890740 0.3411608756 0.3285438744 0.0053517126 8.202555e-03
## sc_w 0.0766852340 0.3269865163 0.3259731549 0.0063724089 1.331812e-02
## talk_time 0.0014849312 0.0014375363 0.0036337376 0.4030021924 4.623146e-05
Es una metrica de evaluacion de calidad de representación dentro de la componente, la mayor representante de dim 1 es pc y fc, en la dimensión 2 es px_height y sc_hm, en la dimensión 3 tenemos a px_width y px_height, en la dimensión 4 a talk_time y battery_power, por último en la dimensión 5 son int_memory, mobile_wt y ram quienes tienen mayor representación.
Visualización de los cos^2
Análisis de contribuciones
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## battery_power 0.66679382 0.007455171 0.517328992 37.30008516 0.061550247
## clock_speed 0.01540282 0.256648284 0.009767426 0.90549264 1.320591773
## int_memory 0.62122593 0.027100425 0.314470605 1.34666923 43.645020104
## ram 0.07213207 0.226204681 0.687225499 1.65633716 26.358151565
## fc 41.93919692 7.064459061 0.162332610 0.41446001 0.111051021
## pc 42.03644933 7.204616359 0.153237381 0.07749084 0.126765832
## px_height 3.06978128 21.993035355 24.423141867 0.11251308 0.095479347
## px_width 2.29317635 20.824267934 26.435552453 0.22725445 0.192887382
## m_dep 0.09591510 0.019313174 1.246013392 18.75749316 2.594758480
## mobile_wt 0.40455580 0.062432840 0.456531214 0.19650837 23.419573975
## sc_h 4.09632621 21.559685570 22.760378179 0.50333742 0.788870567
## sc_w 4.59997063 20.663935938 22.582287666 0.59933560 1.280853454
## talk_time 0.08907373 0.090845210 0.251732716 37.90302288 0.004446253
Visualización de contribuciones
En este caso tenemos que las variables pc y fc son las más
contribuyentes.
En este caso tenemos que las variables px_height, sc_h, px_width y sc_w
son las más contribuyentes.
En este caso tenemos que las variables px_width, px_height, sc_h y sc_w
son las más contribuyentes.
En este caso tenemos que las variables talk_time, battery_power y m_dep son las más contribuyentes.
En este caso tenemos que las variables int_memory, ram y mobile_wt son las más contribuyentes.
## Principal Component Analysis Results for individuals
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for the individuals"
## 2 "$cos2" "Cos2 for the individuals"
## 3 "$contrib" "contributions of the individuals"
Iniciamos leyendo coordenadas cartesianas
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## 1 -0.6257426 -2.0844615 -0.7733030 0.5212547 -1.4388609
## 2 -1.6545617 0.9874892 0.8817435 -0.1377132 0.8333180
## 3 -1.0497648 0.4244750 1.8041944 -0.4629920 0.3368312
Gráficas visual de coordenadas
Los que estan cerca al origen no puedo dar estadisticamente información, el grupo azul se pueden decir que son similares, los que estan lejos a la dimensión 1 son significativos, los de color naranje, tambien se revisan los que estan lejos, como Nool y YURKOV según los datos
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## 1 0.02812296 0.31207380 0.04295058 0.019515043 0.148698710
## 2 0.25606903 0.09121281 0.07272365 0.001773955 0.064955015
## 3 0.09951134 0.01627019 0.29393764 0.019356891 0.010245028
## 4 0.17195870 0.18921278 0.03995960 0.025255764 0.017010858
## 5 0.34848521 0.01202219 0.21440839 0.109372349 0.006162127
## 6 0.03638687 0.03686813 0.14599040 0.091825553 0.199258925
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## 1 0.01174369 0.137290652 0.02071360 0.0127772210 0.099555267
## 2 0.08210682 0.030811857 0.02693026 0.0008918418 0.033392438
## 3 0.03305197 0.005693212 0.11275161 0.0100805327 0.005455709
## 4 0.06006278 0.069626026 0.01611926 0.0138313603 0.009526223
## 5 0.11815527 0.004294300 0.08395630 0.0581432624 0.003349752
## 6 0.01098265 0.011723390 0.05088964 0.0434559214 0.096425819
Gráfica de contribuciones de individuos por componentes
para las variables categoricas se hace por kmedias
## 1 2 3 4 5 6 7 8
## 3.731343 3.269674 3.327788 3.412589 3.362232 3.172302 2.820132 3.892283
## 9 10 11 12 13 14 15 16
## 3.640579 4.159638 4.557712 2.976312 3.773642 3.685519 4.549783 3.742892
## 17 18 19 20 21 22 23 24
## 4.085361 3.627161 3.865199 3.241008 4.639217 3.602876 3.611045 3.632021
## 25 26 27 28 29 30
## 2.978459 3.060643 3.856164 3.026739 3.331216 3.137861
## tibble [2,000 × 8] (S3: tbl_df/tbl/data.frame)
## $ bluetooth : Factor w/ 2 levels "0","1": 1 2 2 2 2 1 1 1 2 2 ...
## $ n_cores : Factor w/ 8 levels "1","2","3","4",..: 2 3 5 6 2 1 8 4 7 5 ...
## $ dual_sim : Factor w/ 2 levels "0","1": 1 2 2 1 1 2 1 2 1 2 ...
## $ three_g : Factor w/ 2 levels "0","1": 1 2 2 2 2 2 2 2 2 2 ...
## $ four_g : Factor w/ 2 levels "0","1": 1 2 2 1 2 1 2 1 1 2 ...
## $ touch_screen: Factor w/ 2 levels "0","1": 1 2 2 1 2 1 1 2 1 1 ...
## $ wifi : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 2 2 1 1 ...
## $ price_range : Factor w/ 4 levels "0","1","2","3": 2 3 3 3 2 2 4 1 1 1 ...
Revisamos la técnica ACM a partir de la función MCA
## **Results of the Multiple Correspondence Analysis (MCA)**
## The analysis was performed on 2000 individuals, described by 8 variables
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues"
## 2 "$var" "results for the variables"
## 3 "$var$coord" "coord. of the categories"
## 4 "$var$cos2" "cos2 for the categories"
## 5 "$var$contrib" "contributions of the categories"
## 6 "$var$v.test" "v-test for the categories"
## 7 "$var$eta2" "coord. of variables"
## 8 "$ind" "results for the individuals"
## 9 "$ind$coord" "coord. for the individuals"
## 10 "$ind$cos2" "cos2 for the individuals"
## 11 "$ind$contrib" "contributions of the individuals"
## 12 "$call" "intermediate results"
## 13 "$call$marge.col" "weights of columns"
## 14 "$call$marge.li" "weights of rows"
Se inicia con la obtención de los eigenvalores, sin embargo su interpretación está basada en la varianza acumulada.
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 0.19988279 9.994139 9.994139
## Dim.2 0.13680784 6.840392 16.834531
## Dim.3 0.13527132 6.763566 23.598097
## Dim.4 0.13310248 6.655124 30.253221
## Dim.5 0.13051188 6.525594 36.778815
## Dim.6 0.13002828 6.501414 43.280229
## Dim.7 0.12883997 6.441998 49.722228
## Dim.8 0.12537815 6.268908 55.991136
## Dim.9 0.12418846 6.209423 62.200558
## Dim.10 0.12280954 6.140477 68.341035
## Dim.11 0.12141949 6.070974 74.412010
## Dim.12 0.11685716 5.842858 80.254868
## Dim.13 0.11625668 5.812834 86.067702
## Dim.14 0.11470658 5.735329 91.803031
## Dim.15 0.11285574 5.642787 97.445818
## Dim.16 0.05108364 2.554182 100.000000
Al revisar el porcentaje de la varianza acumuladaenemos que hasta la dimensión 12 nos aporta un 80.254868%.
Se puede realizar la prueba del codo, para revisar en que momento tiene un cambio brusco para validar cuando se vuelve constante.
Visualizar los resultados de los eigenvalores
El gráfico nos indica que la componente 1 es la que contiene mayor información, el cambio se evidencia en 4, donde hay mayor cambio con un 6.7%
# Visualización de variables
## Multiple Correspondence Analysis Results for variables
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for categories"
## 2 "$cos2" "Cos2 for categories"
## 3 "$contrib" "contributions of categories"
Analizamos las coordenadas de las variables
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## bluetooth_0 -0.029712822 0.402699794 -0.13455684 0.57436267 0.1287650182
## bluetooth_1 0.030313081 -0.410835144 0.13727516 -0.58596595 -0.1313663317
## n_cores_1 0.142322010 0.891302494 1.07225385 0.03728524 -0.4454436589
## n_cores_2 -0.293526444 -0.385563012 0.26035287 0.37740539 0.9055717190
## n_cores_3 -0.183841350 0.841572169 0.14327416 0.69911689 0.3242099897
## n_cores_4 -0.103070875 0.173583017 0.27143492 -0.55135936 -0.9888906381
## n_cores_5 0.293382209 -1.013959305 0.35218992 0.31258067 0.2679169440
## n_cores_6 -0.007284899 0.385339270 -0.69258046 0.00734816 0.8380482838
## n_cores_7 0.042441677 -0.587053999 -0.73459395 0.44986550 -0.4590042543
## n_cores_8 0.117330494 -0.242955848 -0.66600228 -1.24317395 -0.2517775132
## dual_sim_0 -0.012409515 0.270833882 -0.51736226 0.12667320 -0.1749881826
## dual_sim_1 0.011946746 -0.260734090 0.49806907 -0.12194937 0.1684626174
## three_g_0 1.577034509 0.031597584 0.04467868 -0.05301861 0.1098792606
## three_g_1 -0.493923481 -0.009896289 -0.01399326 0.01660530 -0.0344139247
## four_g_0 0.923417169 0.046132172 -0.01945264 0.05576003 0.0005313270
## four_g_1 -0.847277307 -0.042328369 0.01784868 -0.05116237 -0.0004875168
## touch_screen_0 0.041612623 -0.295896946 0.15354193 0.52640186 -0.2694055091
## touch_screen_1 -0.041116250 0.292367360 -0.15171042 -0.52012271 0.2661919245
## wifi_0 -0.017000495 -0.043384089 -0.28437660 -0.07634140 -0.1753452748
## wifi_1 0.016531053 0.042186106 0.27652399 0.07423336 0.1705033934
## price_range_0 0.045583778 0.040320236 -0.70455514 -0.19147282 0.8458358254
## price_range_1 -0.001920428 0.970695610 0.57460049 -0.30013544 -0.4056043708
## price_range_2 0.050906794 -0.433200967 -0.45881469 0.40167157 -0.9285120570
## price_range_3 -0.094570143 -0.577814879 0.58876934 0.08993670 0.4882806023
Cuando un dispositivo tiene bluetooth se encuentra en la dimensión 1 en -0.029712822, en la dimensión 2 en 0.402699794, con esta información podemos realizar una gráfica en 2 dimensiones, estaría en el eje x negativo , en la parte superior, y así validar a cuál eje está más cercano, si al eje x o al eje y. Y a partir de ahí, conocemosa que componente atribuye más, si a la 1 o a la componente 2.
Cuando un dispositivo no tiene bluetooth se encuentra en la dimensión 1 en 0.030313081, en la dimensión 2 en -0.410835144,al gráficar en 2 dimensiones, tendríamos el eje x positivo, en la parte inferior.
Cuando un dispositivo tiene un núcleo se encuentra en la dimensión 1 en 0.142322010, en la dimensión 2 en 0.891302494,al gráficar en 2 dimensiones, tendríamos el eje x positivo, en la parte superior
Cuando un dispositivo no tiene doble sim se encuentra en la dimensión 1 en -0.012409515, en la dimensión 2 en 0.270833882,al gráficar en 2 dimensiones, tendríamos el eje x negativo, en la parte superior
Cuando un dispositivo tiene wifi se encuentra en la dimensión 1 en 0.016531053, en la dimensión 2 en 0.042186106,al gráficar en 2 dimensiones, tendríamos el eje x positivo, en la parte superior
Visualización de coordenadas
La mayoría de los azules están cerca a la dimensión 1, four_g_0, three_g_0, three_g_1, four_g_1.price_range_0, wifi_1, están cerca a la dimensión 2. Se destacan las siguientes variables n_cores_5,n_cores_1,n_cores_3, three_g_0 y price_range_1 son las más lejanas y las que mayor información nos dan.
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## bluetooth_0 9.006872e-04 0.1654432280 0.0184713126 3.365570e-01 1.691539e-02
## bluetooth_1 9.006872e-04 0.1654432280 0.0184713126 3.365570e-01 1.691539e-02
## n_cores_1 2.788307e-03 0.1093570381 0.1582674919 1.913684e-04 2.731380e-02
## n_cores_2 1.213974e-02 0.0209462251 0.0095508002 2.006925e-02 1.155475e-01
## n_cores_3 4.740148e-03 0.0993317868 0.0028789974 6.854963e-02 1.474206e-02
## n_cores_4 1.686482e-03 0.0047832627 0.0116961040 4.825911e-02 1.552410e-01
## n_cores_5 1.207183e-02 0.1441937938 0.0173963996 1.370344e-02 1.006713e-02
## n_cores_6 6.896069e-06 0.0192948368 0.0623297010 7.016359e-06 9.126256e-02
## n_cores_7 2.679699e-04 0.0512692654 0.0802778416 3.010692e-02 3.134256e-02
## n_cores_8 2.020763e-03 0.0086645936 0.0651095831 2.268597e-01 9.305235e-03
## dual_sim_0 1.482533e-04 0.0706156257 0.2576821415 1.544772e-02 2.947897e-02
## dual_sim_1 1.482533e-04 0.0706156257 0.2576821415 1.544772e-02 2.947897e-02
## three_g_0 7.789344e-01 0.0003126988 0.0006252002 8.803901e-04 3.781377e-03
## three_g_1 7.789344e-01 0.0003126988 0.0006252002 8.803901e-04 3.781377e-03
## four_g_0 7.823904e-01 0.0019526996 0.0003472041 2.852815e-03 2.590308e-07
## four_g_1 7.823904e-01 0.0019526996 0.0003472041 2.852815e-03 2.590308e-07
## touch_screen_0 1.710955e-03 0.0865106087 0.0232939099 2.737936e-01 7.171357e-02
## touch_screen_1 1.710955e-03 0.0865106087 0.0232939099 2.737936e-01 7.171357e-02
## wifi_0 2.810361e-04 0.0018302058 0.0786369525 5.667079e-03 2.989696e-02
## wifi_1 2.810361e-04 0.0018302058 0.0786369525 5.667079e-03 2.989696e-02
## price_range_0 6.926269e-04 0.0005419071 0.1654659799 1.222061e-02 2.384794e-01
## price_range_1 1.229348e-06 0.3140833223 0.1100552409 3.002709e-02 5.483830e-02
## price_range_2 8.638339e-04 0.0625543592 0.0701703079 5.378002e-02 2.873782e-01
## price_range_3 2.981171e-03 0.1112900113 0.1155497789 2.696203e-03 7.947265e-02
Las variables que tiene mejor calidad estadística son three_g_0 y three_g_1, seguidas de four_g_0 y four_g_1 para la dimensión 1, en el caso de la dimensión 2 son price_range_1 con 0.3140833223, bluetooth_0 y bluetooth_1 con 0.1654432280.
Como se mencionó anteriormente las variables three_g_0, three_g_1,
four_g_0 y four_g_1 son las que mayor calidad estadística tienen, y en
la gráfica resalta con su color naranja.
También es posible crear un gráfico de barras de la variable cos2.
Las categorías variables price_range_0, wifi_0, wifi_1 y n_cores_4 no están muy bien representadas por las dos primeras dimensiones. Esto implica que la posición de los puntos correspondientes en el gráfico de dispersión debe interpretarse con cierta precaución.
La línea roja discontinua en el gráfico anterior indica el valor promedio esperado, si las contribuciones fueron uniformes. Puede observarse que: ● Las categorías three_g_0, four_g_0, four_g_1 y three_g_1 son las más importantes en la definición de la primera dimensión. ● Las categorías price_range1, n_cores_5, n_cores_1 y n_cores_3 contribuyen más a la dimensión 2.
## Multiple Correspondence Analysis Results for individuals
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for the individuals"
## 2 "$cos2" "Cos2 for the individuals"
## 3 "$contrib" "contributions of the individuals"
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## 1 0.6209777 0.36589520 0.216945088 0.47339665 0.16098071
## 2 -0.4165876 -0.02245331 -0.038210366 -0.08159508 -0.17689978
## 3 -0.2831604 -0.64953316 0.032792905 -0.21403141 -0.19637757
## 4 0.1441656 -0.16590319 -0.576331369 0.16177056 -0.30291248
## 5 -0.4688343 0.21692774 0.007692743 -0.34709251 0.08634885
## 6 0.1612514 0.57482820 0.627421035 0.24394400 -0.35723632
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## 1 0.16781029 0.0582612851 2.048171e-02 0.097525229 0.011277539
## 2 0.09038693 0.0002625752 7.604232e-04 0.003467536 0.016298498
## 3 0.04175978 0.2197331868 5.600835e-04 0.023858768 0.020085228
## 4 0.01026475 0.0135936091 1.640476e-01 0.012924814 0.045316843
## 5 0.11416012 0.0244402670 3.073536e-05 0.062570010 0.003872477
## 6 0.01329099 0.1688988808 2.012189e-01 0.030418019 0.065232173
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## 1 0.096459851 0.0489296893 1.739658e-02 0.084184901 0.009928134
## 2 0.043411748 0.0001842552 5.396680e-04 0.002500989 0.011988767
## 3 0.020056714 0.1541919418 3.974880e-04 0.017208335 0.014774192
## 4 0.005198975 0.0100593166 1.227747e-01 0.009830663 0.035152343
## 5 0.054983615 0.0171984463 2.187393e-05 0.045255808 0.002856492
## 6 0.006504312 0.1207633510 1.455065e-01 0.022354458 0.048891252
El código R a continuación colorea los individuos por grupos utilizando los niveles de la variable Vómitos. El argumento habillage se usa para especificar la variable de factor para colorear los individuos por grupos. También se puede agregar una elipse de concentración alrededor de cada grupo usando el argumento addEllipses = TRUE. Si desea una elipse de confianza alrededor del punto medio de las categorías, use ellipse.type = “confidence” La paleta de argumentos se usa para cambiar los colores del grupo.
Se puede proporcionar una variable de agrupación externa de la siguiente manera: habillage = poison$bluetooth Por ejemplo,
## tibble [2,000 × 7] (S3: tbl_df/tbl/data.frame)
## $ bluetooth : Factor w/ 2 levels "0","1": 1 2 2 2 2 1 1 1 2 2 ...
## $ n_cores : Factor w/ 8 levels "1","2","3","4",..: 2 3 5 6 2 1 8 4 7 5 ...
## $ dual_sim : Factor w/ 2 levels "0","1": 1 2 2 1 1 2 1 2 1 2 ...
## $ three_g : Factor w/ 2 levels "0","1": 1 2 2 2 2 2 2 2 2 2 ...
## $ four_g : Factor w/ 2 levels "0","1": 1 2 2 1 2 1 2 1 1 2 ...
## $ touch_screen: Factor w/ 2 levels "0","1": 1 2 2 1 2 1 1 2 1 1 ...
## $ wifi : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 2 2 1 1 ...
Revisamos la técnica ACM a partir de la función MCA
## **Results of the Multiple Correspondence Analysis (MCA)**
## The analysis was performed on 2000 individuals, described by 7 variables
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues"
## 2 "$var" "results for the variables"
## 3 "$var$coord" "coord. of the categories"
## 4 "$var$cos2" "cos2 for the categories"
## 5 "$var$contrib" "contributions of the categories"
## 6 "$var$v.test" "v-test for the categories"
## 7 "$var$eta2" "coord. of variables"
## 8 "$ind" "results for the individuals"
## 9 "$ind$coord" "coord. for the individuals"
## 10 "$ind$cos2" "cos2 for the individuals"
## 11 "$ind$contrib" "contributions of the individuals"
## 12 "$call" "intermediate results"
## 13 "$call$marge.col" "weights of columns"
## 14 "$call$marge.li" "weights of rows"
Se inicia con la obtención de los eigenvalores, sin embargo su interpretación está basada en la varianza acumulada.
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 0.22825734 12.290780 12.29078
## Dim.2 0.15322500 8.250577 20.54136
## Dim.3 0.15186560 8.177378 28.71874
## Dim.4 0.14867098 8.005360 36.72410
## Dim.5 0.14425924 7.767805 44.49190
## Dim.6 0.14305100 7.702746 52.19465
## Dim.7 0.14285714 7.692308 59.88695
## Dim.8 0.14163585 7.626546 67.51350
## Dim.9 0.13972631 7.523724 75.03722
## Dim.10 0.13819532 7.441286 82.47851
## Dim.11 0.13595558 7.320685 89.79920
## Dim.12 0.13079827 7.042984 96.84218
## Dim.13 0.05864522 3.157820 100.00000
Al revisar el porcentaje de la varianza acumuladaenemos que hasta la dimensión 8 nos aporta un 67.51350%.
Se puede realizar la prueba del codo, para revisar en que momento tiene un cambio brusco para validar cuando se vuelve constante.
Visualizar los resultados de los eigenvalores
El gráfico nos indica que la componente 1 es la que contiene mayor información, el cambio se evidencia en 4, donde hay mayor cambio con un 8%
# Visualización de variables
## Multiple Correspondence Analysis Results for variables
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for categories"
## 2 "$cos2" "Cos2 for categories"
## 3 "$contrib" "contributions of categories"
Analizamos las coordenadas de las variables
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## bluetooth_0 -0.032270219 0.647902615 0.327291158 -0.103464719 0.08047994
## bluetooth_1 0.032922143 -0.660991557 -0.333903101 0.105554916 -0.08210580
## n_cores_1 0.152265904 0.442510607 0.163084906 -0.082531628 -0.18190128
## n_cores_2 -0.294404154 -0.437171393 0.985351199 0.537941219 0.64882920
## n_cores_3 -0.184525592 0.827174656 0.687599518 -0.118033017 1.19884886
## n_cores_4 -0.109829147 -0.638971552 0.043459943 -0.804346955 -1.22043199
## n_cores_5 0.299021317 -0.537710974 0.434400861 -0.057233880 -0.10530663
## n_cores_6 -0.008407289 0.842016437 -0.583701271 -0.737075350 -0.10945159
## n_cores_7 0.042848381 0.258853070 -0.432665461 1.283037596 -1.33155383
## n_cores_8 0.111846332 -0.609151637 -1.267409236 -0.047544967 1.24684604
## dual_sim_0 -0.015186262 0.533158645 -0.404894211 0.213129461 -0.18431793
## dual_sim_1 0.014619944 -0.513276379 0.389795113 -0.205181552 0.17744444
## three_g_0 1.578810247 -0.029200522 0.019371589 0.006148742 0.10245968
## three_g_1 -0.494479637 0.009145535 -0.006067136 -0.001925771 -0.03209013
## four_g_0 0.922926356 0.069767340 0.026638000 -0.011710929 -0.01227050
## four_g_1 -0.846826963 -0.064014712 -0.024441579 0.010745310 0.01125874
## touch_screen_0 0.041774937 -0.070230051 0.513857335 0.464836763 -0.14556583
## touch_screen_1 -0.041276627 0.069392317 -0.507727824 -0.459291990 0.14382946
## wifi_0 -0.018942408 -0.020049760 -0.249433090 0.616143344 0.28316062
## wifi_1 0.018419344 0.019496117 0.242545391 -0.599129524 -0.27534158
Cuando un dispositivo tiene bluetooth se encuentra en la dimensión 1 en 0.032922143, en la dimensión 2 en -0.660991557, con esta información podemos realizar una gráfica en 2 dimensiones, estaría en el eje x postivo, en la parte inferior, y así validar a cuál eje está más cercano, si al eje x o al eje y. Y a partir de ahí, conocemosa que componente atribuye más, si a la 1 o a la componente 2.
Cuando un dispositivo no tiene bluetooth se encuentra en la dimensión 1 en -0.032270219, en la dimensión 2 en 0.647902615,al gráficar en 2 dimensiones, tendríamos el eje x negativo, en la parte superior.
Cuando un dispositivo tiene un núcleo se encuentra en la dimensión 1 en 0.152265904, en la dimensión 2 en 0.442510607,al gráficar en 2 dimensiones, tendríamos el eje x positivo, en la parte superior
Cuando un dispositivo no tiene doble sim se encuentra en la dimensión 1 en -0.015186262, en la dimensión 2 en 0.533158645,al gráficar en 2 dimensiones, tendríamos el eje x negativo, en la parte superior
Cuando un dispositivo tiene wifi se encuentra en la dimensión 1 en 0.018419344, en la dimensión 2 en 0.019496117,al gráficar en 2 dimensiones, tendríamos el eje x positivo, en la parte superior
Visualización de coordenadas
La mayoría de los azules están cerca a la dimensión 1, four_g_0, three_g_0, three_g_1, four_g_1, están cerca a la dimensión 2. Se destacan las siguientes variables n_cores_6,n_cores_3, bluetooth_0 son las más lejanas y las que mayor información nos dan.
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## bluetooth_0 1.062405e-03 0.4282581586 0.1092835324 1.092121e-02 0.0066078700
## bluetooth_1 1.062405e-03 0.4282581586 0.1092835324 1.092121e-02 0.0066078700
## n_cores_1 3.191551e-03 0.0269552811 0.0036612049 9.376426e-04 0.0045547864
## n_cores_2 1.221245e-02 0.0269288935 0.1368034771 4.077413e-02 0.0593165401
## n_cores_3 4.775499e-03 0.0959621473 0.0663096363 1.953946e-03 0.2015739398
## n_cores_4 1.914895e-03 0.0648145960 0.0002998390 1.027062e-01 0.2364487038
## n_cores_5 1.254035e-02 0.0405511633 0.0264659125 4.594221e-04 0.0015553101
## n_cores_6 9.184732e-06 0.0921288625 0.0442726836 7.059572e-02 0.0015566778
## n_cores_7 2.731303e-04 0.0099679909 0.0278487334 2.448949e-01 0.2637657790
## n_cores_8 1.836272e-03 0.0544683621 0.2357909976 3.318200e-04 0.2282018401
## dual_sim_0 2.220223e-04 0.2736577388 0.1578257847 4.373023e-02 0.0327061928
## dual_sim_1 2.220223e-04 0.2736577388 0.1578257847 4.373023e-02 0.0327061928
## three_g_0 7.806895e-01 0.0002670544 0.0001175301 1.184107e-05 0.0032879446
## three_g_1 7.806895e-01 0.0002670544 0.0001175301 1.184107e-05 0.0032879446
## four_g_0 7.815589e-01 0.0044661362 0.0006510748 1.258376e-04 0.0001381504
## four_g_1 7.815589e-01 0.0044661362 0.0006510748 1.258376e-04 0.0001381504
## touch_screen_0 1.724328e-03 0.0048734260 0.2608996670 2.134958e-01 0.0209366549
## touch_screen_1 1.724328e-03 0.0048734260 0.2608996670 2.134958e-01 0.0209366549
## wifi_0 3.489067e-04 0.0003908925 0.0604988464 3.691497e-01 0.0779658924
## wifi_1 3.489067e-04 0.0003908925 0.0604988464 3.691497e-01 0.0779658924
Las variables que tiene mejor calidad estadística son three_g_0 y three_g_1, seguidas de four_g_0 y four_g_1 para la dimensión 1, en el caso de la dimensión 2 son bluetooth_0 y bluetooth_1.
Como se mencionó anteriormente las variables three_g_0, three_g_1,
four_g_0 y four_g_1 son las que mayor calidad estadística tienen, y en
la gráfica resalta con su color naranja.
También es posible crear un gráfico de barras de la variable cos2.
Las categorías variables wifi_1, wifi_0,touch_screen_0 y touch_screen_1 no están muy bien representadas por las dos primeras dimensiones. Esto implica que la posición de los puntos correspondientes en el gráfico de dispersión debe interpretarse con cierta precaución.
La línea roja discontinua en el gráfico anterior indica el valor promedio esperado, si las contribuciones fueron uniformes. Puede observarse que: ● Las categorías three_g_0, four_g_0, four_g_1 y three_g_1 son las más importantes en la definición de la primera dimensión. ● Las categorías bluetooth_1, bluetooth_0, dual_sim_0 y dual_sim_1 contribuyen más a la dimensión 2.
## Multiple Correspondence Analysis Results for individuals
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for the individuals"
## 2 "$cos2" "Cos2 for the individuals"
## 3 "$contrib" "contributions of the individuals"
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## 1 0.6638291 0.2677744 0.62691566 0.188122031 0.08059304
## 2 -0.4600337 -0.1286897 -0.01619494 -0.019261864 0.63953968
## 3 -0.3154471 -0.6268091 -0.10901325 0.003264249 0.14901652
## 4 0.1377276 0.2564951 -0.38033108 0.240437236 -0.10630791
## 5 -0.5018012 -0.2082171 -0.19836380 0.378761415 0.29659729
## 6 0.1751900 0.2064795 0.42713009 0.250519695 0.06366158
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## 1 0.20052165 0.032627734 0.1788409210 1.610379e-02 0.002955587
## 2 0.11985378 0.009379081 0.0001485357 2.101208e-04 0.231636709
## 3 0.05635408 0.222506632 0.0067302461 6.034469e-06 0.012575963
## 4 0.01006069 0.034893472 0.0767201655 3.066121e-02 0.005994004
## 5 0.14210968 0.024467685 0.0222067533 8.096395e-02 0.049647179
## 6 0.01698225 0.023590141 0.1009478117 3.472644e-02 0.002242495
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## 1 0.096529012 0.023397993 1.293984e-01 1.190209e-02 0.002251238
## 2 0.046357989 0.005404161 8.635135e-05 1.247787e-04 0.141762499
## 3 0.021797077 0.128206760 3.912633e-03 3.583525e-06 0.007696534
## 4 0.004155154 0.021468349 4.762492e-02 1.944228e-02 0.003917035
## 5 0.055158025 0.014147282 1.295494e-02 4.824755e-02 0.030490232
## 6 0.006723011 0.013912152 6.006631e-02 2.110705e-02 0.001404692
El código R a continuación colorea los individuos por grupos utilizando los niveles de la variable Vómitos. El argumento habillage se usa para especificar la variable de factor para colorear los individuos por grupos. También se puede agregar una elipse de concentración alrededor de cada grupo usando el argumento addEllipses = TRUE. Si desea una elipse de confianza alrededor del punto medio de las categorías, use ellipse.type = “confidence” La paleta de argumentos se usa para cambiar los colores del grupo.
Tenga en cuenta que, para especificar el valor del argumento habillage, también es posible usar el índice de la columna de la siguiente manera (habillage = 2). Además, puede proporcionar una variable de agrupación externa de la siguiente manera: habillage = poison$Vomiting. Por ejemplo,