Introducción

En la actualiad, encontramos varias empresas de ceulares como lo puede ser Apple, Samsung, Redmi,entre otras compañías, las cuales crean diferentes gamas de celulares, como lo puede ser la gama baja, media, alta y muy alta, las cuales se clasifican dependiendo de la velocidad del microprocesador, los megapixeles de las cámaras tanto frontal como de la trasera, el número de nucleos del procesador, la ram, el tiempo de carga y demás variables. Por lo que en el presente análisis descubriremos como se comportan los datos, y a partir de ahí enfocar la relación del precio final junto con las demás varaibles.

Exploración de Datos

Variables Numéricas (Continuas y Discretas)

  • battery_power:
    • Descripción: Energía total que una batería puede almacenar en un período de tiempo.
    • Unidad: mAh (miliamperios-hora)
    • Tipo de Dato: Numérico (Continuo)
  • clock_speed:
    • Descripción: Velocidad a la que el microprocesador del teléfono ejecuta las instrucciones.
    • Unidad: GHz (gigahertzios)
    • Tipo de Dato: Numérico (Continuo)
  • int_memory:
    • Descripción: Cantidad de memoria interna disponible en el teléfono.
    • Unidad: GB (gigabytes)
    • Tipo de Dato: Numérico (Continuo)
  • ram:
    • Descripción: Cantidad de memoria de acceso aleatorio disponible en el teléfono.
    • Unidad: MB (megabytes)
    • Tipo de Dato: Numérico (Continuo)
  • fc:
    • Descripción: Resolución de la cámara frontal del teléfono.
    • Unidad: Megapíxeles
    • Tipo de Dato: Numérico (Continuo)
  • pc:
    • Descripción: Resolución de la cámara principal (trasera) del teléfono.
    • Unidad: Megapíxeles
    • Tipo de Dato: Numérico (Continuo)
  • px_height:
    • Descripción: Altura de la resolución de la pantalla del teléfono.
    • Unidad: Píxeles
    • Tipo de Dato: Numérico (Discreto - entero)
  • px_width:
    • Descripción: Ancho de la resolución de la pantalla del teléfono.
    • Unidad: Píxeles
    • Tipo de Dato: Numérico (Discreto - entero)
  • m_dep:
    • Descripción: Profundidad del teléfono móvil.
    • Unidad: cm (centímetros)
    • Tipo de Dato: Numérico (Continuo)
  • mobile_wt:
    • Descripción: Peso del teléfono móvil.
    • Unidad: Gramos (se asume)
    • Tipo de Dato: Numérico (Continuo)
  • sc_h:
    • Descripción: Altura de la pantalla del teléfono móvil.
    • Unidad: cm (centímetros)
    • Tipo de Dato: Numérico (Continuo)
  • sc_w:
    • Descripción: Ancho de la pantalla del teléfono móvil.
    • Unidad: cm (centímetros)
    • Tipo de Dato: Numérico (Continuo)
  • talk_time:
    • Descripción: Tiempo máximo que la batería durará con una sola carga durante una llamada.
    • Unidad: Horas (se asume)
    • Tipo de Dato: Numérico (Continuo)

Variables Categóricas (Binarias)

  • bluetooth:
    • Descripción: Indica si el teléfono tiene capacidad Bluetooth.
    • Valores Posibles: 0 (No), 1 (Sí)
    • Tipo de Dato: Categórico (Binario)
  • dual_sim:
    • Descripción: Indica si el teléfono tiene soporte para dos tarjetas SIM.
    • Valores Posibles: 0 (No), 1 (Sí)
    • Tipo de Dato: Categórico (Binario)
  • three_g:
    • Descripción: Indica si el teléfono tiene capacidad de red 3G.
    • Valores Posibles: 0 (No), 1 (Sí)
    • Tipo de Dato: Categórico (Binario)
  • four_g:
    • Descripción: Indica si el teléfono tiene capacidad de red 4G.
    • Valores Posibles: 0 (No), 1 (Sí)
    • Tipo de Dato: Categórico (Binario)
  • touch_screen:
    • Descripción: Indica si el teléfono tiene pantalla táctil.
    • Valores Posibles: 0 (No), 1 (Sí)
    • Tipo de Dato: Categórico (Binario)
  • wifi:
    • Descripción: Indica si el teléfono tiene capacidad Wi-Fi.
    • Valores Posibles: 0 (No), 1 (Sí)
    • Tipo de Dato: Categórico (Binario)
  • n_cores:
    • Descripción: Número de núcleos (procesadores independientes) que tiene el microprocesador del teléfono.
    • Valores Posibles: 1 (núcleo), 2 (núcleos), 3 (núcleos), 4 (núcleos), 5 (núcleos), 6 (núcleos), 7 (núcleos), 8 (núcleos)
    • Tipo de Dato: Categórico (Ordinal)
  • price_range:
    • Descripción: Rango de precios del teléfono móvil.
    • Valores Posibles: 0 (Costo bajo), 1 (Costo medio), 2 (Costo alto), 3 (Costo muy alto)
    • Tipo de Dato: Categórico (Ordinal)

Importamos la base de datos y renombramos para trabajar en un análisis descriptivo

  • Conocemos los datos de nuestra base
## # A tibble: 6 × 21
##   battery_power bluetooth clock_speed int_memory n_cores   ram dual_sim three_g
##           <dbl>     <dbl>       <dbl>      <dbl>   <dbl> <dbl>    <dbl>   <dbl>
## 1           842         0         2.2          7       2  2549        0       0
## 2          1021         1         0.5         53       3  2631        1       1
## 3           563         1         0.5         41       5  2603        1       1
## 4           615         1         2.5         10       6  2769        0       1
## 5          1821         1         1.2         44       2  1411        0       1
## 6          1859         0         0.5         22       1  1067        1       1
## # ℹ 13 more variables: four_g <dbl>, fc <dbl>, pc <dbl>, px_height <dbl>,
## #   px_width <dbl>, m_dep <dbl>, mobile_wt <dbl>, sc_h <dbl>, sc_w <dbl>,
## #   talk_time <dbl>, touch_screen <dbl>, wifi <dbl>, price_range <dbl>
## # A tibble: 6 × 21
##   battery_power bluetooth clock_speed int_memory n_cores   ram dual_sim three_g
##           <dbl>     <dbl>       <dbl>      <dbl>   <dbl> <dbl>    <dbl>   <dbl>
## 1           858         0         2.2         50       1  3978        0       1
## 2           794         1         0.5          2       6   668        1       1
## 3          1965         1         2.6         39       4  2032        1       1
## 4          1911         0         0.9         36       8  3057        1       1
## 5          1512         0         0.9         46       5   869        0       1
## 6           510         1         2           45       6  3919        1       1
## # ℹ 13 more variables: four_g <dbl>, fc <dbl>, pc <dbl>, px_height <dbl>,
## #   px_width <dbl>, m_dep <dbl>, mobile_wt <dbl>, sc_h <dbl>, sc_w <dbl>,
## #   talk_time <dbl>, touch_screen <dbl>, wifi <dbl>, price_range <dbl>
## [1] 2000   21
## battery_power     bluetooth   clock_speed    int_memory       n_cores 
##             0             0             0             0             0 
##           ram      dual_sim       three_g        four_g            fc 
##             0             0             0             0             0 
##            pc     px_height      px_width         m_dep     mobile_wt 
##             0             0             0             0             0 
##          sc_h          sc_w     talk_time  touch_screen          wifi 
##             0             0             0             0             0 
##   price_range 
##             0
##  battery_power      bluetooth      clock_speed      int_memory   
##  Min.   : 501.0   Min.   :0.000   Min.   :0.500   Min.   : 2.00  
##  1st Qu.: 851.8   1st Qu.:0.000   1st Qu.:0.700   1st Qu.:16.00  
##  Median :1226.0   Median :0.000   Median :1.500   Median :32.00  
##  Mean   :1238.5   Mean   :0.495   Mean   :1.522   Mean   :32.05  
##  3rd Qu.:1615.2   3rd Qu.:1.000   3rd Qu.:2.200   3rd Qu.:48.00  
##  Max.   :1998.0   Max.   :1.000   Max.   :3.000   Max.   :64.00  
##     n_cores           ram          dual_sim         three_g      
##  Min.   :1.000   Min.   : 256   Min.   :0.0000   Min.   :0.0000  
##  1st Qu.:3.000   1st Qu.:1208   1st Qu.:0.0000   1st Qu.:1.0000  
##  Median :4.000   Median :2146   Median :1.0000   Median :1.0000  
##  Mean   :4.521   Mean   :2124   Mean   :0.5095   Mean   :0.7615  
##  3rd Qu.:7.000   3rd Qu.:3064   3rd Qu.:1.0000   3rd Qu.:1.0000  
##  Max.   :8.000   Max.   :3998   Max.   :1.0000   Max.   :1.0000  
##      four_g             fc               pc           px_height     
##  Min.   :0.0000   Min.   : 0.000   Min.   : 0.000   Min.   :   0.0  
##  1st Qu.:0.0000   1st Qu.: 1.000   1st Qu.: 5.000   1st Qu.: 282.8  
##  Median :1.0000   Median : 3.000   Median :10.000   Median : 564.0  
##  Mean   :0.5215   Mean   : 4.309   Mean   : 9.916   Mean   : 645.1  
##  3rd Qu.:1.0000   3rd Qu.: 7.000   3rd Qu.:15.000   3rd Qu.: 947.2  
##  Max.   :1.0000   Max.   :19.000   Max.   :20.000   Max.   :1960.0  
##     px_width          m_dep          mobile_wt          sc_h      
##  Min.   : 500.0   Min.   :0.1000   Min.   : 80.0   Min.   : 5.00  
##  1st Qu.: 874.8   1st Qu.:0.2000   1st Qu.:109.0   1st Qu.: 9.00  
##  Median :1247.0   Median :0.5000   Median :141.0   Median :12.00  
##  Mean   :1251.5   Mean   :0.5018   Mean   :140.2   Mean   :12.31  
##  3rd Qu.:1633.0   3rd Qu.:0.8000   3rd Qu.:170.0   3rd Qu.:16.00  
##  Max.   :1998.0   Max.   :1.0000   Max.   :200.0   Max.   :19.00  
##       sc_w          talk_time      touch_screen        wifi      
##  Min.   : 0.000   Min.   : 2.00   Min.   :0.000   Min.   :0.000  
##  1st Qu.: 2.000   1st Qu.: 6.00   1st Qu.:0.000   1st Qu.:0.000  
##  Median : 5.000   Median :11.00   Median :1.000   Median :1.000  
##  Mean   : 5.767   Mean   :11.01   Mean   :0.503   Mean   :0.507  
##  3rd Qu.: 9.000   3rd Qu.:16.00   3rd Qu.:1.000   3rd Qu.:1.000  
##  Max.   :18.000   Max.   :20.00   Max.   :1.000   Max.   :1.000  
##   price_range  
##  Min.   :0.00  
##  1st Qu.:0.75  
##  Median :1.50  
##  Mean   :1.50  
##  3rd Qu.:2.25  
##  Max.   :3.00

De acuerdo al análisis descriptivo encontramos que 6 variables son cualitativas nominales y cuantitativas continuas son 2 y las 13 variables restantes son cuantitativas discretas.

Análisis exploratorio - descriptivo univariado

Variables cualitativas: Nominal - Ordinal

Inicialmente vamos a convertir variables númericas a factores

Se realiza un análisis descriptivo de las variables bluetooth, doble sim, wifi, touch_screen (pantalla táctil), en las que se observa si el dispositivo tiene o no estás funciones (0 dispositivos que no tienen está función y 1 cuando si), se muestra la cantidad de cada uno de ellos con su respectivo porcentaje.

## [1] "Tabla de distribución de frecuencias: price_range"
## Frequencies  
## price_range  
## Type: Numeric  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##           0    500     25.00          25.00     25.00          25.00
##           1    500     25.00          50.00     25.00          50.00
##           2    500     25.00          75.00     25.00          75.00
##           3    500     25.00         100.00     25.00         100.00
##        <NA>      0                               0.00         100.00
##       Total   2000    100.00         100.00    100.00         100.00

Se realizan las tablas de distribución para cada una de las variables:

cat(
  "[1] \"Tabla de distribución de frecuencias: Doble sim\"\n"
  )
## [1] "Tabla de distribución de frecuencias: Doble sim"
freq(dual_sim)
## Frequencies  
## dual_sim  
## Type: Numeric  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##           0    981     49.05          49.05     49.05          49.05
##           1   1019     50.95         100.00     50.95         100.00
##        <NA>      0                               0.00         100.00
##       Total   2000    100.00         100.00    100.00         100.00

La primera tabla es de la variable Doble sim, en la que se evidencia que los dispositivos que tienen doble sim (1), son 1019, valor el cual representa el 51% de los datos, por otro lado, están los dispositivos que no tienen (0), son 981 con un valor porcentual del 49% respecto al total.

cat(
  "[1] \"Tabla de distribución de frecuencias: bluetooth\"\n"
  )
## [1] "Tabla de distribución de frecuencias: bluetooth"
freq(bluetooth)
## Frequencies  
## bluetooth  
## Type: Numeric  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##           0   1010     50.50          50.50     50.50          50.50
##           1    990     49.50         100.00     49.50         100.00
##        <NA>      0                               0.00         100.00
##       Total   2000    100.00         100.00    100.00         100.00

La tabla de la variable bluetooth, indica los dispositivos que tienen bluetooth representado con el número (1), con un total de 1010, representando el 50.5% de los datos, por otro lado, están los dispositivos que no tienen (0), con un total de 990 y un valor porcentual del 49.5% respecto al total.

cat(
  "[1] \"Tabla de distribución de frecuencias: touch_screen \"\n"
  )
## [1] "Tabla de distribución de frecuencias: touch_screen "
freq(data$touch_screen )
## Frequencies  
## data$touch_screen  
## Type: Factor  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##           0    994     49.70          49.70     49.70          49.70
##           1   1006     50.30         100.00     50.30         100.00
##        <NA>      0                               0.00         100.00
##       Total   2000    100.00         100.00    100.00         100.00

La tabla de la variable touch_screen, indica los dispositivos que tienen pantalla táctil representado con el número (1), con un total de 1006, representando el 50.3% de los datos, por otro lado, están los dispositivos que no tienen (0), con un total de 994 y un valor porcentual del 49.7% respecto al total.

cat(
  "[1] \"Tabla de distribución de frecuencias: wifi \"\n"
  )
## [1] "Tabla de distribución de frecuencias: wifi "
freq(data$wifi )
## Frequencies  
## data$wifi  
## Type: Factor  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##           0    986     49.30          49.30     49.30          49.30
##           1   1014     50.70         100.00     50.70         100.00
##        <NA>      0                               0.00         100.00
##       Total   2000    100.00         100.00    100.00         100.00

La tabla de la variable wifi, indica los dispositivos que tienen wifi representado con el número (1), con un total de 1014, representando el 50.7% de los datos, por otro lado, están los dispositivos que no tienen (0), con un total de 986 y un valor porcentual del 49.3% respecto al total.

cat(
  "[1] \"Tabla de distribución de frecuencias: $three_g \"\n"
  )
## [1] "Tabla de distribución de frecuencias: $three_g "
freq(data$three_g )
## Frequencies  
## data$three_g  
## Type: Factor  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##           0    477     23.85          23.85     23.85          23.85
##           1   1523     76.15         100.00     76.15         100.00
##        <NA>      0                               0.00         100.00
##       Total   2000    100.00         100.00    100.00         100.00
Tabla_three_g <- data %>% group_by(three_g ) %>% summarise(Total=n()) %>%   
    dplyr::mutate(Porcentaje = round(Total/sum(Total)*100, 1))             #16
  
ggplot(Tabla_three_g, aes(x = three_g, y=Total,fill=three_g) ) +          
  geom_bar(width = 0.9, stat="identity", position = position_dodge())+                    
  
  ylim(c(0,1600))+
  labs(x="three_g", y= "Frecuencia \n (Porcentajes)") +  #17 
  labs(fill = "")+                                          
  
  geom_text(aes(label=paste0(Total," ", "", "(", Porcentaje, "%",")")),    #18
            vjust=-0.9, 
            color="black", 
            hjust=0.5,
            position = position_dodge(0.9),  
            angle=0, 
            size=4.0
            ) +  
  scale_fill_discrete(name = "El dispositivo tiene 3G", labels = c("No", "Si")) +   #19
  
  theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1)) +     #20
  facet_wrap(~"Variable 3G")

La tabla de la variable three_g, indica los dispositivos que tienen 3G representado con el número (1), con un total de 1523, representando el 76.1% de los datos, por otro lado, están los dispositivos que no tienen (0), con un total de 477 y un valor porcentual del 23.8% respecto al total. Adicionalmente, se evidencia la gráfica con esta información.

cat(
  "[1] \"Variable: four_g \"\n"
  )
## [1] "Variable: four_g "
freq(data$four_g )
## Frequencies  
## data$four_g  
## Type: Factor  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##           0    957     47.85          47.85     47.85          47.85
##           1   1043     52.15         100.00     52.15         100.00
##        <NA>      0                               0.00         100.00
##       Total   2000    100.00         100.00    100.00         100.00
Tabla_four_g <- data %>% group_by(four_g ) %>% summarise(Total=n()) %>%   
    dplyr::mutate(Porcentaje = round(Total/sum(Total)*100, 1))             #16
  
ggplot(Tabla_four_g, aes(x = four_g, y=Total,fill=four_g) ) +          
  geom_bar(width = 0.9, stat="identity", position = position_dodge())+                    
  
  ylim(c(0,1100))+
  labs(x="four_g", y= "Frecuencia \n (Porcentajes)") +  #17 
  labs(fill = "")+                                          
  
  geom_text(aes(label=paste0(Total," ", "", "(", Porcentaje, "%",")")),    #18
            vjust=-0.9, 
            color="black", 
            hjust=0.5,
            position = position_dodge(0.9),  
            angle=0, 
            size=4.0
            ) +  
  scale_fill_discrete(name = "El dispositivo tiene 4G", labels = c("No", "Si")) +   #19
  
  theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1)) +     #20
  facet_wrap(~"Variable 4G")

La tabla de la variable four_g, indica los dispositivos que tienen 4G representado con el número (1), con un total de 1043, representando el 52.1% de los datos, por otro lado, están los dispositivos que no tienen (0), con un total de 957 y un valor porcentual del 47.9% respecto al total. Adicionalmente, se evidencia la gráfica con esta información.

cat(
  "[1] \"Tabla de distribución de frecuencias: $n_cores \"\n"
  )
## [1] "Tabla de distribución de frecuencias: $n_cores "
freq(data$n_cores )
## Frequencies  
## data$n_cores  
## Type: Factor  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##           1    242     12.10          12.10     12.10          12.10
##           2    247     12.35          24.45     12.35          24.45
##           3    246     12.30          36.75     12.30          36.75
##           4    274     13.70          50.45     13.70          50.45
##           5    246     12.30          62.75     12.30          62.75
##           6    230     11.50          74.25     11.50          74.25
##           7    259     12.95          87.20     12.95          87.20
##           8    256     12.80         100.00     12.80         100.00
##        <NA>      0                               0.00         100.00
##       Total   2000    100.00         100.00    100.00         100.00
Tabla_n_cores <- data %>% group_by(n_cores ) %>% summarise(Total=n()) %>%   
    dplyr::mutate(Porcentaje = round(Total/sum(Total)*100, 1))             #16
  
ggplot(Tabla_n_cores, aes(x = n_cores, y=Total,fill=n_cores) ) +          
  geom_bar(width = 0.9, stat="identity", position = position_dodge())+                    
  
  ylim(c(0,310))+
  labs(x="n_cores", y= "Frecuencia \n (Porcentajes)") +  #17 
  labs(fill = "")+                                          
  
  geom_text(aes(label=paste0(Total," ", "", "(", Porcentaje, "%",")")),    #18
            vjust=-0.6, 
            color="black", 
            hjust=0.5,
            position = position_dodge(0.9),  
            angle=0, 
            size=3.0
            ) +  
  
  theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1)) +     #20
  facet_wrap(~"Variable n_cores")

La tabla de la variable n_cores, indica los número de núcleos en cada dispositivo, tenemos que para los dispositivos con 1 núcleo son 242, lo que representa el 12.1%,los que tienen 2 núcleos son 247, que representan el 12.3%, quienes tienen 3 núcleos son 246 representado porcentualmente por 12.3%, los que tienen 4 núcleos son 247 representado por el 13.7%, los de 5 núcleos son 246 representado porcentualmente por 12.3%, los dispositivos con 6 núcleos son 230 representado porcentualmente por 11.5%, los que tienen 7 núcleos son 259 representado porcentualmente por 13% y por último los dispositivos con 8 núcleos son 256 representado porcentualmente por 12.8%

Variables Cuantitativas - Razón, intervalo

## "Medidas descriptivas: ram "
## Descriptive Statistics  
## data$ram  
## N: 2000  
## 
##                         ram
## ----------------- ---------
##              Mean   2124.21
##           Std.Dev   1084.73
##               Min    256.00
##                Q1   1207.00
##            Median   2146.50
##                Q3   3065.00
##               Max   3998.00
##               MAD   1382.52
##               IQR   1857.00
##                CV      0.51
##          Skewness      0.01
##       SE.Skewness      0.05
##          Kurtosis     -1.19
##           N.Valid   2000.00
##                 N   2000.00
##         Pct.Valid    100.00
## "Tabla de frecuencia: ram "
##         Class limits   f   rf rf(%)   cf  cf(%)
##    [253.44,568.8183) 168 0.08  8.40  168   8.40
##  [568.8183,884.1967) 176 0.09  8.80  344  17.20
##  [884.1967,1199.575) 149 0.07  7.45  493  24.65
##  [1199.575,1514.953) 195 0.10  9.75  688  34.40
##  [1514.953,1830.332) 150 0.07  7.50  838  41.90
##   [1830.332,2145.71) 161 0.08  8.05  999  49.95
##   [2145.71,2461.088) 188 0.09  9.40 1187  59.35
##  [2461.088,2776.467) 179 0.09  8.95 1366  68.30
##  [2776.467,3091.845) 145 0.07  7.25 1511  75.55
##  [3091.845,3407.223) 164 0.08  8.20 1675  83.75
##  [3407.223,3722.602) 176 0.09  8.80 1851  92.55
##   [3722.602,4037.98) 149 0.07  7.45 2000 100.00
## "Test de normalidad de Shapiro-Wilk: ram "
## 
##  Shapiro-Wilk normality test
## 
## data:  ram
## W = 0.95462, p-value < 2.2e-16
## "Test de Wilcoxon Signed-Rank Test: ram "
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  data$ram
## V = 2001000, p-value < 2.2e-16
## alternative hypothesis: true location is not equal to 0

##    Size (n)     Missing     Minimum      1st Qu        Mean      Median 
##    2000.000       0.000     256.000    1207.500    2124.213    2146.500 
##      TrMean      3rd Qu         Max       Stdev         Var     SE Mean 
##    2123.541    3064.500    3998.000    1084.732 1176643.606      24.255 
##      I.Q.R.       Range    Kurtosis    Skewness    SW p-val 
##    1857.000    3742.000      -1.194       0.007       0.000

Según las gráficas podemos observar que la distribución de los datos es bastante uniforme, o rectangular dado el histograma que se realizó, también observamos que podría existir multimodalidad, es decir que podrían haber subgrupos, tenemos posiblemente simetría, no hay outliers, y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.

Observamos que los datos tienen una media de 2124.21 con una desviación estandar de 1084.73, lo que significa que los datos son muy dispersos, con una mediana de 2146.50, valor el cual es cercano a la media y el valor mínimo del conjunto de datos es 256 y el máximo de 3998, con un coeficiente de variación del 0.51, adicionalmente se observa que el valor del sesgo es de 0.01, el cual es un valor cerca a 0 lo que indica que posiblemente es simétrico y curtosis de -1.19 es decir que tiene una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.

En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.95462, valor cercano a 1 lo que nos indica que los datos se ajustan a una distribución normal, pero al revisar el p-value < 2.2e-16 nos damos cuenta que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas

## "Medidas descriptivas: battery_power "
## Descriptive Statistics  
## data$battery_power  
## N: 2000  
## 
##                     battery_power
## ----------------- ---------------
##              Mean         1238.52
##           Std.Dev          439.42
##               Min          501.00
##                Q1          851.50
##            Median         1226.00
##                Q3         1615.50
##               Max         1998.00
##               MAD          566.35
##               IQR          763.50
##                CV            0.35
##          Skewness            0.03
##       SE.Skewness            0.05
##          Kurtosis           -1.23
##           N.Valid         2000.00
##                 N         2000.00
##         Pct.Valid          100.00
## "Tabla de frecuencia: battery_power "
##         Class limits   f   rf rf(%)   cf  cf(%)
##    [495.99,622.8225) 184 0.09  9.20  184   9.20
##   [622.8225,749.655) 175 0.09  8.75  359  17.95
##   [749.655,876.4875) 178 0.09  8.90  537  26.85
##   [876.4875,1003.32) 166 0.08  8.30  703  35.15
##   [1003.32,1130.153) 165 0.08  8.25  868  43.40
##  [1130.153,1256.985) 162 0.08  8.10 1030  51.50
##  [1256.985,1383.818) 163 0.08  8.15 1193  59.65
##   [1383.818,1510.65) 156 0.08  7.80 1349  67.45
##   [1510.65,1637.483) 174 0.09  8.70 1523  76.15
##  [1637.483,1764.315) 166 0.08  8.30 1689  84.45
##  [1764.315,1891.148) 167 0.08  8.35 1856  92.80
##   [1891.148,2017.98) 144 0.07  7.20 2000 100.00
## "Test de normalidad de Shapiro-Wilk: battery_power "
## 
##  Shapiro-Wilk normality test
## 
## data:  battery_power
## W = 0.95188, p-value < 2.2e-16

##   Size (n)    Missing    Minimum     1st Qu       Mean     Median     TrMean 
##   2000.000      0.000    501.000    851.750   1238.518   1226.000   1237.268 
##     3rd Qu        Max      Stdev        Var    SE Mean     I.Q.R.      Range 
##   1615.250   1998.000    439.418 193088.360      9.826    763.500   1497.000 
##   Kurtosis   Skewness   SW p-val 
##     -1.226      0.032      0.000

Según las gráficas podemos observar que la distribución de los datos es uniforme, tenemos posiblemente simetría, no hay outliers, y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.

Observamos que los datos tienen una media de 1238.52 con una desviación estandar de 439.42, lo que significa que los datos son moderadamente dispersos, con una mediana de 1226, valor el cual está cerca a la media y nos sugiere que la distribución es bastante simétrica, adicionalmente, el valor mínimo del conjunto de datos es 501 y el máximo de 1998, con un coeficiente de variación del 0.35 lo que sugiere una variabilidad relativamente baja en comparación con la media, además, se observa que el valor del sesgo es de 0.03, valor el cual es cercano a 0, lo que indica que posiblemente es simétrico y curtosis de -1.23 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.

En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.95188, valor cercano a 1 lo que nos indica que los datos se ajustan a una distribución normal, pero al revisar el p-value < 2.2e-16 nos damos cuenta que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas

## "Medidas descriptivas: clock_speed "
## Descriptive Statistics  
## data$clock_speed  
## N: 2000  
## 
##                     clock_speed
## ----------------- -------------
##              Mean          1.52
##           Std.Dev          0.82
##               Min          0.50
##                Q1          0.70
##            Median          1.50
##                Q3          2.20
##               Max          3.00
##               MAD          1.19
##               IQR          1.50
##                CV          0.54
##          Skewness          0.18
##       SE.Skewness          0.05
##          Kurtosis         -1.32
##           N.Valid       2000.00
##                 N       2000.00
##         Pct.Valid        100.00
## "Tabla de frecuencia: clock_speed "
##     Class limits   f   rf rf(%)   cf  cf(%)
##   [0.495,0.7062) 551 0.28 27.55  551  27.55
##  [0.7062,0.9175) 116 0.06  5.80  667  33.35
##   [0.9175,1.129) 112 0.06  5.60  779  38.95
##     [1.129,1.34) 124 0.06  6.20  903  45.15
##     [1.34,1.551) 137 0.07  6.85 1040  52.00
##    [1.551,1.762) 136 0.07  6.80 1176  58.80
##    [1.762,1.974) 127 0.06  6.35 1303  65.15
##    [1.974,2.185) 143 0.07  7.15 1446  72.30
##    [2.185,2.396) 137 0.07  6.85 1583  79.15
##    [2.396,2.607) 187 0.09  9.35 1770  88.50
##    [2.607,2.819) 140 0.07  7.00 1910  95.50
##     [2.819,3.03)  90 0.04  4.50 2000 100.00
## "Test de normalidad de Shapiro-Wilk: clock_speed "
## 
##  Shapiro-Wilk normality test
## 
## data:  clock_speed
## W = 0.91123, p-value < 2.2e-16

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
## 2000.000    0.000    0.500    0.700    1.522    1.500    1.502    2.200 
##      Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##    3.000    0.816    0.666    0.018    1.500    2.500   -1.325    0.178 
## SW p-val 
##    0.000

Según las gráficas podemos observar que la distribución de los datos es bimodal ya que hay una cola más larga hacia la derecha, lo que indica asimetría positiva o sesgo a la derecha, en el boxplot, los bigotes se extienden hasta los valores máximos y mínimos dentro de un rango definido y se evidencia que el bigote derecho es más largo que el izquierdo, lo que confirma la asimetría positiva y se tiene un posible outlier en los valores más altos, adicionalmente, el Q-Q Plot indica que posiblemente los datos no siguen una distribución normal.

Observamos que los datos tienen una media de 1.52 con una desviación estandar de 0.82, lo que significa que los datos son moderadamente dispersos, con una mediana de 1.50, valor el cual está cerca a la media y nos sugiere que la distribución es bastante simétrica, adicionalmente, el valor mínimo del conjunto de datos es 0.50 y el máximo de 3, con un coeficiente de variación del 0.54 lo que sugiere una variabilidad relativamente baja en comparación con la media, además, el valor del sesgo es de 0.18, lo que indica que posiblemente tiene asimetría positiva y curtosis de -1.32 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.

En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.91123, valor cercano a 1 lo que nos indica que los datos se ajustan a una distribución normal, pero al revisar el p-value < 2.2e-16 nos damos cuenta que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas.

## "Medidas descriptivas: int_memory "
## Descriptive Statistics  
## data$int_memory  
## N: 2000  
## 
##                     int_memory
## ----------------- ------------
##              Mean        32.05
##           Std.Dev        18.15
##               Min         2.00
##                Q1        16.00
##            Median        32.00
##                Q3        48.00
##               Max        64.00
##               MAD        23.72
##               IQR        32.00
##                CV         0.57
##          Skewness         0.06
##       SE.Skewness         0.05
##          Kurtosis        -1.22
##           N.Valid      2000.00
##                 N      2000.00
##         Pct.Valid       100.00
## "Tabla de frecuencia: int_memory "
##     Class limits   f   rf rf(%)   cf  cf(%)
##    [1.98,7.2017) 200 0.10 10.00  200  10.00
##  [7.2017,12.423) 178 0.09  8.90  378  18.90
##  [12.423,17.645) 177 0.09  8.85  555  27.75
##  [17.645,22.867) 156 0.08  7.80  711  35.55
##  [22.867,28.088) 192 0.10  9.60  903  45.15
##   [28.088,33.31) 159 0.08  7.95 1062  53.10
##   [33.31,38.532) 139 0.07  6.95 1201  60.05
##  [38.532,43.753) 161 0.08  8.05 1362  68.10
##  [43.753,48.975) 157 0.08  7.85 1519  75.95
##  [48.975,54.197) 193 0.10  9.65 1712  85.60
##  [54.197,59.418) 152 0.08  7.60 1864  93.20
##   [59.418,64.64) 136 0.07  6.80 2000 100.00
## "Test de normalidad de Shapiro-Wilk: int_memory "
## 
##  Shapiro-Wilk normality test
## 
## data:  int_memory
## W = 0.95274, p-value < 2.2e-16

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
## 2000.000    0.000    2.000   16.000   32.047   32.000   31.953   48.000 
##      Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##   64.000   18.146  329.267    0.406   32.000   62.000   -1.218    0.058 
## SW p-val 
##    0.000

Según las gráficas podemos observar que la distribución de los datos es uniforme, tenemos posiblemente simetría, no hay outliers, y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.

Observamos que los datos tienen una media de 32.05 con una desviación estandar de 18.15, lo que significa que los datos son moderadamente dispersos, con una mediana de 32, valor el cual está cerca a la media y nos sugiere que la distribución es bastante simétrica, adicionalmente, el valor mínimo del conjunto de datos es 2 y el máximo es 64, con un coeficiente de variación de 0.57 lo que sugiere una variabilidad moderada en comparación con la media, además, se observa que el valor del sesgo es de 0.06, valor el cual es cercano a 0, lo que indica que posiblemente es simétrico y curtosis de -1.22 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.

En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.95274, valor cercano a 1 lo que nos indica que los datos se ajustan a una distribución normal, pero al revisar el p-value < 2.2e-16 nos damos cuenta que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas

## "Medidas descriptivas: Megapíxeles de la cámara principal. "
## Descriptive Statistics  
## data$pc  
## N: 2000  
## 
##                          pc
## ----------------- ---------
##              Mean      9.92
##           Std.Dev      6.06
##               Min      0.00
##                Q1      5.00
##            Median     10.00
##                Q3     15.00
##               Max     20.00
##               MAD      7.41
##               IQR     10.00
##                CV      0.61
##          Skewness      0.02
##       SE.Skewness      0.05
##          Kurtosis     -1.17
##           N.Valid   2000.00
##                 N   2000.00
##         Pct.Valid    100.00
## "Tabla de frecuencia: pc "
##   Class limits   f   rf rf(%)   cf  cf(%)
##      [0,1.683) 205 0.10 10.25  205  10.25
##  [1.683,3.367) 192 0.10  9.60  397  19.85
##   [3.367,5.05) 154 0.08  7.70  551  27.55
##   [5.05,6.733)  95 0.05  4.75  646  32.30
##  [6.733,8.417) 208 0.10 10.40  854  42.70
##   [8.417,10.1) 234 0.12 11.70 1088  54.40
##   [10.1,11.78)  79 0.04  3.95 1167  58.35
##  [11.78,13.47) 175 0.09  8.75 1342  67.10
##  [13.47,15.15) 196 0.10  9.80 1538  76.90
##  [15.15,16.83)  88 0.04  4.40 1626  81.30
##  [16.83,18.52) 181 0.09  9.05 1807  90.35
##   [18.52,20.2) 193 0.10  9.65 2000 100.00
## "Test de normalidad de Shapiro-Wilk: pc "
## 
##  Shapiro-Wilk normality test
## 
## data:  pc
## W = 0.95126, p-value < 2.2e-16

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
## 2000.000    0.000    0.000    5.000    9.916   10.000    9.907   15.000 
##      Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##   20.000    6.064   36.776    0.136   10.000   20.000   -1.173    0.017 
## SW p-val 
##    0.000

Según las gráficas podemos observar que la distribución de los datos es bimodal, con posible asimétria hacía la derecha, el punto en el boxplot nos sugiere que la mediana está ligeramente desplazada hacia la izquierda de la caja, y el bigote derecho es ligeramente más largo que el izquierdo, además, hay algunos puntos fuera del bigote derecho, lo que sugiere la posible presencia de outliers en los valores más altos de “pc” y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.

Observamos que los datos tienen una media de 9.92 con una desviación estandar de 6.06, lo que significa que los datos son moderadamente dispersos, con una mediana de 10, valor el cual está cerca a la media, adicionalmente, el valor mínimo del conjunto de datos es 0 y el máximo es 20, con un coeficiente de variación de 0.61 lo que sugiere una variabilidad moderada en comparación con la media, además, se observa que el valor del sesgo es de 0.02, lo que indica que posiblemente es ligeramente asimétrico hacía la derecha y curtosis de -1.17 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.

En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.95126, valor cercano a 1 lo que nos indica que los datos se ajustan a una distribución normal, pero al revisar el p-value < 2.2e-16 nos damos cuenta que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas

## "Medidas descriptivas: Megapíxeles de la cámara frontal "
## Descriptive Statistics  
## data$fc  
## N: 2000  
## 
##                          fc
## ----------------- ---------
##              Mean      4.31
##           Std.Dev      4.34
##               Min      0.00
##                Q1      1.00
##            Median      3.00
##                Q3      7.00
##               Max     19.00
##               MAD      4.45
##               IQR      6.00
##                CV      1.01
##          Skewness      1.02
##       SE.Skewness      0.05
##          Kurtosis      0.27
##           N.Valid   2000.00
##                 N   2000.00
##         Pct.Valid    100.00
## "Tabla de frecuencia: fc "
##     Class limits   f   rf rf(%)   cf  cf(%)
##       [0,1.5992) 719 0.36 35.95  719  35.95
##  [1.5992,3.1983) 359 0.18 17.95 1078  53.90
##  [3.1983,4.7975) 133 0.07  6.65 1211  60.55
##  [4.7975,6.3967) 251 0.13 12.55 1462  73.10
##  [6.3967,7.9958) 100 0.05  5.00 1562  78.10
##   [7.9958,9.595) 155 0.08  7.75 1717  85.85
##   [9.595,11.194) 113 0.06  5.65 1830  91.50
##  [11.194,12.793)  45 0.02  2.25 1875  93.75
##  [12.793,14.393)  60 0.03  3.00 1935  96.75
##  [14.393,15.992)  23 0.01  1.15 1958  97.90
##  [15.992,17.591)  30 0.01  1.50 1988  99.40
##   [17.591,19.19)  12 0.01  0.60 2000 100.00
## "Test de normalidad de Shapiro-Wilk: fc "
## 
##  Shapiro-Wilk normality test
## 
## data:  fc
## W = 0.87374, p-value < 2.2e-16

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
## 2000.000    0.000    0.000    1.000    4.310    3.000    3.942    7.000 
##      Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##   19.000    4.341   18.848    0.097    6.000   19.000    0.270    1.018 
## SW p-val 
##    0.000

Según las gráficas podemos observar que la distribución de la mayoría de los datos son demasiado bajos y tienen una cola larga, posible asimétria hacía la derecha, el punto en el boxplot nos sugiere que la mediana está desplazada hacia la izquierda de la caja, y el bigote derecho es más largo que el izquierdo, además, hay puntos fuera del bigote derecho, lo que sugiere la posible presencia de outliers en los valores más altos y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.

Observamos que los datos tienen una media de 4.31 con una desviación estandar de 4.34, lo que significa que los datos son considerablemente dispersos, con una mediana de 3, valor el cual es menor a la media y nos sugiere asimétria positiva, adicionalmente, el valor mínimo del conjunto de datos es 0 y el máximo es 19, con un coeficiente de variación de 1.01 lo que sugiere una alta variabilidad en comparación con la media, además, se observa que el valor del sesgo es de 1.02, lo que indica que posiblemente es asimétrico hacía la derecha y curtosis de 0.27 es decir que los datos tienen una distribución leptocúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.

En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.87374, al revisar el p-value < 2.2e-16 tenemos que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas.

## "Medidas descriptivas: Resolución de píxeles Altura "
## Descriptive Statistics  
## data$px_height  
## N: 2000  
## 
##                     px_height
## ----------------- -----------
##              Mean      645.11
##           Std.Dev      443.78
##               Min        0.00
##                Q1      282.50
##            Median      564.00
##                Q3      947.50
##               Max     1960.00
##               MAD      471.47
##               IQR      664.50
##                CV        0.69
##          Skewness        0.67
##       SE.Skewness        0.05
##          Kurtosis       -0.32
##           N.Valid     2000.00
##                 N     2000.00
##         Pct.Valid      100.00
## "Tabla de frecuencia: Resolución de píxeles Altura "
##       Class limits   f   rf rf(%)   cf  cf(%)
##        [0,164.967) 269 0.13 13.45  269  13.45
##  [164.967,329.933) 320 0.16 16.00  589  29.45
##    [329.933,494.9) 300 0.15 15.00  889  44.45
##    [494.9,659.867) 262 0.13 13.10 1151  57.55
##  [659.867,824.833) 217 0.11 10.85 1368  68.40
##    [824.833,989.8) 183 0.09  9.15 1551  77.55
##    [989.8,1154.77) 143 0.07  7.15 1694  84.70
##  [1154.77,1319.73) 128 0.06  6.40 1822  91.10
##   [1319.73,1484.7)  77 0.04  3.85 1899  94.95
##   [1484.7,1649.67)  50 0.03  2.50 1949  97.45
##  [1649.67,1814.63)  35 0.02  1.75 1984  99.20
##   [1814.63,1979.6)  16 0.01  0.80 2000 100.00
## "Test de normalidad de Shapiro-Wilk: Resolución de píxeles Altura "
## 
##  Shapiro-Wilk normality test
## 
## data:  px_height
## W = 0.9469, p-value < 2.2e-16

##   Size (n)    Missing    Minimum     1st Qu       Mean     Median     TrMean 
##   2000.000      0.000      0.000    282.750    645.108    564.000    621.618 
##     3rd Qu        Max      Stdev        Var    SE Mean     I.Q.R.      Range 
##    947.250   1960.000    443.781 196941.408      9.923    664.500   1960.000 
##   Kurtosis   Skewness   SW p-val 
##     -0.321      0.665      0.000

Según las gráficas podemos observar que la distribución de la mayoría de los datos son demasiado bajos y tienen una cola larga, posible asimétria hacía la derecha, el punto dentro de la caja representa la mediana en el boxplot nos sugiere que la mediana está desplazada hacia la izquierda de la caja, y el bigote derecho es más largo que el izquierdo, además, hay un punto fuera del bigote derecho, lo que sugiere la posible presencia de outliers en los valores más altos y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.

Observamos que los datos tienen una media de 645.11 con una desviación estandar de 443.78, lo que significa que los datos son considerablemente dispersos, con una mediana de 564, valor el cual es menor a la media y nos sugiere asimétria positiva, adicionalmente, el valor mínimo del conjunto de datos es 0 y el máximo es 1960, con un coeficiente de variación de 0.69 lo que sugiere una alta variabilidad en comparación con la media, además, se observa que el valor del sesgo es de 0.67, lo que indica que posiblemente es asimétrico hacía la derecha y curtosis de -0.32 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.

En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.9469, al revisar el p-value < 2.2e-16 tenemos que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas.

## "Medidas descriptivas: Ancho de resolución de píxeles "
## Descriptive Statistics  
## data$px_width  
## N: 2000  
## 
##                     px_width
## ----------------- ----------
##              Mean    1251.52
##           Std.Dev     432.20
##               Min     500.00
##                Q1     874.50
##            Median    1247.00
##                Q3    1633.00
##               Max    1998.00
##               MAD     557.46
##               IQR     758.25
##                CV       0.35
##          Skewness       0.01
##       SE.Skewness       0.05
##          Kurtosis      -1.19
##           N.Valid    2000.00
##                 N    2000.00
##         Pct.Valid     100.00
## "Tabla de frecuencia: Resolución de píxeles Altura "
##        Class limits   f   rf rf(%)   cf  cf(%)
##       [495,621.915) 147 0.07  7.35  147   7.35
##    [621.915,748.83) 178 0.09  8.90  325  16.25
##    [748.83,875.745) 176 0.09  8.80  501  25.05
##   [875.745,1002.66) 158 0.08  7.90  659  32.95
##  [1002.66,1129.575) 170 0.09  8.50  829  41.45
##  [1129.575,1256.49) 186 0.09  9.30 1015  50.75
##  [1256.49,1383.405) 171 0.09  8.55 1186  59.30
##  [1383.405,1510.32) 175 0.09  8.75 1361  68.05
##  [1510.32,1637.235) 146 0.07  7.30 1507  75.35
##  [1637.235,1764.15) 177 0.09  8.85 1684  84.20
##  [1764.15,1891.065) 156 0.08  7.80 1840  92.00
##  [1891.065,2017.98) 160 0.08  8.00 2000 100.00
## "Test de normalidad de Shapiro-Wilk: Resolución de píxeles Altura "
## 
##  Shapiro-Wilk normality test
## 
## data:  px_width
## W = 0.95604, p-value < 2.2e-16

##   Size (n)    Missing    Minimum     1st Qu       Mean     Median     TrMean 
##   2000.000      0.000    500.000    874.750   1251.515   1247.000   1251.566 
##     3rd Qu        Max      Stdev        Var    SE Mean     I.Q.R.      Range 
##   1633.000   1998.000    432.199 186796.362      9.664    758.250   1498.000 
##   Kurtosis   Skewness   SW p-val 
##     -1.188      0.015      0.000

Según las gráficas podemos observar que la distribución de los datos es uniforme y posiblemente es simétrica, el punto dentro de la caja representa la mediana en el boxplot lo que nos indica que la mediana está aproximadamente en el centro de la distribución, además, no hay outliers y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.

Observamos que los datos tienen una media de 1251.52 con una desviación estandar de 432.20, lo que significa que los datos tienen una variabilidad moderada, con una mediana de 1247, valor el cual es cercano a la media y nos sugiere simetría, adicionalmente, el valor mínimo del conjunto de datos es 500 y el máximo es 1998, con un coeficiente de variación de 0.35 lo que sugiere una baja variabilidad en comparación con la media, además, se observa que el valor del sesgo es de 0.01, lo que indica que posiblemente es simétrico y curtosis de -1.19 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.

En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.95604, al revisar el p-value < 2.2e-16 tenemos que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas.

## "Medidas descriptivas: Tiempo de la batería "
## Descriptive Statistics  
## data$talk_time  
## N: 2000  
## 
##                     talk_time
## ----------------- -----------
##              Mean       11.01
##           Std.Dev        5.46
##               Min        2.00
##                Q1        6.00
##            Median       11.00
##                Q3       16.00
##               Max       20.00
##               MAD        7.41
##               IQR       10.00
##                CV        0.50
##          Skewness        0.01
##       SE.Skewness        0.05
##          Kurtosis       -1.22
##           N.Valid     2000.00
##                 N     2000.00
##         Pct.Valid      100.00
## "Tabla de frecuencia: Resolución de píxeles Altura "
##   Class limits   f   rf rf(%)   cf  cf(%)
##   [1.98,3.498) 193 0.10  9.65  193   9.65
##  [3.498,5.017) 216 0.11 10.80  409  20.45
##  [5.017,6.535) 111 0.06  5.55  520  26.00
##  [6.535,8.053) 228 0.11 11.40  748  37.40
##  [8.053,9.572) 100 0.05  5.00  848  42.40
##  [9.572,11.09) 208 0.10 10.40 1056  52.80
##  [11.09,12.61)  99 0.05  4.95 1155  57.75
##  [12.61,14.13) 201 0.10 10.05 1356  67.80
##  [14.13,15.64) 115 0.06  5.75 1471  73.55
##  [15.64,17.16) 214 0.11 10.70 1685  84.25
##  [17.16,18.68) 100 0.05  5.00 1785  89.25
##   [18.68,20.2) 215 0.11 10.75 2000 100.00
## "Test de normalidad de Shapiro-Wilk: Resolución de píxeles Altura "
## 
##  Shapiro-Wilk normality test
## 
## data:  talk_time
## W = 0.94821, p-value < 2.2e-16

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
## 2000.000    0.000    2.000    6.000   11.011   11.000   11.012   16.000 
##      Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##   20.000    5.464   29.855    0.122   10.000   18.000   -1.220    0.009 
## SW p-val 
##    0.000

Según las gráficas podemos observar que la distribución de los datos es uniforme y posiblemente es simétrica, el punto dentro de la caja representa la mediana en el boxplot lo que nos indica que la mediana está aproximadamente en el centro de la distribución, además, no hay outliers y según el Q-Q Plot posiblemente los datos no siguen una distribución normal.

Observamos que los datos tienen una media de 11.01 con una desviación estandar de 5.46, lo que significa que los datos tienen una variabilidad moderada, con una mediana de 11, valor el cual es cercano a la media y nos sugiere simetría, adicionalmente, el valor mínimo del conjunto de datos es 2 y el máximo es 20, con un coeficiente de variación de 0.50 lo que sugiere una variabilidad moderada en comparación con la media, además, se observa que el valor del sesgo es de 0.01, lo que indica que posiblemente es simétrico y curtosis de -1.22 es decir que los datos tienen una distribución platicúrtica, lo que nos ayuda a pensar que los datos no están normalmente distribuidos.

En el test de Shapiro-Wilk, el estadístico W representa una medida de la bondad de ajuste a la normalidad. El resultado fue 0.95604, al revisar el p-value < 2.2e-16 tenemos que es demasiado pequeño, por lo que se rechaza la hipótesis nula, se confirma que no siguen una distribución normal y requieren el uso de pruebas estadísticas no paramétricas.

Análisis Bivariado

## [1] "Tabla cruzada entre dual_sim y wifi "
##    
##       0   1
##   0 495 486
##   1 491 528
## [1] "Tabla cruzada entre dual_sim y wifi en proporciones "
##    
##             0         1
##   0 0.5045872 0.4954128
##   1 0.4818449 0.5181551

En la gráfica doble sim respecto a la variable wifi, tenemos que 495 no tienen wifi ni doble sim, 486 si tienen pero no doble sim, 491 no tienen wifi pero si doble sim y 528 tienen wifi y doble sim.

Se realiza la misma comparación entre los dispositivos que no tienen doble sim y 479 no son táctiles y 502 si lo son, por otro lado, se tienen 515 que no son táctiles y 504 que si y tienen doble sim.

Se realiza la misma comparación entre los dispositivos que no tienen doble sim y 471 no tienen 4G y 510 si las tienen, por otro lado, se tienen 486 que tienen 4G y 533 que si y tienen doble sim.

Se realiza la gráfica entre wifi y ram, en donde los dispositivos que no tienen wifi y si tienen, la capacidad de ram tiene un comportamiento similar.

Los dispositivis que tienen 3G respecto al poder de batería tienen una media similar.

ram según four_g (Celulares con y sin 4G)

Los dispositivis que tienen 4G respecto a ram tienen una media similar.

## 
##  Pearson's product-moment correlation
## 
## data:  sc_w and sc_h
## t = 26.232, df = 1998, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4728023 0.5380389
## sample estimates:
##       cor 
## 0.5061442

Para obtener la matriz de varianzas y covarianzas de las variables objetivo para ello se utiliza la función cov(datos de interes)

##               battery_power  clock_speed   int_memory           ram
## battery_power 193088.359838  4.116921836 -31.92357204 -3.112180e+02
## clock_speed        4.116922  0.665862869   0.09691383  3.047585e+00
## int_memory       -31.923572  0.096913832 329.26697124  6.458695e+02
## ram             -311.218050  3.047584542 645.86953027  1.176644e+06
## fc                63.592320 -0.001537144  -2.29503927  7.110563e+01
## pc                83.782186 -0.025955103  -3.66144797  1.906581e+02
## px_height       2905.736870 -5.259132566  84.08051826 -9.797075e+03
## px_width       -1595.644609 -3.341840795 -65.36665408  1.924610e+03
## m_dep              4.319702 -0.003380628   0.03603664 -2.951498e+00
## mobile_wt         28.689738  0.356738119 -21.97756728 -9.909058e+01
## sc_h             -55.464653 -0.099969610   2.88769160  7.310627e+01
## sc_w             -41.005692 -0.026228864   0.92729815  1.681137e+02
## talk_time        126.075334 -0.050970235  -0.27664982  6.412922e+01
##                          fc           pc     px_height      px_width
## battery_power  63.592320410  83.78218584   2905.736870  -1595.644609
## clock_speed    -0.001537144  -0.02595510     -5.259133     -3.341841
## int_memory     -2.295039270  -3.66144797     84.080518    -65.366654
## ram            71.105629315 190.65811456  -9797.075042   1924.610004
## fc             18.848133817  16.97082866    -19.247050     -9.711403
## pc             16.970828664  36.77591571    -49.694829     10.997543
## px_height     -19.247049525 -49.69482941 196941.408040  97946.365509
## px_width       -9.711402951  10.99754302  97946.365509 186796.361941
## m_dep          -0.002242746   0.04596911      3.233478      2.937617
## mobile_wt       3.629749375   4.04531416     14.756486      1.373327
## sc_h           -0.201462481   0.12615583    111.466131     39.330164
## sc_w           -0.234003502  -0.62927014     83.205267     65.332778
## talk_time      -0.161985493   0.48566133    -25.812594     15.869264
##                      m_dep    mobile_wt         sc_h         sc_w    talk_time
## battery_power  4.319702476   28.6897384 -55.46465258 -41.00569235 126.07533417
## clock_speed   -0.003380628    0.3567381  -0.09996961  -0.02622886  -0.05097024
## int_memory     0.036036643  -21.9775673   2.88769160   0.92729815  -0.27664982
## ram           -2.951498499  -99.0905823  73.10626863 168.11368584  64.12922161
## fc            -0.002242746    3.6297494  -0.20146248  -0.23400350  -0.16198549
## pc             0.045969110    4.0453142   0.12615583  -0.62927014   0.48566133
## px_height      3.233477739   14.7564862 111.46613107  83.20526663 -25.81259430
## px_width       2.937616683    1.3733272  39.33016433  65.33277789  15.86926413
## m_dep          0.083183529    0.2221253  -0.03080178  -0.02310380   0.02679415
## mobile_wt      0.222125313 1253.1355668  -5.04934317  -3.20158379   1.20086143
## sc_h          -0.030801776   -5.0493432  17.75143347   9.29005953  -0.39907104
## sc_w          -0.023103802   -3.2015838   9.29005953  18.97820010  -0.54320860
## talk_time      0.026794147    1.2008614  -0.39907104  -0.54320860  29.85480640

Después de estudiar la asociación de las variables, se delimita la información a través de la matriz de correlación.

Para visualizar mejor la anterior información se sugiere ver la matriz de correlación en un mapa de calor a través de la función corplot

Análisis de componentes principales

Activar a partir de las librerias las técnicas

## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 2000 individuals, described by 13 variables
## *The results are available in the following objects:
## 
##    name               description                          
## 1  "$eig"             "eigenvalues"                        
## 2  "$var"             "results for the variables"          
## 3  "$var$coord"       "coord. for the variables"           
## 4  "$var$cor"         "correlations variables - dimensions"
## 5  "$var$cos2"        "cos2 for the variables"             
## 6  "$var$contrib"     "contributions of the variables"     
## 7  "$ind"             "results for the individuals"        
## 8  "$ind$coord"       "coord. for the individuals"         
## 9  "$ind$cos2"        "cos2 for the individuals"           
## 10 "$ind$contrib"     "contributions of the individuals"   
## 11 "$call"            "summary statistics"                 
## 12 "$call$centre"     "mean of the variables"              
## 13 "$call$ecart.type" "standard error of the variables"    
## 14 "$call$row.w"      "weights for the individuals"        
## 15 "$call$col.w"      "weights for the variables"

Se inicia la técnica evaluando los eigenvalores.

##        eigenvalue variance.percent cumulative.variance.percent
## Dim.1   1.6670810        12.823700                    12.82370
## Dim.2   1.5824019        12.172322                    24.99602
## Dim.3   1.4434904        11.103772                    36.09979
## Dim.4   1.0632455         8.178812                    44.27861
## Dim.5   1.0397847         7.998344                    52.27695
## Dim.6   1.0108781         7.775985                    60.05293
## Dim.7   0.9942109         7.647776                    67.70071
## Dim.8   0.9893837         7.610644                    75.31135
## Dim.9   0.9447324         7.267172                    82.57853
## Dim.10  0.9322331         7.171024                    89.74955
## Dim.11  0.5038360         3.875661                    93.62521
## Dim.12  0.4765985         3.666142                    97.29135
## Dim.13  0.3521239         2.708646                   100.00000

Un valor propio >1 indica que las CP representan una mayor varianza que representa una de las variables originales en datos estandarizados. Esto se usa comúnmente como un punto de corte para saber cuantas CP deben ser retenidas. Esto solo es cierto cuando los datos están estandarizados.

Se puede observar de manera visual el comportamiento de las componentes,

Del gráfico anterior, es posible que deseemos detenernos en el tercer componente principal. En 11.1% de la información (varianzas) contenida en los datos son retenidos por los primeros tres componentes principales.

  • Resultados sobre las variables
## Principal Component Analysis Results for variables
##  ===================================================
##   Name       Description                                    
## 1 "$coord"   "Coordinates for the variables"                
## 2 "$cor"     "Correlations between variables and dimensions"
## 3 "$cos2"    "Cos2 for the variables"                       
## 4 "$contrib" "contributions of the variables"

Iniciamos entendiendo las coordenadas de las variables

##                     Dim.1       Dim.2       Dim.3       Dim.4        Dim.5
## battery_power  0.10543241 -0.01086144  0.08641524  0.62975510 -0.025298024
## clock_speed    0.01602428 -0.06372760  0.01187400 -0.09812038  0.117180677
## int_memory    -0.10176610  0.02070840 -0.06737472  0.11965952  0.673657356
## ram            0.03467708  0.05982865 -0.09959937  0.13270618  0.523515064
## fc             0.83615810  0.33434733 -0.04840719 -0.06638319  0.033980752
## pc             0.83712701  0.33764773 -0.04703155 -0.02870397  0.036305533
## px_height     -0.22622055  0.58993068  0.59375560 -0.03458743  0.031508406
## px_width      -0.19552265  0.57404147  0.61773349 -0.04915560  0.044784076
## m_dep          0.03998728  0.01748176  0.13411221  0.44658505 -0.164255597
## mobile_wt      0.08212352 -0.03143149  0.08117872  0.04570959 -0.493470508
## sc_h          -0.26132178  0.58408978 -0.57318747  0.07315540 -0.090567960
## sc_w          -0.27692099  0.57182735 -0.57094059  0.07982737 -0.115404151
## talk_time      0.03853480 -0.03791486  0.06028049  0.63482454 -0.006799372

Dado el resultado anterior, podemos interpretar que battery_power en la dimensión 1 se encuentra en 0.10543241, en la dimensión 2 en -0.01086144, por lo que en el plano cartesiano tendríamos que está ubicado en el eje x positivo, en la parte inferior.

La velocidad del microprocesador en la dimensión 1 se encuentra en 0.01602428, en la dimensión 2 en -0.06372760, por lo que en el plano cartesiano tendríamos que está ubicado en el eje x positivo, en la parte inferior.

La memoria interna en la dimensión 1 se encuentra en -0.10176610, en la dimensión 2 en 0.02070840, por lo que en el plano cartesiano tendríamos que está ubicado en el eje x negativo, en la parte superior.

La ram en la dimensión 1 se encuentra en 0.03467708, en la dimensión 2 en 0.05982865, por lo que en el plano cartesiano tendríamos que está ubicado en el eje x positivo, en la parte superior.

Los megapixeles de la cámara frontal en la dimensión 1 se encuentra en 0.83615810, en la dimensión 2 en 0.33434733, por lo que en el plano cartesiano tendríamos que está ubicado en el eje x positivo, en la parte superior.

Visualización de la contribución de las variables biplot

Correlación entre las variables

##                     Dim.1       Dim.2       Dim.3       Dim.4        Dim.5
## battery_power  0.10543241 -0.01086144  0.08641524  0.62975510 -0.025298024
## clock_speed    0.01602428 -0.06372760  0.01187400 -0.09812038  0.117180677
## int_memory    -0.10176610  0.02070840 -0.06737472  0.11965952  0.673657356
## ram            0.03467708  0.05982865 -0.09959937  0.13270618  0.523515064
## fc             0.83615810  0.33434733 -0.04840719 -0.06638319  0.033980752
## pc             0.83712701  0.33764773 -0.04703155 -0.02870397  0.036305533
## px_height     -0.22622055  0.58993068  0.59375560 -0.03458743  0.031508406
## px_width      -0.19552265  0.57404147  0.61773349 -0.04915560  0.044784076
## m_dep          0.03998728  0.01748176  0.13411221  0.44658505 -0.164255597
## mobile_wt      0.08212352 -0.03143149  0.08117872  0.04570959 -0.493470508
## sc_h          -0.26132178  0.58408978 -0.57318747  0.07315540 -0.090567960
## sc_w          -0.27692099  0.57182735 -0.57094059  0.07982737 -0.115404151
## talk_time      0.03853480 -0.03791486  0.06028049  0.63482454 -0.006799372

En la dimensión 1, tenemos que pc tiene un valor de 0.83712701 y fc de 0.83615810, lo que indica que son quienes dan mayor significancia. En la dimensión 2, tenemos que px_height tiene un valor de 0.58993068 y sc_h de 0.58408978 son quienes nos dan mayor significancia. En la dimensión 3, tenemos que px_width tiene un valor de 0.61773349 y px_height de 0.59375560 son quienes nos dan mayor significancia. En la dimensión 4, tenemos que int_memory tiene un valor de 0.673657356 y battery_power de 0.62975510 son quienes nos dan mayor significancia. En la dimensión 5, tenemos que px_width tiene un valor de 0.61773349 y ram de 0.523515064 son quienes nos dan mayor significancia.

Gráfica que visualiza la correlación entre variables y dimensiones

En el mapa de calor que habla de la correlación respecto a la dimensión, tenemos que las variables fc y pc son las que aportan en la dimensión 1, en la dimensión 2 las variables px_height, px_width, sc_h y sc_w son las que mayor aportan, en la dimensión 3 las variables px_height y px_width, en la dimensión 4 las variables battery_power y talk_time, por último, en la dimensión 5 quien mayor aporta es la variable int_memory.

Análisis del coseno^2: Permite indicar la calidad de la variable

Un alto cos2 indica una buena representación de la variable en el componente principal.

##                      Dim.1        Dim.2        Dim.3        Dim.4        Dim.5
## battery_power 0.0111159928 0.0001179708 0.0074675944 0.3965914842 6.399900e-04
## clock_speed   0.0002567775 0.0040612073 0.0001409919 0.0096276099 1.373131e-02
## int_memory    0.0103563392 0.0004288376 0.0045393530 0.0143184002 4.538142e-01
## ram           0.0012025001 0.0035794672 0.0099200341 0.0176109307 2.740680e-01
## fc            0.6991603626 0.1117881349 0.0023432556 0.0044067275 1.154692e-03
## pc            0.7007816390 0.1140059867 0.0022119669 0.0008239179 1.318092e-03
## px_height     0.0511757389 0.3480182109 0.3525457086 0.0011962902 9.927796e-04
## px_width      0.0382291062 0.3295236129 0.3815946623 0.0024162728 2.005613e-03
## m_dep         0.0015989823 0.0003056120 0.0179860837 0.1994382056 2.697990e-02
## mobile_wt     0.0067442727 0.0009879385 0.0065899843 0.0020893664 2.435131e-01
## sc_h          0.0682890740 0.3411608756 0.3285438744 0.0053517126 8.202555e-03
## sc_w          0.0766852340 0.3269865163 0.3259731549 0.0063724089 1.331812e-02
## talk_time     0.0014849312 0.0014375363 0.0036337376 0.4030021924 4.623146e-05

Es una metrica de evaluacion de calidad de representación dentro de la componente, la mayor representante de dim 1 es pc y fc, en la dimensión 2 es px_height y sc_hm, en la dimensión 3 tenemos a px_width y px_height, en la dimensión 4 a talk_time y battery_power, por último en la dimensión 5 son int_memory, mobile_wt y ram quienes tienen mayor representación.

Visualización de los cos^2

Análisis de contribuciones

##                     Dim.1        Dim.2        Dim.3       Dim.4        Dim.5
## battery_power  0.66679382  0.007455171  0.517328992 37.30008516  0.061550247
## clock_speed    0.01540282  0.256648284  0.009767426  0.90549264  1.320591773
## int_memory     0.62122593  0.027100425  0.314470605  1.34666923 43.645020104
## ram            0.07213207  0.226204681  0.687225499  1.65633716 26.358151565
## fc            41.93919692  7.064459061  0.162332610  0.41446001  0.111051021
## pc            42.03644933  7.204616359  0.153237381  0.07749084  0.126765832
## px_height      3.06978128 21.993035355 24.423141867  0.11251308  0.095479347
## px_width       2.29317635 20.824267934 26.435552453  0.22725445  0.192887382
## m_dep          0.09591510  0.019313174  1.246013392 18.75749316  2.594758480
## mobile_wt      0.40455580  0.062432840  0.456531214  0.19650837 23.419573975
## sc_h           4.09632621 21.559685570 22.760378179  0.50333742  0.788870567
## sc_w           4.59997063 20.663935938 22.582287666  0.59933560  1.280853454
## talk_time      0.08907373  0.090845210  0.251732716 37.90302288  0.004446253

Visualización de contribuciones

En este caso tenemos que las variables pc y fc son las más contribuyentes.

En este caso tenemos que las variables px_height, sc_h, px_width y sc_w son las más contribuyentes.

En este caso tenemos que las variables px_width, px_height, sc_h y sc_w son las más contribuyentes.

En este caso tenemos que las variables talk_time, battery_power y m_dep son las más contribuyentes.

En este caso tenemos que las variables int_memory, ram y mobile_wt son las más contribuyentes.

Análisis de los individuos

## Principal Component Analysis Results for individuals
##  ===================================================
##   Name       Description                       
## 1 "$coord"   "Coordinates for the individuals" 
## 2 "$cos2"    "Cos2 for the individuals"        
## 3 "$contrib" "contributions of the individuals"

Iniciamos leyendo coordenadas cartesianas

##        Dim.1      Dim.2      Dim.3      Dim.4      Dim.5
## 1 -0.6257426 -2.0844615 -0.7733030  0.5212547 -1.4388609
## 2 -1.6545617  0.9874892  0.8817435 -0.1377132  0.8333180
## 3 -1.0497648  0.4244750  1.8041944 -0.4629920  0.3368312

Gráficas visual de coordenadas

Los que estan cerca al origen no puedo dar estadisticamente información, el grupo azul se pueden decir que son similares, los que estan lejos a la dimensión 1 son significativos, los de color naranje, tambien se revisan los que estan lejos, como Nool y YURKOV según los datos

Cos^2 de los individuos

##        Dim.1      Dim.2      Dim.3       Dim.4       Dim.5
## 1 0.02812296 0.31207380 0.04295058 0.019515043 0.148698710
## 2 0.25606903 0.09121281 0.07272365 0.001773955 0.064955015
## 3 0.09951134 0.01627019 0.29393764 0.019356891 0.010245028
## 4 0.17195870 0.18921278 0.03995960 0.025255764 0.017010858
## 5 0.34848521 0.01202219 0.21440839 0.109372349 0.006162127
## 6 0.03638687 0.03686813 0.14599040 0.091825553 0.199258925

Gráfica visual de cos~2

Contribuciones de los individuos a las componentes

##        Dim.1       Dim.2      Dim.3        Dim.4       Dim.5
## 1 0.01174369 0.137290652 0.02071360 0.0127772210 0.099555267
## 2 0.08210682 0.030811857 0.02693026 0.0008918418 0.033392438
## 3 0.03305197 0.005693212 0.11275161 0.0100805327 0.005455709
## 4 0.06006278 0.069626026 0.01611926 0.0138313603 0.009526223
## 5 0.11815527 0.004294300 0.08395630 0.0581432624 0.003349752
## 6 0.01098265 0.011723390 0.05088964 0.0434559214 0.096425819

Gráfica de contribuciones de individuos por componentes

para las variables categoricas se hace por kmedias

Distancias de los individuos

##        1        2        3        4        5        6        7        8 
## 3.731343 3.269674 3.327788 3.412589 3.362232 3.172302 2.820132 3.892283 
##        9       10       11       12       13       14       15       16 
## 3.640579 4.159638 4.557712 2.976312 3.773642 3.685519 4.549783 3.742892 
##       17       18       19       20       21       22       23       24 
## 4.085361 3.627161 3.865199 3.241008 4.639217 3.602876 3.611045 3.632021 
##       25       26       27       28       29       30 
## 2.978459 3.060643 3.856164 3.026739 3.331216 3.137861

Análisis de correspondencias multiples ACM

## tibble [2,000 × 8] (S3: tbl_df/tbl/data.frame)
##  $ bluetooth   : Factor w/ 2 levels "0","1": 1 2 2 2 2 1 1 1 2 2 ...
##  $ n_cores     : Factor w/ 8 levels "1","2","3","4",..: 2 3 5 6 2 1 8 4 7 5 ...
##  $ dual_sim    : Factor w/ 2 levels "0","1": 1 2 2 1 1 2 1 2 1 2 ...
##  $ three_g     : Factor w/ 2 levels "0","1": 1 2 2 2 2 2 2 2 2 2 ...
##  $ four_g      : Factor w/ 2 levels "0","1": 1 2 2 1 2 1 2 1 1 2 ...
##  $ touch_screen: Factor w/ 2 levels "0","1": 1 2 2 1 2 1 1 2 1 1 ...
##  $ wifi        : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 2 2 1 1 ...
##  $ price_range : Factor w/ 4 levels "0","1","2","3": 2 3 3 3 2 2 4 1 1 1 ...

Revisamos la técnica ACM a partir de la función MCA

## **Results of the Multiple Correspondence Analysis (MCA)**
## The analysis was performed on 2000 individuals, described by 8 variables
## *The results are available in the following objects:
## 
##    name              description                       
## 1  "$eig"            "eigenvalues"                     
## 2  "$var"            "results for the variables"       
## 3  "$var$coord"      "coord. of the categories"        
## 4  "$var$cos2"       "cos2 for the categories"         
## 5  "$var$contrib"    "contributions of the categories" 
## 6  "$var$v.test"     "v-test for the categories"       
## 7  "$var$eta2"       "coord. of variables"             
## 8  "$ind"            "results for the individuals"     
## 9  "$ind$coord"      "coord. for the individuals"      
## 10 "$ind$cos2"       "cos2 for the individuals"        
## 11 "$ind$contrib"    "contributions of the individuals"
## 12 "$call"           "intermediate results"            
## 13 "$call$marge.col" "weights of columns"              
## 14 "$call$marge.li"  "weights of rows"

Se inicia con la obtención de los eigenvalores, sin embargo su interpretación está basada en la varianza acumulada.

##        eigenvalue variance.percent cumulative.variance.percent
## Dim.1  0.19988279         9.994139                    9.994139
## Dim.2  0.13680784         6.840392                   16.834531
## Dim.3  0.13527132         6.763566                   23.598097
## Dim.4  0.13310248         6.655124                   30.253221
## Dim.5  0.13051188         6.525594                   36.778815
## Dim.6  0.13002828         6.501414                   43.280229
## Dim.7  0.12883997         6.441998                   49.722228
## Dim.8  0.12537815         6.268908                   55.991136
## Dim.9  0.12418846         6.209423                   62.200558
## Dim.10 0.12280954         6.140477                   68.341035
## Dim.11 0.12141949         6.070974                   74.412010
## Dim.12 0.11685716         5.842858                   80.254868
## Dim.13 0.11625668         5.812834                   86.067702
## Dim.14 0.11470658         5.735329                   91.803031
## Dim.15 0.11285574         5.642787                   97.445818
## Dim.16 0.05108364         2.554182                  100.000000

Al revisar el porcentaje de la varianza acumuladaenemos que hasta la dimensión 12 nos aporta un 80.254868%.

Se puede realizar la prueba del codo, para revisar en que momento tiene un cambio brusco para validar cuando se vuelve constante.

Visualizar los resultados de los eigenvalores

El gráfico nos indica que la componente 1 es la que contiene mayor información, el cambio se evidencia en 4, donde hay mayor cambio con un 6.7%

# Visualización de variables

## Multiple Correspondence Analysis Results for variables
##  ===================================================
##   Name       Description                  
## 1 "$coord"   "Coordinates for categories" 
## 2 "$cos2"    "Cos2 for categories"        
## 3 "$contrib" "contributions of categories"

Analizamos las coordenadas de las variables

##                       Dim 1        Dim 2       Dim 3       Dim 4         Dim 5
## bluetooth_0    -0.029712822  0.402699794 -0.13455684  0.57436267  0.1287650182
## bluetooth_1     0.030313081 -0.410835144  0.13727516 -0.58596595 -0.1313663317
## n_cores_1       0.142322010  0.891302494  1.07225385  0.03728524 -0.4454436589
## n_cores_2      -0.293526444 -0.385563012  0.26035287  0.37740539  0.9055717190
## n_cores_3      -0.183841350  0.841572169  0.14327416  0.69911689  0.3242099897
## n_cores_4      -0.103070875  0.173583017  0.27143492 -0.55135936 -0.9888906381
## n_cores_5       0.293382209 -1.013959305  0.35218992  0.31258067  0.2679169440
## n_cores_6      -0.007284899  0.385339270 -0.69258046  0.00734816  0.8380482838
## n_cores_7       0.042441677 -0.587053999 -0.73459395  0.44986550 -0.4590042543
## n_cores_8       0.117330494 -0.242955848 -0.66600228 -1.24317395 -0.2517775132
## dual_sim_0     -0.012409515  0.270833882 -0.51736226  0.12667320 -0.1749881826
## dual_sim_1      0.011946746 -0.260734090  0.49806907 -0.12194937  0.1684626174
## three_g_0       1.577034509  0.031597584  0.04467868 -0.05301861  0.1098792606
## three_g_1      -0.493923481 -0.009896289 -0.01399326  0.01660530 -0.0344139247
## four_g_0        0.923417169  0.046132172 -0.01945264  0.05576003  0.0005313270
## four_g_1       -0.847277307 -0.042328369  0.01784868 -0.05116237 -0.0004875168
## touch_screen_0  0.041612623 -0.295896946  0.15354193  0.52640186 -0.2694055091
## touch_screen_1 -0.041116250  0.292367360 -0.15171042 -0.52012271  0.2661919245
## wifi_0         -0.017000495 -0.043384089 -0.28437660 -0.07634140 -0.1753452748
## wifi_1          0.016531053  0.042186106  0.27652399  0.07423336  0.1705033934
## price_range_0   0.045583778  0.040320236 -0.70455514 -0.19147282  0.8458358254
## price_range_1  -0.001920428  0.970695610  0.57460049 -0.30013544 -0.4056043708
## price_range_2   0.050906794 -0.433200967 -0.45881469  0.40167157 -0.9285120570
## price_range_3  -0.094570143 -0.577814879  0.58876934  0.08993670  0.4882806023

Cuando un dispositivo tiene bluetooth se encuentra en la dimensión 1 en -0.029712822, en la dimensión 2 en 0.402699794, con esta información podemos realizar una gráfica en 2 dimensiones, estaría en el eje x negativo , en la parte superior, y así validar a cuál eje está más cercano, si al eje x o al eje y. Y a partir de ahí, conocemosa que componente atribuye más, si a la 1 o a la componente 2.

Cuando un dispositivo no tiene bluetooth se encuentra en la dimensión 1 en 0.030313081, en la dimensión 2 en -0.410835144,al gráficar en 2 dimensiones, tendríamos el eje x positivo, en la parte inferior.

Cuando un dispositivo tiene un núcleo se encuentra en la dimensión 1 en 0.142322010, en la dimensión 2 en 0.891302494,al gráficar en 2 dimensiones, tendríamos el eje x positivo, en la parte superior

Cuando un dispositivo no tiene doble sim se encuentra en la dimensión 1 en -0.012409515, en la dimensión 2 en 0.270833882,al gráficar en 2 dimensiones, tendríamos el eje x negativo, en la parte superior

Cuando un dispositivo tiene wifi se encuentra en la dimensión 1 en 0.016531053, en la dimensión 2 en 0.042186106,al gráficar en 2 dimensiones, tendríamos el eje x positivo, en la parte superior

Visualización de coordenadas

La mayoría de los azules están cerca a la dimensión 1, four_g_0, three_g_0, three_g_1, four_g_1.price_range_0, wifi_1, están cerca a la dimensión 2. Se destacan las siguientes variables n_cores_5,n_cores_1,n_cores_3, three_g_0 y price_range_1 son las más lejanas y las que mayor información nos dan.

Cos2 de las variables

##                       Dim 1        Dim 2        Dim 3        Dim 4        Dim 5
## bluetooth_0    9.006872e-04 0.1654432280 0.0184713126 3.365570e-01 1.691539e-02
## bluetooth_1    9.006872e-04 0.1654432280 0.0184713126 3.365570e-01 1.691539e-02
## n_cores_1      2.788307e-03 0.1093570381 0.1582674919 1.913684e-04 2.731380e-02
## n_cores_2      1.213974e-02 0.0209462251 0.0095508002 2.006925e-02 1.155475e-01
## n_cores_3      4.740148e-03 0.0993317868 0.0028789974 6.854963e-02 1.474206e-02
## n_cores_4      1.686482e-03 0.0047832627 0.0116961040 4.825911e-02 1.552410e-01
## n_cores_5      1.207183e-02 0.1441937938 0.0173963996 1.370344e-02 1.006713e-02
## n_cores_6      6.896069e-06 0.0192948368 0.0623297010 7.016359e-06 9.126256e-02
## n_cores_7      2.679699e-04 0.0512692654 0.0802778416 3.010692e-02 3.134256e-02
## n_cores_8      2.020763e-03 0.0086645936 0.0651095831 2.268597e-01 9.305235e-03
## dual_sim_0     1.482533e-04 0.0706156257 0.2576821415 1.544772e-02 2.947897e-02
## dual_sim_1     1.482533e-04 0.0706156257 0.2576821415 1.544772e-02 2.947897e-02
## three_g_0      7.789344e-01 0.0003126988 0.0006252002 8.803901e-04 3.781377e-03
## three_g_1      7.789344e-01 0.0003126988 0.0006252002 8.803901e-04 3.781377e-03
## four_g_0       7.823904e-01 0.0019526996 0.0003472041 2.852815e-03 2.590308e-07
## four_g_1       7.823904e-01 0.0019526996 0.0003472041 2.852815e-03 2.590308e-07
## touch_screen_0 1.710955e-03 0.0865106087 0.0232939099 2.737936e-01 7.171357e-02
## touch_screen_1 1.710955e-03 0.0865106087 0.0232939099 2.737936e-01 7.171357e-02
## wifi_0         2.810361e-04 0.0018302058 0.0786369525 5.667079e-03 2.989696e-02
## wifi_1         2.810361e-04 0.0018302058 0.0786369525 5.667079e-03 2.989696e-02
## price_range_0  6.926269e-04 0.0005419071 0.1654659799 1.222061e-02 2.384794e-01
## price_range_1  1.229348e-06 0.3140833223 0.1100552409 3.002709e-02 5.483830e-02
## price_range_2  8.638339e-04 0.0625543592 0.0701703079 5.378002e-02 2.873782e-01
## price_range_3  2.981171e-03 0.1112900113 0.1155497789 2.696203e-03 7.947265e-02

Las variables que tiene mejor calidad estadística son three_g_0 y three_g_1, seguidas de four_g_0 y four_g_1 para la dimensión 1, en el caso de la dimensión 2 son price_range_1 con 0.3140833223, bluetooth_0 y bluetooth_1 con 0.1654432280.

Visualizaciónde los cos2

Como se mencionó anteriormente las variables three_g_0, three_g_1, four_g_0 y four_g_1 son las que mayor calidad estadística tienen, y en la gráfica resalta con su color naranja.

También es posible crear un gráfico de barras de la variable cos2.

Las categorías variables price_range_0, wifi_0, wifi_1 y n_cores_4 no están muy bien representadas por las dos primeras dimensiones. Esto implica que la posición de los puntos correspondientes en el gráfico de dispersión debe interpretarse con cierta precaución.

Contribuciones

La línea roja discontinua en el gráfico anterior indica el valor promedio esperado, si las contribuciones fueron uniformes. Puede observarse que: ● Las categorías three_g_0, four_g_0, four_g_1 y three_g_1 son las más importantes en la definición de la primera dimensión. ● Las categorías price_range1, n_cores_5, n_cores_1 y n_cores_3 contribuyen más a la dimensión 2.

Gráfico de Individuos

## Multiple Correspondence Analysis Results for individuals
##  ===================================================
##   Name       Description                       
## 1 "$coord"   "Coordinates for the individuals" 
## 2 "$cos2"    "Cos2 for the individuals"        
## 3 "$contrib" "contributions of the individuals"
##        Dim 1       Dim 2        Dim 3       Dim 4       Dim 5
## 1  0.6209777  0.36589520  0.216945088  0.47339665  0.16098071
## 2 -0.4165876 -0.02245331 -0.038210366 -0.08159508 -0.17689978
## 3 -0.2831604 -0.64953316  0.032792905 -0.21403141 -0.19637757
## 4  0.1441656 -0.16590319 -0.576331369  0.16177056 -0.30291248
## 5 -0.4688343  0.21692774  0.007692743 -0.34709251  0.08634885
## 6  0.1612514  0.57482820  0.627421035  0.24394400 -0.35723632
##        Dim 1        Dim 2        Dim 3       Dim 4       Dim 5
## 1 0.16781029 0.0582612851 2.048171e-02 0.097525229 0.011277539
## 2 0.09038693 0.0002625752 7.604232e-04 0.003467536 0.016298498
## 3 0.04175978 0.2197331868 5.600835e-04 0.023858768 0.020085228
## 4 0.01026475 0.0135936091 1.640476e-01 0.012924814 0.045316843
## 5 0.11416012 0.0244402670 3.073536e-05 0.062570010 0.003872477
## 6 0.01329099 0.1688988808 2.012189e-01 0.030418019 0.065232173
##         Dim 1        Dim 2        Dim 3       Dim 4       Dim 5
## 1 0.096459851 0.0489296893 1.739658e-02 0.084184901 0.009928134
## 2 0.043411748 0.0001842552 5.396680e-04 0.002500989 0.011988767
## 3 0.020056714 0.1541919418 3.974880e-04 0.017208335 0.014774192
## 4 0.005198975 0.0100593166 1.227747e-01 0.009830663 0.035152343
## 5 0.054983615 0.0171984463 2.187393e-05 0.045255808 0.002856492
## 6 0.006504312 0.1207633510 1.455065e-01 0.022354458 0.048891252

El código R a continuación colorea los individuos por grupos utilizando los niveles de la variable Vómitos. El argumento habillage se usa para especificar la variable de factor para colorear los individuos por grupos. También se puede agregar una elipse de concentración alrededor de cada grupo usando el argumento addEllipses = TRUE. Si desea una elipse de confianza alrededor del punto medio de las categorías, use ellipse.type = “confidence” La paleta de argumentos se usa para cambiar los colores del grupo.

Se puede proporcionar una variable de agrupación externa de la siguiente manera: habillage = poison$bluetooth Por ejemplo,

Análisis de correspondencias multiples ACM

## tibble [2,000 × 7] (S3: tbl_df/tbl/data.frame)
##  $ bluetooth   : Factor w/ 2 levels "0","1": 1 2 2 2 2 1 1 1 2 2 ...
##  $ n_cores     : Factor w/ 8 levels "1","2","3","4",..: 2 3 5 6 2 1 8 4 7 5 ...
##  $ dual_sim    : Factor w/ 2 levels "0","1": 1 2 2 1 1 2 1 2 1 2 ...
##  $ three_g     : Factor w/ 2 levels "0","1": 1 2 2 2 2 2 2 2 2 2 ...
##  $ four_g      : Factor w/ 2 levels "0","1": 1 2 2 1 2 1 2 1 1 2 ...
##  $ touch_screen: Factor w/ 2 levels "0","1": 1 2 2 1 2 1 1 2 1 1 ...
##  $ wifi        : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 2 2 1 1 ...

Revisamos la técnica ACM a partir de la función MCA

## **Results of the Multiple Correspondence Analysis (MCA)**
## The analysis was performed on 2000 individuals, described by 7 variables
## *The results are available in the following objects:
## 
##    name              description                       
## 1  "$eig"            "eigenvalues"                     
## 2  "$var"            "results for the variables"       
## 3  "$var$coord"      "coord. of the categories"        
## 4  "$var$cos2"       "cos2 for the categories"         
## 5  "$var$contrib"    "contributions of the categories" 
## 6  "$var$v.test"     "v-test for the categories"       
## 7  "$var$eta2"       "coord. of variables"             
## 8  "$ind"            "results for the individuals"     
## 9  "$ind$coord"      "coord. for the individuals"      
## 10 "$ind$cos2"       "cos2 for the individuals"        
## 11 "$ind$contrib"    "contributions of the individuals"
## 12 "$call"           "intermediate results"            
## 13 "$call$marge.col" "weights of columns"              
## 14 "$call$marge.li"  "weights of rows"

Se inicia con la obtención de los eigenvalores, sin embargo su interpretación está basada en la varianza acumulada.

##        eigenvalue variance.percent cumulative.variance.percent
## Dim.1  0.22825734        12.290780                    12.29078
## Dim.2  0.15322500         8.250577                    20.54136
## Dim.3  0.15186560         8.177378                    28.71874
## Dim.4  0.14867098         8.005360                    36.72410
## Dim.5  0.14425924         7.767805                    44.49190
## Dim.6  0.14305100         7.702746                    52.19465
## Dim.7  0.14285714         7.692308                    59.88695
## Dim.8  0.14163585         7.626546                    67.51350
## Dim.9  0.13972631         7.523724                    75.03722
## Dim.10 0.13819532         7.441286                    82.47851
## Dim.11 0.13595558         7.320685                    89.79920
## Dim.12 0.13079827         7.042984                    96.84218
## Dim.13 0.05864522         3.157820                   100.00000

Al revisar el porcentaje de la varianza acumuladaenemos que hasta la dimensión 8 nos aporta un 67.51350%.

Se puede realizar la prueba del codo, para revisar en que momento tiene un cambio brusco para validar cuando se vuelve constante.

Visualizar los resultados de los eigenvalores

El gráfico nos indica que la componente 1 es la que contiene mayor información, el cambio se evidencia en 4, donde hay mayor cambio con un 8%

# Visualización de variables

## Multiple Correspondence Analysis Results for variables
##  ===================================================
##   Name       Description                  
## 1 "$coord"   "Coordinates for categories" 
## 2 "$cos2"    "Cos2 for categories"        
## 3 "$contrib" "contributions of categories"

Analizamos las coordenadas de las variables

##                       Dim 1        Dim 2        Dim 3        Dim 4       Dim 5
## bluetooth_0    -0.032270219  0.647902615  0.327291158 -0.103464719  0.08047994
## bluetooth_1     0.032922143 -0.660991557 -0.333903101  0.105554916 -0.08210580
## n_cores_1       0.152265904  0.442510607  0.163084906 -0.082531628 -0.18190128
## n_cores_2      -0.294404154 -0.437171393  0.985351199  0.537941219  0.64882920
## n_cores_3      -0.184525592  0.827174656  0.687599518 -0.118033017  1.19884886
## n_cores_4      -0.109829147 -0.638971552  0.043459943 -0.804346955 -1.22043199
## n_cores_5       0.299021317 -0.537710974  0.434400861 -0.057233880 -0.10530663
## n_cores_6      -0.008407289  0.842016437 -0.583701271 -0.737075350 -0.10945159
## n_cores_7       0.042848381  0.258853070 -0.432665461  1.283037596 -1.33155383
## n_cores_8       0.111846332 -0.609151637 -1.267409236 -0.047544967  1.24684604
## dual_sim_0     -0.015186262  0.533158645 -0.404894211  0.213129461 -0.18431793
## dual_sim_1      0.014619944 -0.513276379  0.389795113 -0.205181552  0.17744444
## three_g_0       1.578810247 -0.029200522  0.019371589  0.006148742  0.10245968
## three_g_1      -0.494479637  0.009145535 -0.006067136 -0.001925771 -0.03209013
## four_g_0        0.922926356  0.069767340  0.026638000 -0.011710929 -0.01227050
## four_g_1       -0.846826963 -0.064014712 -0.024441579  0.010745310  0.01125874
## touch_screen_0  0.041774937 -0.070230051  0.513857335  0.464836763 -0.14556583
## touch_screen_1 -0.041276627  0.069392317 -0.507727824 -0.459291990  0.14382946
## wifi_0         -0.018942408 -0.020049760 -0.249433090  0.616143344  0.28316062
## wifi_1          0.018419344  0.019496117  0.242545391 -0.599129524 -0.27534158

Cuando un dispositivo tiene bluetooth se encuentra en la dimensión 1 en 0.032922143, en la dimensión 2 en -0.660991557, con esta información podemos realizar una gráfica en 2 dimensiones, estaría en el eje x postivo, en la parte inferior, y así validar a cuál eje está más cercano, si al eje x o al eje y. Y a partir de ahí, conocemosa que componente atribuye más, si a la 1 o a la componente 2.

Cuando un dispositivo no tiene bluetooth se encuentra en la dimensión 1 en -0.032270219, en la dimensión 2 en 0.647902615,al gráficar en 2 dimensiones, tendríamos el eje x negativo, en la parte superior.

Cuando un dispositivo tiene un núcleo se encuentra en la dimensión 1 en 0.152265904, en la dimensión 2 en 0.442510607,al gráficar en 2 dimensiones, tendríamos el eje x positivo, en la parte superior

Cuando un dispositivo no tiene doble sim se encuentra en la dimensión 1 en -0.015186262, en la dimensión 2 en 0.533158645,al gráficar en 2 dimensiones, tendríamos el eje x negativo, en la parte superior

Cuando un dispositivo tiene wifi se encuentra en la dimensión 1 en 0.018419344, en la dimensión 2 en 0.019496117,al gráficar en 2 dimensiones, tendríamos el eje x positivo, en la parte superior

Visualización de coordenadas

La mayoría de los azules están cerca a la dimensión 1, four_g_0, three_g_0, three_g_1, four_g_1, están cerca a la dimensión 2. Se destacan las siguientes variables n_cores_6,n_cores_3, bluetooth_0 son las más lejanas y las que mayor información nos dan.

Cos2 de las variables

##                       Dim 1        Dim 2        Dim 3        Dim 4        Dim 5
## bluetooth_0    1.062405e-03 0.4282581586 0.1092835324 1.092121e-02 0.0066078700
## bluetooth_1    1.062405e-03 0.4282581586 0.1092835324 1.092121e-02 0.0066078700
## n_cores_1      3.191551e-03 0.0269552811 0.0036612049 9.376426e-04 0.0045547864
## n_cores_2      1.221245e-02 0.0269288935 0.1368034771 4.077413e-02 0.0593165401
## n_cores_3      4.775499e-03 0.0959621473 0.0663096363 1.953946e-03 0.2015739398
## n_cores_4      1.914895e-03 0.0648145960 0.0002998390 1.027062e-01 0.2364487038
## n_cores_5      1.254035e-02 0.0405511633 0.0264659125 4.594221e-04 0.0015553101
## n_cores_6      9.184732e-06 0.0921288625 0.0442726836 7.059572e-02 0.0015566778
## n_cores_7      2.731303e-04 0.0099679909 0.0278487334 2.448949e-01 0.2637657790
## n_cores_8      1.836272e-03 0.0544683621 0.2357909976 3.318200e-04 0.2282018401
## dual_sim_0     2.220223e-04 0.2736577388 0.1578257847 4.373023e-02 0.0327061928
## dual_sim_1     2.220223e-04 0.2736577388 0.1578257847 4.373023e-02 0.0327061928
## three_g_0      7.806895e-01 0.0002670544 0.0001175301 1.184107e-05 0.0032879446
## three_g_1      7.806895e-01 0.0002670544 0.0001175301 1.184107e-05 0.0032879446
## four_g_0       7.815589e-01 0.0044661362 0.0006510748 1.258376e-04 0.0001381504
## four_g_1       7.815589e-01 0.0044661362 0.0006510748 1.258376e-04 0.0001381504
## touch_screen_0 1.724328e-03 0.0048734260 0.2608996670 2.134958e-01 0.0209366549
## touch_screen_1 1.724328e-03 0.0048734260 0.2608996670 2.134958e-01 0.0209366549
## wifi_0         3.489067e-04 0.0003908925 0.0604988464 3.691497e-01 0.0779658924
## wifi_1         3.489067e-04 0.0003908925 0.0604988464 3.691497e-01 0.0779658924

Las variables que tiene mejor calidad estadística son three_g_0 y three_g_1, seguidas de four_g_0 y four_g_1 para la dimensión 1, en el caso de la dimensión 2 son bluetooth_0 y bluetooth_1.

Visualizaciónde los cos2

Como se mencionó anteriormente las variables three_g_0, three_g_1, four_g_0 y four_g_1 son las que mayor calidad estadística tienen, y en la gráfica resalta con su color naranja.

También es posible crear un gráfico de barras de la variable cos2.

Las categorías variables wifi_1, wifi_0,touch_screen_0 y touch_screen_1 no están muy bien representadas por las dos primeras dimensiones. Esto implica que la posición de los puntos correspondientes en el gráfico de dispersión debe interpretarse con cierta precaución.

Contribuciones

La línea roja discontinua en el gráfico anterior indica el valor promedio esperado, si las contribuciones fueron uniformes. Puede observarse que: ● Las categorías three_g_0, four_g_0, four_g_1 y three_g_1 son las más importantes en la definición de la primera dimensión. ● Las categorías bluetooth_1, bluetooth_0, dual_sim_0 y dual_sim_1 contribuyen más a la dimensión 2.

Gráfico de Individuos

## Multiple Correspondence Analysis Results for individuals
##  ===================================================
##   Name       Description                       
## 1 "$coord"   "Coordinates for the individuals" 
## 2 "$cos2"    "Cos2 for the individuals"        
## 3 "$contrib" "contributions of the individuals"
##        Dim 1      Dim 2       Dim 3        Dim 4       Dim 5
## 1  0.6638291  0.2677744  0.62691566  0.188122031  0.08059304
## 2 -0.4600337 -0.1286897 -0.01619494 -0.019261864  0.63953968
## 3 -0.3154471 -0.6268091 -0.10901325  0.003264249  0.14901652
## 4  0.1377276  0.2564951 -0.38033108  0.240437236 -0.10630791
## 5 -0.5018012 -0.2082171 -0.19836380  0.378761415  0.29659729
## 6  0.1751900  0.2064795  0.42713009  0.250519695  0.06366158
##        Dim 1       Dim 2        Dim 3        Dim 4       Dim 5
## 1 0.20052165 0.032627734 0.1788409210 1.610379e-02 0.002955587
## 2 0.11985378 0.009379081 0.0001485357 2.101208e-04 0.231636709
## 3 0.05635408 0.222506632 0.0067302461 6.034469e-06 0.012575963
## 4 0.01006069 0.034893472 0.0767201655 3.066121e-02 0.005994004
## 5 0.14210968 0.024467685 0.0222067533 8.096395e-02 0.049647179
## 6 0.01698225 0.023590141 0.1009478117 3.472644e-02 0.002242495
##         Dim 1       Dim 2        Dim 3        Dim 4       Dim 5
## 1 0.096529012 0.023397993 1.293984e-01 1.190209e-02 0.002251238
## 2 0.046357989 0.005404161 8.635135e-05 1.247787e-04 0.141762499
## 3 0.021797077 0.128206760 3.912633e-03 3.583525e-06 0.007696534
## 4 0.004155154 0.021468349 4.762492e-02 1.944228e-02 0.003917035
## 5 0.055158025 0.014147282 1.295494e-02 4.824755e-02 0.030490232
## 6 0.006723011 0.013912152 6.006631e-02 2.110705e-02 0.001404692

El código R a continuación colorea los individuos por grupos utilizando los niveles de la variable Vómitos. El argumento habillage se usa para especificar la variable de factor para colorear los individuos por grupos. También se puede agregar una elipse de concentración alrededor de cada grupo usando el argumento addEllipses = TRUE. Si desea una elipse de confianza alrededor del punto medio de las categorías, use ellipse.type = “confidence” La paleta de argumentos se usa para cambiar los colores del grupo.

Tenga en cuenta que, para especificar el valor del argumento habillage, también es posible usar el índice de la columna de la siguiente manera (habillage = 2). Además, puede proporcionar una variable de agrupación externa de la siguiente manera: habillage = poison$Vomiting. Por ejemplo,