P1

Cargue la base de datos googleplaystore.csv y los paquetes que sean necesarios para trabajar un data.table.

library(data.table)
library(ggplot2)
library(treemap)
library(knitr)
google_1<-read.csv("googleplaystore.csv")

class(google_1)
## [1] "data.frame"
google_1<-as.data.table(google_1)
class(google_1)
## [1] "data.table" "data.frame"

P2

Revise la base de datos y elimine las aplicaciones que se encuentran duplicadas.

duplicated(google_1)
google_notduplicate<-google_1[!duplicated(google_1),]

google_notduplicate
##                                                         App            Category
##     1:       Photo Editor & Candy Camera & Grid & ScrapBook      ART_AND_DESIGN
##     2:                                  Coloring book moana      ART_AND_DESIGN
##     3: U Launcher Lite â\200“ FREE Live Cool Themes, Hide Apps      ART_AND_DESIGN
##     4:                                Sketch - Draw & Paint      ART_AND_DESIGN
##     5:                Pixel Draw - Number Art Coloring Book      ART_AND_DESIGN
##    ---                                                                         
## 10353:                                     Sya9a Maroc - FR              FAMILY
## 10354:                     Fr. Mike Schmitz Audio Teachings              FAMILY
## 10355:                               Parkinson Exercices FR             MEDICAL
## 10356:                        The SCP Foundation DB fr nn5n BOOKS_AND_REFERENCE
## 10357:        iHoroscope - 2018 Daily Horoscope & Astrology           LIFESTYLE
##        Rating Reviews               Size    Installs Type Price Content.Rating
##     1:    4.1     159                19M     10,000+ Free     0       Everyone
##     2:    3.9     967                14M    500,000+ Free     0       Everyone
##     3:    4.7   87510               8.7M  5,000,000+ Free     0       Everyone
##     4:    4.5  215644                25M 50,000,000+ Free     0           Teen
##     5:    4.3     967               2.8M    100,000+ Free     0       Everyone
##    ---                                                                        
## 10353:    4.5      38                53M      5,000+ Free     0       Everyone
## 10354:    5.0       4               3.6M        100+ Free     0       Everyone
## 10355:     NA       3               9.5M      1,000+ Free     0       Everyone
## 10356:    4.5     114 Varies with device      1,000+ Free     0     Mature 17+
## 10357:    4.5  398307                19M 10,000,000+ Free     0       Everyone
##                           Genres     Last.Updated        Current.Ver
##     1:              Art & Design  January 7, 2018              1.0.0
##     2: Art & Design;Pretend Play January 15, 2018              2.0.0
##     3:              Art & Design   August 1, 2018              1.2.4
##     4:              Art & Design     June 8, 2018 Varies with device
##     5:   Art & Design;Creativity    June 20, 2018                1.1
##    ---                                                              
## 10353:                 Education    July 25, 2017               1.48
## 10354:                 Education     July 6, 2018                1.0
## 10355:                   Medical January 20, 2017                1.0
## 10356:         Books & Reference January 19, 2015 Varies with device
## 10357:                 Lifestyle    July 25, 2018 Varies with device
##               Android.Ver
##     1:       4.0.3 and up
##     2:       4.0.3 and up
##     3:       4.0.3 and up
##     4:         4.2 and up
##     5:         4.4 and up
##    ---                   
## 10353:         4.1 and up
## 10354:         4.1 and up
## 10355:         2.2 and up
## 10356: Varies with device
## 10357: Varies with device

P3

Cree un nuevo objeto que contenga las siguientes variables de interés: App,Category,Rating,Reviews,Installs,Type,Price y Content Rating.

New_google<-google_notduplicate[,.(App, Category, Rating, Reviews, Installs, Type, Price, Content.Rating)]
New_google
##                                                         App            Category
##     1:       Photo Editor & Candy Camera & Grid & ScrapBook      ART_AND_DESIGN
##     2:                                  Coloring book moana      ART_AND_DESIGN
##     3: U Launcher Lite â\200“ FREE Live Cool Themes, Hide Apps      ART_AND_DESIGN
##     4:                                Sketch - Draw & Paint      ART_AND_DESIGN
##     5:                Pixel Draw - Number Art Coloring Book      ART_AND_DESIGN
##    ---                                                                         
## 10353:                                     Sya9a Maroc - FR              FAMILY
## 10354:                     Fr. Mike Schmitz Audio Teachings              FAMILY
## 10355:                               Parkinson Exercices FR             MEDICAL
## 10356:                        The SCP Foundation DB fr nn5n BOOKS_AND_REFERENCE
## 10357:        iHoroscope - 2018 Daily Horoscope & Astrology           LIFESTYLE
##        Rating Reviews    Installs Type Price Content.Rating
##     1:    4.1     159     10,000+ Free     0       Everyone
##     2:    3.9     967    500,000+ Free     0       Everyone
##     3:    4.7   87510  5,000,000+ Free     0       Everyone
##     4:    4.5  215644 50,000,000+ Free     0           Teen
##     5:    4.3     967    100,000+ Free     0       Everyone
##    ---                                                     
## 10353:    4.5      38      5,000+ Free     0       Everyone
## 10354:    5.0       4        100+ Free     0       Everyone
## 10355:     NA       3      1,000+ Free     0       Everyone
## 10356:    4.5     114      1,000+ Free     0     Mature 17+
## 10357:    4.5  398307 10,000,000+ Free     0       Everyone

P4

Cree un objeto que esté compuesto por el número de observaciones de cada categoría.

N_OBS<-New_google[,.N,by=(Category)]
kable(N_OBS)
Category N
ART_AND_DESIGN 65
AUTO_AND_VEHICLES 85
BEAUTY 53
BOOKS_AND_REFERENCE 230
BUSINESS 427
COMICS 60
COMMUNICATION 366
DATING 196
EDUCATION 130
ENTERTAINMENT 111
EVENTS 64
FINANCE 360
FOOD_AND_DRINK 124
HEALTH_AND_FITNESS 306
HOUSE_AND_HOME 80
LIBRARIES_AND_DEMO 85
LIFESTYLE 373
GAME 1121
FAMILY 1943
MEDICAL 408
SOCIAL 280
SHOPPING 224
PHOTOGRAPHY 322
SPORTS 351
TRAVEL_AND_LOCAL 237
TOOLS 843
PERSONALIZATION 388
PRODUCTIVITY 407
PARENTING 60
WEATHER 82
VIDEO_PLAYERS 175
NEWS_AND_MAGAZINES 264
MAPS_AND_NAVIGATION 137

También podemos verlo expresado en el siguiente gráfico:

ggplot(data=New_google,aes(Category,colour=Category)) + geom_bar()

P5

Reemplace el objeto anterior para que ahora contenga el número de observaciones, el promedio de comentarios (Reviews) y el promedio del Rating por categoría.

New_google2<-New_google[,.(meanRev=mean(Reviews,na.rm = TRUE),meanRat=mean(Rating,na.rm = TRUE)), by=Category]
N_OBS<-data.table(N_OBS,New_google2)

colnames(N_OBS)[3] <- "newname2"

N_OBS$"newname2" <- NULL 

kable(N_OBS)
Category N meanRev meanRat
ART_AND_DESIGN 65 26376.000 4.358065
AUTO_AND_VEHICLES 85 13690.188 4.190411
BEAUTY 53 7476.226 4.278571
BOOKS_AND_REFERENCE 230 95100.987 4.347458
BUSINESS 427 28941.852 4.102593
COMICS 60 56387.933 4.155172
COMMUNICATION 366 1642823.913 4.151466
DATING 196 28292.842 3.971698
EDUCATION 130 178196.154 4.375969
ENTERTAINMENT 111 428565.009 4.136036
EVENTS 64 2515.906 4.435556
FINANCE 360 47221.919 4.127445
FOOD_AND_DRINK 124 61867.548 4.164151
HEALTH_AND_FITNESS 306 100801.261 4.261450
HOUSE_AND_HOME 80 34934.650 4.164706
LIBRARIES_AND_DEMO 85 12201.388 4.178462
LIFESTYLE 373 34371.515 4.096066
GAME 1121 1262744.558 4.281285
FAMILY 1943 204205.851 4.191153
MEDICAL 408 3423.424 4.182450
SOCIAL 280 1905631.532 4.254918
SHOPPING 224 423799.830 4.251485
PHOTOGRAPHY 322 634464.006 4.182895
SPORTS 351 186104.581 4.225175
TRAVEL_AND_LOCAL 237 234452.152 4.094146
TOOLS 843 324062.923 4.047411
PERSONALIZATION 388 193796.812 4.333871
PRODUCTIVITY 407 251976.654 4.201796
PARENTING 60 15972.183 4.300000
WEATHER 82 178106.524 4.244000
VIDEO_PLAYERS 175 630743.931 4.063750
NEWS_AND_MAGAZINES 264 144870.731 4.128505
MAPS_AND_NAVIGATION 137 223790.175 4.051613

P6

Renombre las columnas del objeto de la pregunta 5. La primera columna debe ser Categoría, la segunda columna Número_Observaciones, la tercera columna Promedio_Comentarios y la cuarta columna Promedio_Rating.

colnames(N_OBS)<-c("Categoría","Número_Observaciones","Promedio_Comentarios","Promedio_Rating")
kable(N_OBS)
Categoría Número_Observaciones Promedio_Comentarios Promedio_Rating
ART_AND_DESIGN 65 26376.000 4.358065
AUTO_AND_VEHICLES 85 13690.188 4.190411
BEAUTY 53 7476.226 4.278571
BOOKS_AND_REFERENCE 230 95100.987 4.347458
BUSINESS 427 28941.852 4.102593
COMICS 60 56387.933 4.155172
COMMUNICATION 366 1642823.913 4.151466
DATING 196 28292.842 3.971698
EDUCATION 130 178196.154 4.375969
ENTERTAINMENT 111 428565.009 4.136036
EVENTS 64 2515.906 4.435556
FINANCE 360 47221.919 4.127445
FOOD_AND_DRINK 124 61867.548 4.164151
HEALTH_AND_FITNESS 306 100801.261 4.261450
HOUSE_AND_HOME 80 34934.650 4.164706
LIBRARIES_AND_DEMO 85 12201.388 4.178462
LIFESTYLE 373 34371.515 4.096066
GAME 1121 1262744.558 4.281285
FAMILY 1943 204205.851 4.191153
MEDICAL 408 3423.424 4.182450
SOCIAL 280 1905631.532 4.254918
SHOPPING 224 423799.830 4.251485
PHOTOGRAPHY 322 634464.006 4.182895
SPORTS 351 186104.581 4.225175
TRAVEL_AND_LOCAL 237 234452.152 4.094146
TOOLS 843 324062.923 4.047411
PERSONALIZATION 388 193796.812 4.333871
PRODUCTIVITY 407 251976.654 4.201796
PARENTING 60 15972.183 4.300000
WEATHER 82 178106.524 4.244000
VIDEO_PLAYERS 175 630743.931 4.063750
NEWS_AND_MAGAZINES 264 144870.731 4.128505
MAPS_AND_NAVIGATION 137 223790.175 4.051613

P7

Ahora queremos analizar el nivel de competencia que existe por categoría para identificar cómo se encuentra valorada cada categoría de aplicaciones. Para realizar esto, debe crear un objeto con el identificador de competencia para cada categoría. El indicador esta definido como:

\(Icompetencia = mean(reviews∗rating)/1000\)

N_OBS[,Icompetencia:=(Promedio_Comentarios*Promedio_Rating)/1000]
N_OBS2<-N_OBS[,.(Categoría,Icompetencia)]
kable(N_OBS2)
Categoría Icompetencia
ART_AND_DESIGN 114.94831
AUTO_AND_VEHICLES 57.36751
BEAUTY 31.98757
BOOKS_AND_REFERENCE 413.44751
BUSINESS 118.73663
COMICS 234.30159
COMMUNICATION 6820.12729
DATING 112.37063
EDUCATION 779.78084
ENTERTAINMENT 1772.56032
EVENTS 11.15944
FINANCE 194.90587
FOOD_AND_DRINK 257.62581
HEALTH_AND_FITNESS 429.55957
HOUSE_AND_HOME 145.49254
LIBRARIES_AND_DEMO 50.98303
LIFESTYLE 140.78798
GAME 5406.16923
FAMILY 855.85786
MEDICAL 14.31830
SOCIAL 8108.30597
SHOPPING 1801.77868
PHOTOGRAPHY 2653.89615
SPORTS 786.32439
TRAVEL_AND_LOCAL 959.88142
TOOLS 1311.61598
PERSONALIZATION 839.89038
PRODUCTIVITY 1058.75460
PARENTING 68.68039
WEATHER 755.88409
VIDEO_PLAYERS 2563.18565
NEWS_AND_MAGAZINES 598.09949
MAPS_AND_NAVIGATION 906.71116

P8

Renombrar las columnas del objeto de la Pregunta 7. La primera columna debe ser Categoría y la segunda columna Identificador.

colnames(N_OBS2)[2] <- "Identificador"
kable(N_OBS2)
Categoría Identificador
ART_AND_DESIGN 114.94831
AUTO_AND_VEHICLES 57.36751
BEAUTY 31.98757
BOOKS_AND_REFERENCE 413.44751
BUSINESS 118.73663
COMICS 234.30159
COMMUNICATION 6820.12729
DATING 112.37063
EDUCATION 779.78084
ENTERTAINMENT 1772.56032
EVENTS 11.15944
FINANCE 194.90587
FOOD_AND_DRINK 257.62581
HEALTH_AND_FITNESS 429.55957
HOUSE_AND_HOME 145.49254
LIBRARIES_AND_DEMO 50.98303
LIFESTYLE 140.78798
GAME 5406.16923
FAMILY 855.85786
MEDICAL 14.31830
SOCIAL 8108.30597
SHOPPING 1801.77868
PHOTOGRAPHY 2653.89615
SPORTS 786.32439
TRAVEL_AND_LOCAL 959.88142
TOOLS 1311.61598
PERSONALIZATION 839.89038
PRODUCTIVITY 1058.75460
PARENTING 68.68039
WEATHER 755.88409
VIDEO_PLAYERS 2563.18565
NEWS_AND_MAGAZINES 598.09949
MAPS_AND_NAVIGATION 906.71116

P9

Reemplace el objeto de la Pregunta 5 realizando un merge entre el objeto de la Pregunta 5 y el objeto de la Pregunta 7.

merge1<-merge(N_OBS,N_OBS2)

colnames(merge1)[5] <- "newname"
merge1$"newname" <- NULL 
kable(merge1)
Categoría Número_Observaciones Promedio_Comentarios Promedio_Rating Identificador
ART_AND_DESIGN 65 26376.000 4.358065 114.94831
AUTO_AND_VEHICLES 85 13690.188 4.190411 57.36751
BEAUTY 53 7476.226 4.278571 31.98757
BOOKS_AND_REFERENCE 230 95100.987 4.347458 413.44751
BUSINESS 427 28941.852 4.102593 118.73663
COMICS 60 56387.933 4.155172 234.30159
COMMUNICATION 366 1642823.913 4.151466 6820.12729
DATING 196 28292.842 3.971698 112.37063
EDUCATION 130 178196.154 4.375969 779.78084
ENTERTAINMENT 111 428565.009 4.136036 1772.56032
EVENTS 64 2515.906 4.435556 11.15944
FAMILY 1943 204205.851 4.191153 855.85786
FINANCE 360 47221.919 4.127445 194.90587
FOOD_AND_DRINK 124 61867.548 4.164151 257.62581
GAME 1121 1262744.558 4.281285 5406.16923
HEALTH_AND_FITNESS 306 100801.261 4.261450 429.55957
HOUSE_AND_HOME 80 34934.650 4.164706 145.49254
LIBRARIES_AND_DEMO 85 12201.388 4.178462 50.98303
LIFESTYLE 373 34371.515 4.096066 140.78798
MAPS_AND_NAVIGATION 137 223790.175 4.051613 906.71116
MEDICAL 408 3423.424 4.182450 14.31830
NEWS_AND_MAGAZINES 264 144870.731 4.128505 598.09949
PARENTING 60 15972.183 4.300000 68.68039
PERSONALIZATION 388 193796.812 4.333871 839.89038
PHOTOGRAPHY 322 634464.006 4.182895 2653.89615
PRODUCTIVITY 407 251976.654 4.201796 1058.75460
SHOPPING 224 423799.830 4.251485 1801.77868
SOCIAL 280 1905631.532 4.254918 8108.30597
SPORTS 351 186104.581 4.225175 786.32439
TOOLS 843 324062.923 4.047411 1311.61598
TRAVEL_AND_LOCAL 237 234452.152 4.094146 959.88142
VIDEO_PLAYERS 175 630743.931 4.063750 2563.18565
WEATHER 82 178106.524 4.244000 755.88409

P10

Cree un objeto, a partir del objeto de la pregunta anterior, que contenga información solo de las categorías que más se relacionan con el rubro de la empresa (SOCIAL y PHOTOGRAPHY).

dat10 = merge1 [Categoría%in% c ("SOCIAL", "PHOTOGRAPHY")]
kable(dat10)
Categoría Número_Observaciones Promedio_Comentarios Promedio_Rating Identificador
PHOTOGRAPHY 322 634464 4.182895 2653.896
SOCIAL 280 1905632 4.254918 8108.306

BONUS

Realizar un gráfico que relacione dos variables que para usted sean relevantes relacionar. Para esto utilice el objeto de la Pregunta 3. Explique su gráfico.

Como grupo nos enofocamos en las aplicaciones

La base de datos de Google Play Store es tan grande que decidimos enfocarnos solo en la categoría “Familia” para poder hacer un análisis más claro y preciso. Escogimos esta categoría porque, además de tener una cantidad considerable de aplicaciones, las que están incluidas en ella son de muchos tipos y no se enfocan en un solo ámbito, teniendo juegos como Roblox, entretención como Netflix, educación como Duolingo y música como YouTube Kids.

Para el análisis estudiamos las variables de cantidad de descargas y precio distinguidas por su rating en Google Play Store. Escogimos ver las descargas porque esto nos dice qué tan demandadas fueron, el precio porque nos muestra cuán dispuesta está la gente a pagar y el rating porque es la valoración que tuvo por sus usuarios.

Lo que pudimos desprender del gráfico es que el precio de una aplicación no determina la popularidad ni la aceptación de sus usuarios. Sobre esto nos enfocamos en tres puntos. En primer lugar, en las dos aplicaciones más caras, de $389.99 y $399.99, que pese a su valor tuvieron más de 10.000 descargas y su valoración fue entre 2,5 y 3,5 estrellas, lo que nos dice que hay personas dispuestas a pagar bastante dinero por una aplicación que no los satisfizo. En segundo lugar las aplicaciones sin costo van desde las 0 descargas hasta las 1.000.000.000 y sus valoraciones están entre las 3 y 5 estrellas, por lo que las personas estuvieron más interesadas en descargar aplicaciones gratuitas y las valoraron bien porque no tuvieron muchas expectativas sobre ellas y no perdieron nada al probarlas. En tercer lugar, están las aplicaciones que costaron entre $10.00 y $19.99, montos que nosotros consideramos altos para una aplicación de teléfono, pero que tienen entre 10 y 100.000 descargas con ratings que mayortariamente están entre 4 y 5 estrellas, lo que podría significar que las personas que adquieren este tipo de aplicaciones están informados a la hora de comprar y saben lo que obtendrán por ese dinero, por lo que no se suelen decepcionar y cumplen con sus expectativas.

Es por esto que concluimos que los usuarios de las aplicaciones de Google Play Store están dispuestos a pagar diversos precios por aplicaciones con varios fines en las que ponen distintas expectativas, lo que influye en sus descargas y sus ratings. Además, el gráfico nos permite estudiar a las personas que descargan aplicaciones porque nos muestran diversas variables y nos permiten ponernos en muchas situaciones al mezclar precio, descargas y valoraciones.