La Agencia de Regulación y Control de las Telecomunicaciones (ARCOTEL), publica mensualmente el reporte de Servicio Móvil Avanzado (SMA) de las Radiobases por Prestador y por Tecnología que puede ser descargo del siguiente link: Radiobases por Prestador y Tecnología. De este archivo se tomó únicamente la hoja ‘RBSxPARROQUIAHISTORICO’.
En este dataset se detalla el número mensual de Radiobases de SMA, desagregado por Provincia, Cantón y Parroquia así como también por Prestador (CLARO, MOVISTAR y CNT) y por Tecnología como GSM, UMTS y LTE en las diferentes bandas asignadas al prestador. Toda esta información a partir de octubre del 2015 y hasta julio del 2019.
El objetivo de este informe es presentar un reporte estadístico así como también realzar una predicción respecto al número de Radibases para los siguientes meses del año 2019.
La tabla indicada anteiormente (RBSxPARROQUIAHISTORICO) requiere un trabajo inicial de limpieza y ordenamiento de los datos, ya que, por ejemplo, existen observaciones que figuran como variables así como también varios nombres de tecnologías que se repiten de diferentes formas pese a ser la misma, inclusive existe un error en la frecuencia de GSM ya que en ciertas celdas aparece como 851 cuando debe ser 850.
El dataset original estaba formado por 1044 observaciones y 649 variables y luego del trabajo de limpieza y ordenamiento se transformó en un dataframe de 674424 observaciones y 8 variables, que son: provincia, canton, parroquia, año, mes, operador, tecnologia y cantidad.
dim(RadioBaseEc)
## [1] 674424 8
En la variable ‘cantidad’ se registran las cantidades de Radiobases correspondientes a cada una de las demás variables. En la sisiguiente tabla se presentan los totales de radiobases agrupadas por año, mes, operador y tecnlogía. En lo que va del 2019, CLARO es el prestador con mayor cantidad de radiobases en la tecnología UMTS.850
La tabla 2, muestra la cantidad de radiobases por provincia y tecnología. Pichincha y Guayas son las provincias con mayor número de radiobases siendo UMTS.1900 la tecnología con mayor presencia en cada una de estas provincias.
Ahora se presentarán algunas visualizaciones de la distribución de los datos. En este primer gráfico se muestra la cantidad total de radiobases instaladas por año (sin discriminar por tecnología o locación). El 2018 es el año con mayor cantidad.
El siguiente gráfico de barras muestra la distribución de la cantidad de radiobases instaladas por cada operador desde octubre del 2015 hasta julio del 2019.
La variable de interés es la cantidad de radiobases, por lo que antes de continuar con la visualización, se obtendrán algunos estadísticos de esta variable.
Debido a la gran cantidad de 0’s presentes en el dataset, no es de extrañarse que este sea el valor con más presencia ya que tanto el mínimo, el primer cuartil, la mediana y tercer cuartil es efectivamente 0, mientras que el valor máximo es 504. El promedio es de 1.07 mientra que la desviación estándard es de 12.22. La amplia diferencia entre estos dos valores indica que existe una gran dispersión de los datos y por lo tanto el promedio no es un dato representativo de la cantidad de radiobases.Ahora, se graficará el histograma y la densidad de la cantidad de radiobases.
La figura 3 presenta el histograma de la cantidad de radiobases, en la cual, dado que la altura de las barras representa la frecuencia de la cantidad de valores que se encuentran dentro de cada barra, se confirma lo que se indicó anteriormente, respecto a que la mayor cantidad de datos se encuentra en los valores bajos (cero específicamente) de la cantidad de radiobases.
En la figura 4 se aprecia la densidad del dataset, la cual muestra claramente que la distribución no es normal y más bien tiende hacia la distribución de Poisson o Gamma, por la larga cola hacia la derecha, lo que también muestra que su asimetría es positiva, lo cual es corroborado por el valor de simetría positivo de 26.55. Debido a la asimetría, se realizará una transformación de la cantidad a escala logarítmica con el fin de reducir dicha asimetría y hacer que esta variable tienda a ser normal (figura 5).
Finalmente, las figuras 6 y 7 presentan el Q-Q plot y dado que la distribución de la variable cantidad no es normal sino que debido a la asimetría positiva podría ser consistente con la distribución log-normal o Poisson, por lo tanto estas son las prueba que se realizarán.
De acuerdo a los resultados de las figuras 6 y 7, la distribución de los datos de la variable cantidad parece ser mas consistente con la distribución log-normal.
Se utilizará el modelo glm y dado que la variable cantidad tiene una gran cantidad de ceros, la predicción se la realizará considerando el logaritmo de dicha variable mas un artificio de 0.001. El dataset se dividirá en una componente para entrenamiento (training) y otra para prueba (testing)
##
## Call: glm(formula = log(cantidad + 0.001) ~ operador + tecnologia +
## año + mes, data = RadioBaseEc)
##
## Coefficients:
## (Intercept) operadorCNT operadorMOVISTAR
## -1.644e+02 7.574e-01 -5.119e-01
## tecnologiaGSM.1900 tecnologiaUMTS.850 tecnologiaUMTS.1900
## -2.697e+00 -1.155e+00 -2.021e+00
## tecnologiaLTE.700 tecnologiaLTE.850 tecnologiaLTE.AWS
## -4.503e+00 -3.385e+00 -3.749e+00
## tecnologiaLTE.1900 año mes02
## -3.192e+00 7.995e-02 9.815e-03
## mes03 mes04 mes05
## 1.720e-03 1.046e-02 2.400e-02
## mes06 mes07 mes08
## 3.933e-02 5.075e-02 5.887e-02
## mes09 mes10 mes11
## 5.214e-02 3.955e-02 4.441e-02
## mes12
## 5.774e-02
##
## Degrees of Freedom: 674423 Total (i.e. Null); 674402 Residual
## Null Deviance: 6161000
## Residual Deviance: 5168000 AIC: 3287000
## NULL