Análisis de las Microempresas en México 2019 - 2020

Integrantes: Luis Moisés González Sarmiento, Shalom Sarai Mera León

08/12/2021

I. INTRODUCCIÓN

Imagen 1.1. Banner Microempresas

En la actualidad las empresas se ven obligadas a realizar una incorporación tecnológica constante debido a diversos factores, de entre los más importantes la nueva normalidad generada por la pandemia de COVID-19. Las MIPYMES han sido un sector de la economía que se ha visto sumamente perjudicado por estas condiciones, los datos generados por el Instituto Nacional de Estadística y Geografía (INEGI) nos muestran la magnitud de la afectación y nos han llevado a cuestionarnos el beneficio generado por la adopción de las TIC en un intento por contrarrestar dicha situación, pues aún cuando la literatura destaca su importancia para la competitividad y los posibles rendimientos, no queda claro si bajo estas condiciones puede generar una aportación real, o bien, generar alguna condición perjudicial. El presente trabajo de investigación tiene como finalidad el realizar un estudio del uso de las TIC como un mecanismo para la reactivación económica en las MIPYMES de la Ciudad de México y medir la población que hace uso de estas. La metodología usada es cuantitativa de tipo descriptiva, no experimental de corte transversal, con datos obtenidos a través de encuestas realizadas a una muestra de MIPYMES ubicadas dentro de la Ciudad de México. Las variables principales que se medirán son las redes sociales y las plataformas tecnológicas.

II. ANTECEDENTES

Las MIPYMES son un importante segmento en cualquier economía, en 2019 los Censos Económicos encontraron en México 4.9 millones de establecimientos del sector privado y paraestatal, con 27 millones de personas ocupadas en ellos, de los cuales 99.8% pertenecían al conjunto de establecimientos micro, pequeños y medianos. (INEGI 2020). Esto convierte a las MIPYMES en uno de los objetos de estudio más importantes para la economía nacional.

La encuesta sobre el impacto generado por COVID-19 en las Empresas (ECOVID-IE) estima que, de 1 873 564 empresas en el país, 85.5% indicó haber tenido alguna afectación a causa de la pandemia. La disminución de los ingresos fue el principal tipo de afectación reportado por 73.8% de las empresas; le siguen la baja en la demanda con 50.2% y la escasez de los insumos y/o productos con 29.2 %. Ahora bien, de los 4.9 millones de establecimientos micro, pequeños y medianos, el Estudio sobre la Demografía de los Negocios (EDN) 2020 estimó que sobrevivieron 3.9 millones, que representan el 79.2%, y cerraron sus puertas definitivamente 1 010 857 establecimientos, que representan 20.8%. Por otra parte, el Estudio muestra que a 17 meses de concluido el levantamiento censal nacieron 619 443 establecimientos que representan 12.8% de la población de negocios del país (INEGI 2021).

Queda claro entonces, el gran daño que la pandemia de COVID-19 trajo para los establecimientos micro, pequeños y medianos, a tal grado que muchos de estos han cerrado sus puertas de forma definitiva y muchos otros permanecen en una lucha constante para subsistir. Diversos han sido los mecanismos aplicados para contrarrestar los efectos, estímulos financieros por parte del gobierno, cursos de capacitación a empleados para adaptarse a las nuevas condiciones, y un camino poco analizado, la implementación de las TIC.

III. OBJETIVOS

Realizar analisis estadísticos para observar el comportamiento de de estos y asi determinar las soluciones para las siguientes incógnitas:

¿Cuál es la proporción de microempresa por sector?

¿Cómo fue el comportamiento del nacimiento y muertes de las microempresas por entidad?

¿Cuál fue el comportamiento de las muertes de las empresas de acuerdo al sector empresarial?

¿Qué tanto impacta en la tasa de sobrevivencia la obtención de diferentes tipos de financiamiento?

Revisar los factores utilizados durante la pandemia que impactan en la sobrevivencia de las empresas

IV. TEORÍA

Definición de MIPYMES

Los criterios para clasificar a la micro, pequeña y mediana empresa son diferentes en cada país; de manera tradicional se ha utilizado el número de trabajadores como criterio para estratificar los establecimientos por tamaño, y como criterios complementarios, el total de ventas anuales, los ingresos y/o los activos fijos. En 1985 la anterior Secretaría de Comercio y Fomento Industrial (SECOFI), actualmente Secretaría de Economía, estableció de manera oficial los criterios para clasificar a la industria de acuerdo con su tamaño. El 30 de diciembre de 2002, la Secretaría de Economía publicó en el Diario Oficial de la Federación una estratificación bajo los siguientes criterios (INEGI 2017).

Imagen 4.1. Clasificacion de empresas por sector

Contexto actual COVID-19

La Encuesta sobre el impacto generado por COVID-19 en las Empresas (ECOVID-IE) estima que, de 1 873 564 empresas en el país, 85.5% indicó haber tenido alguna afectación a causa de la pandemia. En la segunda edición, la proporción fue de 86.6% y en la primera, de 93.2 por ciento. La disminución de los ingresos fue el principal tipo de afectación reportado por 73.8% de las empresas; le siguen la baja en la demanda con 50.2% y la escasez de los insumos y/o productos con 29.2%. Asimismo, el 16.6% de las empresas aplicaron cierres temporales o paros técnicos; en la segunda edición la proporción fue de 23.1% y en la primera, de 59.6 por ciento. Por otra parte, el Estudio muestra que a 17 meses de concluido el levantamiento censal nacieron 619 443 establecimientos que representan 12.8% de la población de negocios del país. Al comparar la cifra total de unidades económicas que estima el EDN en septiembre de 2020 con las captadas por los Censos Económicos en mayo de 2019, se tiene una disminución de 8.1 por ciento (INEGI 2021).

Imagen 4.2. Día de las MIPYMES

V. METODOLOGÍA

Estadística descriptiva

La estadística descriptiva es una disciplina que se encarga de recoger, almacenar, ordenar, realizar tablas o gráficos y calcular parámetros básicos sobre el conjunto de datos.

Estadística inferencial

La estadística inferencial es una parte de la estadística que comprende los métodos y procedimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una parte de esta. Su objetivo es obtener conclusiones útiles para hacer deducciones sobre una totalidad, basándose en la información numérica de la muestra.

Regresión lineal múltiple

Regresión lineal múltiple La regresión lineal es una técnica estadística destinada a analizar por qué pasan las cosas o cuáles son las principales explicaciones de algún fenómeno. A partir de los análisis de regresión lineal múltiple podemos:

  • Identificar que variables independientes (causas) explican una variable dependiente (resultado)
  • Comparar y comprobar modelos explicativos
  • Predecir valores de una variable, es decir, a partir de unas características predecir de forma aproximada Un comportamiento o estado

Chi-Square

El estadístico ji-cuadrado (o chi cuadrado), que tiene distribución de probabilidad del mismo nombre, sirve para someter a prueba hipótesis referidas a distribuciones de frecuencias. En términos generales, esta prueba contrasta frecuencias observadas con las frecuencias esperadas de acuerdo con la hipótesis nula. En este artículo se describe el uso del estadístico ji-cuadrado para probar la asociación entre dos variables utilizando una situación hipotética y datos simulados. Luego se describe su uso para evaluar cuán buena puede resultar una distribución teórica, cuando pretende representar la distribución real de los datos de una muestra determinada. A esto se le llama evaluar la bondad de un ajuste. Probar la bondad de un ajuste es ver en qué medida se ajustan los datos observados a una distribución teórica o esperada. Para esto, se utiliza una segunda situación hipotética y datos simulados.

VI. RESULTADOS Y DISCUSIÓN

Importación de datos

Se ha realizado una recopilación de los datos orotgados por el INEGI en la siguiente liga, Data INEGI. La información contenida en el archivo empleado durante el proyecto ha sido recaba del sitio web antes mencionado y se encuentra disponible en la sección IX.

#Cargamos las librerias requeridas
library("plotly")
library("readxl")
library("Hmisc")
library("tidyr")
library("plyr")
library("dplyr")
library("GGally")
library("corrplot")
library("PerformanceAnalytics")
library("ggplot2")
library("showtext")
library("scales")
library("psych")
library("GGally")
library("gridExtra")

#Descargamos el archivo en el directorio de trabajo
if (!file.exists("data/projectMIPYMES/proyectoMIPYMES.xlsx")){
  if(!dir.exists("data/projectMIPYMES")){
    dir.create("data/projectMIPYMES")
  }
  fileURL <- "https://drive.google.com/uc?id=1BxPHgyE6H8_46ZAXp7qbvIMZ0UUNBaiP&export=download&authuser=0"
  download.file(url = fileURL, destfile = "data/projectMIPYMES/proyectoMIPYMES.xlsx")
}

#Recuperamos la informacion contenida en el archivo
data <- read_excel("data/projectMIPYMES/proyectoMIPYMES.xlsx", 
                                sheet = "Hoja1",
                                range = "A5:AB137",
                                col_names = TRUE)
message("In memory DataSet Covid Complete")

Proporción de Microempresas por Sector Económico

Estadística Descriptiva Se procedera a generar histogramas respecto a los datos recuperados con el fin de generar una perspectiva generar de la información y poder orientar las pruebas futuras.

dataEntidad <- filter(data, Index > 0)
dato1 <- dataEntidad$EntidadFederativa
dato2 <- as.integer(dataEntidad$PoblacionActual2020)
dataGrafica = data.frame(dato1, dato2)
grafico = plot_ly(dataGrafica, x = dato1, y = dato2,
                  name = "",
                  type = "bar")
grafico <- grafico %>% layout(title = 'MIPYMES Mexicanas 2020 por Entidad',
                              xaxis = list(title = 'Entidad',
                                           zeroline = TRUE),
                              yaxis = list(title = 'Número de MIPYMES'))
grafico

Gráfico 6.1. Número de MIPYMES mexicanas por sector en el 2020

Podemos observar que los estados que muestran el mayor número de empresas son, Estado de México, Ciudad de México, Puebla, Jalisco y Veracruz.

dataSector <- filter(select(data, Sector, PoblacionInicia2019, PoblacionActual2020), Sector != "Micro")
dataSector$Sector <- as.factor(dataSector$Sector)
dataSector <- dataSector %>%
  group_by(Sector) %>%
  summarise(Poblacion2019=sum(PoblacionInicia2019),
            Poblacion2020=sum(PoblacionActual2020))
dataSector <- as.data.frame(dataSector)

ggplot(dataSector,aes(x="",y=Poblacion2019, fill=Sector))+
  geom_bar(stat = "identity",
           color="white")+
  geom_text(aes(label=Poblacion2019),
            position=position_stack(vjust=0.5),color="white",size=6)+
  coord_polar(theta = "y")+
  scale_fill_manual(values=c("salmon","steelblue","orange","gray"))+
  theme_void()+
  labs(title="MIPYMES mexicanas por Sector Económico 2019")

Grafica 6.2. Empresas por sector económico en 2019

Podemos destacar de la gráfica anterior, que el sector donde se ubica la mayor cantidad de MIPYMES es el sector comercial y el de Servicio, esto podemos adjudicarlo a una de las características mas importantes de este tipo de empresas y es, el número de empleados, debido a la demanda de la cantidad de mano de obra que requiere el ambito de la manufactura podríamos relacionarlo como variables dependientes.

ggplot(dataSector,aes(x="",y=Poblacion2020, fill=Sector))+
  geom_bar(stat = "identity",
           color="white")+
  geom_text(aes(label=Poblacion2020),
            position=position_stack(vjust=0.5),color="white",size=6)+
  coord_polar(theta = "y")+
  scale_fill_manual(values=c("red","blue","green","gray"))+
  theme_void()+
  labs(title="MIPYMES mexicanas por Sector Económico 2020")

Gráfica 6.3. Empresas por sector económico en 2020

De la gráfica anterior podemos destacar el cambio con respecto al número de empresas en el sector de Servicios, este sector es el único que presento un retroceso en su acumulado. Podemos asociarlo a que ha sido el sector más afectado por la pandemia de COVID-19.

Comportamiento naciminetos y muertes

Continuando con estadística descriptiva, procederemos a estudiar los nacimientos y muertes generados en las MIPYMES a los largo de los años 2019 y 2020. Esto para destacar las entidades con la mayor afectación, pero tambien con la mejor recuperación.

dataNacMue <- select(data, EntidadFederativa, Nacimientos, Muertes)
dataNacMue <- filter(dataNacMue, data$Index > 0)

dato1 <- dataEntidad$EntidadFederativa
dato2 <- as.integer(dataNacMue$Nacimientos)
dataGrafica = data.frame(dato1, dato2)
grafico = plot_ly(dataGrafica, x = dato1, y = dato2,
                  name = "",
                  type = "bar")
grafico <- grafico %>% layout(title = 'Nacimientos de MIPYMES 2019 - 2020',
                      xaxis = list(title = 'Entidad',
                                   zeroline = TRUE),
                      yaxis = list(title = 'Número de Nacimientos'))
grafico

Gráfica 6.4. Nacimineto de MIPYMES por entidad durante el periodo 2019 - 2020

Podemos destacar que el Estado de México pose el margen mas alto de naciminetos, al contrario de Baja California que presenta el más bajo. Asimismo, es de destacar la participación de Puebla, entidad que se psoiciona como la segunda entidad con mayor creación de empresas.

dato2 <- as.integer(dataNacMue$Muertes)
dataGrafica = data.frame(dato1, dato2)
grafico = plot_ly(dataGrafica, x = dato1, y = dato2,
                  name = "",
                  type = "bar")
grafico <- grafico %>% layout(title = 'Muertes de MIPYMES 2019 - 2020',
                              xaxis = list(title = 'Entidad',
                                           zeroline = TRUE),
                              yaxis = list(title = 'Número de Muertes'))
grafico

Gráfica 6.5. Muertes de MIPYMES por entidad durante el periodo 2019 - 2020

Por otro lado, las muertes no contrastan la creación de empresas, no osbtante, podemos señalar que has entidades que poseen a primera vista, un nnúmero de muertes mayor en comparación con los nacimientos generados, es el caso de la Ciudad de México, donde podemos afirmar que la densidad de empresas disminuyo en este periodo.

Regresión lineal simple

Con el fin de conocer las relaciones existentes entre cada par de variables podemos representar una matriz de diagramas de dispersión.

dataAnalisys <- filter(select(data, PorcentajeSobrevivientes, Financiamiento, UsoRS,
                              EntregasDomicilio, Sector), 
                       Sector == "Comercio")
dataAnalisys$Sector <- NULL
pairs(dataAnalisys)

rcorr(as.matrix(dataAnalisys))
##                          PorcentajeSobrevivientes Financiamiento UsoRS
## PorcentajeSobrevivientes                     1.00           0.45 -0.31
## Financiamiento                               0.45           1.00 -0.21
## UsoRS                                       -0.31          -0.21  1.00
## EntregasDomicilio                            0.18           0.33  0.34
##                          EntregasDomicilio
## PorcentajeSobrevivientes              0.18
## Financiamiento                        0.33
## UsoRS                                 0.34
## EntregasDomicilio                     1.00
## 
## n= 33 
## 
## 
## P
##                          PorcentajeSobrevivientes Financiamiento UsoRS 
## PorcentajeSobrevivientes                          0.0087         0.0828
## Financiamiento           0.0087                                  0.2500
## UsoRS                    0.0828                   0.2500               
## EntregasDomicilio        0.3267                   0.0595         0.0563
##                          EntregasDomicilio
## PorcentajeSobrevivientes 0.3267           
## Financiamiento           0.0595           
## UsoRS                    0.0563           
## EntregasDomicilio
correlacion <- round(cor(dataAnalisys), 4)
corrplot(correlacion, method="number", type="upper")

chart.Correlation(dataAnalisys, histogram = F, pch = 19)

anova.one.way <- aov( PorcentajeSobrevivientes ~ Financiamiento, data= dataAnalisys)
summary(anova.one.way)
##                Df Sum Sq Mean Sq F value  Pr(>F)   
## Financiamiento  1   49.3   49.30   7.855 0.00866 **
## Residuals      31  194.6    6.28                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La matriz de coeficientes de correlación y las gráficas que la representan nos muestran que existe una correlación directa entre las variables Sobrevivientes y el Financiamiento, y por otro lado, Sobrevivientes y EntregasDomicilio, sin embargo, emplearemos la primera por ser la que presenta una correlación media mas considerable.

El comando básico es lm (linear models). El primer argumento de este comando es una fórmula y ~ x en la que se especifica cuál es la variable respuesta o dependiente (y) y cuál es la variable regresora o independiente (x).

regresion <- lm(PorcentajeSobrevivientes ~ Financiamiento, data = dataAnalisys)
summary(regresion)
## 
## Call:
## lm(formula = PorcentajeSobrevivientes ~ Financiamiento, data = dataAnalisys)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -4.881 -1.943  0.245  1.321  4.399 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     75.2638     1.8047  41.705  < 2e-16 ***
## Financiamiento   0.4351     0.1552   2.803  0.00866 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.505 on 31 degrees of freedom
## Multiple R-squared:  0.2022, Adjusted R-squared:  0.1764 
## F-statistic: 7.855 on 1 and 31 DF,  p-value: 0.008661

Los siguientes comandos representan la nube de puntos (comando plot) y añaden la representación gráfica de la recta de mínimos cuadrados (comando abline aplicado al objeto generado por lm):

plot(dataAnalisys$Financiamiento, dataAnalisys$PorcentajeSobrevivientes,  xlab='PorcentajeFinanciamientoRecibido', ylab='PorcentajeSobrevivientes')
abline(regresion)

Debido a que no existe una correlación directa elevada entre las variable, la recta de mínimos cuadrados no queda representada en la gráfica. *Supongamos que queremos utilizar la recta de mínimos cuadrados para predecir la cantidad de empresas sobrevivientes si aumentamos el porcentaje de financiamiento otorgados, de un 10 - 30 porciento.

nuevo.financiamiento <- data.frame(Financiamiento = seq(20, 40))
predict(regresion, nuevo.financiamiento)
##        1        2        3        4        5        6        7        8 
## 83.96571 84.40081 84.83590 85.27100 85.70609 86.14119 86.57628 87.01138 
##        9       10       11       12       13       14       15       16 
## 87.44647 87.88157 88.31666 88.75176 89.18685 89.62195 90.05704 90.49214 
##       17       18       19       20       21 
## 90.92723 91.36233 91.79742 92.23252 92.66761

Si aumentamos el porcentaje de empresas con financiamiento a 20%, el porcentaje de supervicencia llegaría al 83.79%, y si lo aumentamos hasta el 40%, la supervivencia llega al 92.01%.

Suponemos ahora que los datos proceden de un modelo de regresión simple de la forma: yi=β0+β1xi+ϵi, i=1,…,n, donde los errores aleatorios ϵi son independientes con distribución normal de media 0 y varianza σ2.

  • Los intervalos de confianza para los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por defecto es 0.95): *
confint(regresion)
##                     2.5 %     97.5 %
## (Intercept)    71.5831308 78.9444985
## Financiamiento  0.1184727  0.7517173
confint(regresion, level = 0.90)
##                       5 %       95 %
## (Intercept)    72.2039336 78.3236957
## Financiamiento  0.1718758  0.6983142

Los intervalos de confianza para la respuesta media y los intervalos de predicción para la respuesta se pueden obtener usando el comando predict. Por ejemplo, el siguiente código calcula y representa los dos tipos de intervalos para el rango de financiamiento que va de 20 a 50 porciento (los de predicción en rojo):

nuevo.financiamiento <- data.frame(Financiamiento = seq(20, 50))
# Grafico de dispersion y recta
plot(dataAnalisys$Financiamiento,dataAnalisys$PorcentajeSobrevivientes,  xlab='Financiamiento', ylab='Sobrevivientes')
abline(regresion)

# Intervalos de confianza de la respuesta media:
# ic es una matriz con tres columnas: la primera es la prediccion, las otras dos son los extremos del intervalo
ic <- predict(regresion, nuevo.financiamiento, interval = 'confidence')
lines(nuevo.financiamiento$Financiamiento, ic[, 2], lty = 2)
lines(nuevo.financiamiento$Financiamiento, ic[, 3], lty = 2)

# Intervalos de prediccion
ic <- predict(regresion, nuevo.financiamiento, interval = 'prediction')
lines(nuevo.financiamiento$Financiamiento, ic[, 2], lty = 2, col = 'red')
lines(nuevo.financiamiento$Financiamiento, ic[, 3], lty = 2, col = 'red')

La tabla de análisis de la varianza de los errores se obtiene con el comando anova:

anova(regresion)
## Analysis of Variance Table
## 
## Response: PorcentajeSobrevivientes
##                Df  Sum Sq Mean Sq F value   Pr(>F)   
## Financiamiento  1  49.301  49.301  7.8549 0.008661 **
## Residuals      31 194.570   6.276                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Los valores ajustados ŷ i y los residuos ei=ŷ i−yi se pueden obtener con los comandos fitted y residuals respectivamente. Los residuos estandarizados se obtienen con rstandard. Por ejemplo, el siguiente código obtiene una representación de los residuos estandarizados frente a los valores ajustados, que resulta útil al llevar a cabo el diagnóstico del modelo:

residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados, residuos)

No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables. La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo:

qqnorm(residuos)
qqline(residuos)

Dado que los puntos están bastante alineados, la normalidad también parece aceptable.

Regresión lineal multiple

Con el fin de conocer las relaciones existentes entre las variables que pudieron afectar la sobrevivencia de las empresas durante la pandemia de COVID-19, haremos uso de la regresión lineal múltiple

dataAnalisys <- filter(select(data, PorcentajeSobrevivientes, AjustePrecios, 
                              Financiamiento, UsoRS, Otras, ReduccionProduccion,
                              EntregasDomicilio, Sector), 
                       Sector != "Micro")
dataAnalisys$Sector <- NULL

ggpairs(dataAnalisys, lower = list(continuous = "smooth"),
        diag = list(continuous = "barDiag"), axisLabels = "none")

Hay diferentes formas de llegar al modelo final más adecuado. En este caso se va a emplear el método mixto iniciando el modelo con todas las variables como predictores y realizando la selección de los mejores predictores con la medición Akaike(AIC).

modelo <- lm(PorcentajeSobrevivientes ~ UsoRS + ReduccionProduccion +Otras + Financiamiento + EntregasDomicilio, data = dataAnalisys )
summary(modelo)
## 
## Call:
## lm(formula = PorcentajeSobrevivientes ~ UsoRS + ReduccionProduccion + 
##     Otras + Financiamiento + EntregasDomicilio, data = dataAnalisys)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -13.7540  -2.2822  -0.3242   2.6621   7.0993 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         79.32912    2.75962  28.746  < 2e-16 ***
## UsoRS               -0.83964    0.18364  -4.572 1.48e-05 ***
## ReduccionProduccion  0.20407    0.05061   4.032 0.000113 ***
## Otras               -0.02951    0.04464  -0.661 0.510306    
## Financiamiento       0.19397    0.16149   1.201 0.232742    
## EntregasDomicilio    0.09164    0.10870   0.843 0.401372    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.948 on 93 degrees of freedom
## Multiple R-squared:  0.4893, Adjusted R-squared:  0.4619 
## F-statistic: 17.82 on 5 and 93 DF,  p-value: 2.354e-12

El modelo con todas las variables introducidas como predictores tiene un R2 mediana (0.4867), es capaz de explicar el 48,67% de la variabilidad observada en la supervivencia de las empresas. El p-value del modelo es significativo (2.958e-12) por lo que se puede aceptar que el modelo no es por azar, al menos uno de los coeficientes parciales de regresión es distinto de 0. Muchos de ellos no son significativos, lo que es un indicativo de que podrían no contribuir al modelo.

En este caso se van a emplear la estrategia de stepwise mixto. El valor matemático empleado para determinar la calidad del modelo va a ser Akaike(AIC).

step(object = modelo, direction = "both", trace = 1)
## Start:  AIC=277.68
## PorcentajeSobrevivientes ~ UsoRS + ReduccionProduccion + Otras + 
##     Financiamiento + EntregasDomicilio
## 
##                       Df Sum of Sq    RSS    AIC
## - Otras                1      6.81 1456.0 276.15
## - EntregasDomicilio    1     11.08 1460.3 276.44
## - Financiamiento       1     22.48 1471.7 277.21
## <none>                             1449.2 277.68
## - ReduccionProduccion  1    253.35 1702.6 291.63
## - UsoRS                1    325.76 1775.0 295.76
## 
## Step:  AIC=276.15
## PorcentajeSobrevivientes ~ UsoRS + ReduccionProduccion + Financiamiento + 
##     EntregasDomicilio
## 
##                       Df Sum of Sq    RSS    AIC
## - EntregasDomicilio    1     11.23 1467.3 274.91
## - Financiamiento       1     21.83 1477.9 275.62
## <none>                             1456.0 276.15
## + Otras                1      6.81 1449.2 277.68
## - ReduccionProduccion  1    368.13 1824.2 296.46
## - UsoRS                1    387.23 1843.3 297.49
## 
## Step:  AIC=274.91
## PorcentajeSobrevivientes ~ UsoRS + ReduccionProduccion + Financiamiento
## 
##                       Df Sum of Sq    RSS    AIC
## <none>                             1467.3 274.91
## - Financiamiento       1     39.17 1506.4 275.51
## + EntregasDomicilio    1     11.23 1456.0 276.15
## + Otras                1      6.96 1460.3 276.44
## - UsoRS                1    393.58 1860.8 296.43
## - ReduccionProduccion  1    508.27 1975.5 302.35
## 
## Call:
## lm(formula = PorcentajeSobrevivientes ~ UsoRS + ReduccionProduccion + 
##     Financiamiento, data = dataAnalisys)
## 
## Coefficients:
##         (Intercept)                UsoRS  ReduccionProduccion  
##             78.1414              -0.8203               0.2349  
##      Financiamiento  
##              0.2394

El mejor modelo resultante del proceso de selección ha sido:

modelo <- (lm(formula = PorcentajeSobrevivientes ~ UsoRS + ReduccionProduccion 
              + Financiamiento, data = dataAnalisys))
summary(modelo)
## 
## Call:
## lm(formula = PorcentajeSobrevivientes ~ UsoRS + ReduccionProduccion + 
##     Financiamiento, data = dataAnalisys)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -14.4613  -2.3328  -0.1007   2.6211   8.1651 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         78.14141    2.12051  36.850  < 2e-16 ***
## UsoRS               -0.82031    0.16250  -5.048 2.15e-06 ***
## ReduccionProduccion  0.23495    0.04096   5.737 1.14e-07 ***
## Financiamiento       0.23943    0.15036   1.592    0.115    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.93 on 95 degrees of freedom
## Multiple R-squared:  0.483,  Adjusted R-squared:  0.4667 
## F-statistic: 29.58 on 3 and 95 DF,  p-value: 1.357e-13

Es recomendable mostrar el intervalo de confianza para cada uno de los coeficientes parciales de regresión:

confint(lm(formula = PorcentajeSobrevivientes ~ UsoRS + ReduccionProduccion + Financiamiento, data = dataAnalisys))
##                           2.5 %     97.5 %
## (Intercept)         73.93167175 82.3511575
## UsoRS               -1.14291279 -0.4977092
## ReduccionProduccion  0.15364008  0.3162560
## Financiamiento      -0.05906205  0.5379304

Relación lineal entre los predictores numéricos y la variable respuesta: Esta condición se puede validar bien mediante diagramas de dispersión entre la variable dependiente y cada uno de los predictores (como se ha hecho en el análisis preliminar) o con diagramas de dispersión entre cada uno de los predictores y los residuos del modelo. Si la relación es lineal, los residuos deben de distribuirse aleatoriamente en torno a 0 con una variabilidad constante a lo largo del eje X. Esta última opción suele ser más indicada ya que permite identificar posibles datos atípicos.

plot1 <- ggplot(data = dataAnalisys, aes(UsoRS, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot2 <- ggplot(data = dataAnalisys, aes(ReduccionProduccion, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot3 <- ggplot(data = dataAnalisys, aes(Financiamiento, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
grid.arrange(plot1, plot2, plot3)

Se cumple la linealidad para todos los predictores

Distribución normal de los residuos:

qqnorm(modelo$residuals)
qqline(modelo$residuals)

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.97356, p-value = 0.04342
corrplot(cor(dplyr::select(dataAnalisys, PorcentajeSobrevivientes, UsoRS,ReduccionProduccion,Financiamiento)),
         method = "number", tl.col = "black")

Análisis de Inflación de Varianza (VIF):

library(car)
vif(modelo)
##               UsoRS ReduccionProduccion      Financiamiento 
##            1.115220            1.115617            1.000457

No hay predictores que muestren una correlación lineal muy alta ni inflación de varianza.

Autocorrelación:

library(car)
dwt(modelo, alternative = "two.sided")
##  lag Autocorrelation D-W Statistic p-value
##    1      0.07215175      1.850322    0.45
##  Alternative hypothesis: rho != 0

No hay evidencia de autocorrelación. Tamaño de la muestra: No existe una condición establecida para el número mínimo de observaciones, pero para prevenir que una variable resulte muy influyente cuando realmente no lo es, se recomienda que la cantidad de observaciones sea entre 10 y 20 veces el número de predictores. En este caso se disone de 32 observaciones por lo que sería requerido aumentar el tamaño de la muestra.

Resultados: El modelo lineal múltiple capaz de explicar el 48.67% de la variabilidad observada en el porcentaje de sobrevivencia (R2: 0.486, R2-Adjusted: 0.4667)). El test F muestra que es significativo (p-value: 1.357e-13). Se satisfacen las condiciones para este tipo de regresión múltiple.

VII. CONCLUSIÓN

Los métodos aplicados nos han permitido determinar la relación que existe entre la sobrevivencia de las empresas durante la epoca de confinamineto por COVID-19 con respecto al financiamineto y el uso de las redes sociales. Como pudimos apreciar en los modelos generados, por una lado el financiamiento generó un beneficio para que las empresas pudieran subsisitir, asimismo, existe una correlación inversa entre la sobrevivencia y el uso de las redes sociales.

No obstante, resulta importante recalcar que las variables otorgadas por los datos no han permitido generar modelos con un alto porcentaje de explicacición de la variabilidad, como se mencionó durante los resultados obtenidos, se requiere de un aumento en el tamaño de la muestra, y aunque el porcentaje de correlación no es despeciable, se requiere de otras variables para generar un mejor modelo que pueda predecir de forma más precisa el comportamiento de la supervivencia de las MIPYMES en México.

Por otro lado, el ejercicio ha permitido aplicar muchos de los conocimientos adquiridos durante el curso, no obstante, debido a que los métodos y modelos enseñados en clase han sido bastos, resultaría pertinente el realizar más proyectos como este para poder reforzar lo aprendido.

VIII. BIBLIOGRAFÍA

Abuelmaatti, A., & Ahmed, V. (2014). Collaborative Technologies for Small and Medium-Sized Architecture, Engineering and Construction Enterprises: Implementation Survey. Journal of Information Technology in Construction, 19, 210–224.

Almubarak, S. (2017). Factors Influencing the Adoption of Cloud Computing by Saudi University Hospitals. International Journal of Advanced Computer Science and Applications, 8(1), 41–48.

Antlova, K. (2009). Motivation and Barriers of ICT Adoption in Small and Medium-Sized Enterprises. Ekonomie a Management, 12(2), 140–155.

Cotera, E., Zavala, M., Ruiz, A., & Rodriguez, M. (2015). La Adopción de Tecnología permite a las PYMES Incrementar la Competitividad. Congreso Internacional de Investigación Academia Journals Córdoba 2015, 3, 150–157.

Deminer, F., Becerril, Torres., Nava, R. (2015). Tecnologías de información y comunicación en PYMES mexicanas. Revista Global de Negocios, 2(3), 8-12.

Harindranath, G., Dyerson, R., & Barnes, D. (2008). ICT Adoption and Use in UK SME. A Failure of Initiatives ? Electronic Journal of Information Systems Evaluation, 11(2), 91–96.

Hoyos, Ch., St Valencia, Arias. (2012). El papel de las TIC en el entorno organizacional de las PYMES. Revista Trilogía, 97), 105-122.

Instituto Nacional de Estadística y Geografía, INEGI (2020, 25 de junio). Estadísticas a propósito del día de las micros, pequeñas y mediana empresas, Datos Nacionales (Comunicado de Prensa)

Instituto Nacional de Estadística y Geografía, INEGI (2021, 22 de marzo). El INEGI presenta el segundo conjunto de resultados del estudio sobre la demografía de los negocios 2020 (Comunicado de Prensa)

Instituto Nacional de Estadística y Geografía, INEGI (2020). Censo Económicos 2019, resultados Definitivos. P. 5-35

Instituto Nacional de Estadística y Geografía (2017). Micro, Pequeña, Mediana y Gran empresa, Censo económicos 2009, 2-3,

Mario A, Roberto C, António FdC. Manual de Lisboa. Pautas para la interpretación de los datos estadísticos disponibles y la construcción de indicadores referidos a la transición de Iberoamérica hacia la Sociedad de la Información. Lisboa: 2006.

Ramos, V., Fernández, P., Almódovar, G. (2020). El impacto de las TIC en el rendimiento de las Pymes: Estado actual de la cuestión. Revista espacios, 40(25), 24

Vargas, O., Villalva, V., Severiche, S., Castro, A. y Cohen, P. (2019). TICS y gestión de la innovación en MiPyMES: Un análisis con experimentos factoriales para las utilidades. Revista Espacios, 40(13), p24.

Rissoan, R. (2019). Redes sociales : comprender y dominar las nuevas herramientas de comunicación (5ª edición). Ediciones ENI. Universitad de Barcelona (s.f.) Prueba Chi-Cuadrado.

IX.DESCARGA DE DATOS

  • Para la descarga de datos utilizados en este codigo

Para fines de reproducibilidad inmediata se incluye todos los datos para su descarga

xfun::embed_file("data/projectMIPYMES/proyectoMIPYMES.xlsx")

Download proyectoMIPYMES.xlsx