Explicación del proyecto

Fuentes y Tipos de Variables

He utilizado una serie de variables que supuestameniente podrían estar relacionadas con el éxito de los emprendedores. Estas variables las he tomado por sexo para visualizar que las faltas de éxito del género femenino en comparación del masculino puedan ser explicadas por otras variables ajenas a la sexualidad del individuo.

La variable dependiente: El porcentaje de éxito: Porcentaje de éxito en un país de los emprendedores según declaraciones de resultados.
Las variables independientes (que estudiaré la relación con la variable éxito) són:
1º El porcentaje de acceso a préstamos: Porcentaje de emprendedores en un país que han declarado haber tenido acceso a un préstamo.
2º La actitud frente al auto-empleo: El porcentaje de entrevistados de un país que han declarado preferir arriesgarse y comenzar un negocio que trabajar para otra persona.
3º Preferencia hacia el auto-empleo: El porcentaje de entrevistados de un país que han declarado proyección hacia el auto-empleo en un futuro próximo (en los próximos cinco años).
4º Acceso a formación sobre el auto-empleo y la emprendeduría: Porcentaje de entrevistados de un país que declaran poder tener acceso a formación sobre como emprender un negocio.
5º Acceso a dinero: Porcentaje de entrevistados de un país que declaran tener acceso a dinero para poder montar un negocio.
Las variables independientes para el estudio de comparación de medias añado:
6º El género del emprendedor: Variable categórica que agrupa por un lado los del género masculino y por otro los del género femenino.

Para las tablas iniciales muestro también:
La variable independiente (para la creación de la tabla de donde surgen las observaciones).
7º La variable país: Que indica donde se ha realizado la observación. Habiendo extraído observaciones de las variables anteriores, teniendo en cuenta desde 58 países para algunas variables hasta 72 para otras variables.

Motivación del estudio

1º Tras realizar el proyecto 1 me he quedado con las ganas de realizar un estudio con muchas más variables.
2º Realizar una comparación de medias.
3º Demostrar que hay una serie de variables relacionadas con la emprendeduría que afecta principalmente al género femenino en una primera fase y en una segunda fase demostrar que dichas variables influyen altamente sobre el éxito de un emprendedor.

Razonamiento de la causalidad entre las variables

Explicación de la relación.
La 1ª variable: Los préstamos son vital para poder aumentar el margen de acción en un proyecto más allá de los recursos propios.
La 2ª variable: La actitud de un emprendedor es la característica más importante para tener aguante en los arranques duros de un negocio. No obstante, esta variable podría verse afectada según la viabilidad de un proyecto ligado a condicionantes asociados al género del emprendedor. Por lo que quizás no sea del todo independiente.
La 3ª variable: La preferencia es importante, ya que de ella dependerá que se consideren otras opciones o por el contrario se acepte mayor grado de auto-sacrificio para llevar el negocio a buen puerto.
La 4ª variable: La formación es por definición y teóricamente la preparación hacia el éxito.
La 5ª variable: El dinero es importante ya que a mayor cantidad para arrancar un negocio mayor abanico de opciones para elegir.
La 6ª variable: Cada género dispone de condiciones diferentes de las variables anteriormente mencionadas para influir en obtener el éxito empresarial, ya que la sociedad trata a los generos de forma desigual.
La 7ª variable: Cada país trata la diferencia de géneros según sus culturas y sus legislaciones y por tanto puede haber diferencia en la posibilidad de obtener el éxito empresarial por individuos de géneros sexuales distintos.
Dirección de la relación (El orígen o génesis)
Porque temporalmente y por definición el éxito es el resultado de una suma de variables controlables y otras aleatorias entre las cuales pueden estar las mencionadas.

Fuentes

Las diferentes fuentes de datos han sido extraidos de OECD statistics:
https://stats.oecd.org/

Código y resultados.

Primero de todo cargo las librerias:

install.packages(c("ggplot2", "tidyr"))
## Installing packages into '/home/rstudio-user/R/x86_64-pc-linux-gnu-library/3.6'
## (as 'lib' is unspecified)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(tidyr)
library(ggplot2)
library(readr)

Creo la Base de datos:

Limpio
Acostumbro a limpiar las variables para que puedan haber interferencias:

rm (list = ls(all = TRUE))

Introduzco la variable “éxito”

Éxito <- read_csv("PositiveBusiness.csv") %>%
  select(Country, Sex, Value)%>%
  group_by(Country, Sex) %>%
  summarize(Éxito = mean(Value))
## Parsed with column specification:
## cols(
##   LOCATION = col_character(),
##   Country = col_character(),
##   INDICATOR = col_character(),
##   Indicator = col_character(),
##   SEX = col_character(),
##   Sex = col_character(),
##   AGE = col_character(),
##   Age = col_character(),
##   TIME = col_double(),
##   Time = col_double(),
##   `Unit Code` = col_character(),
##   Unit = col_character(),
##   `PowerCode Code` = col_double(),
##   PowerCode = col_character(),
##   `Reference Period Code` = col_logical(),
##   `Reference Period` = col_logical(),
##   Value = col_double(),
##   `Flag Codes` = col_character(),
##   Flags = col_character()
## )

Introduzco la variable “actitud”

Actitud <- read_csv("Attitude.csv") %>%
  select(Country, Sex, INDICATOR, Value)%>%
  mutate(INDICATOR = case_when(INDICATOR == "GAL_RISK"~"Emprendeduría"))
## Parsed with column specification:
## cols(
##   LOCATION = col_character(),
##   Country = col_character(),
##   INDICATOR = col_character(),
##   Indicator = col_character(),
##   SEX = col_character(),
##   Sex = col_character(),
##   AGE = col_character(),
##   Age = col_character(),
##   TIME = col_double(),
##   Time = col_double(),
##   `Unit Code` = col_character(),
##   Unit = col_character(),
##   `PowerCode Code` = col_double(),
##   PowerCode = col_character(),
##   `Reference Period Code` = col_logical(),
##   `Reference Period` = col_logical(),
##   Value = col_double(),
##   `Flag Codes` = col_logical(),
##   Flags = col_logical()
## )
Actitud <- inner_join(Éxito, Actitud)
## Joining, by = c("Country", "Sex")

Introduzco la variable “preferencia”

Preferencia <- read_csv("PreferencesSelfEmploym.csv") %>%
  select(Country, Sex, INDICATOR, Value)%>%
  group_by(Country, Sex, INDICATOR) %>%
  summarize(Value = mean(Value)) %>%
  mutate(INDICATOR = case_when(INDICATOR == "ENT6"~"PreferAutoempl"))
## Parsed with column specification:
## cols(
##   LOCATION = col_character(),
##   Country = col_character(),
##   INDICATOR = col_character(),
##   Indicator = col_character(),
##   SEX = col_character(),
##   Sex = col_character(),
##   AGE = col_character(),
##   Age = col_character(),
##   TIME = col_double(),
##   Time = col_double(),
##   `Unit Code` = col_character(),
##   Unit = col_character(),
##   `PowerCode Code` = col_double(),
##   PowerCode = col_character(),
##   `Reference Period Code` = col_logical(),
##   `Reference Period` = col_logical(),
##   Value = col_double(),
##   `Flag Codes` = col_logical(),
##   Flags = col_logical()
## )
Preferencia <- inner_join(Éxito, Preferencia)
## Joining, by = c("Country", "Sex")

Introduzco la variable “formación”

Formación <- read_csv("accesoFormaciony Dinero .csv") %>%
  select(Country, Sex, INDICATOR, Value)%>%
  filter (INDICATOR == "GAL_TRAINING")%>%
  mutate(INDICATOR = case_when(INDICATOR == "GAL_TRAINING"~"FormacAutoempl"))
## Parsed with column specification:
## cols(
##   LOCATION = col_character(),
##   Country = col_character(),
##   INDICATOR = col_character(),
##   Indicator = col_character(),
##   SEX = col_character(),
##   Sex = col_character(),
##   AGE = col_character(),
##   Age = col_character(),
##   TIME = col_double(),
##   Time = col_double(),
##   `Unit Code` = col_character(),
##   Unit = col_character(),
##   `PowerCode Code` = col_double(),
##   PowerCode = col_character(),
##   `Reference Period Code` = col_logical(),
##   `Reference Period` = col_logical(),
##   Value = col_double(),
##   `Flag Codes` = col_logical(),
##   Flags = col_logical()
## )
Formación <- inner_join(Éxito, Formación)
## Joining, by = c("Country", "Sex")

Introduzco la variable “dinero”

Dinero <- read_csv("accesoFormaciony Dinero .csv") %>%
  select(Country, Sex, INDICATOR, Value)%>%
  filter (INDICATOR == "GAL_MONEY")%>%
  mutate(INDICATOR = case_when(INDICATOR == "GAL_MONEY"~"FondosEconom"))
## Parsed with column specification:
## cols(
##   LOCATION = col_character(),
##   Country = col_character(),
##   INDICATOR = col_character(),
##   Indicator = col_character(),
##   SEX = col_character(),
##   Sex = col_character(),
##   AGE = col_character(),
##   Age = col_character(),
##   TIME = col_double(),
##   Time = col_double(),
##   `Unit Code` = col_character(),
##   Unit = col_character(),
##   `PowerCode Code` = col_double(),
##   PowerCode = col_character(),
##   `Reference Period Code` = col_logical(),
##   `Reference Period` = col_logical(),
##   Value = col_double(),
##   `Flag Codes` = col_logical(),
##   Flags = col_logical()
## )
Dinero <- inner_join(Éxito, Dinero)
## Joining, by = c("Country", "Sex")

Introduzco la variable “préstamo”

Préstamo <- read_csv("% reportBorrrowingMoney.csv") %>%
  select(Country, Sex, INDICATOR, Value)%>%
  mutate(INDICATOR = case_when(INDICATOR == "ENT9"~"AccesoPréstamos"))
## Parsed with column specification:
## cols(
##   LOCATION = col_character(),
##   Country = col_character(),
##   INDICATOR = col_character(),
##   Indicator = col_character(),
##   SEX = col_character(),
##   Sex = col_character(),
##   AGE = col_character(),
##   Age = col_character(),
##   TIME = col_double(),
##   Time = col_double(),
##   `Unit Code` = col_character(),
##   Unit = col_character(),
##   `PowerCode Code` = col_double(),
##   PowerCode = col_character(),
##   `Reference Period Code` = col_logical(),
##   `Reference Period` = col_logical(),
##   Value = col_double(),
##   `Flag Codes` = col_logical(),
##   Flags = col_logical()
## )
Préstamo <- inner_join(Éxito, Préstamo)
## Joining, by = c("Country", "Sex")

Junto todas las bases de datos

Bd <- full_join (Actitud, full_join (Preferencia, full_join(Formación, full_join(Dinero, Préstamo))))
## Joining, by = c("Country", "Sex", "Éxito", "INDICATOR", "Value")
## Joining, by = c("Country", "Sex", "Éxito", "INDICATOR", "Value")
## Joining, by = c("Country", "Sex", "Éxito", "INDICATOR", "Value")
## Joining, by = c("Country", "Sex", "Éxito", "INDICATOR", "Value")

Creo las tablas

Para visualizar la procedencia de la base de datos: Aquí puedo conocer en que países se ha extraido información para cada variable.

TABLA <- Bd %>%
  select(INDICATOR, Country, Sex) %>%
  filter (Sex == "Women") %>%
  mutate(INDICATOR = case_when(INDICATOR == "AccesoPréstamos"~"AccPrest",
                               INDICATOR == "Emprendeduría"~"Emprend",
                               INDICATOR == "FondosEconom"~"FondosE",
                               INDICATOR == "FormacAutoempl"~"FormA",
                               INDICATOR == "PreferAutoempl"~"PAutoempl"))
table(TABLA$Country, TABLA$INDICATOR)
##                  
##                   AccPrest Emprend FondosE FormA PAutoempl
##   Australia              1       1       1     1         0
##   Austria                1       1       1     1         1
##   Belgium                1       1       1     1         1
##   Brazil                 1       1       1     1         1
##   Canada                 1       1       1     1         0
##   Chile                  1       1       1     1         0
##   Czech Republic         1       1       1     1         1
##   Denmark                1       1       1     1         1
##   Finland                1       1       1     1         1
##   France                 1       1       1     1         1
##   Germany                1       1       1     1         1
##   Greece                 1       1       1     1         1
##   Hungary                1       1       1     1         1
##   India                  1       1       1     1         1
##   Indonesia              1       1       1     1         0
##   Ireland                1       1       1     1         1
##   Israel                 1       1       1     1         1
##   Italy                  1       1       1     1         1
##   Japan                  1       1       1     1         1
##   Korea                  1       1       1     1         1
##   Mexico                 1       1       1     1         0
##   Netherlands            1       1       1     1         1
##   New Zealand            1       1       1     1         0
##   Norway                 1       0       0     0         1
##   Poland                 1       1       1     1         1
##   Portugal               1       1       1     1         1
##   Russia                 1       1       1     1         1
##   Slovak Republic        1       1       1     1         1
##   Slovenia               1       1       1     1         1
##   South Africa           1       1       1     1         0
##   Spain                  1       1       1     1         1
##   Sweden                 1       1       1     1         1
##   Switzerland            1       0       0     0         1
##   Turkey                 1       1       1     1         1
##   United Kingdom         1       1       1     1         1
##   United States          1       1       1     1         1

En resumen: Aquí puedo conocer en cuantos países se ha extraido información para cada variable.

TABLA2 <- Bd %>%
  select(INDICATOR, Country) %>%
  group_by(INDICATOR) %>%
  summarise(Nº_Países = n())
TABLA2
## # A tibble: 5 x 2
##   INDICATOR       Nº_Países
##   <chr>               <int>
## 1 AccesoPréstamos        72
## 2 Emprendeduría          68
## 3 FondosEconom           68
## 4 FormacAutoempl         68
## 5 PreferAutoempl         58

Creo las gráficas

Gráfica de la relación entre el género y el éxito según las diferentes variables analizadas:

En la primera gráfica observo la relación entre cada variable y el porcentaje de éxito según el género.
En esta gráfica podemos observar las características de las diferentes variables en general:
Forma no lineal: Sino formas sinusoidales irregulares, lo que indica que cada variable no tiene una relación única con la variable dependiente (Éxito). Las variables que mantienen una forma más constante y menos sinusoidal son el acceso a préstamos y la formación sobre el autoempleo.
Fuerza débil: Hay mucha dispersión, por lo que no muestran mucha fuerza y además muestran en general un error típico muy elevado (el sombreado que resigue la curva) que nos refuerza el concepto de que los resultados no es muy representativo. Direcciónes variadas: Aparecen tanto curvas positivas (“acceso a préstamos” y “formación hacia el autoempleo”) como horizontales o negativas y en el género femenino “los fondos económicos” que indican una relación directa con el “éxito”.
De aquí concluyo que separando por género tengo muy pocas observaciones para que los resultados sean representativos y considero necesario probar un estudio conjunto con los datos del género masculino y femenino.

Bd %>%
  group_by(Country, Sex, INDICATOR) %>%
  ggplot(aes(Value, Éxito, col= INDICATOR)) +
  geom_point(aes(col = INDICATOR), size=0.5, alpha = 0.7) +
  geom_smooth(method = "loess", size=0.8, se = T)+
  facet_grid(Sex ~ INDICATOR) +
  labs(title = "Relación entre el género y el éxito según las diferentes variables analizadas")
## `geom_smooth()` using formula 'y ~ x'

## Gráfica de la relación con el éxito según las diferentes variables analizadas:

En esta gráfica podemos observar:
Formas más regulares y definidas: Son más regulares que en la anterior gráfica, mostrando curvas cuasi-lineales en el “Acceso a los préstamos” y a la “formación sobre el autoempleo”. El resto de variables muestran una sinusoidad más suave que en la gráfica anterior.
Fuerza debil: En la figura 4 respecto a la 3 sigue habiendo mucha dispersión.
La dirección: En general muestran una dirección positiva (de relación directa) a excepción de la variable “emprendeduría” que se mantienen con una dirección media horizontal expresando que no hay relación con el éxito.
Casos extremos: Se observa en los valores altos de “fondos económicos” y “preferencia por el autoempleo” que hay unos casos aislados que varían la dirección de la curvatura reduciendo su inclinación.

Bd %>%
  group_by(Country, Sex, INDICATOR) %>%
  ggplot(aes(Value, Éxito, col= INDICATOR)) +
  geom_point(aes(col = INDICATOR), size=0.5, alpha = 0.7) +
  geom_smooth(method = "loess", size=0.8, se = T)+
  facet_wrap(. ~ INDICATOR, scales = "free") +
  labs(title = "Relación con el éxito según las diferentes variables analizadas")
## `geom_smooth()` using formula 'y ~ x'

## Gráfica de diferencia de médias por género de las diferentes variables analizadas:

En esta gráfica se puede apreciar claramente en todos los indicadores expresados que el género femenino tiene una media de observaciones mucho más bajo que el del género masculino. También podemos observar que el error de la media es realmente bajo.
Lo que nos hace que podamos afirmar en más de un 95% que el género es un condicionante para obtener fondos económicos, acceso a los préstamos y formación sobre autoempleo y por ello también la preferencia por el autoempleo se ve menguado en el género femenino.
Por lo que en caso de que alguna tuviera una alta relación con el éxito, podría ser un motivo explicativo de porqué tienen menos éxito las mujeres que los hombres al emprender un negocio.

Bd %>%
  ggplot(aes(x = Sex, y = Éxito, col = Country)) +
  geom_jitter(alpha = 0.5) +
  stat_summary(geom = "point", fun.data = mean_se, col= "red", size = 1.2) +
  stat_summary(geom = "errorbar", fun.data = mean_se, col = "red", width = 0.1) +
  facet_wrap(. ~ INDICATOR, scales = "free") + 
  theme(panel.grid.major.y = element_blank(),
        panel.grid.minor.y = element_blank())+
  labs(title = "Gráfica de diferencia de médias por género de las diferentes variables analizadas")

Cuantificación de los resultados:

Cuantificación de la diferencia de medias:

Extraigo el valor [[3]] de la lista de t.test que corresponde al p-value:

Préstamo <-Préstamo %>%
  select(Country, Sex, Éxito)%>%
  spread(Sex, Éxito)
Préstamo <- t.test (Préstamo$Men,Préstamo$Women)[[3]]
#-----------------------------------------------------------------
Actitud <-Actitud %>%
  select(Country, Sex, Éxito)%>%
  spread(Sex, Éxito)
Actitud <- t.test (Actitud$Men,Actitud$Women)[[3]]
#-----------------------------------------------------------------
  Dinero <-Dinero %>%
  select(Country, Sex, Éxito)%>%
  spread(Sex, Éxito)
Dinero <- t.test (Dinero$Men,Dinero$Women)[[3]]
#-----------------------------------------------------------------
  Formación <-Formación %>%
  select(Country, Sex, Éxito)%>%
  spread(Sex, Éxito)
Formación <- t.test (Formación$Men,Formación$Women)[[3]]
#-----------------------------------------------------------------
  Preferencia <-Preferencia %>%
  select(Country, Sex, Éxito)%>%
  spread(Sex, Éxito)
Preferencia <- t.test (Preferencia$Men,Preferencia$Women)[[3]]
#-----------------------------------------------------------------
  tribble(~"VARIABLES",~"AccesoPréstamos", ~"Emprendeduría", ~"FondosEconom", ~"FormacAutoempl", ~"PreferAutoempl",
               "P-VALOR(Dif_Medias)",
               Préstamo,
               Actitud,
               Dinero,
               Formación,
               Preferencia)
## # A tibble: 1 x 6
##   VARIABLES AccesoPréstamos Emprendeduría FondosEconom FormacAutoempl
##   <chr>               <dbl>         <dbl>        <dbl>          <dbl>
## 1 P-VALOR(…        0.000459      0.000299     0.000299       0.000299
## # … with 1 more variable: PreferAutoempl <dbl>

Para esta tabla se ha extraído el valor p-value del t.test de cada variable independiente para conocer la diferencia de medias entre géneros. Tras observar que todas las variables tienen un p-valor <0,05 entendemos que podemos eliminar la hipótesis nula y considerar la posibilidad alternativa en un 95% de que existe una diferencia de medias según género para todas las variables presentadas.

Cuantificación de la correlación:

Bd %>%   
  group_by(INDICATOR) %>%
  summarize(cor = cor(Éxito, Value), N = n())
## # A tibble: 5 x 3
##   INDICATOR          cor     N
##   <chr>            <dbl> <int>
## 1 AccesoPréstamos 0.345     72
## 2 Emprendeduría   0.0711    68
## 3 FondosEconom    0.264     68
## 4 FormacAutoempl  0.471     68
## 5 PreferAutoempl  0.350     58

En la tabla de correlaciones, podemos observar que todas las variables presentadas tienen una correlación con la variable dependiente (éxito) muy bajo y positiva. Por tanto hay una baja dependencia.
Hay que tener en cuenta que las cifras presentadas no surgen de un estudio conjunto y por lo tanto la suma de todas las correlaciones no sumarán la unidad, ni el porcentaje sumará el 100%.
De esta tabla se puede visualizar un orden entre la que más correlación tiene hasta la que tiene menos:
1º - “Formación de autoempleo”(47,1%),
2º - “Preferencia por el autoempleo” (35%),
3º - “Acceso préstamos”(34,5%),
4º - “fondos económicos (26,4%),
5º - y por último, emprendeduría (7,11%)

Test de significación y modelación de la curva de éxito:

DATOS <- Bd %>%
  spread (INDICATOR, Value) 
summary(lm(formula = Éxito ~
             AccesoPréstamos +
             Emprendeduría +
             FondosEconom +
             FormacAutoempl +
             PreferAutoempl,  data = DATOS))
## 
## Call:
## lm(formula = Éxito ~ AccesoPréstamos + Emprendeduría + FondosEconom + 
##     FormacAutoempl + PreferAutoempl, data = DATOS)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -17.4402  -6.0220  -0.7457   4.4773  21.3651 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     35.75030    5.73530   6.233  1.1e-07 ***
## AccesoPréstamos  0.05958    0.14932   0.399   0.6917    
## Emprendeduría    0.07555    0.10878   0.694   0.4907    
## FondosEconom    -0.07517    0.14291  -0.526   0.6013    
## FormacAutoempl   0.27097    0.10201   2.656   0.0107 *  
## PreferAutoempl   0.20543    0.12360   1.662   0.1030    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9.125 on 48 degrees of freedom
##   (18 observations deleted due to missingness)
## Multiple R-squared:  0.3067, Adjusted R-squared:  0.2345 
## F-statistic: 4.247 on 5 and 48 DF,  p-value: 0.002815

Si modelamos todas las variables independientes sobre la dependientes podríamos crear la siguiente función:

“Éxito” = 35,42030 + (0.05958 x “acceso a préstamos”) - (0.07555 x “emprendeduría”) - (0.07517 x “fondos económicos”) + (0.27097 x “formación en autoempleo”) + (0,20543 x “preferencia por el autoempleo”).

No obstante, si miramos el p-valor para ver la significancia de la relación de cada variable con la dependiente (éxito) vemos que solamente podemos rechazar la hipótesis nula (p-valor <0.05) en una variables (Formación del Autoempleo) con un valor de 0.0107 mientras que el resto tienen valores muy superiores.