Crear una herramienta visual para analizar la relación entre la industria tecnológica de los países y su posición en el Índice Global de Innovación (GII).

El bloque de arriba llama a las librerías necesarias, mientras que el de debajo importa los archivos como dataframes.

gii_mundo=read.csv("C:/Users/lucia/Desktop/2º Ciencia de Datos/2º Cuatri/Proyecto II/Objetivo 4/gii_2024.csv")
top_1000=read.csv("C:/Users/lucia/Desktop/2º Ciencia de Datos/2º Cuatri/Proyecto II/Objetivo 4//top_1000.csv")
gii_mundo$Economy.ISO3 <- countrycode(gii_mundo$Economy.ISO3,
origin="iso3c", destination="iso2c")
head(gii_mundo,10)
##    Economy.ISO3         Economy.Name ICT.access ICT.use
## 1            AO               Angola       36.7    45.4
## 2            AL              Albania       99.3    74.5
## 3            AE United Arab Emirates      100.0    92.2
## 4            AR            Argentina       94.9    67.7
## 5            AM              Armenia       88.3    80.7
## 6            AU            Australia       99.8    89.1
## 7            AT              Austria       97.2    89.5
## 8            AZ           Azerbaijan       89.2    65.6
## 9            BI              Burundi        1.2    21.5
## 10           BE              Belgium       99.6    78.6
head(top_1000,10)
##    Ranking                                            Company Market.Cap  Stock
## 1        1                                         Apple Inc.   $2.866 T   AAPL
## 2        2                              Microsoft Corporation   $2.755 T   MSFT
## 3        3                                 Nvidia Corporation   $1.186 T   NVDA
## 4        4                                      Broadcom Inc.  $495.95 B   AVGO
## 5        5 Taiwan Semiconductor Manufacturing Company Limited  $487.64 B   2330
## 6        6                      Samsung Electronics Co., Ltd.  $392.38 B 005930
## 7        7                                  ASML Holding N.V.  $297.10 B   ASML
## 8        8                                 Oracle Corporation  $282.01 B   ORCL
## 9        9                                         Adobe Inc.  $260.23 B   ADBE
## 10      10                               salesforce.com, inc.  $243.78 B    CRM
##          Country     Sector                            Industry
## 1  United States Technology                Consumer Electronics
## 2  United States Technology             Software—Infrastructure
## 3  United States Technology                      Semiconductors
## 4  United States Technology                      Semiconductors
## 5         Taiwan Technology                      Semiconductors
## 6    South Korea Technology                Consumer Electronics
## 7    Netherlands Technology Semiconductor Equipment & Materials
## 8  United States Technology             Software—Infrastructure
## 9  United States Technology             Software—Infrastructure
## 10 United States Technology                Software—Application
gii_mundo$"ICT.access"=as.numeric(gii_mundo$"ICT.access")   #convierte a numérico
## Warning: NAs introducidos por coerción
gii_mundo$"ICT.use"=as.numeric(gii_mundo$"ICT.use")         
## Warning: NAs introducidos por coerción
names(gii_mundo)[names(gii_mundo)=="Economy.ISO3"]="Pais_ISO2"
gii_mundo=gii_mundo %>%  #filtramos los datos para eliminar los datos faltantes
  filter(!is.nan(ICT.access))
gii_mundo=gii_mundo %>%
  filter(!is.nan(ICT.use))

#calculamos el índice de acceso tecnológico mediante el método de la media 
gii_mundo$Indice=rowMeans(
  gii_mundo[, c("ICT.access", "ICT.use")], 
  na.rm=TRUE)
head(gii_mundo,10)
##    Pais_ISO2         Economy.Name ICT.access ICT.use Indice
## 1         AO               Angola       36.7    45.4  41.05
## 2         AL              Albania       99.3    74.5  86.90
## 3         AE United Arab Emirates      100.0    92.2  96.10
## 4         AR            Argentina       94.9    67.7  81.30
## 5         AM              Armenia       88.3    80.7  84.50
## 6         AU            Australia       99.8    89.1  94.45
## 7         AT              Austria       97.2    89.5  93.35
## 8         AZ           Azerbaijan       89.2    65.6  77.40
## 9         BI              Burundi        1.2    21.5  11.35
## 10        BE              Belgium       99.6    78.6  89.10

Este bloque crea una tabla a partir de la tabla de las top 1000 empresas tecnológicas. Para cada país, indica la cantidad de empresas en cuestión que tiene.

top_paises=top_1000 %>% 
  count(Country, name="Num_Empresas") %>% 
  arrange(desc(Num_Empresas))
top_paises$Country_iso2=c("US", "CN", "TW", "JP", "DE", "GB", "CA", "FR", "IL", "CH", "AU", "BY", "SE", "NL", "KR", "BR", "IT", "NO", "HK", "KY", "DK", "FI", "SG", "IN", "TH", "AT", "BM", "IE", "NZ", "PL", "ES", "TR", "AE", "CZ", "KZ", "LU", "MU", "PT") 
head(top_paises,10)
##           Country Num_Empresas Country_iso2
## 1   United States          317           US
## 2           China          268           CN
## 3          Taiwan          118           TW
## 4           Japan           91           JP
## 5         Germany           21           DE
## 6  United Kingdom           19           GB
## 7          Canada           18           CA
## 8          France           17           FR
## 9          Israel           14           IL
## 10    Switzerland           12           CH

Este bloque fusiona las dos tablas que tenemos en una sola para más comodidad.

tabla_top=gii_mundo %>%
  inner_join(top_paises, by=c("Pais_ISO2"="Country_iso2"))
head(tabla_top,10)
##    Pais_ISO2         Economy.Name ICT.access ICT.use Indice
## 1         AE United Arab Emirates      100.0    92.2  96.10
## 2         AU            Australia       99.8    89.1  94.45
## 3         AT              Austria       97.2    89.5  93.35
## 4         BY              Belarus       96.7    79.9  88.30
## 5         BR               Brazil       85.8    74.3  80.05
## 6         CA               Canada       99.7    77.4  88.55
## 7         CH          Switzerland      100.0    84.3  92.15
## 8         CN                China       89.6    84.6  87.10
## 9         CZ       Czech Republic       95.2    81.6  88.40
## 10        DE              Germany       97.5    80.2  88.85
##                 Country Num_Empresas
## 1  United Arab Emirates            2
## 2             Australia           11
## 3               Austria            2
## 4             Hong Kong            9
## 5                Brazil            5
## 6                Canada           18
## 7           Switzerland           12
## 8                 China          268
## 9               Czechia            1
## 10              Germany           21
top_5 <- tabla_top %>%
  arrange(desc(Num_Empresas)) %>%
  head(5)

# Crear gráfico de barras
ggplot(top_5, aes(x = reorder(Economy.Name, desc(Num_Empresas)), y = Num_Empresas)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  labs(title = "Top  5 countries with the most companies",
       x= '', y = "Companies") +theme_minimal()

El siguiente bloque muestra los países con colores de acuerdo a cuántas empresas tienen en el top 1000 de empresas tecnológicas. EE.UU y China tienen muchas mas con diferencia, por lo que he decidido representar los colores del mapa con logaritmos.Los logaritmos los empleamos puesto que tenemos dos Paises con unos valores relativamente más altos que los demás y esto hace que haya una distribución anormal.

world=ne_countries(scale="medium", returnclass="sf")
world_data=world %>%
  left_join(tabla_top, by=c("iso_a2"="Pais_ISO2"))    #une el número de empresas por el mapa

ggplot(data=world_data) +
  geom_sf(aes(fill=log(Num_Empresas)), color="white", linewidth=0.1) +  
  scale_fill_viridis_c(option="plasma", name="      Index,\nlogarithmized") +
  labs(title="Number of large technology companies per country")+theme_void()

Podemos ver que la mayoría de grandes empresas están concentradas en muy pocos países, sobretodo China y Estados Unidos, los cuales tienen más de la mitad.

world=ne_countries(scale="medium", returnclass="sf")
world_data=world %>%
  left_join(tabla_top, by=c("iso_a2"="Pais_ISO2"))   #une los índices con el mapa

ggplot(data=world_data) +
  geom_sf(aes(fill=Indice), color="white", linewidth=0.1) +  
  scale_fill_viridis_c(option="plasma", name="Index") +
  labs(title="Technology Access Index by Country")+theme_void()

Este bloque hace un grafico de dispersión con la cantidad de grandes empresas del país y su índice de acceso a la tecnología.

ggplot(tabla_top, aes(x=log(Num_Empresas), y=Indice)) +
  geom_point(color="blue", alpha=0.75, size=3) +  
  geom_smooth(method="lm", formula=y~poly(x, 1), color="red")

La relación entre el número de grandes empresas tecnológicas y el índice de desarrollo tecnológico es positiva, pero débil. Es decir, tener más empresas tiende a asociarse con mayor desarrollo tecnológico, pero no es una garantía, y hay muchos otros factores involucrados.

En este bloque vamos a realizar una prueba de correlación entre el índice GII y la cantidad de empresas del top 1000.

corr=cor.test(tabla_top$Num_Empresas, tabla_top$Indice, method="spearman", exact=FALSE)
corr
## 
##  Spearman's rank correlation rho
## 
## data:  tabla_top$Num_Empresas and tabla_top$Indice
## S = 6385, p-value = 0.5455
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.1057403

Spearman, porque la población no es normal y porque no nos esperábamos una relación lineal. Un indice de correlación de 0.11 es muy bajo, y un p-valor de 0.5 indica que no se descarta la hipótesis nula (no están correlacionadas). Por tanto, podemos afirmar con bastante seguridad que no hay relación entre la cantidad de grandes empresas tecnológicas de un país y su índice de desarrollo tecnológico.