Crear una herramienta visual para analizar la relación entre la industria tecnológica de los países y su posición en el Índice Global de Innovación (GII).
El bloque de arriba llama a las librerías necesarias, mientras que el de debajo importa los archivos como dataframes.
gii_mundo=read.csv("C:/Users/lucia/Desktop/2º Ciencia de Datos/2º Cuatri/Proyecto II/Objetivo 4/gii_2024.csv")
top_1000=read.csv("C:/Users/lucia/Desktop/2º Ciencia de Datos/2º Cuatri/Proyecto II/Objetivo 4//top_1000.csv")
gii_mundo$Economy.ISO3 <- countrycode(gii_mundo$Economy.ISO3,
origin="iso3c", destination="iso2c")
head(gii_mundo,10)
## Economy.ISO3 Economy.Name ICT.access ICT.use
## 1 AO Angola 36.7 45.4
## 2 AL Albania 99.3 74.5
## 3 AE United Arab Emirates 100.0 92.2
## 4 AR Argentina 94.9 67.7
## 5 AM Armenia 88.3 80.7
## 6 AU Australia 99.8 89.1
## 7 AT Austria 97.2 89.5
## 8 AZ Azerbaijan 89.2 65.6
## 9 BI Burundi 1.2 21.5
## 10 BE Belgium 99.6 78.6
head(top_1000,10)
## Ranking Company Market.Cap Stock
## 1 1 Apple Inc. $2.866 T AAPL
## 2 2 Microsoft Corporation $2.755 T MSFT
## 3 3 Nvidia Corporation $1.186 T NVDA
## 4 4 Broadcom Inc. $495.95 B AVGO
## 5 5 Taiwan Semiconductor Manufacturing Company Limited $487.64 B 2330
## 6 6 Samsung Electronics Co., Ltd. $392.38 B 005930
## 7 7 ASML Holding N.V. $297.10 B ASML
## 8 8 Oracle Corporation $282.01 B ORCL
## 9 9 Adobe Inc. $260.23 B ADBE
## 10 10 salesforce.com, inc. $243.78 B CRM
## Country Sector Industry
## 1 United States Technology Consumer Electronics
## 2 United States Technology Software—Infrastructure
## 3 United States Technology Semiconductors
## 4 United States Technology Semiconductors
## 5 Taiwan Technology Semiconductors
## 6 South Korea Technology Consumer Electronics
## 7 Netherlands Technology Semiconductor Equipment & Materials
## 8 United States Technology Software—Infrastructure
## 9 United States Technology Software—Infrastructure
## 10 United States Technology Software—Application
gii_mundo$"ICT.access"=as.numeric(gii_mundo$"ICT.access") #convierte a numérico
## Warning: NAs introducidos por coerción
gii_mundo$"ICT.use"=as.numeric(gii_mundo$"ICT.use")
## Warning: NAs introducidos por coerción
names(gii_mundo)[names(gii_mundo)=="Economy.ISO3"]="Pais_ISO2"
gii_mundo=gii_mundo %>% #filtramos los datos para eliminar los datos faltantes
filter(!is.nan(ICT.access))
gii_mundo=gii_mundo %>%
filter(!is.nan(ICT.use))
#calculamos el índice de acceso tecnológico mediante el método de la media
gii_mundo$Indice=rowMeans(
gii_mundo[, c("ICT.access", "ICT.use")],
na.rm=TRUE)
head(gii_mundo,10)
## Pais_ISO2 Economy.Name ICT.access ICT.use Indice
## 1 AO Angola 36.7 45.4 41.05
## 2 AL Albania 99.3 74.5 86.90
## 3 AE United Arab Emirates 100.0 92.2 96.10
## 4 AR Argentina 94.9 67.7 81.30
## 5 AM Armenia 88.3 80.7 84.50
## 6 AU Australia 99.8 89.1 94.45
## 7 AT Austria 97.2 89.5 93.35
## 8 AZ Azerbaijan 89.2 65.6 77.40
## 9 BI Burundi 1.2 21.5 11.35
## 10 BE Belgium 99.6 78.6 89.10
Este bloque crea una tabla a partir de la tabla de las top 1000 empresas tecnológicas. Para cada país, indica la cantidad de empresas en cuestión que tiene.
top_paises=top_1000 %>%
count(Country, name="Num_Empresas") %>%
arrange(desc(Num_Empresas))
top_paises$Country_iso2=c("US", "CN", "TW", "JP", "DE", "GB", "CA", "FR", "IL", "CH", "AU", "BY", "SE", "NL", "KR", "BR", "IT", "NO", "HK", "KY", "DK", "FI", "SG", "IN", "TH", "AT", "BM", "IE", "NZ", "PL", "ES", "TR", "AE", "CZ", "KZ", "LU", "MU", "PT")
head(top_paises,10)
## Country Num_Empresas Country_iso2
## 1 United States 317 US
## 2 China 268 CN
## 3 Taiwan 118 TW
## 4 Japan 91 JP
## 5 Germany 21 DE
## 6 United Kingdom 19 GB
## 7 Canada 18 CA
## 8 France 17 FR
## 9 Israel 14 IL
## 10 Switzerland 12 CH
Este bloque fusiona las dos tablas que tenemos en una sola para más comodidad.
tabla_top=gii_mundo %>%
inner_join(top_paises, by=c("Pais_ISO2"="Country_iso2"))
head(tabla_top,10)
## Pais_ISO2 Economy.Name ICT.access ICT.use Indice
## 1 AE United Arab Emirates 100.0 92.2 96.10
## 2 AU Australia 99.8 89.1 94.45
## 3 AT Austria 97.2 89.5 93.35
## 4 BY Belarus 96.7 79.9 88.30
## 5 BR Brazil 85.8 74.3 80.05
## 6 CA Canada 99.7 77.4 88.55
## 7 CH Switzerland 100.0 84.3 92.15
## 8 CN China 89.6 84.6 87.10
## 9 CZ Czech Republic 95.2 81.6 88.40
## 10 DE Germany 97.5 80.2 88.85
## Country Num_Empresas
## 1 United Arab Emirates 2
## 2 Australia 11
## 3 Austria 2
## 4 Hong Kong 9
## 5 Brazil 5
## 6 Canada 18
## 7 Switzerland 12
## 8 China 268
## 9 Czechia 1
## 10 Germany 21
top_5 <- tabla_top %>%
arrange(desc(Num_Empresas)) %>%
head(5)
# Crear gráfico de barras
ggplot(top_5, aes(x = reorder(Economy.Name, desc(Num_Empresas)), y = Num_Empresas)) +
geom_bar(stat = "identity", fill = "steelblue") +
labs(title = "Top 5 countries with the most companies",
x= '', y = "Companies") +theme_minimal()
El siguiente bloque muestra los países con colores de acuerdo a cuántas empresas tienen en el top 1000 de empresas tecnológicas. EE.UU y China tienen muchas mas con diferencia, por lo que he decidido representar los colores del mapa con logaritmos.Los logaritmos los empleamos puesto que tenemos dos Paises con unos valores relativamente más altos que los demás y esto hace que haya una distribución anormal.
world=ne_countries(scale="medium", returnclass="sf")
world_data=world %>%
left_join(tabla_top, by=c("iso_a2"="Pais_ISO2")) #une el número de empresas por el mapa
ggplot(data=world_data) +
geom_sf(aes(fill=log(Num_Empresas)), color="white", linewidth=0.1) +
scale_fill_viridis_c(option="plasma", name=" Index,\nlogarithmized") +
labs(title="Number of large technology companies per country")+theme_void()
Podemos ver que la mayoría de grandes empresas están concentradas en muy pocos países, sobretodo China y Estados Unidos, los cuales tienen más de la mitad.
world=ne_countries(scale="medium", returnclass="sf")
world_data=world %>%
left_join(tabla_top, by=c("iso_a2"="Pais_ISO2")) #une los índices con el mapa
ggplot(data=world_data) +
geom_sf(aes(fill=Indice), color="white", linewidth=0.1) +
scale_fill_viridis_c(option="plasma", name="Index") +
labs(title="Technology Access Index by Country")+theme_void()
Este bloque hace un grafico de dispersión con la cantidad de grandes empresas del país y su índice de acceso a la tecnología.
ggplot(tabla_top, aes(x=log(Num_Empresas), y=Indice)) +
geom_point(color="blue", alpha=0.75, size=3) +
geom_smooth(method="lm", formula=y~poly(x, 1), color="red")
La relación entre el número de grandes empresas tecnológicas y el índice
de desarrollo tecnológico es positiva, pero débil. Es decir, tener más
empresas tiende a asociarse con mayor desarrollo tecnológico, pero no es
una garantía, y hay muchos otros factores involucrados.
En este bloque vamos a realizar una prueba de correlación entre el índice GII y la cantidad de empresas del top 1000.
corr=cor.test(tabla_top$Num_Empresas, tabla_top$Indice, method="spearman", exact=FALSE)
corr
##
## Spearman's rank correlation rho
##
## data: tabla_top$Num_Empresas and tabla_top$Indice
## S = 6385, p-value = 0.5455
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.1057403
Spearman, porque la población no es normal y porque no nos esperábamos una relación lineal. Un indice de correlación de 0.11 es muy bajo, y un p-valor de 0.5 indica que no se descarta la hipótesis nula (no están correlacionadas). Por tanto, podemos afirmar con bastante seguridad que no hay relación entre la cantidad de grandes empresas tecnológicas de un país y su índice de desarrollo tecnológico.