PROYECTO R - Iphone Dataset Ana Paulina Butrón R.

Este conjunto de datos ofrece una visión general completa de la trayectoria del iPhone en el mercado global de teléfonos inteligentes desde 2011 hasta 2023. Contiene información detallada sobre:

Year: El año al que corresponden los datos. NoofiPhoneUsers: El número total de usuarios de iPhone en ese año. NoofiPhoneUsersUSA: El número total de usuarios de iPhone en Estados Unidos durante ese año. PercentageofiPhoneUsers: El porcentaje de usuarios de iPhone en relación al total de usuarios de smartphones. NoofiPhoneSold: El número total de iPhones vendidos en ese año. NoofiPhoneSoldUSA: El número total de iPhones vendidos en Estados Unidos durante ese año. iOSMarketShare: La cuota de mercado de iOS en el mercado global de smartphones. AndroidMarket_Share: La cuota de mercado de Android en el mercado global de smartphones.

URL: https://www.kaggle.com/datasets/mohamedfahim003/global-iphone-and-smartphone-market-2011-2023

En este proyecto, haré un análisis sobre el Dataset de “IphoneDataset”, debido a que quisiera indagar un poco más sobre el mercado de Iphone o iOS, las ventas de la misma y la competencia que tiene con Android, entre los años 2011 y 2023, por lo que en el siguiente código se mostrara sobre ello y los diferentes cálculos realizados.

install.packages("tidyverse")
## Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror
install.packages("datos")
## Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror

Como primer paso se cargaron los paquetes de las librerías que estaremos usando para poder correr las funciones del código correctamente. Carga de paquetes

library(tidyverse)
## ── Attaching
core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──

✔ dplyr 1.1.4 ✔ readr 2.1.5

✔ forcats 1.0.0 ✔ stringr 1.5.1

✔ ggplot2 3.5.1 ✔ tibble 3.2.1

✔ lubridate 1.9.3 ✔ tidyr 1.3.1

✔ purrr 1.0.2

── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──

✖ dplyr::filter() masks stats::filter()

✖ dplyr::lag() masks stats::lag()

ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(datos)

Integrar el dataset a R

iphone.data
<-
read.csv("/Users/paubutron/Desktop/IphoneDataset.csv")
Calcular la media de # de usuarios de iPhone
pop.mean
<-
mean(iphone.data$NoofiPhoneUsers)
pop.mean 
## [1] 774692308 
El resultado obtenido fue de 774,692,308 significa que en promedio hubo 74 millones de personas siendo usuarias de Iphone.
getwd()
## [1]
"/Users/paubutron/Desktop" 
head(iphone.data)#
Mostrar los primeros registros  
## Year
NoofiPhoneUsers NoofiPhoneUsersUSA
PercentageofiPhoneUsers

1 2023 1460000000 153000000 58.33

2 2022 1360000000 149000000 48.70

3 2021 1230000000 141000000 46.90

4 2020 1000000000 138000000 45.30

5 2019 948000000 131000000 45.20

6 2018 888000000 127000000 45.10

NoofiPhoneSold NoofiPhoneSoldUSA iOSMarketShare AndroidMarket_Share

1 234600000 NA 58.10 41.46

2 226400000 124700000 56.74 42.94

3 235700000 116300000 58.58 41.11

4 206100000 113500000 59.54 40.20

5 191000000 105200000 55.23 44.51

6 208800000 101900000 54.82 44.73

print(head(iphone.data))
##   Year No_of_iPhone_Users No_of_iPhone_Users_USA Percentage_of_iPhone_Users
## 1 2023         1460000000              153000000                      58.33
## 2 2022         1360000000              149000000                      48.70
## 3 2021         1230000000              141000000                      46.90
## 4 2020         1000000000              138000000                      45.30
## 5 2019          948000000              131000000                      45.20
## 6 2018          888000000              127000000                      45.10
##   No_of_iPhone_Sold No_of_iPhone_Sold_USA iOS_Market_Share Android_Market_Share
## 1         234600000                    NA            58.10                41.46
## 2         226400000             124700000            56.74                42.94
## 3         235700000             116300000            58.58                41.11
## 4         206100000             113500000            59.54                40.20
## 5         191000000             105200000            55.23                44.51
## 6         208800000             101900000            54.82                44.73

Mostrar que tipos de datos y columnas es

str(iphone.data)
## 'data.frame':
13 obs. of 8 variables:

$ Year : int 2023 2022 2021 2020 2019 2018 2017 2016 2015 2014 ...

$ NoofiPhone_Users : int 1460000000 1360000000 1230000000 1000000000 948000000 888000000 814000000 710000000 569000000 442000000 ...

$ NoofiPhoneUsersUSA : int 153000000 149000000 141000000 138000000 131000000 127000000 125000000 114000000 101000000 88000000 ...

$ PercentageofiPhone_Users: num 58.3 48.7 46.9 45.3 45.2 ...

$ NoofiPhone_Sold : int 234600000 226400000 235700000 206100000 191000000 208800000 215800000 215400000 231500000 192700000 ...

$ NoofiPhoneSoldUSA : int NA 124700000 116300000 113500000 105200000 101900000 97200000 90100000 82500000 72300000 ...

$ iOSMarketShare : num 58.1 56.7 58.6 59.5 55.2 ...

$ AndroidMarketShare : num 41.5 42.9 41.1 40.2 44.5 ...

dim(iphone.data) # filas y columnas
## [1] 13  8

Calcular la media de la columna PercentageofiPhoneUser

pop.mean2
<-
mean(iphone.data$NoofiPhoneSold)
pop.mean2 
## [1] 195415385 
El resultado fue 195,415,385 significando que aproximadamnete ese fue el número de Iphones vendidos entre 2011- 2023, por lo que podemos deducir que hubo más usuarios en Iphone ya registrados, que los Iphones que fueron vendidos esos años.
summary(iphone.data)
# Resumen de estadistica  
## Year
NoofiPhoneUsers NoofiPhoneUsers_USA

Min. :2011 Min. :1.150e+08 Min. :4.00e+07

1st Qu.:2014 1st Qu.:4.420e+08 1st Qu.:8.80e+07

Median :2017 Median :8.140e+08 Median :1.25e+08

Mean :2017 Mean :7.747e+08 Mean :1.10e+08

3rd Qu.:2020 3rd Qu.:1.000e+09 3rd Qu.:1.38e+08

Max. :2023 Max. :1.460e+09 Max. :1.53e+08

PercentageofiPhoneUsers NoofiPhoneSold NoofiPhoneSoldUSA

Min. :42.30 Min. : 93100000 Min. : 44530000

1st Qu.:43.67 1st Qu.:191000000 1st Qu.: 77400000

Median :45.15 Median :208800000 Median : 97200000

Mean :46.28 Mean :195415385 Mean : 91457273

3rd Qu.:46.50 3rd Qu.:226400000 3rd Qu.:109350000

Max. :58.33 Max. :235700000 Max. :124700000

NA's :3 NA's :2

iOSMarketShare AndroidMarketShare

Min. :50.85 Min. :39.25

1st Qu.:52.99 1st Qu.:41.28

Median :54.82 Median :42.94

Mean :55.09 Mean :43.06

3rd Qu.:57.42 3rd Qu.:44.97

Max. :59.54 Max. :46.42

NA's :2 NA's :2

iphone.data[2:3, ]# ir filas 2 y 3
##   Year No_of_iPhone_Users No_of_iPhone_Users_USA Percentage_of_iPhone_Users
## 2 2022         1360000000              149000000                       48.7
## 3 2021         1230000000              141000000                       46.9
##   No_of_iPhone_Sold No_of_iPhone_Sold_USA iOS_Market_Share Android_Market_Share
## 2         226400000             124700000            56.74                42.94
## 3         235700000             116300000            58.58                41.11

Crear un gráfico de dispersión de 'Número de usuarios de Iphone ' vs 'Número de usuarios de iphone en USA

x
<-
iphone.data$NoofiPhoneUsers
# Crear un histograma de Número de ventas de iphone
En USA  y
<-
iphone.data$NoofiPhoneUsers_USA
plot(x, y)
plot of chunk unnamed-chunk-9
En el gráfico podemos observar que a medida que aumenta la cantidad de usuarios de iPhone en general (eje horizontal), también aumenta la cantidad de usuarios de iPhone en Estados Unidos (eje vertical). Sin embargo,en ciertos puntos aumenta el número total de usuarios, pero no de la mano con el de Estados Unidos, significando que Estados Unidos, no es el unico que hace subir el número de usuarios de la marca.

hist(iphone.data$No_of_iPhone_Sold)
plot of chunk unnamed-chunk-10

Con el gráfico obtenudo podemos observar que ha habido un incremento en las ventas conforme a los años. En los últimos años, ha habido un incremento de ventas a comparación de los primeros años (2011, en adelante

Prueba t para comparar ventas de iPhone en USA vs total de ventas

pruebatusavstotal
<-
t.test(iphone.data$NoofiPhoneSoldUSA,
iphone.data$NoofiPhoneSold)
print(pruebatusavs_total)
##

Welch Two Sample t-test

data: iphone.data$NoofiPhoneSoldUSA and iphone.data$NoofiPhone_Sold

t = -7.3394, df = 19.751, p-value = 4.642e-07

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-133528602 -74387622

sample estimates:

mean of x mean of y

91457273 195415385

Como era de esperarse pudimos darnos cuenta gracias a la prueba T, que se rechaza la hipotesis ya que el p value es de 4.62, el cual es menor a el nivel de significancia, Por lo que con ello se da el resultado que de que como era de esperarse hay una diferencia evidente entre las ventas de iPhone en otros paises, que las ventas en Estados Unidos, por lo que las ventas totales de iPhone son mayores a las que hay solamente en USA. `

Regresión lineal simple

regressionmodel
<-
lm(NoofiPhoneSold
~
PercentageofiPhoneUsers,
data =
iphone.data)
summary(regressionmodel)
##

Call:

lm(formula = NoofiPhoneSold ~ PercentageofiPhoneUsers,

data = iphone.data)

Residuals:

Min 1Q Median 3Q Max

-22792899 -7110563 166965 5779888 21228331

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 130024695 49537908 2.625 0.0304 *

PercentageofiPhone_Users 1853279 1065568 1.739 0.1202

---

Signif. codes: 0 '' 0.001 '' 0.01 '' 0.05 '.' 0.1 ' ' 1

Residual standard error: 14750000 on 8 degrees of freedom

(3 observations deleted due to missingness)

Multiple R-squared: 0.2744, Adjusted R-squared: 0.1837

F-statistic: 3.025 on 1 and 8 DF, p-value: 0.1202

El resultado propone una correlación positiva, entre el número de iPhones vendidos y el % de usuarios del mismo, por lo que si existe una relación entre estas dos variables, a medida que aumenta el porcentaje de usuarios, también tienden a aumentar las ventas. Pero, esta correlación, no es tan significativa debido al resultado del p value de 0.012, lo que es un resultado no tan confiable, por lo que hay otros factores influyendo.

install.packages("ggplot2")
## Error in
contrib.url(repos, "source"): trying to use CRAN without setting a
mirror 
library(ggplot2)

Gráfico con línea de regresión

ggplot(iphone.data,
aes(x
= PercentageofiPhoneUsers,
y =
NoofiPhoneSold)) +
geompoint()
+
geomsmooth(method
=
"lm",
col =
"pink")
+
xlab("Porcentaje
de Usuarios de iPhone")
+
ylab("Número
de iPhones Vendidos")
+
ggtitle("Regresión
Lineal: Porcentaje de Usuarios vs Ventas de
iPhone") 
## geom_smooth()
using formula = 'y ~ x' 
## Warning: Removed 3 rows
containing non-finite outside the scale range

(stat_smooth()).

## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_point()`).
plot of chunk unnamed-chunk-14

Podemos observar que los datos estan algo dispersos, por lo que quiere decir que hay ciertos factores que afectan esta relación. Sin embargo, hay una linea positiva, por lo que hay una relación entre las variables.

Correlacion entre cuota de mercado de iOS y Android

correlationiosandroid
<-
cor.test(iphone.data$iOSMarketShare,
iphone.data$AndroidMarketShare)
print(correlationiosandroid)
##

Pearson's product-moment correlation

data: iphone.data$iOSMarketShare and iphone.data$AndroidMarketShare

t = -1.9151, df = 9, p-value = 0.08775

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

-0.86027095 0.09126305

sample estimates:

cor

-0.5380693

El coeficiente de correlación es de -0.538, lo que quiere decir que a medida que la participación de mercado de iOS aumenta, la participación de mercado de Android baja y viceversa. No hay correclacion, un p-valor de 0.08775 es mayor a 0.05.

Tabla de contigencia (¿Usuarios de USA relacionados con la venta de iphones en USA?)

iphone.data$No_of_iPhone_Users_USA <- cut(iphone.data$No_of_iPhone_Users_USA, breaks = 4, labels = c("Nada", "Bajo", "Medio", "Alto"))
iphone.data$No_of_iPhone_Sold_USA<- cut(iphone.data$No_of_iPhone_Sold_USA, breaks = 4, labels = c("Nada", "Bajo", "Medio", "Alto"))

tabla_de_contigencia <- table(iphone.data$No_of_iPhone_Users_USA, iphone.data$No_of_iPhone_Sold_USA)
print(tabla_de_contigencia)
##        
##         Nada Bajo Medio Alto
##   Nada     1    0     0    0
##   Bajo     1    1     0    0
##   Medio    0    1     1    0
##   Alto     0    0     2    4
chi_cuadrada <- chisq.test(tabla_de_contigencia)
## Warning in chisq.test(tabla_de_contigencia): Chi-squared approximation may be
## incorrect
print(chi_cuadrada)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_de_contigencia
## X-squared = 14.361, df = 9, p-value = 0.11

Gracias a los resultados obtenidos podemos decir que no hay una relación entre en # de iphones vendidos en USA y el # de usuarios de iphone en USA, así mismo estas variables no estan relacionadas.

library(ggplot2)
market_share_data <- data.frame(
  iOS_Market_Share = c(58.10, 56.74, 58.58, 59.54, 55.23, 54.82, 53.89, 53.19, 50.85, 52.30, 52.79),
  Android_Market_Share = c(41.46, 42.94, 41.11, 40.20, 44.51, 44.73, 45.23, 45.20, 46.42, 42.58, 39.25)
)

#Promedio de market share para iOS y Android
promedio_market_share <- colMeans(market_share_data)

# Crear el gráfico circular
labels <- c("iOS Market Share", "Android Market Share")
pie(promedio_market_share,
    labels = labels,
    col = c("blue", "pink"),
    main = "Gráfico Circular para Market Share promedio de iOS y  Android")
plot of chunk unnamed-chunk-18

La porción azul del gráfico (Ios market) es considerablemente más grande que la porción rosa de Android. Esto indica que en 2023, los dispositivos con sistema operativo iOS tuvieron mayor presencia en el mercado a comparación de los que tienen android

Crear gráfico de barras para ventas de iPhone

años <- c(2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023)
ventas <- c(93100000, 135900000, 153400000, 192700000, 231500000, 215400000, 215800000, 208800000, 191000000, 206100000, 235700000, 226400000, 234600000)

Tabla:

plot(años,
ventas, type
=
"h",
lwd =
17,
col =
"orange",
xlab =
"Años",
ylab =
"Número de iPhones
Vendidos",
main =
"iPhones ventas por año de 2011 a
2023")

# Media de las ventas linea abline(h = mean(ventas), col = "yellow", lwd = 2, lty = 2)

# Mostrar los datos en la tabla text(años, ventas, labels = ventas, pos = 2, cex = 0.5)

plot of chunk unnamed-chunk-20
La gráfica nos muestra cómo han cambiado las ventas de iPhones a lo largo de los años. Podemos ver que en general, las ventas han ido aumentando año tras año. Hubo un crecimiento muy fuerte entre 2012 y 2014, y luego se ha logrado mantener a la alza. Apartir de la media (la línea amarilla), se ha logrado ver que apartir del año 2014, las ventas se han mantenido por encima de esta.

Conclusiones:

En este proyecto puedo concluir que la marca Apple, en especifico la venta de los iPhones y el Software iOS tienen un crecimiento constante en las ventas y en el mercado a nivel global. Aunque Estados Unidos representa una porción significativa de las ventas totales, otros mercados también contribuyen al éxito de Apple. Hay una una correlación positiva entre el porcentaje de usuarios de iPhone y las ventas totales, lo cual quiere decir que estas dos variables van de la mano una con la otra. Existe una competencia marcada con Android, aunque iOS ha mantenido una ventaja considerable en cuanto a cuota de mercado en los últimos años.