Facturacion

Este analisis consta de 100 observaciónes de facturas

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
datos <- read.csv("datos_negocios_extra_2_facturacion.csv")
head(datos)
##       Sector Facturacion_Total Clientes_Activos Devoluciones
## 1     Retail          194658.2              819           31
## 2     Retail          151419.0              443           66
## 3      Salud          192521.7              153           58
## 4 Tecnología          403617.0              490           34
## 5     Retail          325859.7              637           77
## 6  Educación          146740.4               91           61

el resumen estadistico muestra que el promedio de

summary(datos)
##     Sector          Facturacion_Total Clientes_Activos  Devoluciones   
##  Length:100         Min.   : 24377    Min.   : 50.0    Min.   :  4.00  
##  Class :character   1st Qu.:154494    1st Qu.:250.5    1st Qu.: 21.75  
##  Mode  :character   Median :282315    Median :510.0    Median : 42.00  
##                     Mean   :264623    Mean   :515.6    Mean   : 46.57  
##                     3rd Qu.:363718    3rd Qu.:767.5    3rd Qu.: 68.25  
##                     Max.   :497181    Max.   :977.0    Max.   :100.00
library(ggplot2)
ggplot(datos, aes(x = Sector, y = Facturacion_Total, fill = Sector)) +
  geom_boxplot() +
  labs(title = "Distribución de Facturacion por sector",
       x = "Sector",
       y = "Facturacion_Total") +
  theme_minimal()

Cliente_sector <- datos %>%
  group_by(Sector) %>%
  summarise(Clientes_Activos = sum(Clientes_Activos)) %>%
  mutate(Porcentaje = (Clientes_Activos / sum(Clientes_Activos)) * 100)

print(Cliente_sector)
## # A tibble: 4 × 3
##   Sector     Clientes_Activos Porcentaje
##   <chr>                 <int>      <dbl>
## 1 Educación              9031       17.5
## 2 Retail                14360       27.9
## 3 Salud                 13621       26.4
## 4 Tecnología            14547       28.2
ggplot(Cliente_sector, aes(x = Sector, y = Porcentaje, fill = Sector)) +
  geom_col() +
  labs(title = "Porcentaje de Clientes Activos por Sector",
       x = "Sector",
       y = "Porcentaje (%)",
       fill = "Sector") +
  theme_minimal()

ggplot(datos, aes(x = Sector, y = Devoluciones, fill = Sector)) +
  geom_boxplot() +
  labs(title = "Distribución de Devoluciones por Sector",
       x = "Sector",
       y = "Número de Devoluciones") +
  theme_minimal()

library(scales)

ggplot(datos, aes(x = Facturacion_Total)) +
  geom_histogram(binwidth = 50000,
                 fill = "skyblue",
                 color = "black",
                 alpha = 0.7) +
  geom_density(aes(y = after_stat(density) * 50000),
               color = "blue",
               linewidth = 1) +
  labs(title = "Distribución de la Facturación Total",
       x = "Facturación Total",
       y = "Frecuencia") +
  scale_x_continuous(labels = comma) +
  theme_minimal()

1. Calcular un intervalo de confianza al 95% para la media poblacional de la facturación total del sector Salud. Interpretar el intervalo obtenido y evaluar si es posible realizar inferencias sobre el comportamiento financiero del sector. Datos Población: 100 registros totales Muestra: n=50 registros seleccionados aleatoriamente Submuestra analizada: registros pertenecientes al sector Salud dentro de la muestra Media muestral ( X ˉ ): calculada con la variable Facturacion_Total Desviación estándar muestral (s): calculada con la submuestra del sector Salud Nivel de confianza: 95%

set.seed(123)

muestra <- datos %>%
  sample_n(50)

muestra
##        Sector Facturacion_Total Clientes_Activos Devoluciones
## 1  Tecnología         311915.97              922           89
## 2  Tecnología         253364.80               54           62
## 3   Educación         384801.45              810           57
## 4  Tecnología         151840.40               62           21
## 5   Educación         276819.31              748           31
## 6   Educación          49915.37              688           26
## 7       Salud         296081.92              147           22
## 8   Educación         361716.28              630           15
## 9   Educación         309280.35               83           13
## 10 Tecnología         355121.10              871           80
## 11  Educación         487661.79              141           57
## 12 Tecnología         282981.55              851           69
## 13      Salud         155378.51              767           26
## 14 Tecnología          74896.18              718           68
## 15     Retail         232388.36              949           95
## 16 Tecnología          24377.16              967           36
## 17      Salud         125227.25              521           85
## 18      Salud         449788.51              185           67
## 19  Educación          91315.95               85           12
## 20  Educación         257826.07              257           18
## 21 Tecnología         281648.63              372           98
## 22     Retail         223677.24              804           63
## 23  Educación         156588.89              357           61
## 24  Educación         470346.92              837           56
## 25     Retail          83454.77              423           35
## 26      Salud         368815.25              893           97
## 27 Tecnología         321193.82              826           67
## 28     Retail         381504.48              916          100
## 29     Retail         307701.68              462            4
## 30  Educación         178946.63              596           37
## 31      Salud         426084.13              724           56
## 32      Salud         213115.33              669           42
## 33  Educación         166424.74              115           89
## 34      Salud         448497.35              741           66
## 35     Retail         109719.28              715           11
## 36      Salud         138732.60              240           59
## 37 Tecnología         432756.36              693           68
## 38     Retail         116658.37              151          100
## 39      Salud         375274.20              254           42
## 40     Retail         325859.70              637           77
## 41     Retail         494350.52               54          100
## 42      Salud         336257.45              975           23
## 43      Salud         284606.14              724           22
## 44 Tecnología         245410.28              760            9
## 45  Educación         231910.39              130           20
## 46      Salud         348900.10              417           39
## 47     Retail          85688.72              108           25
## 48 Tecnología         328606.37              577           12
## 49  Educación          63531.78              903           11
## 50      Salud         335947.84              233           17
muestra_salud <- muestra %>%
  filter(Sector == "Salud")

muestra_salud
##    Sector Facturacion_Total Clientes_Activos Devoluciones
## 1   Salud          296081.9              147           22
## 2   Salud          155378.5              767           26
## 3   Salud          125227.2              521           85
## 4   Salud          449788.5              185           67
## 5   Salud          368815.2              893           97
## 6   Salud          426084.1              724           56
## 7   Salud          213115.3              669           42
## 8   Salud          448497.3              741           66
## 9   Salud          138732.6              240           59
## 10  Salud          375274.2              254           42
## 11  Salud          336257.5              975           23
## 12  Salud          284606.1              724           22
## 13  Salud          348900.1              417           39
## 14  Salud          335947.8              233           17
media_facturacion_salud <- mean(muestra_salud$Facturacion_Total)

sd_facturacion_salud <- sd(muestra_salud$Facturacion_Total)

n_salud <- nrow(muestra_salud)

error_media_salud <- qt(0.975, df = n_salud - 1) *
  sd_facturacion_salud / sqrt(n_salud)

IC_media_salud <- c(
  media_facturacion_salud - error_media_salud,
  media_facturacion_salud + error_media_salud
)

cat(
  "Intervalo de confianza para la media poblacional de la facturación total en el sector Salud:",
  round(IC_media_salud[1], 2),
  "-",
  round(IC_media_salud[2], 2)
)
## Intervalo de confianza para la media poblacional de la facturación total en el sector Salud: 243221.1 - 371451.3

La empresa también desea estimar el porcentaje de clientes activos en el sector Tecnología. Se selecciona una muestra aleatoria de 50 registros y se analiza cuántos pertenecen al sector Tecnología dentro de la muestra.

Con base en estos datos, se requiere:

Calcular un intervalo de confianza al 95% para la proporción poblacional de registros correspondientes al sector Tecnología. Analizar si esta proporción indica una participación representativa del sector dentro de la base de datos. Datos Población: 100 registros totales Muestra: n=50 registros seleccionados aleatoriamente Proporción muestral ( p ^ ​

): calculada con la muestra Nivel de confianza: 95%

set.seed(123)

muestra <- datos %>%
  sample_n(50)

muestra
##        Sector Facturacion_Total Clientes_Activos Devoluciones
## 1  Tecnología         311915.97              922           89
## 2  Tecnología         253364.80               54           62
## 3   Educación         384801.45              810           57
## 4  Tecnología         151840.40               62           21
## 5   Educación         276819.31              748           31
## 6   Educación          49915.37              688           26
## 7       Salud         296081.92              147           22
## 8   Educación         361716.28              630           15
## 9   Educación         309280.35               83           13
## 10 Tecnología         355121.10              871           80
## 11  Educación         487661.79              141           57
## 12 Tecnología         282981.55              851           69
## 13      Salud         155378.51              767           26
## 14 Tecnología          74896.18              718           68
## 15     Retail         232388.36              949           95
## 16 Tecnología          24377.16              967           36
## 17      Salud         125227.25              521           85
## 18      Salud         449788.51              185           67
## 19  Educación          91315.95               85           12
## 20  Educación         257826.07              257           18
## 21 Tecnología         281648.63              372           98
## 22     Retail         223677.24              804           63
## 23  Educación         156588.89              357           61
## 24  Educación         470346.92              837           56
## 25     Retail          83454.77              423           35
## 26      Salud         368815.25              893           97
## 27 Tecnología         321193.82              826           67
## 28     Retail         381504.48              916          100
## 29     Retail         307701.68              462            4
## 30  Educación         178946.63              596           37
## 31      Salud         426084.13              724           56
## 32      Salud         213115.33              669           42
## 33  Educación         166424.74              115           89
## 34      Salud         448497.35              741           66
## 35     Retail         109719.28              715           11
## 36      Salud         138732.60              240           59
## 37 Tecnología         432756.36              693           68
## 38     Retail         116658.37              151          100
## 39      Salud         375274.20              254           42
## 40     Retail         325859.70              637           77
## 41     Retail         494350.52               54          100
## 42      Salud         336257.45              975           23
## 43      Salud         284606.14              724           22
## 44 Tecnología         245410.28              760            9
## 45  Educación         231910.39              130           20
## 46      Salud         348900.10              417           39
## 47     Retail          85688.72              108           25
## 48 Tecnología         328606.37              577           12
## 49  Educación          63531.78              903           11
## 50      Salud         335947.84              233           17
muestra_tecnologia <- muestra %>%
  filter(Sector == "Tecnología")

muestra_tecnologia
##        Sector Facturacion_Total Clientes_Activos Devoluciones
## 1  Tecnología         311915.97              922           89
## 2  Tecnología         253364.80               54           62
## 3  Tecnología         151840.40               62           21
## 4  Tecnología         355121.10              871           80
## 5  Tecnología         282981.55              851           69
## 6  Tecnología          74896.18              718           68
## 7  Tecnología          24377.16              967           36
## 8  Tecnología         281648.63              372           98
## 9  Tecnología         321193.82              826           67
## 10 Tecnología         432756.36              693           68
## 11 Tecnología         245410.28              760            9
## 12 Tecnología         328606.37              577           12
num_tecnologia <- nrow(muestra_tecnologia)

n <- nrow(muestra)

p_tecnologia <- num_tecnologia / n

error_p <- qnorm(0.975) *
  sqrt((p_tecnologia * (1 - p_tecnologia)) / n)

IC_p_tecnologia <- c(
  p_tecnologia - error_p,
  p_tecnologia + error_p
)

cat(
  "Proporción de registros del sector Tecnología:",
  round(p_tecnologia, 4),
  "\n"
)
## Proporción de registros del sector Tecnología: 0.24
cat(
  "Intervalo de confianza al 95%:",
  round(IC_p_tecnologia[1], 4),
  "-",
  round(IC_p_tecnologia[2], 4)
)
## Intervalo de confianza al 95%: 0.1216 - 0.3584
cat("Tamaño de la muestra (n):", n, "\n")
## Tamaño de la muestra (n): 50
cat(
  "La proporción muestral de registros del sector Tecnología en la muestra fue de:",
  round(p_tecnologia, 4),
  "\n"
)
## La proporción muestral de registros del sector Tecnología en la muestra fue de: 0.24

Una empresa desea comparar el promedio de facturación total de las empresas pertenecientes a los sectores Salud y Tecnología para determinar si existe una diferencia significativa entre ambos sectores.

Para ello, se seleccionan muestras aleatorias de empresas de cada sector y se registra su facturación total.

Con base en estos datos, se requiere:

Calcular un intervalo de confianza al 95% para la diferencia de medias poblacionales de la facturación total entre los sectores Salud y Tecnología. Interpretar el intervalo obtenido y evaluar si existe una diferencia significativa entre ambos sectores. Datos Muestra del sector Salud: n Salud ​

empresas Muestra del sector Tecnología: n Tecnolog ı ˊ a ​

empresas Media muestral en Salud: X ˉ Salud ​

Media muestral en Tecnología: X ˉ Tecnolog ı ˊ a ​

Desviación estándar en Salud: s Salud ​

Desviación estándar en Tecnología: s Tecnolog ı ˊ a ​

Nivel de confianza: 95% Cálculo del Intervalo de Confianza para la Diferencia de Medias

El intervalo de confianza para la diferencia de medias se calcula mediante:

IC=( X ˉ Salud ​

− X ˉ Tecnolog i ˊ a ​

)±t α/2 ​

n Salud ​

s Salud 2 ​

s Tecnolog i ˊ a 2 ​

​

​

Donde:

t α/2 ​

es el valor crítico de la distribución t de Student s Salud 2 ​

y s Tecnolog ı ˊ a 2 ​

representan las varianzas muestrales n Salud ​

y n Tecnolog ı ˊ a ​

corresponden a los tamaños de muestra

datos_salud <- filter(datos, Sector == "Salud")

datos_tecnologia <- filter(datos, Sector == "Tecnología")


media_salud <- mean(datos_salud$Facturacion_Total)

media_tecnologia <- mean(datos_tecnologia$Facturacion_Total)


sd_salud <- sd(datos_salud$Facturacion_Total)

sd_tecnologia <- sd(datos_tecnologia$Facturacion_Total)


n_salud <- nrow(datos_salud)

n_tecnologia <- nrow(datos_tecnologia)


diff_medias <- media_salud - media_tecnologia


error_diff <- sqrt(
  (sd_salud^2 / n_salud) +
  (sd_tecnologia^2 / n_tecnologia)
)


df_welch <- (
  (sd_salud^2 / n_salud +
   sd_tecnologia^2 / n_tecnologia)^2
) /
(
  ((sd_salud^2 / n_salud)^2 / (n_salud - 1)) +
  ((sd_tecnologia^2 / n_tecnologia)^2 / (n_tecnologia - 1))
)


t_critico <- qt(0.975, df = df_welch)


IC_diff_medias <- c(
  diff_medias - t_critico * error_diff,
  diff_medias + t_critico * error_diff
)


cat(
  "Media de facturación en el sector Salud:",
  round(media_salud, 2),
  "\n"
)
## Media de facturación en el sector Salud: 282031.7
cat(
  "Media de facturación en el sector Tecnología:",
  round(media_tecnologia, 2),
  "\n"
)
## Media de facturación en el sector Tecnología: 290927.8
cat(
  "Diferencia de medias de facturación entre Salud y Tecnología:",
  round(diff_medias, 2),
  "\n"
)
## Diferencia de medias de facturación entre Salud y Tecnología: -8896.14
cat(
  "El intervalo de confianza (95%) para la diferencia de medias de facturación a nivel poblacional entre los sectores Salud y Tecnología es de:",
  round(IC_diff_medias[1], 2),
  "a",
  round(IC_diff_medias[2], 2),
  "\n"
)
## El intervalo de confianza (95%) para la diferencia de medias de facturación a nivel poblacional entre los sectores Salud y Tecnología es de: -81285.85 a 63493.57

Una empresa desea evaluar la variabilidad en la facturación total de las empresas del sector Salud. Para ello, se selecciona una muestra aleatoria de empresas y se registra su facturación total.

Dado que la variabilidad en la facturación es importante para analizar la estabilidad financiera del sector, se requiere:

Calcular un intervalo de confianza al 95% para la varianza poblacional de la facturación total en el sector Salud. Interpretar el intervalo obtenido y evaluar si la dispersión de la facturación es aceptable. Datos Población: 100 registros totales Muestra: registros correspondientes al sector Salud Varianza muestral (s 2 ): calculada con la muestra Nivel de confianza: 95% Fórmula del intervalo de confianza para la varianza

IC=( χ α/2 2 ​

(n−1)s 2 ​

, χ 1−α/2 2 ​

(n−1)s 2 ​

)

Donde:

n es el tamaño de la muestra s 2 es la varianza muestral χ 2 corresponde a la distribución chi-cuadrado

varianza_salud <- var(datos_salud$Facturacion_Total)

n_salud <- nrow(datos_salud)

gl <- n_salud - 1


chi2_inf <- qchisq(0.975, df = gl)

chi2_sup <- qchisq(0.025, df = gl)


IC_varianza_salud <- c(
  (gl * varianza_salud) / chi2_inf,
  (gl * varianza_salud) / chi2_sup
)


cat(
  "Varianza muestral de la facturación en el sector Salud:",
  round(varianza_salud, 4),
  "\n"
)
## Varianza muestral de la facturación en el sector Salud: 20612434789
cat(
  "Intervalo de confianza (95%) para la varianza poblacional de la facturación en el sector Salud:",
  round(IC_varianza_salud[1], 4),
  "a",
  round(IC_varianza_salud[2], 4),
  "\n"
)
## Intervalo de confianza (95%) para la varianza poblacional de la facturación en el sector Salud: 12783463256 a 38711859494

Una empresa desea comparar la variabilidad en la facturación total de las empresas de los sectores Salud y Tecnología. Para ello, se analizan muestras de empresas pertenecientes a ambos sectores y se calcula la varianza de su facturación total.

Con base en estos datos, se requiere:

Calcular un intervalo de confianza al 95% para la razón de varianzas poblacionales entre los sectores Salud y Tecnología. Interpretar el intervalo obtenido y evaluar si la variabilidad en la facturación es significativamente diferente entre ambos sectores. Datos Muestra en Salud: n Salud ​

empresas Muestra en Tecnología: n Tecnolog ı ˊ a ​

empresas Varianza muestral en Salud: s Salud 2 ​

Varianza muestral en Tecnología: s Tecnolog ı ˊ a 2 ​

Nivel de confianza: 95% Cálculo del Intervalo de Confianza para la Razón de Varianzas

IC=( s Tecnolog i ˊ a 2 ​

s Salud 2 ​

× F 1−α/2,n Salud ​

−1,n Tecnolog i ˊ a ​

−1 ​

1 ​

, s Tecnolog i ˊ a 2 ​

s Salud 2 ​

×F α/2,n Salud ​

−1,n Tecnolog i ˊ a ​

−1 ​

)

Donde:

F α/2 ​

y F 1−α/2 ​

son valores críticos de la distribución F s Salud 2 ​

y s Tecnolog ı ˊ a 2 ​

representan las varianzas muestrales n Salud ​

−1 y n Tecnolog ı ˊ a ​

−1 corresponden a los grados de libertad

var_salud <- var(datos_salud$Facturacion_Total)

var_tecnologia <- var(datos_tecnologia$Facturacion_Total)


n_salud <- nrow(datos_salud)

n_tecnologia <- nrow(datos_tecnologia)


F_stat <- var_salud / var_tecnologia


F_inf <- qf(
  0.975,
  df1 = n_salud - 1,
  df2 = n_tecnologia - 1
)

F_sup <- qf(
  0.025,
  df1 = n_salud - 1,
  df2 = n_tecnologia - 1
)


IC_F <- c(
  F_stat / F_inf,
  F_stat * F_sup
)


cat(
  "Varianza muestral de la facturación en el sector Salud:",
  round(var_salud, 4),
  "\n"
)
## Varianza muestral de la facturación en el sector Salud: 20612434789
cat(
  "Varianza muestral de la facturación en el sector Tecnología:",
  round(var_tecnologia, 4),
  "\n"
)
## Varianza muestral de la facturación en el sector Tecnología: 12799179835
cat(
  "Razón de varianzas (Salud / Tecnología):",
  round(F_stat, 4),
  "\n"
)
## Razón de varianzas (Salud / Tecnología): 1.6104
cat(
  "Intervalo de confianza (95%) para la razón de varianzas entre Salud y Tecnología:",
  round(IC_F[1], 4),
  "a",
  round(IC_F[2], 4),
  "\n"
)
## Intervalo de confianza (95%) para la razón de varianzas entre Salud y Tecnología: 0.7075 a 0.7221