Este analisis consta de 100 observaciónes de facturas
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
datos <- read.csv("datos_negocios_extra_2_facturacion.csv")
head(datos)
## Sector Facturacion_Total Clientes_Activos Devoluciones
## 1 Retail 194658.2 819 31
## 2 Retail 151419.0 443 66
## 3 Salud 192521.7 153 58
## 4 Tecnología 403617.0 490 34
## 5 Retail 325859.7 637 77
## 6 Educación 146740.4 91 61
el resumen estadistico muestra que el promedio de
summary(datos)
## Sector Facturacion_Total Clientes_Activos Devoluciones
## Length:100 Min. : 24377 Min. : 50.0 Min. : 4.00
## Class :character 1st Qu.:154494 1st Qu.:250.5 1st Qu.: 21.75
## Mode :character Median :282315 Median :510.0 Median : 42.00
## Mean :264623 Mean :515.6 Mean : 46.57
## 3rd Qu.:363718 3rd Qu.:767.5 3rd Qu.: 68.25
## Max. :497181 Max. :977.0 Max. :100.00
library(ggplot2)
ggplot(datos, aes(x = Sector, y = Facturacion_Total, fill = Sector)) +
geom_boxplot() +
labs(title = "Distribución de Facturacion por sector",
x = "Sector",
y = "Facturacion_Total") +
theme_minimal()
Cliente_sector <- datos %>%
group_by(Sector) %>%
summarise(Clientes_Activos = sum(Clientes_Activos)) %>%
mutate(Porcentaje = (Clientes_Activos / sum(Clientes_Activos)) * 100)
print(Cliente_sector)
## # A tibble: 4 × 3
## Sector Clientes_Activos Porcentaje
## <chr> <int> <dbl>
## 1 Educación 9031 17.5
## 2 Retail 14360 27.9
## 3 Salud 13621 26.4
## 4 Tecnología 14547 28.2
ggplot(Cliente_sector, aes(x = Sector, y = Porcentaje, fill = Sector)) +
geom_col() +
labs(title = "Porcentaje de Clientes Activos por Sector",
x = "Sector",
y = "Porcentaje (%)",
fill = "Sector") +
theme_minimal()
ggplot(datos, aes(x = Sector, y = Devoluciones, fill = Sector)) +
geom_boxplot() +
labs(title = "Distribución de Devoluciones por Sector",
x = "Sector",
y = "Número de Devoluciones") +
theme_minimal()
library(scales)
ggplot(datos, aes(x = Facturacion_Total)) +
geom_histogram(binwidth = 50000,
fill = "skyblue",
color = "black",
alpha = 0.7) +
geom_density(aes(y = after_stat(density) * 50000),
color = "blue",
linewidth = 1) +
labs(title = "Distribución de la Facturación Total",
x = "Facturación Total",
y = "Frecuencia") +
scale_x_continuous(labels = comma) +
theme_minimal()
1. Calcular un intervalo de confianza al 95% para la media poblacional de la facturación total del sector Salud. Interpretar el intervalo obtenido y evaluar si es posible realizar inferencias sobre el comportamiento financiero del sector. Datos Población: 100 registros totales Muestra: n=50 registros seleccionados aleatoriamente Submuestra analizada: registros pertenecientes al sector Salud dentro de la muestra Media muestral ( X ˉ ): calculada con la variable Facturacion_Total Desviación estándar muestral (s): calculada con la submuestra del sector Salud Nivel de confianza: 95%
set.seed(123)
muestra <- datos %>%
sample_n(50)
muestra
## Sector Facturacion_Total Clientes_Activos Devoluciones
## 1 Tecnología 311915.97 922 89
## 2 Tecnología 253364.80 54 62
## 3 Educación 384801.45 810 57
## 4 Tecnología 151840.40 62 21
## 5 Educación 276819.31 748 31
## 6 Educación 49915.37 688 26
## 7 Salud 296081.92 147 22
## 8 Educación 361716.28 630 15
## 9 Educación 309280.35 83 13
## 10 Tecnología 355121.10 871 80
## 11 Educación 487661.79 141 57
## 12 Tecnología 282981.55 851 69
## 13 Salud 155378.51 767 26
## 14 Tecnología 74896.18 718 68
## 15 Retail 232388.36 949 95
## 16 Tecnología 24377.16 967 36
## 17 Salud 125227.25 521 85
## 18 Salud 449788.51 185 67
## 19 Educación 91315.95 85 12
## 20 Educación 257826.07 257 18
## 21 Tecnología 281648.63 372 98
## 22 Retail 223677.24 804 63
## 23 Educación 156588.89 357 61
## 24 Educación 470346.92 837 56
## 25 Retail 83454.77 423 35
## 26 Salud 368815.25 893 97
## 27 Tecnología 321193.82 826 67
## 28 Retail 381504.48 916 100
## 29 Retail 307701.68 462 4
## 30 Educación 178946.63 596 37
## 31 Salud 426084.13 724 56
## 32 Salud 213115.33 669 42
## 33 Educación 166424.74 115 89
## 34 Salud 448497.35 741 66
## 35 Retail 109719.28 715 11
## 36 Salud 138732.60 240 59
## 37 Tecnología 432756.36 693 68
## 38 Retail 116658.37 151 100
## 39 Salud 375274.20 254 42
## 40 Retail 325859.70 637 77
## 41 Retail 494350.52 54 100
## 42 Salud 336257.45 975 23
## 43 Salud 284606.14 724 22
## 44 Tecnología 245410.28 760 9
## 45 Educación 231910.39 130 20
## 46 Salud 348900.10 417 39
## 47 Retail 85688.72 108 25
## 48 Tecnología 328606.37 577 12
## 49 Educación 63531.78 903 11
## 50 Salud 335947.84 233 17
muestra_salud <- muestra %>%
filter(Sector == "Salud")
muestra_salud
## Sector Facturacion_Total Clientes_Activos Devoluciones
## 1 Salud 296081.9 147 22
## 2 Salud 155378.5 767 26
## 3 Salud 125227.2 521 85
## 4 Salud 449788.5 185 67
## 5 Salud 368815.2 893 97
## 6 Salud 426084.1 724 56
## 7 Salud 213115.3 669 42
## 8 Salud 448497.3 741 66
## 9 Salud 138732.6 240 59
## 10 Salud 375274.2 254 42
## 11 Salud 336257.5 975 23
## 12 Salud 284606.1 724 22
## 13 Salud 348900.1 417 39
## 14 Salud 335947.8 233 17
media_facturacion_salud <- mean(muestra_salud$Facturacion_Total)
sd_facturacion_salud <- sd(muestra_salud$Facturacion_Total)
n_salud <- nrow(muestra_salud)
error_media_salud <- qt(0.975, df = n_salud - 1) *
sd_facturacion_salud / sqrt(n_salud)
IC_media_salud <- c(
media_facturacion_salud - error_media_salud,
media_facturacion_salud + error_media_salud
)
cat(
"Intervalo de confianza para la media poblacional de la facturación total en el sector Salud:",
round(IC_media_salud[1], 2),
"-",
round(IC_media_salud[2], 2)
)
## Intervalo de confianza para la media poblacional de la facturación total en el sector Salud: 243221.1 - 371451.3
La empresa también desea estimar el porcentaje de clientes activos en el sector Tecnología. Se selecciona una muestra aleatoria de 50 registros y se analiza cuántos pertenecen al sector Tecnología dentro de la muestra.
Con base en estos datos, se requiere:
Calcular un intervalo de confianza al 95% para la proporción poblacional de registros correspondientes al sector Tecnología. Analizar si esta proporción indica una participación representativa del sector dentro de la base de datos. Datos Población: 100 registros totales Muestra: n=50 registros seleccionados aleatoriamente Proporción muestral ( p ^
): calculada con la muestra Nivel de confianza: 95%
set.seed(123)
muestra <- datos %>%
sample_n(50)
muestra
## Sector Facturacion_Total Clientes_Activos Devoluciones
## 1 Tecnología 311915.97 922 89
## 2 Tecnología 253364.80 54 62
## 3 Educación 384801.45 810 57
## 4 Tecnología 151840.40 62 21
## 5 Educación 276819.31 748 31
## 6 Educación 49915.37 688 26
## 7 Salud 296081.92 147 22
## 8 Educación 361716.28 630 15
## 9 Educación 309280.35 83 13
## 10 Tecnología 355121.10 871 80
## 11 Educación 487661.79 141 57
## 12 Tecnología 282981.55 851 69
## 13 Salud 155378.51 767 26
## 14 Tecnología 74896.18 718 68
## 15 Retail 232388.36 949 95
## 16 Tecnología 24377.16 967 36
## 17 Salud 125227.25 521 85
## 18 Salud 449788.51 185 67
## 19 Educación 91315.95 85 12
## 20 Educación 257826.07 257 18
## 21 Tecnología 281648.63 372 98
## 22 Retail 223677.24 804 63
## 23 Educación 156588.89 357 61
## 24 Educación 470346.92 837 56
## 25 Retail 83454.77 423 35
## 26 Salud 368815.25 893 97
## 27 Tecnología 321193.82 826 67
## 28 Retail 381504.48 916 100
## 29 Retail 307701.68 462 4
## 30 Educación 178946.63 596 37
## 31 Salud 426084.13 724 56
## 32 Salud 213115.33 669 42
## 33 Educación 166424.74 115 89
## 34 Salud 448497.35 741 66
## 35 Retail 109719.28 715 11
## 36 Salud 138732.60 240 59
## 37 Tecnología 432756.36 693 68
## 38 Retail 116658.37 151 100
## 39 Salud 375274.20 254 42
## 40 Retail 325859.70 637 77
## 41 Retail 494350.52 54 100
## 42 Salud 336257.45 975 23
## 43 Salud 284606.14 724 22
## 44 Tecnología 245410.28 760 9
## 45 Educación 231910.39 130 20
## 46 Salud 348900.10 417 39
## 47 Retail 85688.72 108 25
## 48 Tecnología 328606.37 577 12
## 49 Educación 63531.78 903 11
## 50 Salud 335947.84 233 17
muestra_tecnologia <- muestra %>%
filter(Sector == "Tecnología")
muestra_tecnologia
## Sector Facturacion_Total Clientes_Activos Devoluciones
## 1 Tecnología 311915.97 922 89
## 2 Tecnología 253364.80 54 62
## 3 Tecnología 151840.40 62 21
## 4 Tecnología 355121.10 871 80
## 5 Tecnología 282981.55 851 69
## 6 Tecnología 74896.18 718 68
## 7 Tecnología 24377.16 967 36
## 8 Tecnología 281648.63 372 98
## 9 Tecnología 321193.82 826 67
## 10 Tecnología 432756.36 693 68
## 11 Tecnología 245410.28 760 9
## 12 Tecnología 328606.37 577 12
num_tecnologia <- nrow(muestra_tecnologia)
n <- nrow(muestra)
p_tecnologia <- num_tecnologia / n
error_p <- qnorm(0.975) *
sqrt((p_tecnologia * (1 - p_tecnologia)) / n)
IC_p_tecnologia <- c(
p_tecnologia - error_p,
p_tecnologia + error_p
)
cat(
"Proporción de registros del sector Tecnología:",
round(p_tecnologia, 4),
"\n"
)
## Proporción de registros del sector Tecnología: 0.24
cat(
"Intervalo de confianza al 95%:",
round(IC_p_tecnologia[1], 4),
"-",
round(IC_p_tecnologia[2], 4)
)
## Intervalo de confianza al 95%: 0.1216 - 0.3584
cat("Tamaño de la muestra (n):", n, "\n")
## Tamaño de la muestra (n): 50
cat(
"La proporción muestral de registros del sector Tecnología en la muestra fue de:",
round(p_tecnologia, 4),
"\n"
)
## La proporción muestral de registros del sector Tecnología en la muestra fue de: 0.24
Una empresa desea comparar el promedio de facturación total de las empresas pertenecientes a los sectores Salud y Tecnología para determinar si existe una diferencia significativa entre ambos sectores.
Para ello, se seleccionan muestras aleatorias de empresas de cada sector y se registra su facturación total.
Con base en estos datos, se requiere:
Calcular un intervalo de confianza al 95% para la diferencia de medias poblacionales de la facturación total entre los sectores Salud y Tecnología. Interpretar el intervalo obtenido y evaluar si existe una diferencia significativa entre ambos sectores. Datos Muestra del sector Salud: n Salud
empresas Muestra del sector Tecnología: n Tecnolog ı ˊ a
empresas Media muestral en Salud: X ˉ Salud
Media muestral en Tecnología: X ˉ Tecnolog ı ˊ a
Desviación estándar en Salud: s Salud
Desviación estándar en Tecnología: s Tecnolog ı ˊ a
Nivel de confianza: 95% Cálculo del Intervalo de Confianza para la Diferencia de Medias
El intervalo de confianza para la diferencia de medias se calcula mediante:
IC=( X ˉ Salud
− X ˉ Tecnolog i ˊ a
)±t α/2
n Salud
s Salud 2
s Tecnolog i ˊ a 2
Donde:
t α/2
es el valor crítico de la distribución t de Student s Salud 2
y s Tecnolog ı ˊ a 2
representan las varianzas muestrales n Salud
y n Tecnolog ı ˊ a
corresponden a los tamaños de muestra
datos_salud <- filter(datos, Sector == "Salud")
datos_tecnologia <- filter(datos, Sector == "Tecnología")
media_salud <- mean(datos_salud$Facturacion_Total)
media_tecnologia <- mean(datos_tecnologia$Facturacion_Total)
sd_salud <- sd(datos_salud$Facturacion_Total)
sd_tecnologia <- sd(datos_tecnologia$Facturacion_Total)
n_salud <- nrow(datos_salud)
n_tecnologia <- nrow(datos_tecnologia)
diff_medias <- media_salud - media_tecnologia
error_diff <- sqrt(
(sd_salud^2 / n_salud) +
(sd_tecnologia^2 / n_tecnologia)
)
df_welch <- (
(sd_salud^2 / n_salud +
sd_tecnologia^2 / n_tecnologia)^2
) /
(
((sd_salud^2 / n_salud)^2 / (n_salud - 1)) +
((sd_tecnologia^2 / n_tecnologia)^2 / (n_tecnologia - 1))
)
t_critico <- qt(0.975, df = df_welch)
IC_diff_medias <- c(
diff_medias - t_critico * error_diff,
diff_medias + t_critico * error_diff
)
cat(
"Media de facturación en el sector Salud:",
round(media_salud, 2),
"\n"
)
## Media de facturación en el sector Salud: 282031.7
cat(
"Media de facturación en el sector Tecnología:",
round(media_tecnologia, 2),
"\n"
)
## Media de facturación en el sector Tecnología: 290927.8
cat(
"Diferencia de medias de facturación entre Salud y Tecnología:",
round(diff_medias, 2),
"\n"
)
## Diferencia de medias de facturación entre Salud y Tecnología: -8896.14
cat(
"El intervalo de confianza (95%) para la diferencia de medias de facturación a nivel poblacional entre los sectores Salud y Tecnología es de:",
round(IC_diff_medias[1], 2),
"a",
round(IC_diff_medias[2], 2),
"\n"
)
## El intervalo de confianza (95%) para la diferencia de medias de facturación a nivel poblacional entre los sectores Salud y Tecnología es de: -81285.85 a 63493.57
Una empresa desea evaluar la variabilidad en la facturación total de las empresas del sector Salud. Para ello, se selecciona una muestra aleatoria de empresas y se registra su facturación total.
Dado que la variabilidad en la facturación es importante para analizar la estabilidad financiera del sector, se requiere:
Calcular un intervalo de confianza al 95% para la varianza poblacional de la facturación total en el sector Salud. Interpretar el intervalo obtenido y evaluar si la dispersión de la facturación es aceptable. Datos Población: 100 registros totales Muestra: registros correspondientes al sector Salud Varianza muestral (s 2 ): calculada con la muestra Nivel de confianza: 95% Fórmula del intervalo de confianza para la varianza
IC=( χ α/2 2
(n−1)s 2
, χ 1−α/2 2
(n−1)s 2
)
Donde:
n es el tamaño de la muestra s 2 es la varianza muestral χ 2 corresponde a la distribución chi-cuadrado
varianza_salud <- var(datos_salud$Facturacion_Total)
n_salud <- nrow(datos_salud)
gl <- n_salud - 1
chi2_inf <- qchisq(0.975, df = gl)
chi2_sup <- qchisq(0.025, df = gl)
IC_varianza_salud <- c(
(gl * varianza_salud) / chi2_inf,
(gl * varianza_salud) / chi2_sup
)
cat(
"Varianza muestral de la facturación en el sector Salud:",
round(varianza_salud, 4),
"\n"
)
## Varianza muestral de la facturación en el sector Salud: 20612434789
cat(
"Intervalo de confianza (95%) para la varianza poblacional de la facturación en el sector Salud:",
round(IC_varianza_salud[1], 4),
"a",
round(IC_varianza_salud[2], 4),
"\n"
)
## Intervalo de confianza (95%) para la varianza poblacional de la facturación en el sector Salud: 12783463256 a 38711859494
Una empresa desea comparar la variabilidad en la facturación total de las empresas de los sectores Salud y Tecnología. Para ello, se analizan muestras de empresas pertenecientes a ambos sectores y se calcula la varianza de su facturación total.
Con base en estos datos, se requiere:
Calcular un intervalo de confianza al 95% para la razón de varianzas poblacionales entre los sectores Salud y Tecnología. Interpretar el intervalo obtenido y evaluar si la variabilidad en la facturación es significativamente diferente entre ambos sectores. Datos Muestra en Salud: n Salud
empresas Muestra en Tecnología: n Tecnolog ı ˊ a
empresas Varianza muestral en Salud: s Salud 2
Varianza muestral en Tecnología: s Tecnolog ı ˊ a 2
Nivel de confianza: 95% Cálculo del Intervalo de Confianza para la Razón de Varianzas
IC=( s Tecnolog i ˊ a 2
s Salud 2
× F 1−α/2,n Salud
−1,n Tecnolog i ˊ a
−1
1
, s Tecnolog i ˊ a 2
s Salud 2
×F α/2,n Salud
−1,n Tecnolog i ˊ a
−1
)
Donde:
F α/2
y F 1−α/2
son valores críticos de la distribución F s Salud 2
y s Tecnolog ı ˊ a 2
representan las varianzas muestrales n Salud
−1 y n Tecnolog ı ˊ a
−1 corresponden a los grados de libertad
var_salud <- var(datos_salud$Facturacion_Total)
var_tecnologia <- var(datos_tecnologia$Facturacion_Total)
n_salud <- nrow(datos_salud)
n_tecnologia <- nrow(datos_tecnologia)
F_stat <- var_salud / var_tecnologia
F_inf <- qf(
0.975,
df1 = n_salud - 1,
df2 = n_tecnologia - 1
)
F_sup <- qf(
0.025,
df1 = n_salud - 1,
df2 = n_tecnologia - 1
)
IC_F <- c(
F_stat / F_inf,
F_stat * F_sup
)
cat(
"Varianza muestral de la facturación en el sector Salud:",
round(var_salud, 4),
"\n"
)
## Varianza muestral de la facturación en el sector Salud: 20612434789
cat(
"Varianza muestral de la facturación en el sector Tecnología:",
round(var_tecnologia, 4),
"\n"
)
## Varianza muestral de la facturación en el sector Tecnología: 12799179835
cat(
"Razón de varianzas (Salud / Tecnología):",
round(F_stat, 4),
"\n"
)
## Razón de varianzas (Salud / Tecnología): 1.6104
cat(
"Intervalo de confianza (95%) para la razón de varianzas entre Salud y Tecnología:",
round(IC_F[1], 4),
"a",
round(IC_F[2], 4),
"\n"
)
## Intervalo de confianza (95%) para la razón de varianzas entre Salud y Tecnología: 0.7075 a 0.7221