En este documento vamos a desarrollar el SEGUNDO TRABAJO DE ESTADISTICA en el cual realizaremos ejercicios los cuales nos permitiran aprender mucho mas del manejo de R MARKDOWN.
| VARIABLE | TIPO DE VARIABLE |
|-----------------------------------------|---------------------|
|Tiempo de falla de un articulo |cuantitativa-continua|
|Profesión de una persona |cualitativa-nominal |
|Número de cliente en espera de atención |cuantitativa-discreta|
|Clasificación tipo de clientes | cualitativa-nominal |
|Calificación de la calidad de un producto| cualitativa-ordinal |
|Cantidad de artículos defectuosos |cuantitativa-discreta|
PUNTUACION<- c(6, 4, 8, 5, 6, 8, 7, 4, 7, 6, 5, 6, 6, 7, 8, 7, 9, 7, 5, 6)
tabla_frecuencia <- table(PUNTUACION)
frecuencia_abs_acum <- cumsum(tabla_frecuencia)
frecuencia_relativa <- prop.table(tabla_frecuencia)
frecuencia_relativa_acum <-cumsum(frecuencia_relativa)
tabla_resultados <- data.frame(Datos = names(tabla_frecuencia),
Frecuencia_Absoluta = as.numeric(tabla_frecuencia),Frecuencia_Absoluta_Acumulada = frecuencia_abs_acum, Frecuencia_Relativa = as.numeric(frecuencia_relativa), Frecuencia_Relativa_Acumulada = frecuencia_relativa_acum)
knitr::kable(tabla_resultados, caption = "Tabla de Frecuencia", format = "markdown")
| Datos | Frecuencia_Absoluta | Frecuencia_Absoluta_Acumulada | Frecuencia_Relativa | Frecuencia_Relativa_Acumulada | |
|---|---|---|---|---|---|
| 4 | 4 | 2 | 2 | 0.10 | 0.10 |
| 5 | 5 | 3 | 5 | 0.15 | 0.25 |
| 6 | 6 | 6 | 11 | 0.30 | 0.55 |
| 7 | 7 | 5 | 16 | 0.25 | 0.80 |
| 8 | 8 | 3 | 19 | 0.15 | 0.95 |
| 9 | 9 | 1 | 20 | 0.05 | 1.00 |
# GRAFICA
barplot(tabla_frecuencia,
main = "GRAFICO DE BARRAS ",
xlab = "PUNTUACIONES",
ylab = "FRECUENCIA ADSOLUTA ",
col = "blue",
border = "black",
ylim = c(0, max(tabla_frecuencia) + 1))
3.Los siguientes datos representan la vida útil, en meses de dos tipos de baterias.
A<-c(33.7, 34.5, 26.3, 32.8, 27.6, 30.4, 31.9, 41.4, 35.0, 31.5, 27.2, 35.4, 29.7, 39.2, 36.4)
B<-c(30.6, 22.7, 26.8, 38.7, 28.9, 44.4, 36.4, 40.2, 35.9, 37.3, 53.2, 45.0, 36.7, 45.2, 25.3)
3.1 Calcule La media, mediana y desviación típica para el tiempo de
vida de las baterias para cada marcas
3.2 Hallar los cuartiles 1 y 3 , para los tiempo de vida registrados en
ambas marcas.
3.3 gráfique los boxplot para los datos de ambas marcas en un mismo
plano, compare y concluya con lo presentado en ambos gráficos
# MEDIA DE LA MARCA A
mean(A)
## [1] 32.86667
# MEDIANA DE LA MARCA A
median(A)
## [1] 32.8
#DESVIACION TIPICA DE LA MARCA A
sd(A)
## [1] 4.322973
# MEDIA DE LA MARCA B
mean(B)
## [1] 36.48667
# MEDIANA DE LA MARCA B
median(B)
## [1] 36.7
# DESVIACION TIPICA DE LA MARCA B
sd(B)
## [1] 8.499401
# CUARTIL 1 DE LA MARCA A
quantile(A,0.25)
## 25%
## 30.05
# CUARTIL 3 DE LA MARCA A
quantile(A,0.75)
## 75%
## 35.2
# CUARTIL 1 DE LA MARCA B
quantile(B,0.25)
## 25%
## 29.75
# CUARTIL 3 DE LA MARCA B
quantile(B,0.75)
## 75%
## 42.3
boxplot(A, col="blue", main="DISTRIBUCION DEL TIEMPO DE VIDA LAS BATERIAS DE LA MARCA A")
boxplot(B, col="green", main="DISTRIBUCION DEL TIEMPO DE VIDA LAS BATERIAS DE LA MARCA B")
1 El boxplot muestra que la mediana (línea central en el rectángulo) de la vida útil de las baterías de la marca B es más alta que la mediana de la marca A, lo que sugiere que las baterías de la marca B tienden a durar más en promedio que las de la marca A.
2 La caja (intercuartil) de la marca A es más estrecha que la de la marca B, lo que indica que la variabilidad en la vida útil de las baterías de la marca A es menor en comparación con la marca B. Esto podría indicar una mayor consistencia en la calidad o durabilidad de las baterías de la marca A.
Las compañías eléctricas requieren información sobre el consumo de los clientes para obtener pronósticos precisos de demandas. Investigadores de Wisconsin Power and Light determinaron el consumo de energía (kwh) durante un periodo particular con una muestra de 30 establecimientos comerciales.
datosb <- c(233, 345, 363, 428, 276, 404, 359, 414, 450, 285, 372, 314, 297, 503, 364, 407, 227, 458, 387,289,544, 328, 402, 265, 513, 532, 450, 337, 327, 479)
4.1 Agrupe los datos en intervalos de frecuencia y obtenga tres conclusiones de los observado en dicha agrupación
rango_datosb <- range(datosb)
rango_total <- diff(rango_datosb)
# Calcular el número de intervalos usando la regla de Sturges
num_intervalos <- ceiling(1 + log2(length(datosb)))
# Calcular la amplitud de los intervalos
amplitud <- ceiling(rango_total / num_intervalos)
# Crear los intervalos para agrupar los datos
intervalos <- seq(from = min(datosb), to = max(datosb) + amplitud, by = amplitud)
# Crear una tabla de frecuencias
tabla_frecuencia <- table(cut(datosb, breaks = intervalos, right = FALSE))
frecuencia_abs_acum <- cumsum(tabla_frecuencia)
# Convertir la tabla de frecuencias a un data frame para mejor presentación
df_frecuencia <- as.data.frame(tabla_frecuencia)
df_frecuencia$Frecuencia_Absoluta_Acumulada <- frecuencia_abs_acum
# Calcular la desviación estándar de los datos
sd_datosb <- sd(datosb)
# Imprimir los resultados
knitr::kable(df_frecuencia, caption = "Tabla de Frecuencia", format = "markdown")
| Var1 | Freq | Frecuencia_Absoluta_Acumulada |
|---|---|---|
| [227,280) | 4 | 4 |
| [280,333) | 6 | 10 |
| [333,386) | 6 | 16 |
| [386,439) | 6 | 22 |
| [439,492) | 4 | 26 |
| [492,545) | 4 | 30 |
#rango
rango_total
## [1] 317
# deviacion estandar
sd_datosb
## [1] 87.29087
#amplitud
amplitud
## [1] 53
• Mas del 50% de los establecimientos tienen un consumo menor a 386kwh, en pocas palabras tienen un consumo de enegia mmoderado en comparacion a los demas establecimientos.
• Se observan algunos valores significativamente más altos, especialmente en el intervalo de 492 a 545 kWh. Esto indica que estos establecimiento tienen un consumo notablemente alto.
• La presencia de valores distribuidos en un rango amplio (desde 227 hasta 544 kWh) y la desviación estándar alta sugieren una variabilidad considerable en el consumo de energía entre los diferentes establecimientos comerciales.
4.2 Determine la media , la mediana y percentil 90 y 10 para los datos agrupados (Interprete los resultados)
mediana<-(333)+((15-10)/6)*amplitud
#mediana
mediana # esta es la mediana de los datos agrupados
## [1] 377.1667
media<- ((253.5*4)+(306.5*6)+(359.5*6)+(412.5*6)+(465.5*4)+(518.5*4))/30
#media
media # este fue el promedio de los datos agrupados
## [1] 380.7
percentil10<- (227) + (((((10*30)/100)-0)/6)*amplitud)
#percentil 10
percentil10 #el 10% de los establecimientos tuvieron un consumo menor o igual a este
## [1] 253.5
percentil90<- (386)+(((((90*30)/100)-16)/6)*amplitud)
# percentil 90
percentil90 #el 90% de los establecimientos tuvieron un consumo menor o igual a este
## [1] 483.1667
4.3 Realizar el histograma de frecuencia y el gráfco de la ojiva “menor que”
hist(datosb, main = "HISTOGRAMA ",
xlab = "consumo en (kwh)",
ylab = "frecuencia ",
col = "green",)
plot(datosb, type = "o", col = "blue",
main = "OJIVA", xlab = "FRECUENCIA ABSOLUTA ACUMULADA", ylab = "CONSUMO EN (KWH)")
4.4 calcule el coefciente de Asimetría para datos agrupados, ¿parecen ser los datos asimetricos? explique su respuesta
coef_asimetria <- (3 * (media - mediana)) /sd_datosb
# coeficiente de asimetria
coef_asimetria
## [1] 0.1214331
Si hay una leve asimétrica hacia la derecha, lo que significa que hay una cola más larga en el extremo superior de los datos, aunque la desviación de la simetría es mínima. Esto sugiere que la mayoría de los valores se agrupan hacia el extremo inferior, con algunos valores atípicos más altos, y que la media es ligeramente mayor que la mediana.