Trabajo Estadística I.
                                            Universidad de Córdoba.
                                         Programa Ingeniería Industrial
                           Abraham David Padilla Naranjo Y Samuel Funieles Avila

En esta nueva publicación que realizaremos se hará la transcripción del primer trabajo de Estadística I, que será tomado como nota final del segundo corte, con el objetivo de poder profundizar sobre el uso de R, Rstudio y sobre la utilizad de RMarkdow.

1. De las siguientes variables indique cuales son cualitativas (ordinal o nominal), o cuantitativa(discreta o continua).

Variables Tipos de Variables
Tiempo de falla de un articulo Cuantitativa continua
Profesión de una persona Cualitativa nominal
Número de cliente en espera de atención Cuantitativa discreta
Clasificación tipo de clientes Cualitativa nominal
Calificación de la calidad de un producto Cualitativa ordinal
Cantidad de artículos defectuosos Cuantitativa discreta

2. Se les pidió a 20 consumidores que probaran una nueva marca de café y que las calificarán del 1 al 10 de acuerdo con su gusto, donde 1 es de poco gusto y 10 es excesivamente delicioso las puntuaciones fueron.

La fila donde van los numeros del 1 al 20(CON) es los consumidores de la marca del cafe.
La fila que esta debajo son las puntuaciones que le dio cada persona(PUN).
CON 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUN 6 4 8 5 6 8 7 4 7 6 5 6 6 7 8 7 9 7 5 6
Construya una tabla de frecuencia simple y dibuje el diagrama de barra.
P <-c(6, 4, 8, 5, 6, 8, 7, 4, 7, 6, 5, 6, 6, 7, 8, 7, 9, 7, 5, 6)

#Tabla de frecuencia.
tabla_frec <- table(P)

#####Frecuencias de la tabla.
fre_abso <- cumsum(tabla_frec)      
fre_rela <- prop.table(tabla_frec)          
fre_relat_acum <-cumsum(fre_rela)               


#####Tabla creada completamente.
ta_compl <-(data.frame(Puntuacion = names(tabla_frec),
    fi = as.numeric(tabla_frec),Fi = fre_abso,hi = as.numeric(fre_rela),Hi = fre_relat_acum*100))
knitr::kable(ta_compl, caption = "Tabla de Frecuencia Puntuacion del cafe")
Tabla de Frecuencia Puntuacion del cafe
Puntuacion fi Fi hi Hi
4 4 2 2 0.10 10
5 5 3 5 0.15 25
6 6 6 11 0.30 55
7 7 5 16 0.25 80
8 8 3 19 0.15 95
9 9 1 20 0.05 100

Diagrama de barra.

barplot(tabla_frec,main = "Grafica puntuacion del cafe ",xlab = "Puntaje",ylab = "Votos",col = "yellow",
ylim = c(0, max(tabla_frec) + 1))

3. Los siguientes datos representan la vida útil, en meses, de dos tipos de baterias.

Marca A 33.7 34.5 26.3 32.8 27.6 30.4 31.9 41.4 35.0 31.5 27.2 35.4 29.7 39.2 36.4
Marca B 30.6 22.7 26.8 38.7 28.9 44.4 36.4 40.2 35.9 37.3 53.2 45.0 36.7 45.2 25.3
(i) Calcule La media, mediana y desviación típica para el tiempo de vida de las baterias para cada marcas.
(ii) Hallar los cuartiles 1 y 3 , para los tiempo de vida registrados en ambas marcas.
(iii) gráfique los boxplot para los datos de ambas marcas en un mismo plano, compare y concluya con lo presentado en ambos gráficos.
MA <- c(33.7, 34.5, 26.3, 32.8, 27.6, 30.4, 31.9, 41.4, 35.0, 31.5, 27.2, 35.4, 29.7, 39.2, 36.4)

MB <- c(30.6, 22.7, 26.8, 38.7, 28.9, 44.4, 36.4, 40.2, 35.9, 37.3, 53.2, 45.0, 36.7, 45.2, 25.3)
(i) Calcular media, mediana y desviacion típica.
Marca A.
#Media.
mean(MA)
## [1] 32.86667
#Mediana. 
median(MA)
## [1] 32.8
#Desviacion tipica. 
sd(MA)
## [1] 4.322973
Marca B.
#Media. 
mean(MB)
## [1] 36.48667
#Mediana. 
median(MB)
## [1] 36.7
#Desviacion tipica. 
sd(MB)
## [1] 8.499401
(ii) Hallar cuartiles 1 y 3.
Cuartil 1 y 3 Marca A.
#Cuartil 1 - Es el cuartil correspondiente al 25%.
quantile(MA,0.25)
##   25% 
## 30.05
#Cuartil 3 - Es el cuartil correspondiente al 75%.
quantile(MA,0.75)
##  75% 
## 35.2
Cuartil 1 y 3 Marca B.
#Cuartil 1 - Es el cuartil correspondiente al 25%.
quantile(MB,0.25)
##   25% 
## 29.75
#Cuartil 3 - Es el cuartil correspondiente al 75%.
quantile(MB,0.75)
##  75% 
## 42.3
(iii) Graficos Boxplot.
par(mfrow = c(1, 2))

#Grafico Marca A.
boxplot(MA,col ="pink",main= "Marca A") #Izquierda.

#Grafico Marca B
boxplot(MB,col= "orange", main= "Marca B") #Derecha.

Conclusiones:

En base a los datos del diagrama, se puede concluir que la marca B tiene una vida útil promedio más larga y una variabilidad de vida útil menor que la marca A. Esto significa que los productos de la marca B son más confiables y duran más tiempo en promedio que los productos de la marca A. Sin embargo, es importante tener en cuenta que la vida útil real de un producto puede variar dependiendo de varios factores, como el uso que se le dé y las condiciones en las que se almacene.

4. Las compañías eléctricas requieren información sobre el consumo de los clientes para obtener pronósticos precisos de demandas. Investigadores de Wisconsin Power and Light determinaron el consumo de energía (kwh) durante un periodo particular con una muestra de 30 establecimientos comerciales.

223 345 363 428 276 404 359 414 450 285 372 314 297 503 364
407 227 458 387 289 544 328 402 265 513 532 450 337 327 479
(i) Agrupe los datos en intervalos de frecuencia y obtenga tres conclusiones de los observado en dicha agrupación.
(ii) Determine la media , la mediana y percentil 90 y 10 para los datos agrupados (Interprete los resultados).
(iii) Realizar el histograma de frecuencia y el gráfico de la ojiva “menor que”.
(iv) calcule el coeficiente de Asimetría para datos agrupados, ¿parecen ser los datos asimetricos? explique su respuesta.
datcon <-c(233, 345, 363, 428, 276, 404, 359, 414, 450, 285, 372, 314, 297, 503, 364, 407, 227, 458, 387, 289, 544, 328, 402, 265, 513, 532, 450, 337, 327, 479)
(i) Agrupacion de los datos, creacion de tablas con frecuencia y sacar 3 conclusiones.
#Asi creamos una tabla para datos agrupados.

# A) Calculamos el Rango.
rango <- max(datcon) - min(datcon)

# B) Se calcula por la regla de Sturges los intervalos.
k <- 1 + 3.322 * log10(length(datcon))
k <- round(k)

# C) Se calcula la amplitud de los intervalos.
am <- rango / k

# D) Creamos los intervalos.
inte <- seq(min(datcon), max(datcon), by = am)

# E) Creamos la tabla de frecuencia.
tab_free <- cut(datcon, breaks = inte, right = FALSE, include.lowest = TRUE)
tab_frecuencia <- table(tab_free)

# F) Calculamos las frecuencias de la tabla.
fre_abso <- cumsum(tab_frecuencia)
fre_rela <- prop.table(tab_frecuencia)
fre_relat_acum <- cumsum(fre_rela)

# Tabla final con todas las frecuencias y datos relevantes.
tab <- data.frame(Energia = names(tab_frecuencia),
                  fi = as.numeric(tab_frecuencia),
                  Fi = fre_abso,
                  hi = round(as.numeric(fre_rela), 2),
                  Hi = round(fre_relat_acum * 100, 0),
                  Xi = round((inte[-1] + inte[-length(inte)]) / 2, 1))

# Mostramos la tabla.
knitr::kable(tab, caption = "Tabla de Frecuencia Consumo Energía kWh")
Tabla de Frecuencia Consumo Energía kWh
Energia fi Fi hi Hi Xi
[227,280) [227,280) 4 4 0.13 13 253.4
[280,333) [280,333) 6 10 0.20 33 306.2
[333,386) [333,386) 6 16 0.20 53 359.1
[386,438) [386,438) 6 22 0.20 73 411.9
[438,491) [438,491) 4 26 0.13 87 464.8
[491,544] [491,544] 4 30 0.13 100 517.6

Conclusiones:

1 El consumo de energía de los establecimientos comerciales varía considerablemente. La tabla muestra que el consumo de energía de los establecimientos comerciales varía entre 227 kWh y 545 kWh durante el período de estudio esto significa que algunos establecimientos consumen más del doble de energía que otros.
2 La mayoría de los establecimientos comerciales se encuentran en el rango de consumo de 280 kWh a 439 kWh. Concluimos de los resultados dados por la tabla que 18 de los 30 establecimientos comerciales (60%) se encuentran en este rango de consumo. Esto sugiere que este es el rango de consumo más común para los establecimientos comerciales.
3 Los establecimientos comerciales con un consumo de energía superior a 439 kWh representan el 20% del total, mediante el analisis de la tabla muestra que 6 de los 30 establecimientos comerciales (20%) se encuentran en este rango de consumo. Esto sugiere que estos establecimientos son los que más energía consumen y que representan una oportunidad significativa para el ahorro de energía.
(ii) Determine la media , la mediana y percentil 90 y 10 para los datos agrupados (Interprete los resultados)
#Media la encontramos con esta formula = Σ(xi * fi) / n
#xi = es la marca de clase de cada intervalo.
#fi = es la frecuencia absoluta de cada intervalo.
#n = es el total de datos.

med <- round(((253.5*4)+(306.5*6)+(359.5*6)+(412.5*6)+(465.5*4)+(518.5*4))/30, 3)
med
## [1] 380.7
#Mediana se encuentra con esta formula me = Li + (N/2)-(Fi-1)/fi * A
#Li = es el límite inferior del intervalo donde se encuentra la mediana(333).
#n = es el total de datos(30/2) = 15.
#Fi-1 = es la frecuencia acumulada del intervalo anterior al que contiene la mediana(10).
#fi = es la frecuencia absoluta del intervalo donde se encuentra la mediana(6).
#A = amplitud.

mediana <- round(333+((15 - 10)/6) * am, 3)
mediana
## [1] 377.028
#Perceptil 90 se encuentra con la siguiente formula Pk = Li + (((k*n)/100-Fi-1)/fi) * h
#Li = es el límite inferior de la clase donde se encuentra el percentil k(386).
#k = es el número del percentil(90).
#n = es el número total de datos(30).
#Fi-1 = es la frecuencia acumulada anterior a la clase del percentil(16).
#fi = es la frecuencia de la clase donde se encuentra el percentil(6).
#h = amplitud.

P90 <- round(386+((((90 * 30)/100-16)/6)*am), 2)
P90
## [1] 482.86
#Perceptil 10 se encuentra con la misma formula mencionada anteriormente en el P90(Pk = Li + (((k*n)/100-Fi-1)/fi) * h), solo que ahora cambian algunos valores de acuerdo a lo que se desee encontrar el esto quedan iguales. se cambian estos:
#Li = 227
#k = 10
#Fi-1 = 0
P10 <- round((227+(((10 * 30)/100-0)/6)*am), 2)
P10
## [1] 253.42
(iii) Realizar el histograma de frecuencia y el gráfico de la ojiva “menor que”.
#Histograma
 hist(datcon, main = "Grafico Histograma Consumo", ylab = "Locales Comerciales(Fi)", xlab = "Energia consumida(Kwh)", col = "#FFDEAD")

#Ojiva
plot(datcon, type = "o", main = "Grafico Ojiva Consumo", xlab = "Locales comerciales(Fi)", ylab = "Energia consumida(Kwh)",col = "#D02090")

(iv) calcule el coeficiente de Asimetría para datos agrupados, ¿parecen ser los datos asimetricos? explique su respuesta.
#A) Debemos hallar la desviacion estandar.
de <-round(sd(datcon), 3)
de
## [1] 87.291
#B) Hallamos el coeficiente de asimetria.
CAf <- round(3*(med - mediana)/de, 3)
CAf
## [1] 0.126

Según el valor obtenido podemos deducir que los datos son simetricos aunque tienen un pequeño margen de asimtria positiva; esto porque el coeficiente es cero (lo que indica simetria) pero no es un cero cerado entonces por eso decimos que tiende a la asimetria.