data("airquality")
datos<-airquality$Temp
#PREGUNTA 1 — Limpieza ¿Existen datos faltantes? Si existen:cuántos hay? y optimiza la base
sum(is.na(datos))
## [1] 0
datos<-na.omit(datos)
#PREGUNTA 2 — Tamaño y rango Determine: tamaño de la muestra,valor mínimo,valor máximo,rango
length(datos)
## [1] 153
min(datos)
## [1] 56
max(datos)
## [1] 97
#PREGUNTA 3 — Tendencia central Calcule:media mediana
mean(datos)
## [1] 77.88235
median(datos)
## [1] 79
#PREGUNTA 4 — Dispersión Calcule: desviación estándar,varianza,coeficiente de variación
sd(datos)
## [1] 9.46527
var(datos)
## [1] 89.59133
sd(datos)/mean(datos)
## [1] 0.1215329
#PREGUNTA 5 — Probabilidades Determine: a) Probabilidad de que un dato sea mayor a la media b) Probabilidad de que un dato esté entre 50 y 100
mean(datos > mean(datos))
## [1] 0.5555556
mean(datos>50 & datos < 100)
## [1] 1
#PREGUNTA 6 — Distribución Según media y mediana:¿La distribución es simétrica, sesgada a la derecha o izquierda?
mean(datos)
## [1] 77.88235
median(datos)
## [1] 79
#PREGUNTA 7 — Cuartiles Determine: Q1,Q2,Q3
quantile(datos)
## 0% 25% 50% 75% 100%
## 56 72 79 85 97
quantile(datos,0.25)
## 25%
## 72
quantile(datos,0.50)
## 50%
## 79
quantile(datos,0.75)
## 75%
## 85
#PREGUNTA 8 — Valores atípicos Determine: ¿Existen valores atípicos? ,¿Cuántos hay?
Q1<-quantile(datos,0.25)
Q3<-quantile(datos,0.75)
IQR_val<-IQR(datos)
lim_inf<-Q1-1.5*IQR_val
lim_sup<-Q3+1.5*IQR_val
datos[datos<lim_inf|datos>lim_sup]
## integer(0)
sum(datos<lim_inf|datos>lim_sup)
## [1] 0
#PREGUNTA 9 — Frecuencias Construya:tabla de frecuencias,frecuencia relativa,frecuencia acumulada
n <- length(datos)
k <- round(1 + 3.322*log10(n))
fa<-table(cut(datos,breaks=k))
Fr<-prop.table(fa)
Fa<-cumsum(fa)
data.frame(fa=fa,Fr=Fr,Fa=Fa)
## fa.Var1 fa.Freq Fr.Var1 Fr.Freq Fa
## (56,61.1] (56,61.1] 11 (56,61.1] 0.07189542 11
## (61.1,66.2] (61.1,66.2] 10 (61.1,66.2] 0.06535948 21
## (66.2,71.4] (66.2,71.4] 15 (66.2,71.4] 0.09803922 36
## (71.4,76.5] (71.4,76.5] 25 (71.4,76.5] 0.16339869 61
## (76.5,81.6] (76.5,81.6] 35 (76.5,81.6] 0.22875817 96
## (81.6,86.8] (81.6,86.8] 30 (81.6,86.8] 0.19607843 126
## (86.8,91.9] (86.8,91.9] 15 (86.8,91.9] 0.09803922 141
## (91.9,97] (91.9,97] 12 (91.9,97] 0.07843137 153
#PREGUNTA 10 — Gráficos Construya:histograma, boxplot,ojiva
data("airquality")
datos<-airquality$Temp
datos<-na.omit(datos)
hist(datos)
boxplot(datos)
plot(fa,type="o")
#PREGUNTA 11 — Interpretación ¿Qué proporción de datos supera la mediana?
median(datos>median(datos))
## [1] FALSE