Estadística descriptiva

Estadísticas descriptivas para datos sin agrupar

Para iniciar se crea el vector de datos Notas

Notas<-c(15, 45, 47,53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80, 81, 85, 85, 85, 90, 92)

Resumen de los cinco números

fivenum(Notas)

Resumen de los cinco números más la media

summary(Notas)

Rango

range(Notas)

Rango obtenido paso a paso

Rango<-max(Notas)-min(Notas);Rango

Media aritmética

Media<-mean(Notas)

Mediana

Mediana<-median(Notas)

Desviación estándar

Desv_est<-sd(Notas)

Varianza

Varianza<-var(Notas)

Coeficiente de variación

CV<-(Desv_est/Media)*100

Tamaño de la muestra

n<-length(Notas)

Error estándar de la media

EE<-Desv_est/sqrt(n)

Objeto que contiene las estadísticas de resumen

Descriptiva<-data.frame(Media,Mediana,Desv_est,Varianza,CV,n,EE)

Para visualizar el objeto, ejecute

print(Descriptiva)

Percentiles

Valores mínimos, máximos y los cuartiles

quantile (Notas)

Percentiles: 2.5%,90% y 97.5%

quantile(Notas, c(0.025,0.90,0.975))

Rango Intercuartílico = Q3-Q1

IQR(Notas)

Prueba de normalidad de Shapiro-Wilk Prueba de normalidad para el vector Notas

shapiro.test(Notas)

Media ponderada

Se crea el vector de datos valores1

valores1<-c(5,7,9)

Se crea el vector de datos pound1

pond1<-c(1,2,5)

grupo1<-pond1/sum(pond1)

Se crea el vector Prod1 que guarda la media ponderada

Prod1<-weighted.mean(valores1,grupo1)

Media ponderada

Prod1

Otra forma de calcular la media ponderada

Usando la función weighted.mean

weighted.mean(valores1,pond1)

Se crea el vector de datos valores2

valores2<-c(5,7,9)

Se crea el vector de datos pound2

pond2<-c(4,3,3)

grupo2<-pond2/sum(pond2)

Prod2<-weighted.mean(valores2,grupo2)

Media ponderada

Prod2

Media geométrica

Se crea el vector de datos Inter

Inter<-c(1.07, 1.08, 1.10, 1.12, 1.18)

Se emplea la función geometric

geometric<-function(Inter) exp(sum(log(Inter))/length(Inter))

geometric(Inter)

Otra forma de calcular la media geométrica

n <- length(Inter)

prod(Inter)^(1/n)

Media armónica

Se crea el vector de datos vel

vel<-c(60,70,80)

armonic<-1/mean(1/vel)

Media armónica

armonic

Media cuadrática

Se crea el vector de datos dat

dat<-c(2,3,4,4,5,6,8)

media_cuad<-sqrt(sum((dat)^2)/length(dat))

media_cuad

Asimetría y curtosis

El Lenguaje R funciona mediante la adición de paquetes elaborados por diferentes usuarios. Cada paquete puede realizar operaciones o cálculos específicos. Para calcular la asimetría y curtosis se emplea el paquete moments Para instalarlo ejecute:

install.packages('moments')

Se invoca para su uso el paquete “moments”

library(moments)

Valor de la asimetría de los datos de la variable Notas

skewness(Notas)

Valor de la curtosis de los datos de la variable Notas

kurtosis(Notas)

Si este coeficiente es nulo, la distribución se dice normal (similar a la distribución normal de Gauss) y recibe el nombre de mesocúrtica.

Si el coeficiente es positivo, la distribución se llama leptocúrtica, hay una mayor concentración de los datos en torno a la media.

Si el coeficiente es negativo, la distribución se llama platicúrtica y hay una menor concentración de datos en torno a la media.

Tablas de frecuencias univariadas

Se crea el vector de datos hijos

hijos<-c(3, 4, 3, 4, 5, 1, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5, 5, 5, 5, 6, 11, 10, 2, 1, 2, 3, 1, 5, 2)

Frecuencia absoluta

tabla<- as.data.frame(table(hijos));tabla

Frecuencia acumulada

freq_Acum <- cumsum(tabla$Freq);freq_Acum

Frecuencia relativa en porcentaje

freq_rel<- round(prop.table(tabla$Freq)*100,2); freq_rel

Frecuencia relativa acumulada

Freq_rel_acum<-cumsum(freq_rel);Freq_rel_acum

Agrupación de frecuencias

tablafinal<-cbind(tabla,freq_Acum,freq_rel,Freq_rel_acum);tablafinal

Gráfico de barras, frecuencia relativa

barplot(prop.table(table(hijos)), ylim=c(0,0.30), main="Gráfico de barras", xlab="Número de hijos",ylab ="Frecuencias relativas", col = "steelblue")

Gráfico de barras, frecuencia absoluta

barplot(table(hijos),main="Gráfico de barras", xlab="Número de hijos", ylab="Frecuencia absoluta",col = "steelblue")

Cálculo de la moda

Para el caso que se presente una moda

Para calcular la moda se emplea el paquete modeest

Para instalarlo ejecute:

install.packages('modeest')

Se invoca para su uso el paquete “modeest”

library(modeest)

mlv(hijos, method = "mfv")

En el caso de presentarse varias modas

Se crea el vector de datos modas_mul

modas_mul<-c(2,2,3,3,3,4,5,5,6,6,6,7,7,8,8,8,9)

mm<- subset(data.frame(table(modas_mul)), Freq == max(Freq));mm

Diagrama de tallos y hojas

stem(Notas, scale = 1, width = 80, atom = 1e-08)

Regresar a la página principal de Scripts

Estadística descriptiva

Resumen para datos sin agrupar

Dr. Ezequiel López, Dr. Byron González, P. Agr. Isidro Chex

Centro de Telemática (CETE) http://cete.fausac.gt

Estadísticas descriptivas para datos sin agrupar

Percentiles

Media ponderada

Otra forma de calcular la media ponderada

Media geométrica

Otra forma de calcular la media geométrica

Media armónica

Media cuadrática

Asimetría y curtosis

Tablas de frecuencias univariadas

Cálculo de la moda

Diagrama de tallos y hojas