Línea de tiempo
- (2000 AC) Censo del Emperador Tao.
- (555 AC) Censos romanos.
- (Edad Media) Breviarium - CarloMagno, Digest-Book - Guillermo de Orange, Descripción de España - Califato, Actividades Demograficas de la República Veneciana.
- (Siglos XVII-XVIII) Univeridad de Goltinga - Curso de Estadística. Probabilidad.
Introducción
La estadística es la rama de las matemáticas que estudia la recolección, análisis, interpretación y presentación de masas de información numérica.(New Collegiate Dictionary)
La estadística es la rama del método científico que estudia los datos obtenidos por contar y medir las propiedades poblacionales.}(Stuar y Ord)
La estadística se ocupa esencialmente de procedimientos para analizar información, en especial aquella que en algún sentido vago tenga un carácter aleatorio.([Rice])
La estadística es una disciplina que abarca la ciencia de basar inferencias en datos observados y todo el problema de tomar decisiones frente a una incertidumbre.(Freund y Walpole)
Estadística Descriptiva
Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas.
Estadística Inferencial
Comprende los métodos y procedimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una pequeña parte de esta. Su objetivo es obtener conclusiones útiles para hacer deducciones sobre una totalidad, basándose en la información numérica.
La aplicación del tratamiento estadístico tiene dos fases fundamentales:
Organización y análisis inicial de los datos recogidos.
Extracción de conclusiones válidas y toma de decisiones razonables a partir de ellos.
Población
conjunto completo de elementos, con alguna característica común observable, que es el objeto de estudio. Una población puede ser finita o infinita
Ejemplos
Los habitantes de un país, los planetas del Sistema Solar, las estrellas en la Vía Láctea, son elementos de una población finita.
El número de posibles medidas que se puedan hacer de la velocidad de la luz, o de tiradas de un dado, forman poblaciones infinitas
Muestra:
Es un subconjunto o una porción de la población
Variables y datos
Variable:
Una variable es una característica que cambia o varía con el tiempo y/o para diferentes personas u objetos bajo consideración.
TIPOS DE VARIABLES
Se pueden clasificar variables en una de dos categorías:
Cualitativas.
Cuantitativas.
Variables Cualitativas:
son aquellos que no podemos representar numéricamente y describen cualidades.
Ejemplo:
- Estado civil :
- soltero
- casado
- viudo
- separado
- Satisfacción con un producto:
- muy insatisfecho
- regularmente insatisfecho
- neutral
- satisfecho
- muy satisfecho
Variables Cuantitativas:
son aquellas variables que pueden expresarse en forma numérica se dividen en: - Discretas - Continuas.
Variables Cuantitativas Discretas
Son respuestas numéricas que surgen de un proceso de conteo, siendo siempre un número entero.
Ejemplos :
- Número de asignaturas inscritas en el semestre
- Número de integrantes del grupo familiar.
- Número de salas de clases de la FULL
Variables Cuantitativas Continuas
son respuestas numéricas que surgen de un proceso de medición, las cuales pueden tomar valores entre dos números enteros.
Estatura
Temperatura
Peso
Escala de Medición
Nominal
se utiliza para nombres o clasificaciones para establecer categorías dentro de las cuales las variables pueden registrarse exclusivamente.
- Dicotómicas o binarias (sano-enfermo, expuesto-no expuesto, masculino-femenino, positivo-negativo)
- Policotómicos (instrumento A-B-C-D, Color R, B, N, A)
Ordinales
Son las que clasifican las observaciones en categorías con un orden significativo.
- Nivel (alto, medio, bajo, entro otros), grado funcional (1,2,3,4), intensidad (leve, moderado, intenso).
Intervalo
son las mediciones en una escala numérica en la cual el valor de cero es arbitrario pero la diferencia entre valores es importante.
Temperatura. Peso, Compras, horas del día,Tiempo
Razón
son las medidas numéricas en las cuales cero es un valor fijo en cualquier escala y la diferencia entre valores es importante. Además de distinción, orden y distancia, ésta es una escala que permite establecer en que proporción es mayor una categoría de una escala que otra. El cero absoluto o natural representa la nulidad de lo que se estudia.
- Número de hijos, partos, Saldo Bancario, Distancia, Velocidad, peso.
Los tipos de datos de uso más común en R .
| Tipo | Ejemplo | Nombre en inglés |
|---|---|---|
| Entero | 1 | integer |
| Numérico | 1.3 | numeric |
| Cadena de texto | “uno” | character |
| Factor | uno | factor |
| Lógico | TRUE | logical |
| Perdido | NA | NA |
| Vacio | NULL | null |
Gráficas para datos categóricos
Cuando la variable de interés es cualitativa, la tabla estadística es una lista de las categorías siendo consideradas junto con una medida de la frecuencia con que se presenta cada valor. Se puede medir “la frecuencia” en tres formas diferentes:
- La frecuencia o número de mediciones en cada categoría
- La frecuencia relativa o proporción de mediciones en cada categoría
- El porcentaje de mediciones en cada categoría
Por ejemplo, si con \(n\) representamos el número total de mediciones en el conjunto, se puede hallar la frecuencia relativa y porcentaje usando estas relaciones:
\(Frecuencia \ relativa=\dfrac{Frecuencia}{n}\)
\(Porcentaje = 100 \cdot Frecuencia \ relativa\)
Se encontrará que la suma de las frecuencias es siempre \(n\), la suma de las frecuencias relativas es 1 y la suma de los porcentajes es 100%.
Las categorías para una variable cualitativa deben escogerse de modo que
- una medición pertenecerá a una categoría y sólo a una
- cada medición tiene una categoría a la que se puede asignar
Una vez que a las mediciones se les hayan dado categorías y se resumieron en una tabla estadística, se puede usar ya sea una gráfica de pastel o una gráfica de barras para mostrar la distribución de los datos.
Una gráfica de pastel:
es la conocida gráfica circular que muestra la forma en que están distribuidas las medidas entre las categorías.
gráfica de barras: muestra la misma distribución de medidas en categorías, con la altura
de la barra midiendo la frecuencia con la que se observa una categoría en particular.
Ejemplo:
En una encuesta respecto a la educación pública, a 400 administradores de escuelas se les pidió calificaran la calidad de la educación en Estados Unidos. Sus respuestas estan en la siguiente tabla Construya una gráfica de pastel y una de barras a partir de este conjunto de datos.
\[\begin{array}{cc} \text { Calificación } & \text { Frecuencia } \\ \hline \mathrm{A} & 35 \\ \mathrm{B} & 260 \\ \mathrm{C} & 93 \\ \mathrm{D} & 12 \\ \hline \text { Total } & 400 \end{array}\]
ggplot2
# Instalar ggplot2:
#install.packages("ggplot2")
library(ggplot2)La librería de R es un sistema organizado de visualización de datos. Forma parte del conjunto de librerías llamado tidyverse.
Los elementos necesarios para representar un gráfico con ggplot2son los siguientes:
- Un data frame que contiene los datos que se quieren visualizar.
- Los aesthetics, es decir, una lista de relaciones entre las variables del fichero de datos y determinados aspectos del gráfico (como por ejemplo coordenadas, formas o colores).
- Los geoms, que especifican los elementos geométricos (puntos, líneas, círculos, etc) que se van a representar.
Normalmente estos elementos se van añadiendo de forma consecutiva en distintas capas (layers). Para añadir una nueva capa se usa el signo +. La estructura general del código para obtener un gráfico es esta:
Estructura
ggplot(data = 'nombre del fichero de datos') +
geom_nombre1(aes(aesthetics1=var1, aesthetics2=var2, ...)) +
geom_nombre2(...) Crear los vectores Frecuencia y Calificación
Frecuencia<-c(35, 260, 93, 12)
Calificación<-c("A","B", "C", "D")Construir un data frame
datos<-as.data.frame(Frecuencia, Calificación)
datos## Frecuencia
## A 35
## B 260
## C 93
## D 12
library(ggplot2)
ggplot(data=datos, aes(x=Calificación, y=Frecuencia))+
geom_bar(stat = "identity")Agrgandolé color
ggplot(data=datos, aes(x=Calificación, y=Frecuencia))+
geom_bar(stat = "identity", fill="steelblue")ggplot(data=datos, aes(x=Calificación, y=Frecuencia))+
geom_bar(stat = "identity", fill="steelblue")+
geom_text(aes(label=Frecuencia), vjust=1.6, color="white", size=4.5)+
theme_minimal()Gráfica de pastel
ggplot(data=datos, aes(x="", y=Frecuencia, fill=Calificación)) +
geom_bar(stat="identity", width=0.5,color="white") +
coord_polar("y", start=0)+
theme_void()Ejemplo
Datos sin elaborar: colores de 21 dulces
\[\begin{array}{llll} \hline Cafe & Verde & Cafe & Azul \\ Rojo & Aojo & Verde & Cafe \\ Amarillo & Anaranjado & Verde & Azul \\ Cafe & Azul & Azul & Cafe \\ Anaranjado & Azul & Cafe & Anaranjado \\ Amarillo & & &\\ \hline \end{array}\]
Color<-c("Café", "Verde", "Café" , "Azul", "Rojo", "Rojo", "Verde", "Café",
"Amarillo", "Anaranjado", "Verde", "Azul", "Café", "Azul", "Azul",
"Café","Anaranjado", "Azul", "Café", "Anaranjado","Amarillo")Tabla
table(Color) #tabla cuenta ## Color
## Amarillo Anaranjado Azul Café Rojo Verde
## 2 3 5 6 2 3
t=table(Color)barplot(t, col = c(1,2,3,4,5,6))class(t)## [1] "table"
dat<-as.data.frame(t) # cambiar a tipo data frama
class(dat)## [1] "data.frame"
colnames(dat) # nombres de las columna## [1] "Color" "Freq"
ggplot(data=dat, aes(x=Color, y=Freq))+
geom_bar(stat = "identity", fill="steelblue")+
geom_text(aes(label=Freq), vjust=1, color="white" )+
theme_bw()Analicemos una base de datos de R
#install.packages(MASS)
library(MASS)
data(Cars93)?Cars93Visualización de la base de datos. Recuerde: Filas=individuos y Columnas=variables
library(DT)
DT::datatable(Cars93)Nombres de las columnas
colnames(Cars93)## [1] "Manufacturer" "Model" "Type"
## [4] "Min.Price" "Price" "Max.Price"
## [7] "MPG.city" "MPG.highway" "AirBags"
## [10] "DriveTrain" "Cylinders" "EngineSize"
## [13] "Horsepower" "RPM" "Rev.per.mile"
## [16] "Man.trans.avail" "Fuel.tank.capacity" "Passengers"
## [19] "Length" "Wheelbase" "Width"
## [22] "Turn.circle" "Rear.seat.room" "Luggage.room"
## [25] "Weight" "Origin" "Make"
Dimensión de la base de datos(Filas y Columna)
dim(Cars93)## [1] 93 27
Caracter´sticas de las variables
str(Cars93)## 'data.frame': 93 obs. of 27 variables:
## $ Manufacturer : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
## $ Model : Factor w/ 93 levels "100","190E","240",..: 49 56 9 1 6 24 54 74 73 35 ...
## $ Type : Factor w/ 6 levels "Compact","Large",..: 4 3 1 3 3 3 2 2 3 2 ...
## $ Min.Price : num 12.9 29.2 25.9 30.8 23.7 14.2 19.9 22.6 26.3 33 ...
## $ Price : num 15.9 33.9 29.1 37.7 30 15.7 20.8 23.7 26.3 34.7 ...
## $ Max.Price : num 18.8 38.7 32.3 44.6 36.2 17.3 21.7 24.9 26.3 36.3 ...
## $ MPG.city : int 25 18 20 19 22 22 19 16 19 16 ...
## $ MPG.highway : int 31 25 26 26 30 31 28 25 27 25 ...
## $ AirBags : Factor w/ 3 levels "Driver & Passenger",..: 3 1 2 1 2 2 2 2 2 2 ...
## $ DriveTrain : Factor w/ 3 levels "4WD","Front",..: 2 2 2 2 3 2 2 3 2 2 ...
## $ Cylinders : Factor w/ 6 levels "3","4","5","6",..: 2 4 4 4 2 2 4 4 4 5 ...
## $ EngineSize : num 1.8 3.2 2.8 2.8 3.5 2.2 3.8 5.7 3.8 4.9 ...
## $ Horsepower : int 140 200 172 172 208 110 170 180 170 200 ...
## $ RPM : int 6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
## $ Rev.per.mile : int 2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
## $ Man.trans.avail : Factor w/ 2 levels "No","Yes": 2 2 2 2 2 1 1 1 1 1 ...
## $ Fuel.tank.capacity: num 13.2 18 16.9 21.1 21.1 16.4 18 23 18.8 18 ...
## $ Passengers : int 5 5 5 6 4 6 6 6 5 6 ...
## $ Length : int 177 195 180 193 186 189 200 216 198 206 ...
## $ Wheelbase : int 102 115 102 106 109 105 111 116 108 114 ...
## $ Width : int 68 71 67 70 69 69 74 78 73 73 ...
## $ Turn.circle : int 37 38 37 37 39 41 42 45 41 43 ...
## $ Rear.seat.room : num 26.5 30 28 31 27 28 30.5 30.5 26.5 35 ...
## $ Luggage.room : int 11 15 14 17 13 16 17 21 14 18 ...
## $ Weight : int 2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
## $ Origin : Factor w/ 2 levels "USA","non-USA": 2 2 2 2 2 1 1 1 1 1 ...
## $ Make : Factor w/ 93 levels "Acura Integra",..: 1 2 4 3 5 6 7 9 8 10 ...
Cars93$Type
Cars93$AirBagsPara omitir el signo $ en el llmado de la variable
attach(Cars93)Cuántos individuos?
ncol(Cars93) # numero dde columnas## [1] 27
nrow(Cars93) # numero de filas## [1] 93
dim(Cars93)## [1] 93 27
- 6 primeras filas de la base
head(Cars93) ## Manufacturer Model Type Min.Price Price Max.Price MPG.city MPG.highway
## 1 Acura Integra Small 12.9 15.9 18.8 25 31
## 2 Acura Legend Midsize 29.2 33.9 38.7 18 25
## 3 Audi 90 Compact 25.9 29.1 32.3 20 26
## 4 Audi 100 Midsize 30.8 37.7 44.6 19 26
## 5 BMW 535i Midsize 23.7 30.0 36.2 22 30
## 6 Buick Century Midsize 14.2 15.7 17.3 22 31
## AirBags DriveTrain Cylinders EngineSize Horsepower RPM
## 1 None Front 4 1.8 140 6300
## 2 Driver & Passenger Front 6 3.2 200 5500
## 3 Driver only Front 6 2.8 172 5500
## 4 Driver & Passenger Front 6 2.8 172 5500
## 5 Driver only Rear 4 3.5 208 5700
## 6 Driver only Front 4 2.2 110 5200
## Rev.per.mile Man.trans.avail Fuel.tank.capacity Passengers Length Wheelbase
## 1 2890 Yes 13.2 5 177 102
## 2 2335 Yes 18.0 5 195 115
## 3 2280 Yes 16.9 5 180 102
## 4 2535 Yes 21.1 6 193 106
## 5 2545 Yes 21.1 4 186 109
## 6 2565 No 16.4 6 189 105
## Width Turn.circle Rear.seat.room Luggage.room Weight Origin Make
## 1 68 37 26.5 11 2705 non-USA Acura Integra
## 2 71 38 30.0 15 3560 non-USA Acura Legend
## 3 67 37 28.0 14 3375 non-USA Audi 90
## 4 70 37 31.0 17 3405 non-USA Audi 100
## 5 69 39 27.0 13 3640 non-USA BMW 535i
## 6 69 41 28.0 16 2880 USA Buick Century
- 6 ultimas filas de la base.
tail(Cars93) ## Manufacturer Model Type Min.Price Price Max.Price MPG.city MPG.highway
## 88 Volkswagen Fox Small 8.7 9.1 9.5 25 33
## 89 Volkswagen Eurovan Van 16.6 19.7 22.7 17 21
## 90 Volkswagen Passat Compact 17.6 20.0 22.4 21 30
## 91 Volkswagen Corrado Sporty 22.9 23.3 23.7 18 25
## 92 Volvo 240 Compact 21.8 22.7 23.5 21 28
## 93 Volvo 850 Midsize 24.8 26.7 28.5 20 28
## AirBags DriveTrain Cylinders EngineSize Horsepower RPM
## 88 None Front 4 1.8 81 5500
## 89 None Front 5 2.5 109 4500
## 90 None Front 4 2.0 134 5800
## 91 None Front 6 2.8 178 5800
## 92 Driver only Rear 4 2.3 114 5400
## 93 Driver & Passenger Front 5 2.4 168 6200
## Rev.per.mile Man.trans.avail Fuel.tank.capacity Passengers Length Wheelbase
## 88 2550 Yes 12.4 4 163 93
## 89 2915 Yes 21.1 7 187 115
## 90 2685 Yes 18.5 5 180 103
## 91 2385 Yes 18.5 4 159 97
## 92 2215 Yes 15.8 5 190 104
## 93 2310 Yes 19.3 5 184 105
## Width Turn.circle Rear.seat.room Luggage.room Weight Origin
## 88 63 34 26.0 10 2240 non-USA
## 89 72 38 34.0 NA 3960 non-USA
## 90 67 35 31.5 14 2985 non-USA
## 91 66 36 26.0 15 2810 non-USA
## 92 67 37 29.5 14 2985 non-USA
## 93 69 38 30.0 15 3245 non-USA
## Make
## 88 Volkswagen Fox
## 89 Volkswagen Eurovan
## 90 Volkswagen Passat
## 91 Volkswagen Corrado
## 92 Volvo 240
## 93 Volvo 850
##Diagrama de barras para la variable AirBags
barplot(table(AirBags))Para contar usar la función table
airbag<- table(AirBags)
airbag## AirBags
## Driver & Passenger Driver only None
## 16 43 34
convertir airbag en un data frame
airbag1<-as.data.frame(airbag)
airbag1## AirBags Freq
## 1 Driver & Passenger 16
## 2 Driver only 43
## 3 None 34
colnames(airbag1)## [1] "AirBags" "Freq"
diagrama de barras con ggplot de AirBags
ggplot(data=airbag1, aes(x=AirBags, y=Freq))+
geom_bar(stat = "identity", fill="steelblue", width=0.4)+
geom_text(aes(label=Freq), vjust=1, color="white")pie(table(AirBags))Con ggplot
ggplot(data=airbag1, aes(x="" , y=Freq, fill=AirBags ))+
geom_bar(stat="identity")+
coord_polar(theta="y", start = 0)+
theme_void()HISTOGRAMAS DE FRECUENCIA RELATIVA
Un histograma de frecuencia relativa es semejante a una gráfica de barras, pero se usa para graficar cantidades en lugar de datos cualitativos.
Definición:
Un histograma de frecuencia relativa, para un conjunto de datos cuantitativo es una gráfica de barras en la que la altura de la barra muestra “con qué frecuencia” (medida como proporción o frecuencia relativa) las mediciones caen en una clase o subintervalo particular. Las clases o subintervalos se grafican a lo largo del eje horizontal.
Como regla práctica, el número de clases debe ser de 5 a 12; cuantos más datos haya, más clases se requieren.
Cuando los datos contienen una gran cantidad de elementos, para facilitar los cálculos es necesario agruparlos, a estos grupos se los llama intervalos o clases.
Las reglas generales para formas distribuciones de frecuencias para datos agrupados en intervalos son:
Calcule el Rango (R): También se llama recorrido o amplitud total. Es la diferencia entre el valor mayor y el menor de los datos. \[Rango=Dato \ mayor - Dato \ menor\]
Seleccione el Número de Intervalos de Clase \((n_i)\).- No debe ser menor de 5 y mayor de 12,
Regla de Sturges
Es una regla práctica acerca del número de clases que deben considerar al elaborarse un histograma
Este número viene dado por la siguiente expresión:
\[\displaystyle c=1+3.322\cdot \log N\]
siendo N la cantidad de datos.
El valor de \(c\) (número de clases) es común redondearlo al entero más cercano.
- Calcule el Ancho del Intervalo \((i)\)
\[i=\dfrac{R}{n_{i}}\]
Cuando el valor de \(i\) no es exacto, se debe redondear al valor superior más cercano. Esto altera el valor de rango por lo que es necesario efectuar un ajuste así:
\[Nuevo \ Rango= n_i \cdot i\]
Ejemplo
Pesos de 30 bebés de gestación completa al momento de nacer
\[\begin{array}{lllll} 7.2 & 7.8 & 6.8 & 6.2 & 8.2 \\ 8.0 & 8.2 & 5.6 & 8.6 & 7.1 \\ 8.2 & 7.7 & 7.5 & 7.2 & 7.7 \\ 5.8 & 6.8 & 6.8 & 8.5 & 7.5 \\ 6.1 & 7.9 & 9.4 & 9.0 & 7.8 \\ 8.5 & 9.0 & 7.7 & 6.7 & 7.7 \end{array}\]
Construcción Histograma
Escriba los datos en un vector
Pesos<-c(7.2 , 7.8, 6.8 , 6.2, 8.2 ,8.0, 8.2, 5.6, 8.6, 7.1,
8.2, 7.7, 7.5, 7.2, 7.7, 5.8, 6.8, 6.8, 8.5, 7.5,6.1,
7.9, 9.4, 9.0, 7.8, 8.5, 9.0, 7.7, 6.7, 7.7)sin usar ggplot
hist(Pesos)con mas argumentos
hist(Pesos, xlim = c(5,10), ylim = c(0,10), main = "Histograma", xlab = "Pesos al nacer",
ylab="Frecuencia", col="steelblue")tabla
instalar el paquete
#install.packages("fdth")
library(fdth) # carga la extensión fdth (para el calculo de distribución de frecuencias.##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
Calcula la distribución de frecuencias utilizando la regla Sturge
dist <- fdt(Pesos,breaks="Sturges")
dist## Class limits f rf rf(%) cf cf(%)
## [5.544,6.202) 4 0.13 13.33 4 13.33
## [6.202,6.861) 4 0.13 13.33 8 26.67
## [6.861,7.519) 5 0.17 16.67 13 43.33
## [7.519,8.177) 8 0.27 26.67 21 70.00
## [8.177,8.836) 6 0.20 20.00 27 90.00
## [8.836,9.494) 3 0.10 10.00 30 100.00
Con ggplot
df.Pesos<-as.data.frame(Pesos)library(ggplot2)
ggplot(data=df.Pesos , aes(Pesos))+
geom_histogram() ## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Mejorando el histograma
ggplot(data=df.Pesos,aes(Pesos))+
geom_histogram(binwidth = 0.7, fill = 'steelblue', color="white") +
xlab("Pesos") +
ylab("Frecuencia") +
ggtitle("Histograma de Pesos") +
theme_minimal()Con una base de R
hist(Price)?geom_histogramggplot(data=Cars93, aes(Price))+
geom_histogram(color="white", fill="steelblue")## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
MEDIDAS DE CENTRO
Una de las primeras mediciones numéricas importantes es una medida de centro, es decir, una medida a lo largo del eje horizontal que localiza el centro de la distribución.
Definición:
La media aritmética o promedio de un conjunto de \(n\) mediciones es igual a la suma de las mediciones dividida entre \(n\).
Media muestral: \(\overline{x}=\dfrac{\sum_{i=1}^{n} x_{i}}{n}\)
Media poblacional: \(\mu\)
Ejemplo: 2, 9, 11, 5, 6.
Definición
La mediana \(m\) de un conjunto de \(n\) mediciones es el valor de x que cae en la posición media cuando las mediciones son ordenadas de menor a mayor.
- Ejemplo:
Encuentre la mediana para el conjunto de mediciones 2, 9, 11, 5, 6, 27.
Definición
La moda es la categoría que se presenta con más frecuencia o el valor de \(x\) que se presenta con más frecuencia. Cuando las mediciones en una variable continua se han agrupado como histograma de frecuencia o de frecuencia relativa, la clase con el pico más alto o frecuencia se llama clase modal, y el punto medio de esa clase se toma como la moda
3, 5, 4, 6, 10, 5, 6, 9, 2, 8.
Calcule
-\(\overline{x}\) - Encuentre mediana. - Encuentre la moda.
MEDIDAS DE VARIABILIDAD
La variabilidad o dispersión es una muy importante característica de datos. Por ejemplo, si usted fabrica tornillos, la variación extrema en los diámetros de los tornillos causaría un alto porcentaje de productos defectuosos.
Las medidas de variabilidad pueden ayudarle a crear una imagen mental de la dispersión de los datos.
Definición:
El rango, \(R\), de un conjunto de \(n\) mediciones se define como la diferencia entre la medición más grande y la más pequeña.
Definición
La varianza de una población de \(N\) mediciones es el promedio de los cuadrados de las desviaciones de las mediciones alrededor de su media \(\mu\). La varianza poblacional se denota con \(\sigma^2\) y está dada por.
\[\sigma^2=\dfrac{\sum_{i=1}^{N} (x_i-\mu)^2}{N}\]
Definición:
La varianza de una muestra de \(n\) mediciones es la suma de las desviaciones cuadradas de las mediciones alrededor la media \(\overline{x}\) dividida entre \((n - 1)\). La varianza muestral se denota con \(S^2\) y está dada por la fórmula
\[\displaystyle S^2=\dfrac{\sum_{i=1}^{n} (x_i-\overline{x})^2}{n-1}\]
Definición
La desviación estándar de un conjunto de mediciones es igual a la raíz cuadrada positiva de la varianza.
Ejemplo
Hallar la desviación estandar,
- 2, 3, 6, 8, 11.
- 12, 6, 7, 3, 15, 10, 18, 5.
MEDICIONES DE POSICIÓN RELATIVA
A veces es necesario conocer la posición de una observación respecto a otras de un conjunto de datos.
Definición:
El puntaje \(z\) muestral es una medida de posición relativa definida por
\[puntaje \ \ z = \dfrac{x-\overline{x}}{s}\]
Un puntaje \(z\) mide la distancia entre una observación y la media, medidas en unidades de desviación estándar.
El puntaje z es una valiosa herramienta para determinar si es probable que una observación particular se presente con frecuencia, o si es improbable y puede ser considerada como resultado atípico
Considere esta muestra de 10 mediciones:
1, 1, 0, 15, 2, 3, 4, 0, 1, 3
- Un percentil es otra medida de posición relativa y se usa con más frecuencia para conjuntos grandes de datos. (Los percentiles no son muy útiles para conjuntos pequeños de datos.)
Definición:
Un conjunto de \(n\) mediciones de la variable \(x\) se ha reacomodado en orden de magnitud. El \(p\)-ésimo percentil es el valor de \(x\) que es mayor a \(p\)% de las mediciones y es menor que el restante \((100 - p)\)%.
Definición
Un conjunto de \(n\) mediciones en la variable \(x\) se ha acomodado en orden de magnitud.
El cuartil inferior (primer cuartil), \(Q_1\), es el valor de \(x\) que es mayor a un cuarto de las mediciones y es menor que los restantes tres cuartos.
El segundo cuartil es la mediana.
El cuartil superior (tercer cuartil), \(Q_3\), es el valor de \(x\) que es mayor a tres cuartos de las mediciones y es menor que el restante un cuarto.
El rango intercuartil IQR para un conjunto de mediciones es la diferencia entre los cuartiles superior e inferior; esto es, \[IQR = Q_3 - Q_1\].
Ejemplo
A medida que los consumidores estadounidenses tienen más cuidado con los alimentos que consumen, los procesadores de alimentos tratan de ser competitivos al evitar cantidades excesivas de grasa, colesterol y sodio en los alimentos que venden. Los datos siguientes son las cantidades de sodio por rebanada (en miligramos) para cada una de ocho marcas de queso regular estadounidense. Construya una gráfica de caja para los datos y busque resultados atípicos.\
340, 300, 520, 340, 320, 290, 260, 330
sodio=c(340, 300, 520, 340, 320, 290, 260, 330)
boxplot(sodio)summary(sodio)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 260.0 297.5 325.0 337.5 340.0 520.0
Con nuestra base de datos de R
colnames(Cars93)## [1] "Manufacturer" "Model" "Type"
## [4] "Min.Price" "Price" "Max.Price"
## [7] "MPG.city" "MPG.highway" "AirBags"
## [10] "DriveTrain" "Cylinders" "EngineSize"
## [13] "Horsepower" "RPM" "Rev.per.mile"
## [16] "Man.trans.avail" "Fuel.tank.capacity" "Passengers"
## [19] "Length" "Wheelbase" "Width"
## [22] "Turn.circle" "Rear.seat.room" "Luggage.room"
## [25] "Weight" "Origin" "Make"
ggplot(data=Cars93, aes(y=Price))+
geom_boxplot(fill="steelblue")ggplot(data=Cars93, aes(y=Price, x=AirBags))+
geom_boxplot(fill="steelblue")ggplot(data=Cars93, aes(y=Price, x=AirBags))+
geom_boxplot(fill="steelblue")+
geom_jitter(aes(color = AirBags))quantile(Price,0.5)## 50%
## 17.7
ggplot(data = Cars93, aes(x = Price))+
geom_histogram(fill="steelblue")+
facet_wrap(~AirBags)## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.