Línea de tiempo

Introducción

Estadística Descriptiva

Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas.

Estadística Inferencial

Comprende los métodos y procedimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una pequeña parte de esta. Su objetivo es obtener conclusiones útiles para hacer deducciones sobre una totalidad, basándose en la información numérica.

Población

conjunto completo de elementos, con alguna característica común observable, que es el objeto de estudio. Una población puede ser finita o infinita

Ejemplos

  • Los habitantes de un país, los planetas del Sistema Solar, las estrellas en la Vía Láctea, son elementos de una población finita.

  • El número de posibles medidas que se puedan hacer de la velocidad de la luz, o de tiradas de un dado, forman poblaciones infinitas

Muestra:

Es un subconjunto o una porción de la población

Variables y datos

Variable:

Una variable es una característica que cambia o varía con el tiempo y/o para diferentes personas u objetos bajo consideración.

TIPOS DE VARIABLES

Se pueden clasificar variables en una de dos categorías:

Variables Cualitativas:

son aquellos que no podemos representar numéricamente y describen cualidades.

Ejemplo:

  • Estado civil :
    • soltero
    • casado
    • viudo
    • separado
  • Satisfacción con un producto:
    • muy insatisfecho
    • regularmente insatisfecho
    • neutral
    • satisfecho
    • muy satisfecho

Variables Cuantitativas:

son aquellas variables que pueden expresarse en forma numérica se dividen en: - Discretas - Continuas.

Variables Cuantitativas Discretas

Son respuestas numéricas que surgen de un proceso de conteo, siendo siempre un número entero.

Ejemplos :

  • Número de asignaturas inscritas en el semestre
  • Número de integrantes del grupo familiar.
  • Número de salas de clases de la FULL

Variables Cuantitativas Continuas

son respuestas numéricas que surgen de un proceso de medición, las cuales pueden tomar valores entre dos números enteros.

Escala de Medición

Nominal

se utiliza para nombres o clasificaciones para establecer categorías dentro de las cuales las variables pueden registrarse exclusivamente.

  • Dicotómicas o binarias (sano-enfermo, expuesto-no expuesto, masculino-femenino, positivo-negativo)
  • Policotómicos (instrumento A-B-C-D, Color R, B, N, A)

Ordinales

Son las que clasifican las observaciones en categorías con un orden significativo.

  • Nivel (alto, medio, bajo, entro otros), grado funcional (1,2,3,4), intensidad (leve, moderado, intenso).

Intervalo

son las mediciones en una escala numérica en la cual el valor de cero es arbitrario pero la diferencia entre valores es importante.

Temperatura. Peso, Compras, horas del día,Tiempo

Razón

son las medidas numéricas en las cuales cero es un valor fijo en cualquier escala y la diferencia entre valores es importante. Además de distinción, orden y distancia, ésta es una escala que permite establecer en que proporción es mayor una categoría de una escala que otra. El cero absoluto o natural representa la nulidad de lo que se estudia.

  • Número de hijos, partos, Saldo Bancario, Distancia, Velocidad, peso.

Los tipos de datos de uso más común en R .

Tipo Ejemplo Nombre en inglés
Entero 1 integer
Numérico 1.3 numeric
Cadena de texto “uno” character
Factor uno factor
Lógico TRUE logical
Perdido NA NA
Vacio NULL null

Gráficas para datos categóricos

Cuando la variable de interés es cualitativa, la tabla estadística es una lista de las categorías siendo consideradas junto con una medida de la frecuencia con que se presenta cada valor. Se puede medir “la frecuencia” en tres formas diferentes:

Por ejemplo, si con \(n\) representamos el número total de mediciones en el conjunto, se puede hallar la frecuencia relativa y porcentaje usando estas relaciones:

Se encontrará que la suma de las frecuencias es siempre \(n\), la suma de las frecuencias relativas es 1 y la suma de los porcentajes es 100%.

Las categorías para una variable cualitativa deben escogerse de modo que

Una vez que a las mediciones se les hayan dado categorías y se resumieron en una tabla estadística, se puede usar ya sea una gráfica de pastel o una gráfica de barras para mostrar la distribución de los datos.

Una gráfica de pastel:

es la conocida gráfica circular que muestra la forma en que están distribuidas las medidas entre las categorías.

gráfica de barras: muestra la misma distribución de medidas en categorías, con la altura

de la barra midiendo la frecuencia con la que se observa una categoría en particular.

Ejemplo:

En una encuesta respecto a la educación pública, a 400 administradores de escuelas se les pidió calificaran la calidad de la educación en Estados Unidos. Sus respuestas estan en la siguiente tabla Construya una gráfica de pastel y una de barras a partir de este conjunto de datos.

\[\begin{array}{cc} \text { Calificación } & \text { Frecuencia } \\ \hline \mathrm{A} & 35 \\ \mathrm{B} & 260 \\ \mathrm{C} & 93 \\ \mathrm{D} & 12 \\ \hline \text { Total } & 400 \end{array}\]

ggplot2

# Instalar ggplot2:
#install.packages("ggplot2")
library(ggplot2)

La librería de R es un sistema organizado de visualización de datos. Forma parte del conjunto de librerías llamado tidyverse.

Los elementos necesarios para representar un gráfico con ggplot2son los siguientes:

Normalmente estos elementos se van añadiendo de forma consecutiva en distintas capas (layers). Para añadir una nueva capa se usa el signo +. La estructura general del código para obtener un gráfico es esta:

Estructura

ggplot(data = 'nombre del fichero de datos') +
  geom_nombre1(aes(aesthetics1=var1, aesthetics2=var2, ...)) +
  geom_nombre2(...) 

Crear los vectores Frecuencia y Calificación

Frecuencia<-c(35, 260, 93, 12)
Calificación<-c("A","B", "C", "D")

Construir un data frame

datos<-as.data.frame(Frecuencia, Calificación)
datos
##   Frecuencia
## A         35
## B        260
## C         93
## D         12
library(ggplot2)
ggplot(data=datos, aes(x=Calificación, y=Frecuencia))+
  geom_bar(stat = "identity")

Agrgandolé color

ggplot(data=datos, aes(x=Calificación, y=Frecuencia))+
  geom_bar(stat = "identity", fill="steelblue")

ggplot(data=datos, aes(x=Calificación, y=Frecuencia))+
  geom_bar(stat = "identity", fill="steelblue")+
  geom_text(aes(label=Frecuencia), vjust=1.6, color="white", size=4.5)+
  theme_minimal()

Gráfica de pastel

ggplot(data=datos, aes(x="", y=Frecuencia, fill=Calificación)) +
  geom_bar(stat="identity", width=0.5,color="white") +
  coord_polar("y", start=0)+
  theme_void()

Ejemplo

Datos sin elaborar: colores de 21 dulces

\[\begin{array}{llll} \hline Cafe & Verde & Cafe & Azul \\ Rojo & Aojo & Verde & Cafe \\ Amarillo & Anaranjado & Verde & Azul \\ Cafe & Azul & Azul & Cafe \\ Anaranjado & Azul & Cafe & Anaranjado \\ Amarillo & & &\\ \hline \end{array}\]

Color<-c("Café", "Verde", "Café" , "Azul",  "Rojo", "Rojo", "Verde", "Café",
         "Amarillo", "Anaranjado", "Verde", "Azul", "Café", "Azul", "Azul", 
         "Café","Anaranjado", "Azul", "Café", "Anaranjado","Amarillo")

Tabla

table(Color)   #tabla cuenta 
## Color
##   Amarillo Anaranjado       Azul       Café       Rojo      Verde 
##          2          3          5          6          2          3
t=table(Color)

barplot(t, col = c(1,2,3,4,5,6))

class(t)
## [1] "table"
dat<-as.data.frame(t) # cambiar a tipo data frama
class(dat)
## [1] "data.frame"
colnames(dat) #  nombres de las columna
## [1] "Color" "Freq"

ggplot(data=dat, aes(x=Color, y=Freq))+
  geom_bar(stat = "identity", fill="steelblue")+
  geom_text(aes(label=Freq), vjust=1, color="white" )+
  theme_bw()

Analicemos una base de datos de R

#install.packages(MASS)
library(MASS)
data(Cars93)
?Cars93
## starting httpd help server ... done

Visualización de la base de datos. Recuerde: Filas=individuos y Columnas=variables

library(DT)
DT::datatable(Cars93)

Nombres de las columnas

colnames(Cars93)
##  [1] "Manufacturer"       "Model"              "Type"              
##  [4] "Min.Price"          "Price"              "Max.Price"         
##  [7] "MPG.city"           "MPG.highway"        "AirBags"           
## [10] "DriveTrain"         "Cylinders"          "EngineSize"        
## [13] "Horsepower"         "RPM"                "Rev.per.mile"      
## [16] "Man.trans.avail"    "Fuel.tank.capacity" "Passengers"        
## [19] "Length"             "Wheelbase"          "Width"             
## [22] "Turn.circle"        "Rear.seat.room"     "Luggage.room"      
## [25] "Weight"             "Origin"             "Make"

Dimensión de la base de datos(Filas y Columna)

dim(Cars93)
## [1] 93 27

Caracter´sticas de las variables

str(Cars93)
## 'data.frame':    93 obs. of  27 variables:
##  $ Manufacturer      : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
##  $ Model             : Factor w/ 93 levels "100","190E","240",..: 49 56 9 1 6 24 54 74 73 35 ...
##  $ Type              : Factor w/ 6 levels "Compact","Large",..: 4 3 1 3 3 3 2 2 3 2 ...
##  $ Min.Price         : num  12.9 29.2 25.9 30.8 23.7 14.2 19.9 22.6 26.3 33 ...
##  $ Price             : num  15.9 33.9 29.1 37.7 30 15.7 20.8 23.7 26.3 34.7 ...
##  $ Max.Price         : num  18.8 38.7 32.3 44.6 36.2 17.3 21.7 24.9 26.3 36.3 ...
##  $ MPG.city          : int  25 18 20 19 22 22 19 16 19 16 ...
##  $ MPG.highway       : int  31 25 26 26 30 31 28 25 27 25 ...
##  $ AirBags           : Factor w/ 3 levels "Driver & Passenger",..: 3 1 2 1 2 2 2 2 2 2 ...
##  $ DriveTrain        : Factor w/ 3 levels "4WD","Front",..: 2 2 2 2 3 2 2 3 2 2 ...
##  $ Cylinders         : Factor w/ 6 levels "3","4","5","6",..: 2 4 4 4 2 2 4 4 4 5 ...
##  $ EngineSize        : num  1.8 3.2 2.8 2.8 3.5 2.2 3.8 5.7 3.8 4.9 ...
##  $ Horsepower        : int  140 200 172 172 208 110 170 180 170 200 ...
##  $ RPM               : int  6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
##  $ Rev.per.mile      : int  2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
##  $ Man.trans.avail   : Factor w/ 2 levels "No","Yes": 2 2 2 2 2 1 1 1 1 1 ...
##  $ Fuel.tank.capacity: num  13.2 18 16.9 21.1 21.1 16.4 18 23 18.8 18 ...
##  $ Passengers        : int  5 5 5 6 4 6 6 6 5 6 ...
##  $ Length            : int  177 195 180 193 186 189 200 216 198 206 ...
##  $ Wheelbase         : int  102 115 102 106 109 105 111 116 108 114 ...
##  $ Width             : int  68 71 67 70 69 69 74 78 73 73 ...
##  $ Turn.circle       : int  37 38 37 37 39 41 42 45 41 43 ...
##  $ Rear.seat.room    : num  26.5 30 28 31 27 28 30.5 30.5 26.5 35 ...
##  $ Luggage.room      : int  11 15 14 17 13 16 17 21 14 18 ...
##  $ Weight            : int  2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
##  $ Origin            : Factor w/ 2 levels "USA","non-USA": 2 2 2 2 2 1 1 1 1 1 ...
##  $ Make              : Factor w/ 93 levels "Acura Integra",..: 1 2 4 3 5 6 7 9 8 10 ...
Cars93$Type
Cars93$AirBags

Para omitir el signo $ en el llmado de la variable

attach(Cars93)

Cuántos individuos?

ncol(Cars93) # numero dde columnas
## [1] 27
nrow(Cars93) # numero de filas
## [1] 93
dim(Cars93)
## [1] 93 27
  • 6 primeras filas de la base
head(Cars93) 
##   Manufacturer   Model    Type Min.Price Price Max.Price MPG.city MPG.highway
## 1        Acura Integra   Small      12.9  15.9      18.8       25          31
## 2        Acura  Legend Midsize      29.2  33.9      38.7       18          25
## 3         Audi      90 Compact      25.9  29.1      32.3       20          26
## 4         Audi     100 Midsize      30.8  37.7      44.6       19          26
## 5          BMW    535i Midsize      23.7  30.0      36.2       22          30
## 6        Buick Century Midsize      14.2  15.7      17.3       22          31
##              AirBags DriveTrain Cylinders EngineSize Horsepower  RPM
## 1               None      Front         4        1.8        140 6300
## 2 Driver & Passenger      Front         6        3.2        200 5500
## 3        Driver only      Front         6        2.8        172 5500
## 4 Driver & Passenger      Front         6        2.8        172 5500
## 5        Driver only       Rear         4        3.5        208 5700
## 6        Driver only      Front         4        2.2        110 5200
##   Rev.per.mile Man.trans.avail Fuel.tank.capacity Passengers Length Wheelbase
## 1         2890             Yes               13.2          5    177       102
## 2         2335             Yes               18.0          5    195       115
## 3         2280             Yes               16.9          5    180       102
## 4         2535             Yes               21.1          6    193       106
## 5         2545             Yes               21.1          4    186       109
## 6         2565              No               16.4          6    189       105
##   Width Turn.circle Rear.seat.room Luggage.room Weight  Origin          Make
## 1    68          37           26.5           11   2705 non-USA Acura Integra
## 2    71          38           30.0           15   3560 non-USA  Acura Legend
## 3    67          37           28.0           14   3375 non-USA       Audi 90
## 4    70          37           31.0           17   3405 non-USA      Audi 100
## 5    69          39           27.0           13   3640 non-USA      BMW 535i
## 6    69          41           28.0           16   2880     USA Buick Century
  • 6 ultimas filas de la base.
tail(Cars93)  
##    Manufacturer   Model    Type Min.Price Price Max.Price MPG.city MPG.highway
## 88   Volkswagen     Fox   Small       8.7   9.1       9.5       25          33
## 89   Volkswagen Eurovan     Van      16.6  19.7      22.7       17          21
## 90   Volkswagen  Passat Compact      17.6  20.0      22.4       21          30
## 91   Volkswagen Corrado  Sporty      22.9  23.3      23.7       18          25
## 92        Volvo     240 Compact      21.8  22.7      23.5       21          28
## 93        Volvo     850 Midsize      24.8  26.7      28.5       20          28
##               AirBags DriveTrain Cylinders EngineSize Horsepower  RPM
## 88               None      Front         4        1.8         81 5500
## 89               None      Front         5        2.5        109 4500
## 90               None      Front         4        2.0        134 5800
## 91               None      Front         6        2.8        178 5800
## 92        Driver only       Rear         4        2.3        114 5400
## 93 Driver & Passenger      Front         5        2.4        168 6200
##    Rev.per.mile Man.trans.avail Fuel.tank.capacity Passengers Length Wheelbase
## 88         2550             Yes               12.4          4    163        93
## 89         2915             Yes               21.1          7    187       115
## 90         2685             Yes               18.5          5    180       103
## 91         2385             Yes               18.5          4    159        97
## 92         2215             Yes               15.8          5    190       104
## 93         2310             Yes               19.3          5    184       105
##    Width Turn.circle Rear.seat.room Luggage.room Weight  Origin
## 88    63          34           26.0           10   2240 non-USA
## 89    72          38           34.0           NA   3960 non-USA
## 90    67          35           31.5           14   2985 non-USA
## 91    66          36           26.0           15   2810 non-USA
## 92    67          37           29.5           14   2985 non-USA
## 93    69          38           30.0           15   3245 non-USA
##                  Make
## 88     Volkswagen Fox
## 89 Volkswagen Eurovan
## 90  Volkswagen Passat
## 91 Volkswagen Corrado
## 92          Volvo 240
## 93          Volvo 850

##Diagrama de barras para la variable AirBags

barplot(table(AirBags))

Para contar usar la función table

airbag<-  table(AirBags)
airbag
## AirBags
## Driver & Passenger        Driver only               None 
##                 16                 43                 34

convertir airbag en un data frame

airbag1<-as.data.frame(airbag)
airbag1
##              AirBags Freq
## 1 Driver & Passenger   16
## 2        Driver only   43
## 3               None   34
colnames(airbag1)
## [1] "AirBags" "Freq"

diagrama de barras con ggplot de AirBags

ggplot(data=airbag1, aes(x=AirBags, y=Freq))+
  geom_bar(stat = "identity",  fill="steelblue", width=0.4)+
  geom_text(aes(label=Freq), vjust=1, color="white")

pie(table(AirBags))

Con ggplot

ggplot(data=airbag1, aes(x="" , y=Freq, fill=AirBags  ))+
  geom_bar(stat="identity")+
  coord_polar(theta="y", start = 0)+
  theme_void()

HISTOGRAMAS DE FRECUENCIA RELATIVA

Un histograma de frecuencia relativa es semejante a una gráfica de barras, pero se usa para graficar cantidades en lugar de datos cualitativos.

Definición:

Un histograma de frecuencia relativa, para un conjunto de datos cuantitativo es una gráfica de barras en la que la altura de la barra muestra “con qué frecuencia” (medida como proporción o frecuencia relativa) las mediciones caen en una clase o subintervalo particular. Las clases o subintervalos se grafican a lo largo del eje horizontal.

Como regla práctica, el número de clases debe ser de 5 a 12; cuantos más datos haya, más clases se requieren.

Cuando los datos contienen una gran cantidad de elementos, para facilitar los cálculos es necesario agruparlos, a estos grupos se los llama intervalos o clases.

Las reglas generales para formas distribuciones de frecuencias para datos agrupados en intervalos son:

  • Calcule el Rango (R): También se llama recorrido o amplitud total. Es la diferencia entre el valor mayor y el menor de los datos. \[Rango=Dato \ mayor - Dato \ menor\]

  • Seleccione el Número de Intervalos de Clase \((n_i)\).- No debe ser menor de 5 y mayor de 12,

Regla de Sturges

Es una regla práctica acerca del número de clases que deben considerar al elaborarse un histograma

Este número viene dado por la siguiente expresión:

\[\displaystyle c=1+3.322\cdot \log N\]

siendo N la cantidad de datos.

El valor de \(c\) (número de clases) es común redondearlo al entero más cercano.

  • Calcule el Ancho del Intervalo \((i)\)

\[i=\dfrac{R}{n_{i}}\]

Cuando el valor de \(i\) no es exacto, se debe redondear al valor superior más cercano. Esto altera el valor de rango por lo que es necesario efectuar un ajuste así:

\[Nuevo \ Rango= n_i \cdot i\]

Ejemplo

Pesos de 30 bebés de gestación completa al momento de nacer

\[\begin{array}{lllll} 7.2 & 7.8 & 6.8 & 6.2 & 8.2 \\ 8.0 & 8.2 & 5.6 & 8.6 & 7.1 \\ 8.2 & 7.7 & 7.5 & 7.2 & 7.7 \\ 5.8 & 6.8 & 6.8 & 8.5 & 7.5 \\ 6.1 & 7.9 & 9.4 & 9.0 & 7.8 \\ 8.5 & 9.0 & 7.7 & 6.7 & 7.7 \end{array}\]

Construcción Histograma

Escriba los datos en un vector

Pesos<-c(7.2 , 7.8,  6.8 , 6.2,  8.2 ,8.0,  8.2, 5.6, 8.6, 7.1, 
    8.2, 7.7, 7.5, 7.2, 7.7, 5.8,  6.8,  6.8,  8.5,  7.5,6.1,
    7.9, 9.4, 9.0, 7.8, 8.5, 9.0, 7.7, 6.7, 7.7)

sin usar ggplot

hist(Pesos)

con mas argumentos

hist(Pesos, xlim = c(5,10), ylim = c(0,10), main = "Histograma", xlab = "Pesos al nacer",
     ylab="Frecuencia", col="steelblue")

tabla

instalar el paquete

#install.packages("fdth")
library(fdth) # carga la extensión fdth (para el calculo de distribución de frecuencias.
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var

Calcula la distribución de frecuencias utilizando la regla Sturge

dist <- fdt(Pesos,breaks="Sturges") 
dist
##   Class limits f   rf rf(%) cf  cf(%)
##  [5.544,6.202) 4 0.13 13.33  4  13.33
##  [6.202,6.861) 4 0.13 13.33  8  26.67
##  [6.861,7.519) 5 0.17 16.67 13  43.33
##  [7.519,8.177) 8 0.27 26.67 21  70.00
##  [8.177,8.836) 6 0.20 20.00 27  90.00
##  [8.836,9.494) 3 0.10 10.00 30 100.00

Con ggplot

df.Pesos<-as.data.frame(Pesos)
library(ggplot2)
ggplot(data=df.Pesos , aes(Pesos))+
  geom_histogram() 
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Mejorando el histograma

ggplot(data=df.Pesos,aes(Pesos))+
  geom_histogram(binwidth = 0.7,  fill = 'steelblue', color="white") + 
  xlab("Pesos") + 
  ylab("Frecuencia") + 
  ggtitle("Histograma de Pesos") +
  theme_minimal()

Con una base de R

hist(Price)

?geom_histogram
ggplot(data=Cars93, aes(Price))+
  geom_histogram(color="white", fill="steelblue")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

MEDIDAS DE CENTRO

Una de las primeras mediciones numéricas importantes es una medida de centro, es decir, una medida a lo largo del eje horizontal que localiza el centro de la distribución.

Definición:

La media aritmética o promedio de un conjunto de \(n\) mediciones es igual a la suma de las mediciones dividida entre \(n\).

Media muestral: \(\overline{x}=\dfrac{\sum_{i=1}^{n} x_{i}}{n}\)

Media poblacional: \(\mu\)

Ejemplo: 2, 9, 11, 5, 6.

Definición

La mediana \(m\) de un conjunto de \(n\) mediciones es el valor de x que cae en la posición media cuando las mediciones son ordenadas de menor a mayor.

  • Ejemplo:

Encuentre la mediana para el conjunto de mediciones 2, 9, 11, 5, 6, 27.

Definición

La moda es la categoría que se presenta con más frecuencia o el valor de \(x\) que se presenta con más frecuencia. Cuando las mediciones en una variable continua se han agrupado como histograma de frecuencia o de frecuencia relativa, la clase con el pico más alto o frecuencia se llama clase modal, y el punto medio de esa clase se toma como la moda

3, 5, 4, 6, 10, 5, 6, 9, 2, 8.

Calcule

-\(\overline{x}\) - Encuentre mediana. - Encuentre la moda.

MEDIDAS DE VARIABILIDAD

La variabilidad o dispersión es una muy importante característica de datos. Por ejemplo, si usted fabrica tornillos, la variación extrema en los diámetros de los tornillos causaría un alto porcentaje de productos defectuosos.

Las medidas de variabilidad pueden ayudarle a crear una imagen mental de la dispersión de los datos.

Definición:

El rango, \(R\), de un conjunto de \(n\) mediciones se define como la diferencia entre la medición más grande y la más pequeña.

Definición

La varianza de una población de \(N\) mediciones es el promedio de los cuadrados de las desviaciones de las mediciones alrededor de su media \(\mu\). La varianza poblacional se denota con \(\sigma^2\) y está dada por.

\[\sigma^2=\dfrac{\sum_{i=1}^{N} (x_i-\mu)^2}{N}\]

Definición:

La varianza de una muestra de \(n\) mediciones es la suma de las desviaciones cuadradas de las mediciones alrededor la media \(\overline{x}\) dividida entre \((n - 1)\). La varianza muestral se denota con \(S^2\) y está dada por la fórmula

\[\displaystyle S^2=\dfrac{\sum_{i=1}^{n} (x_i-\overline{x})^2}{n-1}\]

Definición

La desviación estándar de un conjunto de mediciones es igual a la raíz cuadrada positiva de la varianza.

Ejemplo

Hallar la desviación estandar,

  • 2, 3, 6, 8, 11.
  • 12, 6, 7, 3, 15, 10, 18, 5.

MEDICIONES DE POSICIÓN RELATIVA

A veces es necesario conocer la posición de una observación respecto a otras de un conjunto de datos.

Definición:

El puntaje \(z\) muestral es una medida de posición relativa definida por

\[puntaje \ \ z = \dfrac{x-\overline{x}}{s}\]

Un puntaje \(z\) mide la distancia entre una observación y la media, medidas en unidades de desviación estándar.

El puntaje z es una valiosa herramienta para determinar si es probable que una observación particular se presente con frecuencia, o si es improbable y puede ser considerada como resultado atípico

Considere esta muestra de 10 mediciones:

1, 1, 0, 15, 2, 3, 4, 0, 1, 3

  • Un percentil es otra medida de posición relativa y se usa con más frecuencia para conjuntos grandes de datos. (Los percentiles no son muy útiles para conjuntos pequeños de datos.)

Definición:

Un conjunto de \(n\) mediciones de la variable \(x\) se ha reacomodado en orden de magnitud. El \(p\)-ésimo percentil es el valor de \(x\) que es mayor a \(p\)% de las mediciones y es menor que el restante \((100 - p)\)%.

Definición

Un conjunto de \(n\) mediciones en la variable \(x\) se ha acomodado en orden de magnitud.

  • El cuartil inferior (primer cuartil), \(Q_1\), es el valor de \(x\) que es mayor a un cuarto de las mediciones y es menor que los restantes tres cuartos.

  • El segundo cuartil es la mediana.

  • El cuartil superior (tercer cuartil), \(Q_3\), es el valor de \(x\) que es mayor a tres cuartos de las mediciones y es menor que el restante un cuarto.

  • El rango intercuartil IQR para un conjunto de mediciones es la diferencia entre los cuartiles superior e inferior; esto es, \[IQR = Q_3 - Q_1\].

Ejemplo

A medida que los consumidores estadounidenses tienen más cuidado con los alimentos que consumen, los procesadores de alimentos tratan de ser competitivos al evitar cantidades excesivas de grasa, colesterol y sodio en los alimentos que venden. Los datos siguientes son las cantidades de sodio por rebanada (en miligramos) para cada una de ocho marcas de queso regular estadounidense. Construya una gráfica de caja para los datos y busque resultados atípicos.\

340, 300, 520, 340, 320, 290, 260, 330

sodio=c(340, 300, 520, 340, 320, 290, 260, 330)
boxplot(sodio)

summary(sodio)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   260.0   297.5   325.0   337.5   340.0   520.0

Con nuestra base de datos de R

colnames(Cars93)
##  [1] "Manufacturer"       "Model"              "Type"              
##  [4] "Min.Price"          "Price"              "Max.Price"         
##  [7] "MPG.city"           "MPG.highway"        "AirBags"           
## [10] "DriveTrain"         "Cylinders"          "EngineSize"        
## [13] "Horsepower"         "RPM"                "Rev.per.mile"      
## [16] "Man.trans.avail"    "Fuel.tank.capacity" "Passengers"        
## [19] "Length"             "Wheelbase"          "Width"             
## [22] "Turn.circle"        "Rear.seat.room"     "Luggage.room"      
## [25] "Weight"             "Origin"             "Make"
ggplot(data=Cars93, aes(y=Price))+
  geom_boxplot(fill="steelblue")

ggplot(data=Cars93, aes(y=Price, x=AirBags))+
  geom_boxplot(fill="steelblue")

ggplot(data=Cars93, aes(y=Price, x=AirBags))+
  geom_boxplot(fill="steelblue")+
  geom_jitter(aes(color = AirBags))

quantile(Price,0.5)
##  50% 
## 17.7
 ggplot(data = Cars93, aes(x = Price))+
  geom_histogram(fill="steelblue")+
  facet_wrap(~AirBags)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.