Universidad Anáhuac - Cancún

Análisis Multivariable para la Mercadotecnia

Dr. David Israel Flores Granados
01 de Septiembre 2020

Estadística Descriptiva - Medidas de Dispersión

Contenido

  • Acerca del Dataset de trabajo
  • Adquisición de datos
  • Medidas de dispersión
    • Rango
    • Cuartiles
    • IQR
    • Boxplot
    • Varianza y Desviación Estándar.

Acerca del Dataset

The data is related with direct marketing campaigns of a Portuguese banking institution. The marketing campaigns were based on phone calls. Often, more than one contact to the same client was required, in order to access if the product (bank term deposit) would be ('yes') or not ('no') subscribed.

Acerca del Dataset - Diccionario de datos

• Bank client data: Age (numeric).
Job : type of job (categorical: 'admin.', 'blue-collar', 'entrepreneur', 'housemaid', 'management', 'retired', 'self-employed', 'services', 'student', 'technician', 'unemployed', 'unknown').
o Marital : marital status (categorical: 'divorced', 'married', 'single', 'unknown' ; note: 'divorced' means divorced or widowed)
o Education (categorical: 'basic.4y', 'basic.6y', 'basic.9y', 'high.school', 'illiterate', 'professional.course', 'university.degree', 'unknown').
o Default: has credit in default? (categorical: 'no', 'yes', 'unknown').
o Housing: has housing loan? (categorical: 'no', 'yes', 'unknown'). o Loan: has personal loan? (categorical: 'no', 'yes', 'unknown')

Acerca del Dataset - Diccionario de datos

• Related with the last contact of the current campaign:
o Contact: contact communication type (categorical: 'cellular','telephone')
o Month: last contact month of year (categorical: 'jan', 'feb', 'mar', …, 'nov', 'dec')
o Dayofweek: last contact day of the week (categorical: 'mon','tue','wed','thu','fri')
o Duration: last contact duration, in seconds (numeric). Important note: this attribute highly affects the output target (e.g., if duration=0 then y='no'). Yet, the duration is not known before a call is performed. Also, after the end of the call y is obviously known.

Acerca del Dataset - Diccionario de datos

• Other attributes: o Campaign: number of contacts performed during this campaign and for this client (numeric, includes last contact).
o Pdays: number of days that passed by after the client was last contacted from a previous campaign (numeric; 999 means client was not previously contacted)
o Previous: number of contacts performed before this campaign and for this client (numeric)
o Poutcome: outcome of the previous marketing campaign (categorical:'failure','nonexistent','success')

Acerca del Dataset - Diccionario de datos

• Social and economic context atributes o Emp.var.rate: employment variation rate - quarterly indicator(numeric) o Cons.price.idx: consumer price index - monthly indicator (numeric) o Cons.conf.idx: consumer confidence index - monthly indicator(numeric) o Euribor3m: euribor 3 month rate - daily indicator (numeric) o Nr.employed: number of employees - quarterly indicator (numeric)

Adquisición y limpieza de datos

#importar primero el dataset
bank.additional.fullA <- read.csv("/cloud/project/bank-additional-fullA.csv", stringsAsFactors=TRUE)
# después trabajar con un dataframe con nombre corto
bk = bank.additional.fullA
# ahora convertir las cadenas de porcentaje a número
age = bk$age[!is.na(bk$age)]

Medidas de dispersión - Rango

  • Rango: Es el valor absoluto de la diferencia entre el valor máximo y el valor mínimo.
    \( Rango = |Max_x - Min_x| \)
max(age) - min(age)
[1] 81
range(age)
[1] 17 98

Medidas de dispersión - Cuartiles 1/3

  • A partir de cuartiles. Primero veamos los cuantiles y cuartiles.
  • Con frecuencia es conveniente dividir los datos en cuatro partes; así, cada parte contiene una cuarta parte o 25% de las observaciones
  • A los puntos de división se les conoce como cuartiles y están definidos como sigue:
    • Q1 = primer cuartil, o percentil 25
    • Q2 = segundo cuartil, o percentil 50
    • Q3 = tercer cuartil, o percentil 75

Medidas de dispersión - Cuartiles 2/3

  • Para hallar cualquier índice de un cuantil p
    \[ i = (\frac{p}{100})n \]

  • En el caso del índecie de \( Q_1 \) \[ i = (\frac{25}{100})n \]

  • En el caso del índice de \( Q_3 \) \[ i = (\frac{75}{100})n \]

Medidas de dispersión - Cuartiles 3/3

  • En R se puede calcular los cuartiles de age de la siguiente forma:
quantile(age)
  0%  25%  50%  75% 100% 
  17   32   38   47   98 
  • Q2 o Cuartil 50 es la mediana.
  • Para cualquier conjunto de cuantiles
quantile(age,c(0.33,0.66))
33% 66% 
 34  43 

Medidas de dispersión - Rango Intercuartílico (IQR)

  • Una medida de dispersión ampliamente usada es el Rango Intercuartil o IQR: \[ IQR= Q_3 - Q_1 \]
IQR(age)
[1] 15
# Se comprueba con Q3 - Q1
Q1 = as.numeric(quantile(age)[2])
Q3 = as.numeric(quantile(age)[4])
Q3 - Q1
[1] 15

Medidas de dispersión - Boxplot 1/3

  • Boxplot es una gráfica sumamente útil para representar medias de tendencia central y de variabilidad
boxplot(age)
age_bx = boxplot(age)

plot of chunk unnamed-chunk-6

Medidas de dispersión - Boxplot 2/3

  • Identificación de medidas en el Boxplot Boxplot
(out_min = Q1 - 1.5*IQR(age))
[1] 9.5
(out_max = Q3 + 1.5*IQR(age))
[1] 69.5

Medidas de dispersión - Boxplot 3/3

Boxplot

Medidas de dispersión - Varianza y Desviación estándar

  • La varianza poblacional se denota con la letra griega σ2. En una población en la que hay N observaciones y la media poblacional es μ, la varianza poblacional se define como sigue. \[ \sigma^2 = \frac{\sum{(x_i - \mu)^2}}{N} \]
  • La varianza muestral, que se denota por s2, se define como sigue. \[ s^2 = \frac{\sum{(x_i - \bar{x})^2}}{n-1} \]
var(age)
[1] 108.6028

Medidas de dispersión - Varianza y Desviación estándar

  • La desviación estándar elimina el problema de las unidades de medida al cuadrado al obtener la raíz cuadrada de la varianza. \[ s = \sqrt{\frac{\sum{(x_i - \bar{x})^2}}{n-1}} \]
sd(age)
[1] 10.42127