Noviembre, 2017

Herramientas del Análisis de Datos

  • Estadística
  • Visualización de Datos

Visualización de Datos

La visualización de datos (data visualization) es el proceso de búsqueda, interpretación, contrastación y comparación de datos que permite un conocimiento en profundidad y detalle de los mismos de tal forma que se transformen en información comprensible (conocimiento) para el usuario.

Visualización de Datos

La visualización es una herramienta para ayudar al análisis y no un sustituto de la habilidad analítica. Tampoco es un sustituto de las estadísticas, es más, el gráfico puede resaltar las diferencias o correlaciones entre los puntos de datos. Disponer de una buena herramienta no es suficiente; como indica Enrique Rodríguez también es necesario que se disponga de conocimientos de negocio, estadística, teoría del color, composición gráfica, e inteligencia emocional.

Visualización de Datos

Las visualizaciones de datos, no hacen todo el trabajo de forma automática. El éxito de una visualización se basa, entre otras variables, en la comprensión de nuestros datos que por lo general requiere una combinación de habilidades de análisis, estadística y experiencia en la limpieza de datos. No hay todavía un perfil determinado de visualizadores de datos; hoy en día encontramos desde diseñadores hasta ingenieros, pasando por psicólogos, periodistas y profesionales de la comunicación y el marketing en general.

¿Que es la Estadística?

La estadística es la ciencia de los datos, la cual implica su recolección, clasificación, síntesis, organización, análisis e interpretación, para la toma de decisiones frente a la incertidumbre (Ángel, p. 28)

La estadística es el arte de aprender a partir de los datos. Está relacionada con la recopilación de datos, su descripción subsiguiente y su análisis, lo que nos lleva a extraer conclusiones. (Ross, p.3)

Objetivo de la estadística

El objetivo de la estadística es mejorar la comprensión de hechos a partir de datos. (Moore, p.267)

El principal objetivo de la estadística es hacer inferencias acerca de una población, con base en la información contenida en una muestra. (Pérez, p.172)

Estadística Descriptiva

La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de datos con el propósito de facilitar su uso generalmente con el apoyo de tablas, medidas, numéricas o gráficas. Además, calcula parámetros estadísticos como las medidas de centralización y dispersión, que describen el conjunto estudiado.

Estadística inferencial, analítica o deductiva

Estudia la probabilidad de éxito de las diferentes soluciones posibles a un problema en las diferentes ciencias en las que se aplica y para ello utiliza los datos observados en una o varias muestras de la población. Mediante la creación de un modelo matemático infiere el comportamiento de la población total partiendo de los resultados obtenidos en las observaciones de las muestras.(Fernández et.al, p.17)

Objetivo de la estadística inferencial

La inferencia estadística intenta tomar decisiones basadas en la aceptación o el rechazo de ciertas relaciones que se toman como hipótesis. Esta toma de decisiones va acompañada de un margen de error, cuya probabilidad está determinada. (Vargas, p.33)

La estadística inferencial tiene dos objetivos básicos; a) obtener conclusiones válidas acerca de una población sobre la base de una muestra, es decir, que las conclusiones que obtengamos de una muestra se puedan extrapolar a la población que dio origen a esa muestra y b) poder medir el grado de incertidumbre presente en dichas inferencias en términos de probabilidad. (Díaz, p.287)

Otras definiciones

A continuación se definen algunos de los términos más usados en estadística:

Población. Es el conjunto de todos los posibles elementos que intervienen en un experimento o en un estudio. La hay de dos tipos

  • Población finita. Es aquella que indica que es posible alcanzarse o sobrepasarse al contar. Es aquella que posee o incluye un número limitado de medidas y observaciones.

  • Población infinita. Es infinita si se incluye un gran conjunto de medidas y observaciones que no pueden alcanzarse en el conteo. Son poblaciones infinitas porque hipotéticamente no existe límite en cuanto al número de observaciones que cada uno de ellos puede generar.

Muestra

Un conjunto de medidas u observaciones tomadas a partir de una población dada. Es un subconjunto de la población.

  • Muestra representativa. Un subconjunto representativo seleccionado de una población de la cual se obtuvo.

  • Muestreo. Al estudio de la muestra representativa.

  • Censo. Al estudio completo de la población.

  • Parámetro. Lo constituyen las características medibles en una población completa. Se le asigna un símbolo representado por una letra griega.

  • Estadístico o estadígrafo. Es la medida de una característica relativa a una muestra. La mayoría de los estadísticos muestrales se encuentran por medio de una fórmula y suelen asignárseles nombres simbólicos que son letras latinas.

Datos estadísticos (Variables)

Los datos son agrupaciones de cualquier número de observaciones relacionadas. Para que se considere un dato estadístico debe tener 2 características: a) Que sean comparables entre sí. b) Que tengan alguna relación.

  • Variable. Una característica que asume valores.

Variable aleatoria

Una variable aleatoria es una función que asigna un valor, usualmente numérico, al resultado de un experimento aleatorio. Por ejemplo, los posibles resultados de tirar un dado dos veces: (1, 1), (1, 2), etc. o un número real (p.e., la temperatura máxima medida a lo largo del día en una ciudad concreta).

Los valores posibles de una variable aleatoria pueden representar los posibles resultados de un experimento aún no realizado, o los posibles valores de una cantidad cuyo valor actualmente existente es incierto (p.e., como resultado de medición incompleta o imprecisa). Intuitivamente, una variable aleatoria puede tomarse como una cantidad cuyo valor no es fijo pero puede tomar diferentes valores; una distribución de probabilidad se usa para describir la probabilidad de que se den los diferentes valores.

Clases de datos

  • Variable cuantitativa o escalar. Será una variable cuando pueda asumir sus resultados en medidas numéricas.
  • Variable cuantitativa discreta. Es aquella que puede asumir sólo ciertos valores, números enteros. Ejemplo: El número de estudiantes (1,2,3,4)
  • Variable cuantitativa continua. Es aquella que teóricamente puede tomar cualquier valor en una escala de medidas, ya sea entero o fraccionario. Ejemplo, Estatura: 1.90 m
  • Variables cualitativas nominales. Cuando no es posible hacer medidas numéricas, son susceptibles de clasificación. Ejemplo: Color de autos: rojo, verde, azul.

Función de Densidad

En la teoría de la probabilidad, la función de densidad de probabilidad, función de densidad, o, simplemente, densidad de una variable aleatoria continua describe la probabilidad relativa según la cual dicha variable aleatoria tomará determinado valor.

Función de Densidad

En R se lo puede hallar mediante la función density()

d <- density(mtcars$mpg)
plot(d, main="Kernel Density of Miles Per Gallon")
polygon(d, col="blue", border="blue")

Medidas Importantes

  • Media.- representa la cantidad media que se "espera" como resultado de un experimento

\[\bar x =\frac{1}{n}\sum_{i=1}^n x_i\]

  • Varianza.- Es una medida de dispersión de los datos, mide cuan alejado estan los datos de la media. Se calcula mediante

\[s^2_x=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar x)^2 \] \[s^2_x=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar x)^2 \]

  • Desviación estándar.- Es una medida de dispersión alternativa, expresada en las mismas unidades que los datos de la variable objeto de estudio.

\[\hat\sigma_x=\sqrt{s^2_x}\]

Medidas Importantes

Para ilustrar su uso con el software R, consideremos la base de datos mtcars (data del paquete base de R), misma que mostramos a continuación:

View(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1

Medidas Importantes

Para hallar los parámetros (medidas) antes mencionados en R, usamos las siguientes funciones:

  • Media.- Con la función mean(), por ejemplo:
x <- mtcars$mpg
mean(x)
## [1] 20.09062
  • Varianza.- Con el código var(x) * (length(x)-1) / length(x), o para el segundo caso var(x)
( var1 <- var(x) * (length(x)-1) / length(x)  )
## [1] 35.18897
( var2 <- var(x)  )
## [1] 36.3241

Medidas Importantes

  • Desviación estándar.- Usando la función sd()
( de1 <- sqrt(var(x) * (length(x)-1) / length(x)) )
## [1] 5.93203
( de2 <- sd(x) )
## [1] 6.026948

Histograma

En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una "primera vista" general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua (como la longitud o el peso). De esta manera ofrece una visión de grupo permitiendo observar una preferencia, o tendencia, por parte de la muestra o población por ubicarse hacia una determinada región de valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la característica.

Histograma

En R se lo puede hallar mediante la función hist()

hist(mtcars$mpg)

Histograma

En R se lo puede hallar mediante la función hist()

hist(mtcars$mpg,breaks = 10,col='blue',main = 'Histograma del Tamaño de Petalos')

Otras Medidas Importantes

  • Mediana. Representa el valor de la variable de posición central en un conjunto de datos ordenados. Es decir, el 50% (la mitad) las observaciones de la variable X tiene un valor menor que la mediana. Se calcula ordenando los datos de mayor a menor, luego se elije al dato que se encuentre en la mitad.
median(x)
## [1] 19.2
  • Cuantiles. Es el valor de la variable \(x_{p}\) que marca un corte de modo que una proporción p de valores de la población es menor o igual que \(x_{p}\). Por ejemplo, el cuantil de orden 0,36 dejaría un 36% de valores por debajo y el cuantil de orden 0,50 se corresponde con la mediana de la distribución.
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE,
         names = TRUE, type = 7)
##     0%    25%    50%    75%   100% 
## 10.400 15.425 19.200 22.800 33.900

Diagrama de Cajas

Un diagrama de caja, también conocido como diagrama de caja y bigotes, es un gráfico que está basado en cuartiles y mediante el cual se visualiza la distribución de un conjunto de datos. Está compuesto por un rectángulo (la «caja») y dos brazos (los «bigotes»).

Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución.

Código en R

boxplot(x)

Diagrama de Cajas

boxplot(x)

Diagrama de Cajas

Por default cuando el argumento de la función boxplot() es un data.frame, R gráfica el digrama de caja de cada una de las variables numéricas del data.frame

boxplot(mtcars)

Covarianza

es un valor que indica el grado de variación conjunta de dos variables aleatorias respecto a sus medias. Es el dato básico para determinar si existe una dependencia entre ambas variables y además es el dato necesario para estimar otros parámetros básicos, como el coeficiente de correlación lineal o la recta de regresión.

\[ s_{xy}=\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)=\frac{1}{n}\sum_{i=1}^n x_iy_i - \bar x \bar y \]

Covariaza en R

y <- mtcars$disp
cov(x,y)
## [1] -633.0972

Correlación

la correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación entre ellas si al disminuir los valores de A lo hacen también los de B y viceversa. Observacion. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad

\[ r_{xy}=\frac{S_{xy}}{\sqrt{S_x}\sqrt{S_y}} \]

Correlación en R

cor(x,y)
## [1] -0.8475514

Gráficos de Puntos

Se usa para visualizar puntos en determinada dimensión (usualmente 2 o 3).

Por ejemplo usando las variables x, y antes definidas podemos generar una gráfica X vs Y en el 'plano cartesiano' mediante el código

plot(x,y)

Gráficos del Paquete Base de R

Por default R gráfica los objetos data.frame usando gráficos de puntos que corresponden a gráficos bidimensionales tomando todas las parejas de variables que se encuentran en el data.frame.

plot(mtcars[,1:3])

Regresión Lineal

En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente \(Y\), las variables independientes \(X_i\) y un término aleatorio \(\varepsilon\). Este modelo puede ser expresado como

\[ Y_i=\beta_0+\beta_1 x_1 +...+\beta_n x_n+\varepsilon_i \]

Si en el modelo solo se considera una variable independiente \(X\), el modelo se conoce como Regresión Lineal Simple

Regresión Lineal en R

lm(y~x)
lm(y~x,data = nombre_data_frame)

Regresión Lineal en R

reg_sim<-lm(Sepal.Length~Sepal.Width,data = iris)
summary(reg_sim)
## 
## Call:
## lm(formula = Sepal.Length ~ Sepal.Width, data = iris)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.5561 -0.6333 -0.1120  0.5579  2.2226 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   6.5262     0.4789   13.63   <2e-16 ***
## Sepal.Width  -0.2234     0.1551   -1.44    0.152    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8251 on 148 degrees of freedom
## Multiple R-squared:  0.01382,    Adjusted R-squared:  0.007159 
## F-statistic: 2.074 on 1 and 148 DF,  p-value: 0.1519