- Estadística
- Visualización de Datos
Noviembre, 2017
La visualización de datos (data visualization) es el proceso de búsqueda, interpretación, contrastación y comparación de datos que permite un conocimiento en profundidad y detalle de los mismos de tal forma que se transformen en información comprensible (conocimiento) para el usuario.
La visualización es una herramienta para ayudar al análisis y no un sustituto de la habilidad analítica. Tampoco es un sustituto de las estadísticas, es más, el gráfico puede resaltar las diferencias o correlaciones entre los puntos de datos. Disponer de una buena herramienta no es suficiente; como indica Enrique Rodríguez también es necesario que se disponga de conocimientos de negocio, estadística, teoría del color, composición gráfica, e inteligencia emocional.
Las visualizaciones de datos, no hacen todo el trabajo de forma automática. El éxito de una visualización se basa, entre otras variables, en la comprensión de nuestros datos que por lo general requiere una combinación de habilidades de análisis, estadística y experiencia en la limpieza de datos. No hay todavía un perfil determinado de visualizadores de datos; hoy en día encontramos desde diseñadores hasta ingenieros, pasando por psicólogos, periodistas y profesionales de la comunicación y el marketing en general.
La estadística es la ciencia de los datos, la cual implica su recolección, clasificación, síntesis, organización, análisis e interpretación, para la toma de decisiones frente a la incertidumbre (Ángel, p. 28)
La estadística es el arte de aprender a partir de los datos. Está relacionada con la recopilación de datos, su descripción subsiguiente y su análisis, lo que nos lleva a extraer conclusiones. (Ross, p.3)
El objetivo de la estadística es mejorar la comprensión de hechos a partir de datos. (Moore, p.267)
El principal objetivo de la estadística es hacer inferencias acerca de una población, con base en la información contenida en una muestra. (Pérez, p.172)
La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de datos con el propósito de facilitar su uso generalmente con el apoyo de tablas, medidas, numéricas o gráficas. Además, calcula parámetros estadísticos como las medidas de centralización y dispersión, que describen el conjunto estudiado.
Estudia la probabilidad de éxito de las diferentes soluciones posibles a un problema en las diferentes ciencias en las que se aplica y para ello utiliza los datos observados en una o varias muestras de la población. Mediante la creación de un modelo matemático infiere el comportamiento de la población total partiendo de los resultados obtenidos en las observaciones de las muestras.(Fernández et.al, p.17)
La inferencia estadística intenta tomar decisiones basadas en la aceptación o el rechazo de ciertas relaciones que se toman como hipótesis. Esta toma de decisiones va acompañada de un margen de error, cuya probabilidad está determinada. (Vargas, p.33)
La estadística inferencial tiene dos objetivos básicos; a) obtener conclusiones válidas acerca de una población sobre la base de una muestra, es decir, que las conclusiones que obtengamos de una muestra se puedan extrapolar a la población que dio origen a esa muestra y b) poder medir el grado de incertidumbre presente en dichas inferencias en términos de probabilidad. (Díaz, p.287)
A continuación se definen algunos de los términos más usados en estadística:
Población. Es el conjunto de todos los posibles elementos que intervienen en un experimento o en un estudio. La hay de dos tipos
Población finita. Es aquella que indica que es posible alcanzarse o sobrepasarse al contar. Es aquella que posee o incluye un número limitado de medidas y observaciones.
Población infinita. Es infinita si se incluye un gran conjunto de medidas y observaciones que no pueden alcanzarse en el conteo. Son poblaciones infinitas porque hipotéticamente no existe límite en cuanto al número de observaciones que cada uno de ellos puede generar.
Un conjunto de medidas u observaciones tomadas a partir de una población dada. Es un subconjunto de la población.
Muestra representativa. Un subconjunto representativo seleccionado de una población de la cual se obtuvo.
Muestreo. Al estudio de la muestra representativa.
Censo. Al estudio completo de la población.
Parámetro. Lo constituyen las características medibles en una población completa. Se le asigna un símbolo representado por una letra griega.
Estadístico o estadígrafo. Es la medida de una característica relativa a una muestra. La mayoría de los estadísticos muestrales se encuentran por medio de una fórmula y suelen asignárseles nombres simbólicos que son letras latinas.
Los datos son agrupaciones de cualquier número de observaciones relacionadas. Para que se considere un dato estadístico debe tener 2 características: a) Que sean comparables entre sí. b) Que tengan alguna relación.
Una variable aleatoria es una función que asigna un valor, usualmente numérico, al resultado de un experimento aleatorio. Por ejemplo, los posibles resultados de tirar un dado dos veces: (1, 1), (1, 2), etc. o un número real (p.e., la temperatura máxima medida a lo largo del día en una ciudad concreta).
Los valores posibles de una variable aleatoria pueden representar los posibles resultados de un experimento aún no realizado, o los posibles valores de una cantidad cuyo valor actualmente existente es incierto (p.e., como resultado de medición incompleta o imprecisa). Intuitivamente, una variable aleatoria puede tomarse como una cantidad cuyo valor no es fijo pero puede tomar diferentes valores; una distribución de probabilidad se usa para describir la probabilidad de que se den los diferentes valores.
En la teoría de la probabilidad, la función de densidad de probabilidad, función de densidad, o, simplemente, densidad de una variable aleatoria continua describe la probabilidad relativa según la cual dicha variable aleatoria tomará determinado valor.
En R se lo puede hallar mediante la función density()
d <- density(mtcars$mpg) plot(d, main="Kernel Density of Miles Per Gallon") polygon(d, col="blue", border="blue")
\[\bar x =\frac{1}{n}\sum_{i=1}^n x_i\]
\[s^2_x=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar x)^2 \] \[s^2_x=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar x)^2 \]
\[\hat\sigma_x=\sqrt{s^2_x}\]
Para ilustrar su uso con el software R, consideremos la base de datos mtcars (data del paquete base de R), misma que mostramos a continuación:
View(mtcars)
| mpg | cyl | disp | hp | drat | wt | qsec | vs | am | gear | carb | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Mazda RX4 | 21.0 | 6 | 160 | 110 | 3.90 | 2.620 | 16.46 | 0 | 1 | 4 | 4 |
| Mazda RX4 Wag | 21.0 | 6 | 160 | 110 | 3.90 | 2.875 | 17.02 | 0 | 1 | 4 | 4 |
| Datsun 710 | 22.8 | 4 | 108 | 93 | 3.85 | 2.320 | 18.61 | 1 | 1 | 4 | 1 |
| Hornet 4 Drive | 21.4 | 6 | 258 | 110 | 3.08 | 3.215 | 19.44 | 1 | 0 | 3 | 1 |
| Hornet Sportabout | 18.7 | 8 | 360 | 175 | 3.15 | 3.440 | 17.02 | 0 | 0 | 3 | 2 |
| Valiant | 18.1 | 6 | 225 | 105 | 2.76 | 3.460 | 20.22 | 1 | 0 | 3 | 1 |
Para hallar los parámetros (medidas) antes mencionados en R, usamos las siguientes funciones:
mean(), por ejemplo:x <- mtcars$mpg mean(x)
## [1] 20.09062
var(x) * (length(x)-1) / length(x), o para el segundo caso var(x)( var1 <- var(x) * (length(x)-1) / length(x) )
## [1] 35.18897
( var2 <- var(x) )
## [1] 36.3241
sd()( de1 <- sqrt(var(x) * (length(x)-1) / length(x)) )
## [1] 5.93203
( de2 <- sd(x) )
## [1] 6.026948
En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una "primera vista" general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua (como la longitud o el peso). De esta manera ofrece una visión de grupo permitiendo observar una preferencia, o tendencia, por parte de la muestra o población por ubicarse hacia una determinada región de valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la característica.
En R se lo puede hallar mediante la función hist()
hist(mtcars$mpg)
En R se lo puede hallar mediante la función hist()
hist(mtcars$mpg,breaks = 10,col='blue',main = 'Histograma del Tamaño de Petalos')
median(x)
## [1] 19.2
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE,
names = TRUE, type = 7)
## 0% 25% 50% 75% 100% ## 10.400 15.425 19.200 22.800 33.900
Un diagrama de caja, también conocido como diagrama de caja y bigotes, es un gráfico que está basado en cuartiles y mediante el cual se visualiza la distribución de un conjunto de datos. Está compuesto por un rectángulo (la «caja») y dos brazos (los «bigotes»).
Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución.
boxplot(x)
boxplot(x)
Por default cuando el argumento de la función boxplot() es un data.frame, R gráfica el digrama de caja de cada una de las variables numéricas del data.frame
boxplot(mtcars)
es un valor que indica el grado de variación conjunta de dos variables aleatorias respecto a sus medias. Es el dato básico para determinar si existe una dependencia entre ambas variables y además es el dato necesario para estimar otros parámetros básicos, como el coeficiente de correlación lineal o la recta de regresión.
\[ s_{xy}=\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)=\frac{1}{n}\sum_{i=1}^n x_iy_i - \bar x \bar y \]
y <- mtcars$disp cov(x,y)
## [1] -633.0972
la correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación entre ellas si al disminuir los valores de A lo hacen también los de B y viceversa. Observacion. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad
\[ r_{xy}=\frac{S_{xy}}{\sqrt{S_x}\sqrt{S_y}} \]
cor(x,y)
## [1] -0.8475514
Se usa para visualizar puntos en determinada dimensión (usualmente 2 o 3).
Por ejemplo usando las variables x, y antes definidas podemos generar una gráfica X vs Y en el 'plano cartesiano' mediante el código
plot(x,y)
Por default R gráfica los objetos data.frame usando gráficos de puntos que corresponden a gráficos bidimensionales tomando todas las parejas de variables que se encuentran en el data.frame.
plot(mtcars[,1:3])
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente \(Y\), las variables independientes \(X_i\) y un término aleatorio \(\varepsilon\). Este modelo puede ser expresado como
\[ Y_i=\beta_0+\beta_1 x_1 +...+\beta_n x_n+\varepsilon_i \]
Si en el modelo solo se considera una variable independiente \(X\), el modelo se conoce como Regresión Lineal Simple
lm(y~x) lm(y~x,data = nombre_data_frame)
reg_sim<-lm(Sepal.Length~Sepal.Width,data = iris) summary(reg_sim)
## ## Call: ## lm(formula = Sepal.Length ~ Sepal.Width, data = iris) ## ## Residuals: ## Min 1Q Median 3Q Max ## -1.5561 -0.6333 -0.1120 0.5579 2.2226 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 6.5262 0.4789 13.63 <2e-16 *** ## Sepal.Width -0.2234 0.1551 -1.44 0.152 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 0.8251 on 148 degrees of freedom ## Multiple R-squared: 0.01382, Adjusted R-squared: 0.007159 ## F-statistic: 2.074 on 1 and 148 DF, p-value: 0.1519