Url = "https://raw.githubusercontent.com/Andres-Cruz-Perez/datos/master/Encuesta.txt"
library(readr)
datos = read_table2(Url)## Parsed with column specification:
## cols(
## Edad = col_double(),
## Genero = col_character(),
## No_hijos = col_double(),
## Nivel_Educativo = col_double(),
## Estrato_Socio = col_double(),
## Ingresos = col_double(),
## Peso = col_double(),
## Talla = col_double(),
## Fuma = col_character(),
## Lentes = col_character(),
## Casa_propia = col_character(),
## Automovil = col_character()
## )
## # A tibble: 7 x 12
## Edad Genero No_hijos Nivel_Educativo Estrato_Socio Ingresos Peso Talla Fuma
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 36 Femen~ 2 4 2 3072000 58 179 No
## 2 46 Femen~ 3 2 4 2420000 75 163 Si
## 3 41 Femen~ 0 1 2 4425000 72 172 Si
## 4 54 Mascu~ 0 1 2 4334000 97 180 No
## 5 35 Femen~ 0 1 4 3551000 87 161 Si
## 6 51 Femen~ 2 4 3 2233000 68 168 Si
## 7 25 Femen~ 2 4 2 5343000 85 170 No
## # ... with 3 more variables: Lentes <chr>, Casa_propia <chr>, Automovil <chr>
Las tablas de frecuencias son la forma mas temprana y común para resumir y clasificar un conjunto de observaciones.
La tabla clasifica los datos en filas, una por cada valor, y a cada uno se le asignan sus respectivas frecuencias.
| Sexo | Frecuencia |
|---|---|
| Femenino | 262 |
| Masculino | 257 |
Se usa en variables con mucha diversidad en sus resultados (continuas o discretas con rango grande), se realiza una agrupación por intervalos que permite reducir el numero de filas.
c2 = cut(x = Ingresos, breaks = 5, labels = c("Muy bajo", "Bajo", "Medio", "Alto", "Muy alto"), include.lowest = FALSE, right = FALSE,)
t2 = table(c2)
kable(t2, col.names = c("Ingresos","Frecuencia"))| Ingresos | Frecuencia |
|---|---|
| Muy bajo | 110 |
| Bajo | 89 |
| Medio | 114 |
| Alto | 100 |
| Muy alto | 106 |
Se entiende por tendencia central a algún punto o cantidad que describa lo que podemos considerar como “el centro” de los datos, que podría coincidir con el espacio donde se concentran la mayor parte de los datos.
Si un conjunto de \(n\) datos esta conformado por los valores \(x_1,x_2,x_3,\cdots;x_n\) entonces, la media aritmética de este conjunto se calcula mediante la formula:
\[\mu=\frac{1}{N}\sum_{i=1}^{N}{x}_{i}; \ \ \ \ \ \ \overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_i\]
Media = round(mean(Peso, na.rm = T), 2)
paste("La media aritmética de la variable peso es:", Media )## [1] "La media aritmética de la variable peso es: 78.55"
El valor que ocupa la posición central de una muestra cuando los datos están ordenados ascendentemente se llama mediana, Se calcula así:
\[M_e=X_{ \left[ \dfrac{n+1}{2} \right] }\]
Si \(n\) es par
\[M_e=\dfrac{1}{2} \left( X_{\left[ \dfrac{n}{2}\right] }+X_{\left[ \dfrac{n+2}{2}\right] } \right)\]
Los paréntesis cuadrados \(\left[ \right]\) indican la posición del dato
## [1] "La mediana de la variable perso es 79"
El valor de los datos que presenta la frecuencia más alta, o en caso de ser una variable continua, donde las frecuencias de los datos alcanza su máximo se conoce como moda. Una expresión matemática que la representa es:
\[M_o=X_{max\{f_i\}}\] En donde la función \(max\{\cdot\}\) es la función que elije el valor máximo de las frecuencias.
## [1] "La moda de la variable edad es 25" "La moda de la variable edad es 35"
En un conjunto de datos la diferencia entre los valores maximo y minimo de las observaciones se llama Rango, se calcula de la siguinete forma:
\[Rango=x_{max}-x_{min}\]
maximo = max(Talla)
minimo = min(Talla)
Rango = maximo - minimo
paste("El rango de la variable talla es:", Rango )## [1] "El rango de la variable talla es: 22"
Un valor muy utilizado en la medida de la dispersión y su visualización, es el intervalo o distancia entre cuartile, los cuales son valores que dividen a los datos ordenados en cuatro partes iguales; es de notar que la mediana es un cuartíl, justamente el segundo, es decir, \({Q}_{2}\). A la distancia entre el \({Q}_{3}\) y el \({Q}_{1}\) se le llama el intervalo inter-cuartiles o rango intercuartílico; es notado como \(IQR\), y su formula de calculo es: \({Q}_{3}-{Q}_{1}\).
## [1] "El rango intercuartílico de la variable talla es: 11"
Sean \(x_1,x_2, \cdots,x_n\) datos que conforman una muestra aleatoria con media aritmética \(\bar{x}\), la desviación media de la muestra, se calcula mediante la formula:
\[D_M=\dfrac{1}{n}\sum_{i=1}^{n} |x_i-\bar{x}|\]
n = length(Ingresos)
DM = round((1/n)*sum(abs(Ingresos-mean(Ingresos))), 2)
paste("La desviación media de la variable ingresos es", DM )## [1] "La desviación media de la variable ingresos es 1023348.92"
Sean \(x_1,x_2, \cdots,x_n\) datos que conforman una muestra aleatoria con media aritmética \(\bar{x}\), la varianza de la muestra, se calcula mediante la formula:
\[{\sigma}^{2}=\frac{1}{N}\sum_{i=1}^{N}{\left({x}_{i}-\mu\right)}^{2}; \ \ \ \ \ \ s^2=\dfrac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^2\]
## [1] "La varianza de la variable ingresos es 1418005930420.1"
Sean \(x_1,x_2, \cdots,x_n\) datos que conforman una muestra aleatoria con media aritmética \(\bar{x}\), la varianza de la muestra, se calcula mediante la formula:
\[{\sigma}=\sqrt{\frac{1}{N}\sum_{i=1}^{N}{\left({x}_{i}-\mu\right)}^{2}}; \ \ \ \ s=\sqrt{\dfrac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^2}\]
desv_estand = round(sd(Ingresos), 2)
paste("La desviación estándar de la variable ingresos es", desv_estand)## [1] "La desviación estándar de la variable ingresos es 1190800.54"
El coeficiente de variación el cual representa de forma relativa el grado de variabilidad de una muestra, se calcula mediante la expresión:
\[C_V=\dfrac{\sigma}{\mu}100\%, \ \ \ C_V=\dfrac{s}{\bar{x}}100\%\]
CV = round(sd(Ingresos) / mean(Ingresos) *100, 2)
paste(paste("El coeficiente de variación de la variable ingresos es", CV, "%"))## [1] "El coeficiente de variación de la variable ingresos es 32.58 %"
El percentil \(k\) denotado por \(P_k\), es un valor tal que por lo menos \(k\) por ciento de las observaciones son menores o iguales que este valor y por lo menos \((100 - k\)) por ciento de las observaciones son mayores o iguales que este valor. Para calcular el percentil \(P_k\) seguimos la siguiente formula:
\[P_k=X_{[\lfloor a \rfloor]}+(a- \lfloor a \rfloor)(X_{[\lfloor {a+1} \rfloor]} - X_{[\lfloor a \rfloor]})\] donde \(a=\dfrac{kn}{100}\)
# Percentil 25 = Cuartil 1
P25 = round(quantile(x = Ingresos, probs = 0.25), 2)
paste(paste("El percentil 25 de la variable ingresos es", P25))## [1] "El percentil 25 de la variable ingresos es 2624500"
library(moments)
Asimetria = round(skewness(Peso), 2)
paste(paste("El coeficiente de asimetría de la variable ingresos es", Asimetria))## [1] "El coeficiente de asimetría de la variable ingresos es -0.02"
La curtosis (o apuntamiento) es una medida de forma que mide cuán achatada está la distribución.
Leptocúrtica: la Curtosis \(> 0\). Los datos están muy concentrados en la media, siendo una curva muy apuntada.
Mesocúrtica: la Curtosis \(= 0\). Distribución normal.
Platicúrtica: la Curtosis \(< 0\). Muy poca concentración de datos en la media, presentando una forma muy achatada.
library(moments)
curtosis = round(kurtosis(Peso), 2)
paste(paste("La curtosis de la variable ingresos es", curtosis))## [1] "La curtosis de la variable ingresos es 1.88"
boxplot(Edad, ylab="Edad de las personas)", names = c("Edad"),
main="Diagrama de Cajas",col="lightblue", horizontal = T)NE = table(Nivel_Educativo)
barplot(NE, names.arg = c("Primario", "Secunadaria", "Profesional", "Posgrado"), xlab = "Nivel educativo", ylab = "Frecuencia", main = "Diagrama de barras", col="orange", border = "blue")sex = table(Estrato_Socio)
pie(sex, main = "Diagrama circular", labels = c("Estrato 1", "Estrato 2", "Estrato 3"))hist(Edad, freq = FALSE, nclass = 50, border = "blue", col = "lightblue",
xlab = "Edad de las personas", ylab = "Densidad", main = "Histograma")| Sí | No | |
|---|---|---|
| Femenino | 127 | 135 |
| Masculino | 115 | 142 |
| Sí | No | |
|---|---|---|
| Femenino | 0.245 | 0.260 |
| Masculino | 0.222 | 0.274 |
En una muestra de tamaño \(n\) con observaciones \((x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\) la covarianza muestral entre \(x\) y \(y\) se define así:
\[S_{xy}=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{n-1}\]
Covarianza = round(cov(Talla, Peso), 2)
paste(paste("La covarianza entre la variable talla y la variable perso es", Covarianza))## [1] "La covarianza entre la variable talla y la variable perso es -1.71"
Para datos muestrales el coeficiente de se denota como \(r_{xy}\) y está definido así: \[r_{xy}=\frac{S_{xy}}{S_x S_y}\]
donde \(S_{xy}\) es la covarianza muestral y \(S_x\) y \(S_y\) la desviación estándar muestral de \(x\) y \(y\) respectivamente.
Coef_Cor = round(cor(Talla, Peso), 2); paste(paste("El coeficiente de correlación entre la variable talla y la variable perso es", Coef_Cor))## [1] "El coeficiente de correlación entre la variable talla y la variable perso es -0.02"
data2 = data.frame(Ingresos, Peso, Talla)
n=nrow(data2)
pairs(data2, pch = 16, cex = 0.8, gap = 0, xaxt = "n", yaxt = "n",
col = "blue", labels = c("Ingresos", "Peso", "Estatura"))Supongamos una muestra de \(n\) observaciones, en que los valores se denotan \(x_1, x_2,\ldots, x_n\). Sea \(\bar{x}\) y \(s\) la media y la desviación estándar muestral correspondientemente. Para cada valor \(x_i\) existe otro valor llamado punto \(z\). La siguiente ecuación permite calcular el punto \(z\) correspondiente a cada \(x_i\).
\[z_i=\frac{x_i-\bar{x}}{s}\]
Por lo menos \(1-\frac{1}{z^2}\) de los valores que se tienen en los datos deben encontrarse dentro de \(z\) desviaciones estándar de la media, donde \(z\) es cualquier valor mayor que 1.
El teorema de Chebyshev permite decir qué proporción de los valores que se tienen en los datos debe estar dentro de un determinado número de desviaciones estándar de la media.
Lind, Douglas A; et al. Estadística aplicada a los negocios y la economía. México: McGraw-Hill/Interamericana Editores; 2012.
La Administración de Información de Energía informó que el precio medio del galón de gasolina fue $2.30 (Energy Information Administration, 27 de febrero de 2006). Admita que la desviación estándar haya sido $0.10 y que el precio del galón de gasolina tenga una distribución en forma de campana.
¿Qué porcentaje de la gasolina se vendió entre $2.20 y $2.40 por galón?
¿Qué porcentaje de la gasolina se vendió a más de $2.50 por galón?