Para este las preguntas 1 a la 4 ejercicio deben descargar la base de datos de la siguiente dirección https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Fss06hid.csv.
if (!file.exists("vivienda.csv")) {
# En esta función debemos indicar la dirección url
url <- "https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Fss06hid.csv"
# y el nombre del archivo destino
destfile <- "vivienda.csv"
download.file(url = url, destfile = destfile)
}
# Utilizamos la función read.csv() para leer los datos
datos <- read.csv("vivienda.csv")dim(datos)[1] 6496 188
# El primer valor es el número de filas (observaciones) El segundo valor es
# el número de columnas (variables)mean(datos$VAL)[1] NA
# Esta variable tiene datos perdidos y es necesario indicar que no se tomen
# en cuenta
mean(datos$VAL, na.rm = T)[1] 15.28778
# Método 1. Función quantile() indicando que percentiles buscar
quantile(datos$VAL, probs = c(0.25, 0.75), na.rm = T)25% 75%
13 18
# Método 2. Utilizar la función summary()
summary(datos$VAL) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
1.00 13.00 16.00 15.29 18.00 24.00 2076
# Método 1. Calcular manual mente el coeficiente
(sd(datos$VAL, na.rm = T)/mean(datos$VAL, na.rm = T)) * 100[1] 29.64981
(sd(datos$PUMA, na.rm = T)/mean(datos$PUMA, na.rm = T)) * 100[1] 55.63276
# Método 2. Usar la función cv() del paquete raster Instalar el paquete si
# es necesario
if ("raster" %in% rownames(installed.packages()) == FALSE) {
install.packages("raster")
}
# Cargar el paquete
library(raster)
cv(datos$VAL, na.rm = T)[1] 29.64981
# La base de datos viene incluida en R Cargamos los datos
data(mtcars)
# La función describe() del paquete psych nos da la información requerida
# Instalamos el paquete
if ("psych" %in% rownames(installed.packages()) == FALSE) {
install.packages("psych")
}
# Cargamos el paquete
library(psych)
# Calculamos los descriptivos de la variable mpg
describe(mtcars$mpg) vars n mean sd median trimmed mad min max range skew kurtosis
X1 1 32 20.09 6.03 19.2 19.7 5.41 10.4 33.9 23.5 0.61 -0.37
se
X1 1.07
round((7.8 - 7)/1.2, 2)[1] 0.67
round((6.3 - 5.7)/1.3, 2)[1] 0.46
# Un evento exitosos en tres ensayos la probabilidad de éxito es de 1/6
dbinom(1, 3, prob = 1/6)[1] 0.3472222
# El estadístico a utilizarse es la $\chi^2$ y la probabilidad para cada
# resultado es de 50% por lo que los valores esperados son 40 tanto para sol
# como para águila Trabajado como prueba de homogeneidad utilizamos los
# valores observados en una matriz de una fila y dos columnas
C <- matrix(c(35, 45), nrow = 1)
# Utilizamos Ji cuadrada como prueba de homogeneidad
chisq.test(C)
Chi-squared test for given probabilities
data: C
X-squared = 1.25, df = 1, p-value = 0.2636
# Como prueba de bondad de ajuste para una distribución binomial creamos
# nuestra distribución con unos para sol y doses para águila
volados <- c(rep(1, 35), rep(2, 45))
# Creamos un vector con las probabilidades
prob <- rep(1/80, 80)
# Corremos la Ji cuadrada
chisq.test(volados, p = prob)
Chi-squared test for given probabilities
data: volados
X-squared = 12.6, df = 79, p-value = 1
x <- seq(1, 35, by = 0.7)
# Utilizamos una prueba t para determinar si la media de x es igual a 20.2
t.test(x, mu = 20.2)
One Sample t-test
data: x
t = -1.6797, df = 48, p-value = 0.09952
alternative hypothesis: true mean is not equal to 20.2
95 percent confidence interval:
14.92707 20.67293
sample estimates:
mean of x
17.8
extra de la base de datos sleep tomando en cuenta que los grupos están relacionados.# Cargamos los datos
data(sleep)
# ¿Cuáles son los grupos? veamos los datos
sleep extra group ID
1 0.7 1 1
2 -1.6 1 2
3 -0.2 1 3
4 -1.2 1 4
5 -0.1 1 5
6 3.4 1 6
7 3.7 1 7
8 0.8 1 8
9 0.0 1 9
10 2.0 1 10
11 1.9 2 1
12 0.8 2 2
13 1.1 2 3
14 0.1 2 4
15 -0.1 2 5
16 4.4 2 6
17 5.5 2 7
18 1.6 2 8
19 4.6 2 9
20 3.4 2 10
# Ok entonces tenemos grupo 1 y 2 (y están relacionados)
t.test(extra ~ group, data = sleep, paired = T)
Paired t-test
data: extra by group
t = -4.0621, df = 9, p-value = 0.002833
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.4598858 -0.7001142
sample estimates:
mean of the differences
-1.58