Ejercicio 4. Análisis estadístico

Para este las preguntas 1 a la 4 ejercicio deben descargar la base de datos de la siguiente dirección https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Fss06hid.csv.

if (!file.exists("vivienda.csv")) {
# En esta función debemos indicar la dirección url
url <- "https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Fss06hid.csv"
# y el nombre del archivo destino
destfile <- "vivienda.csv"
download.file(url = url, destfile = destfile)
}
# Utilizamos la función read.csv() para leer los datos
datos <- read.csv("vivienda.csv")

¿Cuántas variables y observaciones hay en la base de datos?

dim(datos)

[1] 6496  188

# El primer valor es el número de filas (observaciones) El segundo valor es
# el número de columnas (variables)

¿Cuál es la media de la variable VAL?

mean(datos$VAL)

[1] NA

# Esta variable tiene datos perdidos y es necesario indicar que no se tomen
# en cuenta
mean(datos$VAL, na.rm = T)

[1] 15.28778

¿Cuáles son los percentiles 25 y 75 para la variable VAL?

# Método 1. Función quantile() indicando que percentiles buscar
quantile(datos$VAL, probs = c(0.25, 0.75), na.rm = T)

25% 75% 
 13  18

# Método 2. Utilizar la función summary()
summary(datos$VAL)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
   1.00   13.00   16.00   15.29   18.00   24.00    2076

¿Cuál es el coeficiente de variación para las variables VAL y PUMA?

# Método 1. Calcular manual mente el coeficiente
(sd(datos$VAL, na.rm = T)/mean(datos$VAL, na.rm = T)) * 100

[1] 29.64981

(sd(datos$PUMA, na.rm = T)/mean(datos$PUMA, na.rm = T)) * 100

[1] 55.63276

# Método 2. Usar la función cv() del paquete raster Instalar el paquete si
# es necesario
if ("raster" %in% rownames(installed.packages()) == FALSE) {
install.packages("raster")
}
# Cargar el paquete
library(raster)
cv(datos$VAL, na.rm = T)

[1] 29.64981

De acuerdo a su asimetría y curtosis, ¿qué forma tiene la variable mpg de la base de datos mtcars?

# La base de datos viene incluida en R Cargamos los datos
data(mtcars)
# La función describe() del paquete psych nos da la información requerida
# Instalamos el paquete
if ("psych" %in% rownames(installed.packages()) == FALSE) {
install.packages("psych")
}
# Cargamos el paquete
library(psych)
# Calculamos los descriptivos de la variable mpg
describe(mtcars$mpg)

   vars  n  mean   sd median trimmed  mad  min  max range skew kurtosis
X1    1 32 20.09 6.03   19.2    19.7 5.41 10.4 33.9  23.5 0.61    -0.37
     se
X1 1.07

Al presentar dos exámenes, uno de psicología y el otro de estadística, Carlos obtuvo 7.8 y 6.3 de calificación respectivamente. Si el promedio y desviación estándar en el examen de psicología fueron de 7.0 y 1.2, y en estadística fueron de 5.7 y 1.3, ¿Cuáles son sus puntuaciones estándar? (redondeado a dos cifras significativas)

round((7.8 - 7)/1.2, 2)

[1] 0.67

round((6.3 - 5.7)/1.3, 2)

[1] 0.46

De las siguientes distribuciones t, ¿cuál se parece más a la distribución normal?

t = 2.16, gl = 2
t = 4.16, gl = 5
t = 6.16, gl = 6 #A mayores gl más semenjanza a la distribución normal
t = 8.16, gl = 3

¿Cuál es la probabilidad de sacar un tres al lanzar un dado en tres intentos?

# Un evento exitosos en tres ensayos la probabilidad de éxito es de 1/6
dbinom(1, 3, prob = 1/6)

[1] 0.3472222

Al lanzar una moneda 80 veces se obtienen 35 soles y 45 águilas. ¿Puede considerarse que la moneda está cargada?

# El estadístico a utilizarse es la $\chi^2$ y la probabilidad para cada
# resultado es de 50% por lo que los valores esperados son 40 tanto para sol
# como para águila Trabajado como prueba de homogeneidad utilizamos los
# valores observados en una matriz de una fila y dos columnas
C <- matrix(c(35, 45), nrow = 1)
# Utilizamos Ji cuadrada como prueba de homogeneidad
chisq.test(C)


    Chi-squared test for given probabilities

data:  C
X-squared = 1.25, df = 1, p-value = 0.2636

# Como prueba de bondad de ajuste para una distribución binomial creamos
# nuestra distribución con unos para sol y doses para águila
volados <- c(rep(1, 35), rep(2, 45))
# Creamos un vector con las probabilidades
prob <- rep(1/80, 80)
# Corremos la Ji cuadrada
chisq.test(volados, p = prob)


    Chi-squared test for given probabilities

data:  volados
X-squared = 12.6, df = 79, p-value = 1

La siguiente es una muestra (x) de alumnos de la secundaria “Rolando Calles”, el promedio de edad en dicha escuela es de 20.2. ¿La muestra es representativa de su población?

x <- seq(1, 35, by = 0.7)
# Utilizamos una prueba t para determinar si la media de x es igual a 20.2
t.test(x, mu = 20.2)


    One Sample t-test

data:  x
t = -1.6797, df = 48, p-value = 0.09952
alternative hypothesis: true mean is not equal to 20.2
95 percent confidence interval:
 14.92707 20.67293
sample estimates:
mean of x 
     17.8

Calcula el valor t para la variable extra de la base de datos sleep tomando en cuenta que los grupos están relacionados.

# Cargamos los datos
data(sleep)
# ¿Cuáles son los grupos? veamos los datos
sleep

   extra group ID
1    0.7     1  1
2   -1.6     1  2
3   -0.2     1  3
4   -1.2     1  4
5   -0.1     1  5
6    3.4     1  6
7    3.7     1  7
8    0.8     1  8
9    0.0     1  9
10   2.0     1 10
11   1.9     2  1
12   0.8     2  2
13   1.1     2  3
14   0.1     2  4
15  -0.1     2  5
16   4.4     2  6
17   5.5     2  7
18   1.6     2  8
19   4.6     2  9
20   3.4     2 10

# Ok entonces tenemos grupo 1 y 2 (y están relacionados)
t.test(extra ~ group, data = sleep, paired = T)


    Paired t-test

data:  extra by group
t = -4.0621, df = 9, p-value = 0.002833
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.4598858 -0.7001142
sample estimates:
mean of the differences 
                  -1.58

Ejercicio 4. Análisis estadístico

Antonio Martínez Pineda

12 de abril de 2018