Informe final.

Ejercicio 1

En la base de datos nycflights23::flights se registra el número de minutos de retraso al despegar en la columna dep_delay.

Considere la variable aleatoria \[ X = \text{“número de minutos de retraso al despegar de un vuelo”}. \]

Calcule la suma total de los minutos de retraso al despegar de todos los vuelos que tienen dato disponible en la columna dep_delay.
Interprete el resultado: ¿qué representa esta suma en el contexto de la base de datos?

Código genérico en R (ejemplo, no se ejecuta)

# Cargar paquete (solo si va a usar %>%)
library(dplyr)

# 1) Renombrar y limpiar base de datos

BD <- NOMBRE_BASE %>%
  filter(!is.na(NOMBRE_COLUMNA))   

# 2) Calcular la suma total de la columna
suma_total <- sum(BD$NOMBRE_COLUMNA)

# 3) Mostrar el resultado
suma_total

Ejercicio 2

En la base de datos nycflights23::flights se registra el número de minutos de retraso al aterrizar en la columna arr_delay.

Considere la variable aleatoria

\[ X = \text{“número de minutos de retraso al aterrizar de un vuelo”}. \]

Calcule la suma total de los minutos de retraso al aterrizar de todos los vuelos que tienen dato disponible en la columna arr_delay.
Interprete el resultado: ¿qué representa esta suma en el contexto de la base de datos?

Código genérico en R (ejemplo, no se ejecuta)

# 1) Renombrar y limpiar base de datos

BD <- NOMBRE_BASE %>%
  filter(!is.na(NOMBRE_COLUMNA))   

# 2) Calcular la suma total de la columna
suma_total <- sum(BD$NOMBRE_COLUMNA)

# 3) Mostrar el resultado
suma_total

Ejercicio 3

En la base de datos nycflights23::flights se registra, para cada vuelo, el aeropuerto (columna origin), el número de minutos de retraso al despegar (columna dep_delay) y el número de minutos de retraso al aterrizar (columna arr_delay).

Considere las variables aleatorias \[ X = \text{“número de minutos de retraso al despegar de un vuelo”} \] \[ Y = \text{“número de minutos de retraso al aterrizar de un vuelo”}. \]

Determine, para cada aeropuerto, el promedio de minutos de retraso al despegar y el promedio de minutos de retraso al aterrizar.
Calcule, para cada aeropuerto, la diferencia entre el promedio de retraso al aterrizar y el promedio de retraso al despegar.
Interprete los resultados: ¿en qué aeropuertos, en promedio, los vuelos aterrizan con más retraso del que tenían al despegar?, ¿en cuáles tienden a reducir su retraso?

Código genérico en R (ejemplo, no se ejecuta)

# 1) Renombrar y limpiar base de datos

BD <- NOMBRE_BASE %>%
  filter(!is.na(NOMBRE_COL_GRUPO),     # por ejemplo, origin
         !is.na(NOMBRE_COL_DEP),       # por ejemplo, dep_delay
         !is.na(NOMBRE_COL_ARR))       # por ejemplo, arr_delay

# 2) Calcular los promedios por grupo (por ejemplo, por aeropuerto)

resumen <- BD %>%
  group_by(NOMBRE_COL_GRUPO) %>%       # agrupar por aeropuerto
  summarise(
    prom_dep = mean(NOMBRE_COL_DEP),   # promedio retraso al despegar
    prom_arr = mean(NOMBRE_COL_ARR)    # promedio retraso al aterrizar
  ) %>%
  mutate(
    diferencia = prom_arr - prom_dep   # diferencia de promedios (aterrizar - despegar)
  )

# 3) Mostrar la tabla resumen

resumen

Ejercicio 4

En la base de datos nycflights23::flights se registra, para cada vuelo, el número de minutos de retraso al despegar (por ejemplo, en la columna dep_delay) y el número de minutos de retraso al aterrizar (por ejemplo, en la columna arr_delay).

Considere las variables aleatorias

\[ X = \text{“nnúmero de minutos de retraso al despegar de un vuelo”} \]

\[ X = \text{“número de minutos de retraso al aterrizar de un vuelo”} \]

Definimos además la variable

\[ D = Y - X \] donde \(D\) representa la diferencia entre el número de minutos de retraso al aterrizar y al despegar de un vuelo.

Cree una nueva variable con la diferencia de retraso \(D = Y - X\) para cada vuelo.
Calcule la media de \(D\) e interprete el resultado: en promedio, ¿los vuelos aterrizan con más retraso del que tenían al despegar, con el mismo retraso o con menos retraso?
Interprete el signo de \(D\): ¿qué significa que \(D > 0\), \(D = 0\) o \(D < 0\) en términos de recuperar o perder tiempo en el aire?

Código genérico en R (ejemplo, no se ejecuta)

# 1) Renombrar y limpiar base de datos

BD <- NOMBRE_BASE %>%
  filter(!is.na(NOMBRE_COL_DEP),   # por ejemplo, dep_delay
         !is.na(NOMBRE_COL_ARR))   # por ejemplo, arr_delay

# 2) Crear nueva columna con la diferencia de retrasos (aterrizar - despegar)

BD <- BD %>%
  mutate(
    DIF_RETRASO = NOMBRE_COL_ARR - NOMBRE_COL_DEP
    # Por ejemplo: DIF_RETRASO = arr_delay - dep_delay
  )

# 3) Calcular la media de la diferencia de retrasos

media_dif <- mean(BD$DIF_RETRASO)

# 4) Mostrar el resultado

media_dif

Ejercicio 4

En la base de datos nycflights23::flights se registra, para cada vuelo, el número de minutos de retraso al despegar (columna dep_delay) y el número de minutos de retraso al aterrizar (columna arr_delay).

Considere las variables aleatorias \[ X = \text{“número de minutos de retraso al despegar de un vuelo”\ \] \[ Y = \text{“número de minutos de retraso al aterrizar de un vuelo”}. \]

Estime, a partir de la muestra, la probabilidad empírica de que un vuelo despegue con retraso positivo (es decir, \(X>0\)) y de que despegue adelantado (\(X<0\)).
Estime, de forma análoga, la probabilidad empírica de que un vuelo aterrice con retraso positivo (\(Y>0\)) y de que aterrice adelantado (\(Y<0\)).
Construya un histograma de \(X\) y otro de \(Y\) y describa la forma de cada distribución (simétrica, asimétrica, con cola larga, etc.).
A partir de los gráficos y probabilidades anteriores, comente qué tipo de distribución de probabilidad podría ser razonable para modelar los retrasos al despegar y al aterrizar (por ejemplo, normal, exponencial u otra) y justifique su elección.

Código genérico en R (ejemplo, no se ejecuta)

# Cargar paquete (solo si va a usar %>%)
library(dplyr)

# 1) Renombrar y limpiar base de datos
BD <- NOMBRE_BASE %>%
  filter(!is.na(NOMBRE_COL_DEP),
         !is.na(NOMBRE_COL_ARR))

# 2) Probabilidades empíricas para el retraso al despegar (X)

p_X_pos <- mean(BD$NOMBRE_COL_DEP > 0)  # P(X > 0): prob. de despegar con retraso
p_X_neg <- mean(BD$NOMBRE_COL_DEP < 0)  # P(X < 0): prob. de despegar adelantado

# 3) Probabilidades empíricas para el retraso al aterrizar (Y)

p_Y_pos <- mean(BD$NOMBRE_COL_ARR > 0)  # P(Y > 0): prob. de aterrizar con retraso
p_Y_neg <- mean(BD$NOMBRE_COL_ARR < 0)  # P(Y < 0): prob. de aterrizar adelantado

# 4) Histogramas de X e Y

hist(BD$NOMBRE_COL_DEP,
     main = "Histograma del retraso al despegar",
     xlab = "Minutos de retraso al despegar")

hist(BD$NOMBRE_COL_ARR,
     main = "Histograma del retraso al aterrizar",
     xlab = "Minutos de retraso al aterrizar")

# 5) Mostrar probabilidades estimadas

p_X_pos; p_X_neg
p_Y_pos; p_Y_neg

Informe final.

Prof. Samuel Sanhueza Tolozaprofesorsamuelsanhueza@gmail.com

Prof. Samuel Sanhueza Toloza
profesorsamuelsanhueza@gmail.com