Probabilidad y Estadística - Parcial R / Parte 1

Punto 1.

Seleccionar dos variables que te permitan:

(a) Elaborar un gráfico de cajas comparativo. Llamarlo Figura 1. Interpretar el gráfico en el contexto del problema. Debe mencionar al menos 4 aspectos relevantes.

Filtros: - Tamaño/Talla de bebés al nacer (en centímetros) - Mujeres jóvenes - Técnico o superior - Régimen de afiliación contributivo

Variables: Variable 1: Tamaño/Talla de bebés al nacer (en centímetros) Variable 2: Mujeres jóvenes + Técnico o superior + Reg. de afiliación contributivo

Datos/Valores: Tamaño de cada bebé (cm) = T

# Valores que tendremos en cuenta (bebes con los filtros mencionados)
T <- c(51, 51, 51, 50, 50, 49, 49, 49, 49, 49, 49, 49, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48,
       48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 47, 47, 47, 47, 47, 47, 47, 47, 47,
       47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 46.5, 46, 46, 46, 46, 46, 46, 46,
       46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 45, 45, 45, 45, 45, 45, 45, 45, 45,
       45, 45, 44, 44, 44, 44, 44, 44, 43, 43, 37)

# Creacion de diagrama de caja
boxplot(T, main = "Figura 1", xlab = "Tamaño/Talla de bebes (cm)", ylab = "Mujeres Jóvenes", horizontal = TRUE, col = "lightblue")

Aspectos relevantes: 1- Existe una asimetría negativa ya que entre el Xmin y el Q1 la cola del mucho mayor que entre el Q3 y el Xmax.

2- Se puede analizar que hay una relación entre la tendencia del tamaño pequeño de los bebés y que las madres sean personas jóvenes

3- Se puede razonar que el promedio del tamaño de los bebés con bajo peso al nacer es también una problemática de que estos bebés tengan poco tamaño al nacer.

4- En términos generales del análisis, hay más niños con tamaños más grandes que 46 centímetros a aquellos que son menores o iguales a este valor

(b) Elaborar un gráfico de polígonos de frecuencias comparativos. Llamarlo Figura 2. Interpretar el gráfico en el contexto del problema. Debe mencionar al menos 4 aspectos relevantes.

Teniendo en cuenta que filtraremos nuestras siguientes 2 variables basados en: Mujeres jóvenes + Técnico o superior + Reg. de afiliación contributivo Tenemos:

Variables: Variable 1: Tamaño/Talla de bebés al nacer (en centímetros) Variable 2: Peso de bebés al nacer (en gramos)

Datos/Valores: Tamaño de cada bebé (cm) = T

Peso de cada bebé (g) = P

# Datos de Tamaño y Peso
T <- c(51, 51, 51, 50, 50, 49, 49, 49, 49, 49, 49, 49, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 46.5, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 44, 44, 44, 44, 44, 44, 43, 43, 37)

P <- c(1810, 1935, 1945, 2005, 2015, 2070, 2110, 2115, 2120, 2130, 2190, 2190, 2190, 2200, 2205, 2210, 2225, 2230, 2240, 2240, 2250, 2250, 2255, 2265, 2265, 2270, 2275, 2280, 2280, 2290, 2300, 2300, 2310, 2315, 2320, 2320, 2320, 2320, 2320, 2325, 2335, 2335, 2340, 2340, 2345, 2350, 2355, 2360, 2370, 2375, 2380, 2380, 2380, 2380, 2385, 2385, 2385, 2385, 2390, 2395, 2400, 2400, 2405, 2405, 2410, 2410, 2420, 2420, 2435, 2435, 2435, 2450, 2455, 2455, 2455, 2455, 2460, 2460, 2465, 2465, 2470, 2470, 2470, 2470, 2475, 2475, 2475, 2480, 2480, 2490, 2490, 2495, 2495)

# Crear tabla de frecuencias
freq_table <- table(T)

# Poligono de frecuencias entre el peso y el tamaño de los bebes
plot(as.numeric(names(freq_table)), freq_table, type = "o", col = "red",
     xlab = "Tamaño (37cm - 51cm)", ylab = "Peso (1810g - 2495g)",
     main = "Figura 2")

Aspectos relevantes: 1- Se puede apreciar que el peso y el tamaño salvo de contadas ocasiones son directamente proporcionales, teniendo pocos casos que contradicen esta información

2- Podemos observar que está presente en el gráfico una visible asimetría negativa en los datos

3- Más de la mitad de los datos demuestran que, aunque los niños sean nacidos con bajo peso, estos mismos tienden a aproximarse a un valor mayor que a uno más pequeño

4- Se puede analizar que las madres jóvenes tienen un promedio del tamaño y peso de sus bebés con forma bimodal

(c) Elaborar un gráfico de frecuencias acumuladas (ojivas) comparativos. Llamarlo Figura 3. Interpretar el gráfico en el contexto del problema. Debe mencionar al menos 4 aspectos relevantes.

Teniendo en cuenta que filtraremos nuestras siguientes 2 variables basados en: - Mujeres jóvenes + Técnico o superior + Reg. de afiliación contributivo - Años 2021 y 2022 Tenemos:

Variables: Variable 1: Tamaño/Talla de bebés al nacer (en centímetros) 2021 = A

Variable 2: Tamaño/Talla de bebés al nacer (en centímetros) 2022 = B

# Datos
A <- c(43, 44, 45, 45, 45, 46, 46, 46, 46, 47, 47, 47, 47, 47, 47, 47, 48, 48, 48, 48, 49, 49, 49)
B <- c(44, 45, 45, 45, 46, 47, 47, 47, 47, 48, 48, 48, 48, 49, 49, 50, 51)

# Calcular las frecuencias acumuladas
freqA <- cumsum(table(A))
freqB <- cumsum(table(B))

# Convertir los nombres de las tablas en numéricos para la suavización
xA <- as.numeric(names(freqA))
xB <- as.numeric(names(freqB))

# Aplicar suavización
smoothA <- smooth.spline(xA, freqA)
smoothB <- smooth.spline(xB, freqB)

# Crear un rango de valores para el eje X
x_range <- range(c(A, B))

# Graficar la ojiva suavizada para el conjunto A
plot(smoothA, type="l", col="blue", xlab="Tamaño", ylab="Bebés nacidos", main="Figura 3", xlim=x_range, ylim=c(0, max(freqA, freqB)))

# Agregar la ojiva suavizada para el conjunto B
lines(smoothB, col="red")

# Agregar leyenda
legend("topleft", legend=c("Conjunto A", "Conjunto B"), col=c("blue", "red"), lty=1)

Aspectos relevantes: 1- La distribución de los tamaños de los bebés nacidos muestra que hay una mayor concentración de nacimientos en ciertos tamaños específicos, como el rango entre 47 y 49 cm en ambos conjuntos de datos.

2- En el año 2022 hubo menos nacimientos de bebés con peso y tamaños abajo del promedio de este que en el año 2021

3- La comparación entre los conjuntos de datos A y B revela que el conjunto B tiene un rango de tamaños ligeramente mayor (hasta 51 cm), lo que podría sugerir diferencias en las poblaciones o en las condiciones de nacimiento entre los dos grupos.

4- La suavización de las ojivas permite observar tendencias más claras en los datos de tamaños de los bebés nacidos, facilitando la identificación de patrones y anomalías, en este caso creciendo en cantidad de bebés nacidos con su respectivo tamaño

(d) Crear una tabla con los indicadores y medidas que complemente y facilite la interpretación de los gráficos. Llamarla Tabla 1. Interpretar los indicadores reportados en la tabla.

Tabla 1.1 – 1.2 – 1.3

Tabla 1.1: Est. desc. de la figura 1
Mediana	Rango_o_recorrido	Valor_minimo	Valor_maximo	Primer_cuartil_Q1	Tercer_cuartil_Q3
47	30	37	67	43	51

Tabla 1.2: Moda y frec. máxima de la figura 2
Moda	Frecuencia_maxima
48	19

Tabla 1.3: F acumulada por años de la figura 3
Frec_Ac_2021	Frec_Ac_2022
23	17

Punto 2. Seleccionar dos variables que te permitan

(a) Elaborar un gráfico de barras compuestos. Llamarlo Figura 4. Escribir una interpretación que contenga al menos 4 aspectos relevantes.

Para denotar más la diferencia y observar patrones de comportamiento, en este punto usaré 3 variables. Teniendo en cuenta que filtraremos nuestras siguientes 3 variables basados en:

Mujeres jóvenes + Técnico/superior + Casos según comuna de resid. + 2020 = A
Mujeres jóvenes + Técnico/superior + Casos según comuna de resid. + 2021 = B
Mujeres jóvenes + Técnico/superior + Casos según comuna de resid. + 2022 = C

Tenemos:

Variables: A = Cantidad de bebés con bajo peso al nacer en 2020

B = Cantidad de bebés con bajo peso al nacer en 2021

C = Cantidad de bebés con bajo peso al nacer en 2022

# Definir los nombres de las ubicaciones
nombres <- c("Ubicación 1", "Ubicación 2", "Ubicación 3")

# Definir los valores para los años 2020, 2021 y 2022
valores_2020 <- c(5, 10, 15)
valores_2021 <- c(3, 6, 9)
valores_2022 <- c(2, 4, 6)

# Crear el gráfico vacío con un título
plot(1, type = "n", xlab = "Ubicación", ylab = "Cantidad de bebés con bajo peso al nacer", xlim = c(0.5, 3.5), ylim = c(0, 20), axes = FALSE, main = "Figura 4")
axis(1, at = 1:3, labels = nombres)
axis(2, at = seq(0, 20, by = 5))

# Añadir barras para cada año con diferentes colores
rect(0.8, 0, 1.2, valores_2020[1], col = "blue")
rect(1.8, 0, 2.2, valores_2020[2], col = "blue")
rect(2.8, 0, 3.2, valores_2020[3], col = "blue")

rect(0.8, valores_2020[1], 1.2, valores_2020[1] + valores_2021[1], col = "red")
rect(1.8, valores_2020[2], 2.2, valores_2020[2] + valores_2021[2], col = "red")
rect(2.8, valores_2020[3], 3.2, valores_2020[3] + valores_2021[3], col = "red")

rect(0.8, valores_2020[1] + valores_2021[1], 1.2, valores_2020[1] + valores_2021[1] + valores_2022[1], col = "green")
rect(1.8, valores_2020[2] + valores_2021[2], 2.2, valores_2020[2] + valores_2021[2] + valores_2022[2], col = "green")
rect(2.8, valores_2020[3] + valores_2021[3], 3.2, valores_2020[3] + valores_2021[3] + valores_2022[3], col = "green")

# Añadir leyenda
legend("topright", legend = c("2020", "2021", "2022"), fill = c("blue", "red", "green"))

Aspectos relevantes:

1- Hubo una similitud de nacimientos en cada una de las regiones

2- Después de cada año, se puede observar el descenso de natalidad de la población evaluada en cada región

3- Comparando los conjuntos A y C, se puede notar que durante el 2020 nacieron hasta cuatro veces más bebés con bajo peso al nacer que el 2022

4- En las regiones evaluadas podemos ver una similitud de comportamiento de natalidad en cada año

(b) Crear una tabla con los indicadores y medidas que complemente y facilite la interpretación de los gráficos. Llamarla Tabla 2. Interpretar los valores reportados en la tabla.

# Datos proporcionados
nombres <- c("Mutis", "Centro", "Provenza")
valores_2020 <- c(8, 7, 7)
valores_2021 <- c(7, 10, 6)
valores_2022 <- c(2, 2, 4)

# Crear un data frame con la información
Tabla_3 <- data.frame(
  Ubicación = nombres,
  `2020` = valores_2020,
  `2021` = valores_2021,
  `2022` = valores_2022
)

# Calcular la media
media_2020 <- mean(valores_2020)
media_2021 <- mean(valores_2021)
media_2022 <- mean(valores_2022)

# Calcular la mediana
mediana_2020 <- median(valores_2020)
mediana_2021 <- median(valores_2021)
mediana_2022 <- median(valores_2022)

# Calcular la moda (no hay función incorporada, así que creamos una)
moda <- function(x) {
  u <- unique(x)
  tab <- tabulate(match(x, u))
  u[tab == max(tab)]
}

moda_2020 <- moda(valores_2020)
moda_2021 <- moda(valores_2021)
moda_2022 <- moda(valores_2022)

# Asegurarse de que la moda tenga un solo valor (en caso de múltiples modas, tomar el primero)
moda_2020 <- moda_2020[1]
moda_2021 <- moda_2021[1]
moda_2022 <- moda_2022[1]

# Crear una nueva tabla con los resultados
Tabla_Resumen <- data.frame(
  Año = c("2020", "2021", "2022"),
  Media = c(media_2020, media_2021, media_2022),
  Mediana = c(mediana_2020, mediana_2021, mediana_2022),
  Moda = c(moda_2020, moda_2021, moda_2022)
)

# Mostrar la tabla resumen
print(Tabla_Resumen)

##    Año    Media Mediana Moda
## 1 2020 7.333333       7    7
## 2 2021 7.666667       7    7
## 3 2022 2.666667       2    2

Tabla 2

(c) Crear la tabla de contingencia que le corresponde al gráfico. Llamarla Tabla 3.

# Datos proporcionados
nombres <- c("Mutis", "Centro", "Provenza")
valores_2020 <- c(8, 7, 7)
valores_2021 <- c(7, 10, 6)
valores_2022 <- c(2, 2, 4)

# Crear un data frame con la información
tabla_punto2C <- data.frame(
  Ubicación = nombres,
  `2020` = valores_2020,
  `2021` = valores_2021,
  `2022` = valores_2022
)


# Mostrar la tabla
print(tabla_punto2C)

##   Ubicación X2020 X2021 X2022
## 1     Mutis     8     7     2
## 2    Centro     7    10     2
## 3  Provenza     7     6     4

Tabla 3

Punto 3. Presentar una tabla con tres columnas, el nombre de la variable, la descripción de la variable y la clasificación de acuerdo con su naturaleza. Llamarla Tabla 4.

# Crear un data frame con la información proporcionada
Tabla_4 <- data.frame(
  Nombre_Variable = c("Escolaridad Madre", "Casos según Comuna de Residencia", "Curso de Vida Madre", "Regimen de Afiliación", "Año"),
  Descripción = c("Educación máxima la cual la madre ha cursado", 
                  "Cantidad de bebés que nacen con bajo peso separado por regiones", 
                  "Étapa de madurez de las madres", 
                  "Afiliación de las madres a un sistema general de pensiones", 
                  "Lapso de tiempo donde se evalúa los eventos"),
  Clasificación = c("Cualitativa Ordinal", "Cuantitativa Discreta", "Cualitativa Ordinal", "Cualitativa Nominal", "Cuantitativa Discreta")
)

# Mostrar la tabla
print(Tabla_4)

##                    Nombre_Variable
## 1                Escolaridad Madre
## 2 Casos según Comuna de Residencia
## 3              Curso de Vida Madre
## 4            Regimen de Afiliación
## 5                              Año
##                                                       Descripción
## 1                    Educación máxima la cual la madre ha cursado
## 2 Cantidad de bebés que nacen con bajo peso separado por regiones
## 3                                  Étapa de madurez de las madres
## 4      Afiliación de las madres a un sistema general de pensiones
## 5                     Lapso de tiempo donde se evalúa los eventos
##           Clasificación
## 1   Cualitativa Ordinal
## 2 Cuantitativa Discreta
## 3   Cualitativa Ordinal
## 4   Cualitativa Nominal
## 5 Cuantitativa Discreta

Tabla 4

Punto 4. Seleccionar dos variables que te permitan elaborar un gráfico de dispersión. Llamarlo Figura 5. Escribir una interpretación que contenga al menos 2 aspectos relevantes.

Teniendo en cuenta que filtraremos nuestras siguientes 2 variables basados en: Mujeres jóvenes + Técnico o superior + Reg. de afiliación contributivo Tenemos:

Variables:

Variable 1: Tamaño/Talla de bebés al nacer (en centímetros)

Variable 2: Peso de bebés al nacer (en gramos)

Datos/Valores:

Tamaño de cada bebé (cm) = tamaño

Peso de cada bebé (g) = peso

# Datos proporcionados
tamaño <- c(51, 51, 51, 50, 50, 49, 49, 49, 49, 49, 49, 49, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 48, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 47, 46.5, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 46, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 44, 44, 44, 44, 44, 44, 43, 43, 37)
peso <- c(1810, 1935, 1945, 2005, 2015, 2070, 2110, 2115, 2120, 2130, 2190, 2190, 2190, 2200, 2205, 2210, 2225, 2230, 2240, 2240, 2250, 2250, 2255, 2265, 2265, 2270, 2275, 2280, 2280, 2290, 2300, 2300, 2310, 2315, 2320, 2320, 2320, 2320, 2320, 2325, 2335, 2335, 2340, 2340, 2345, 2350, 2355, 2360, 2370, 2375, 2380, 2380, 2380, 2380, 2385, 2385, 2385, 2385, 2390, 2395, 2400, 2400, 2405, 2405, 2410, 2410, 2420, 2420, 2435, 2435, 2435, 2450, 2455, 2455, 2455, 2455, 2460, 2460, 2465, 2465, 2470, 2470, 2470, 2470, 2475, 2475, 2475, 2480, 2480, 2490, 2490, 2495, 2495)

# Crear el gráfico de dispersión
plot(tamaño, peso, xlab = "Tamaño/Talla de bebés al nacer (cm)", ylab = "Peso de bebés al nacer (g)", main = "Figura 5", pch = 19, col = "blue")

Aspectos relevantes:

1- El gráfico de dispersión muestra una tendencia general donde los bebés con mayor tamaño/talla al nacer tienden a tener un mayor peso. Esta relación positiva indica que, en general, a medida que aumenta la talla de los bebés, también aumenta su peso.

2- Aunque hay una relación positiva general, también se observa una variabilidad considerable en el peso de los bebés para un mismo tamaño. Por ejemplo, para los bebés con una talla de 48 cm, el peso varía significativamente entre aproximadamente 2190 gramos y 2480 gramos. Esto sugiere que, aunque el tamaño es un buen indicador del peso, hay otros factores que también influyen en el peso de los bebés al nacer.

Probabilidad y Estadística - Parcial R / Parte 1

Alan Mendez

2024-09-01

Punto 1.

(a) Elaborar un gráfico de cajas comparativo. Llamarlo Figura 1. Interpretar el gráfico en el contexto del problema. Debe mencionar al menos 4 aspectos relevantes.

(b) Elaborar un gráfico de polígonos de frecuencias comparativos. Llamarlo Figura 2. Interpretar el gráfico en el contexto del problema. Debe mencionar al menos 4 aspectos relevantes.

(c) Elaborar un gráfico de frecuencias acumuladas (ojivas) comparativos. Llamarlo Figura 3. Interpretar el gráfico en el contexto del problema. Debe mencionar al menos 4 aspectos relevantes.

(d) Crear una tabla con los indicadores y medidas que complemente y facilite la interpretación de los gráficos. Llamarla Tabla 1. Interpretar los indicadores reportados en la tabla.

Punto 2. Seleccionar dos variables que te permitan

(a) Elaborar un gráfico de barras compuestos. Llamarlo Figura 4. Escribir una interpretación que contenga al menos 4 aspectos relevantes.

(b) Crear una tabla con los indicadores y medidas que complemente y facilite la interpretación de los gráficos. Llamarla Tabla 2. Interpretar los valores reportados en la tabla.

(c) Crear la tabla de contingencia que le corresponde al gráfico. Llamarla Tabla 3.

Punto 3. Presentar una tabla con tres columnas, el nombre de la variable, la descripción de la variable y la clasificación de acuerdo con su naturaleza. Llamarla Tabla 4.

Punto 4. Seleccionar dos variables que te permitan elaborar un gráfico de dispersión. Llamarlo Figura 5. Escribir una interpretación que contenga al menos 2 aspectos relevantes.