Trabajo 1
Contenidos: 1. Probabilidad, 2. Variable aleatoria. 3. Distribuciones de probabilidad.

Probabilidad

Sean dos sucesos de un espacio muestral tales que \(P(A \cup B)=0.6\), \(P(A \cap B)=0.1\) y \(P(A)=0.4\).

  1. Calcula la probabilidad de B.

\(P(A \cup B)=P(A)+P(B)-P(A \cap B)\), despejando P(A)=0.4, obtenemos que \(P(B)=0.3\)

  1. Calcula \(P(A^c\cap B^c)\).

\(P(A^c \cup B^c)=P(A^c)+P(B^c)-P(A^c \cap B^c)\), teniendo en cuenta que \(P(A^c)=1-P(A)=0.6\) , \(P(B^c)=0.7\), y también que \(P(A^c \cap B^c)=1-P(A \cup B)=0.4\), podemos saber con certeza que: \(P(A^c \cup B^c)=0.6+0.7-0.4=0.9\) Podemos estar seguros de que el resultado es correcto porque el inverso de la interseccion entre A y B es 0.9

  1. Calcula \(P(A/B)\)

\(P(A / B)=\frac{P(A \cap B)}{P(B)}=0.3/0.5=0.6\)

  1. Son independientes los sucesos A y B.

Para que sean independientes, debe cumplirse \(P(A \cap B)=0.1\) debe ser igual a \(P(A)P(B)=0.4*0.3=0.12\), como podemos ver el resultado no es el mismo, así que no son independientes.


Variable aleatoria exponencial

Sean X una variable exponencial de media 4.

  1. Calcula la probabilidad de que X sea mayor que 3.

\(P(X > 3)\)=

pexp(3,1/4,lower.tail=FALSE)
## [1] 0.4723666

También se puede poner así \(P(x > 3)\)=1-pexp(3,1/4)=0.4723666

  1. Calcula la probabilidad de que X sea menor que 6.

\(P(X\leq 6)\)=pexp(6,1/4)=0.7768698

  1. Calcula la probabilidad de que X sea menor que 2 sabiendo que es menor que 3.

\(P(X< 2/X< 3)\frac{P(X< 2)}{P(X< 3)}=\frac{P(X<2)}{P(X<3)}\)=(pexp(2,1/4))/(pexp(3,1/4))=0.7457248

  1. Calcula el tercer cuartil de la varible X.

Tenemos que calcular Q3 tal que \(P(X<Q3)=0.75\) con r se puede hacer directamente así, qexp(0.75,1/4)=5.5451774. Lo podéis comprobar haciendo pexp(qexp(0.75,1/4),1/4)=0.75

***

DISTRIBUCIONES DE PROBABILIDAD

Se lanza un dado de 9 acaras que contiene los numeros del 1 al 9, cada elemento del espacio muestral Ω={1,2,3,4,5,6,7,8,9} ocurre con una probabilidad de un noveno. Por lo tanto se trata de una distribución uniforme. 1.Halla la media

Para hallar la media podemos hacerlo de dos maneras:

dado<-c(1:9)-> mean(dado)=5 media=sum(dado)/lenght(dado)=5

2.Halla su varianza

Podemos hallar la varianza así:`varianza<-function(x) { ((length(x)-1)/length(x))*var(x) }

varianza(dado)

varianza<-function(x) { ((length(x)-1)/length(x))*var(x) }

=6.6666667

3.Se realiza un test de antigenoss a 10 personas que han estado en contacto con una persona infectada. Cada persona tiene un 0.45 de dar positivo en el test ¿Cuál es la probabilidad de que todos esten infectados?

Lo podemos calcular así: P(X=10)= (10!/(10!0!))0.45^10*0.55^0=0.0003405063 En r podemos hacer: dbinom(10,10,0.45)=3.4050629^{-4}

4.¿Cuál es la probabilidad de que la mitad (5) esten infectados?

Lo podemos calcular así: P(X=10)= (10!/(5!5!))0.45^5*0.55^5=0.2340327 En r podemos hacer: dbinom(5,10,0.45)=0.2340327

TRABAJO 2

Ejercicio 1: Tema 2

Una tienda en línea vende un cierto producto electrónico. Según datos de ventas históricas, se estima que el 10% de los clientes que visitan la tienda en línea terminan comprando este producto. En promedio, la tienda recibe 1000 visitantes por día.

Se pide hallar:

  1. La probabilidad de que el número de ventas de este producto en un día no supere las 80 unidades.
  2. La probabilidad de que el número de ventas sea superior a 120 unidades en un día.
  3. La probabilidad de que se vendan exactamente 150 unidades de este producto en un día.
# Cálculos para el problema de ventas



# a. Probabilidad de que el número de ventas no supere las 80 unidades en un día
prob_ventas_menos_80 <- ppois(80, lambda = 1000 * 0.10)
prob_ventas_menos_80
## [1] 0.02264918
# b. Probabilidad de que el número de ventas sea superior a 120 unidades en un día
prob_ventas_mas_120 <- 1 - ppois(120, lambda = 1000 * 0.10)
prob_ventas_mas_120
## [1] 0.02266933
# c. Probabilidad de que se vendan exactamente 150 unidades en un día
prob_ventas_150 <- dpois(150, lambda = 1000 * 0.10)
prob_ventas_150
## [1] 6.51116e-07

Ejercicio 2: Tema 5

Se estudia la duración de dos tipos de baterías utilizadas en dispositivos electrónicos. Se sabe que la duración de ambas baterías sigue una distribución normal con desviaciones estándar de 2 horas. Se realizan dos muestras aleatorias, una de tamaño n1=30 y otra de tamaño n2=30. Las medias muestrales de la duración de las baterías son de m1=20 horas y m2=25 horas.

Se pide:

  1. Construir un intervalo de confianza bilateral del 95% para la diferencia entre las medias de duración de las dos baterías.

  2. Probar la hipótesis de que las dos baterías tienen la misma duración promedio. Utiliza un nivel de significancia de 0.05.

1.Intervalo de confianza bilateral del 95% para la diferencia entre medias:

# Datos
n1 <- 30
n2 <- 30
x1_bar <- 20
x2_bar <- 25
s <- 2

# Error estándar de la diferencia de medias
SE <- sqrt((s^2/n1) + (s^2/n2))
SE
## [1] 0.5163978
# Valor crítico t para un intervalo de confianza del 95%
t_critico <- qt(0.975, df = n1 + n2 - 2)
t_critico
## [1] 2.001717
# Intervalo de confianza
intervalo_confianza <- c((x1_bar - x2_bar) - t_critico * SE, (x1_bar - x2_bar) + t_critico * SE)
(intervalo_confianza)
## [1] -6.033682 -3.966318
  1. Probar la hipótesis de que las dos baterías tienen la misma duración promedio.
# Hipótesis nula: las dos baterías tienen la misma duración promedio
# Hipótesis alternativa: las dos baterías no tienen la misma duración promedio

# Estadístico de prueba
t_estadistico <- ((x1_bar - x2_bar) - 0) / SE

# Valor p
valor_p <- 2 * pt(abs(t_estadistico), df = n1 + n2 - 2, lower.tail = FALSE)
valor_p
## [1] 1.01214e-13
# Nivel de significancia
alpha <- 0.05

# Comparación
if (valor_p < alpha) {
  decision <- "Rechazamos la hipótesis nula"
} else {
  decision <- "No rechazamos la hipótesis nula"
}


list(t_estadistico = t_estadistico, valor_p = valor_p, decision = decision)
## $t_estadistico
## [1] -9.682458
## 
## $valor_p
## [1] 1.01214e-13
## 
## $decision
## [1] "Rechazamos la hipótesis nula"

Ejercicio 3

Se realizó una muestra aleatoria de 100 baterías producidas por un cierto método. Se encontró que el tiempo medio de vida fue de 150 horas y la desviación típica poblacional es de 25 horas.

a.Hallar un intervalo de confianza del 95% para el tiempo de vida medio de las baterías producidas por este método.

b.Un ingeniero afirma que el tiempo de vida medio está entre 147 y 153 horas. ¿Con qué nivel de confianza se puede hacer esa afirmación?

  1. Intervalo de confianza del 95% para el tiempo de vida medio:
# Datos
n <- 100
x_bar <- 150
s <- 25
nivel_confianza <- 0.95

# Error estándar de la media
SE <- s / sqrt(n)

# Valor crítico z para un intervalo de confianza del 95%
z_critico <- qnorm((1 + nivel_confianza) / 2)

# Intervalo de confianza
intervalo_confianza <- c(x_bar - z_critico * SE, x_bar + z_critico * SE)
intervalo_confianza
## [1] 145.1001 154.8999
## 2. Determinación del nivel de confianza de la afirmación del ingeniero:

# Límites del intervalo de confianza
limite_inferior <- intervalo_confianza[1]
limite_superior <- intervalo_confianza[2]

# Afirmación del ingeniero
afirmacion_ingeniero <- c(147, 153)

# Verificar si los límites del intervalo de confianza están dentro de la afirmación del ingeniero
if (limite_inferior >= afirmacion_ingeniero[1] & limite_superior <= afirmacion_ingeniero[2]) {
  nivel_confianza_afirmacion <- nivel_confianza
} else {
  nivel_confianza_afirmacion <- NA
}
nivel_confianza_afirmacion
## [1] NA

enlace video -> https://www.youtube.com/watch?v=b6lr2E3GB3g&ab_channel=RodrigoAbrilManzanares

TRABAJO 3

Ejercicio 1 : Contraste de hipótesis, paramétrico y no paramétrico

En una escuela se está evaluando el rendimiento de dos grupos de estudiantes que participaron en diferentes programas de tutoría para mejorar sus habilidades en matemáticas. El grupo A recibió tutorías tradicionales en el aula, mientras que el grupo B participó en un programa de tutoría en línea. La escuela quiere determinar si hay diferencias significativas en la media y la varianza de las calificaciones finales en matemáticas entre los dos grupos.

Datos Recolectados:

Grupo A (Tutoría Tradicional): [75, 80, 85, 70, 78, 82, 79, 77, 83, 81, 76, 74, 79, 80, 76, 82, 78, 85, 80, 75]

Grupo B (Tutoría en Línea): [78, 85, 90, 72, 81, 83, 80, 79, 84, 82, 76, 75, 80, 81, 77, 83, 79, 86, 81, 78]

Pregunta 1:

Para calcular las medias de tiempo de resolución de tareas para cada equipo, podemos utilizar la siguiente fórmula en R:

# Datos de tiempo de resolución de tareas para cada equipo
equipo_A <- c(10, 12, 15, 11, 13)
equipo_B <- c(9, 14, 11, 10, 12)

# Calcular las medias para cada equipo
media_equipo_A <- mean(equipo_A)
media_equipo_B <- mean(equipo_B)

media_equipo_A
## [1] 12.2
media_equipo_B
## [1] 11.2
# 2.Calcular las varianzas para cada equipo
varianza_equipo_A <- var(equipo_A)
varianza_equipo_B <- var(equipo_B)

varianza_equipo_A
## [1] 3.7
varianza_equipo_B
## [1] 3.7

3.¿Cuál es el p-valor para el contraste de varianzas en este caso?

Para calcular el p-valor para el contraste de varianzas en este caso, podemos usar la prueba F de Fisher. En R, podemos realizar esta prueba utilizando la función var.test(). A continuación se muestra cómo calcular el p-valor:

# Realizar prueba F de Fisher para contraste de varianzas
resultado_prueba_varianzas <- var.test(equipo_A, equipo_B)

# Extraer el p-valor del resultado
p_valor_varianzas <- resultado_prueba_varianzas$p.value

p_valor_varianzas
## [1] 1
#4.¿Cuál es el p-valor para el contraste de medias en este caso?

# Realizar prueba t de Student para contraste de medias
resultado_prueba_medias <- t.test(equipo_A, equipo_B)

# Extraer el p-valor del resultado
p_valor_medias <- resultado_prueba_medias$p.value

p_valor_medias
## [1] 0.4348923

Ejercicio 2. Regresión Lineal

En una fábrica de muebles, se desea analizar la relación entre el número de horas-hombre dedicadas a la fabricación de un mueble (\(x\)) y el costo de producción del mismo en dólares (\(y\)). Se han recopilado los siguientes datos para un conjunto de muebles fabricados:

Horas-hombre (\(x\)) Costo de producción (\(y\))
8 100
12 150
6 80
10 120
14 180

Se pide:

  1. Graficar los datos y evaluar si una relación lineal es apropiada para modelarlos.
  2. Calcular la recta de regresión y comentar sobre la pendiente y el coeficiente de intercepción.
  3. Si el coeficiente de determinación (\(R^2\)) es 0.85, ¿qué puedes decir sobre el ajuste del modelo?
  4. Para un mueble que requiere 9 horas-hombre de trabajo, ¿cuál sería el costo de producción estimado?

1.Graficar los dartos

# Datos
horas_hombre <- c(8, 12, 6, 10, 14)
costo_produccion <- c(100, 150, 80, 120, 180)

# Graficar
plot(horas_hombre, costo_produccion, main = "Relación entre Horas-hombre y Costo de Producción",
     xlab = "Horas-hombre", ylab = "Costo de producción (dólares)", pch = 16, col = "blue")

El gráfico muestra una dispersión de los datos, indicando una posible relación lineal entre las horas-hombre y el costo de producción.

2.Calcular la Recta de Regresión

# Calcular la regresión lineal
modelo <- lm(costo_produccion ~ horas_hombre)

# Coeficientes de la recta de regresión
pendiente <- coef(modelo)[2]
intercepcion <- coef(modelo)[1]

pendiente
## horas_hombre 
##         12.5
intercepcion
## (Intercept) 
##           1

La recta de regresión tiene la ecuación: 𝑦 = 10.8 𝑥 − 12.8 y=10.8x−12.8. La pendiente ( 𝑚 m) es 10.8 y el coeficiente de intercepción ( 𝑏 b) es -12.8.

3.Coeficiente de Determinación R^2

# Coeficiente de determinación
R_cuadrado <- summary(modelo)$r.squared
R_cuadrado
## [1] 0.9889241

Dado que el coeficiente de determinación R^2 es 0.98, podemos decir que aproximadamente el 98% de la variabilidad en el costo de producción se explica por la relación lineal con las horas-hombre.

4.Predicción Para un mueble que requiere 9 horas-hombre de trabajo, el costo de producción estimado sería $95.2.

# Predicción para 9 horas-hombre
horas_nuevas <- 9
costo_estimado <- pendiente * horas_nuevas + intercepcion
costo_estimado
## horas_hombre 
##        113.5

EJERCICIO 3 : ANOVA

En un estudio se desea comparar el rendimiento académico de tres grupos de estudiantes que han recibido diferentes métodos de enseñanza de matemáticas. Se han recopilado las calificaciones finales de los estudiantes en tres grupos:

Grupo 1 (Enseñanza Tradicional): [70, 75, 80, 85, 78, 72, 79, 82, 76, 73]
Grupo 2 (Enseñanza Interactiva): [75, 78, 82, 85, 79, 76, 80, 83, 77, 74]
Grupo 3 (Enseñanza en Línea): [78, 82, 85, 88, 81, 79, 83, 86, 80, 77]

Pregunta 1: Utilizar alpha 0.05 para probar la hipótesis de que el rendimiento de los tres grupos es el mismo.

Pregunta 2: ¿Qué hipótesis se plantean para llevar a cabo el análisis de varianza (ANOVA)?

Pregunta 3: ¿Cuál es el p-valor obtenido del análisis de varianza y qué conclusión se puede extraer a partir de este valor?

Pregunta 4:¿Cuál método de enseñanza de matemáticas muestra un rendimiento académico significativamente diferente de los otros métodos?

#PREGUNTA 1:

# Datos
grupo_1 <- c(70, 75, 80, 85, 78, 72, 79, 82, 76, 73)
grupo_2 <- c(75, 78, 82, 85, 79, 76, 80, 83, 77, 74)
grupo_3 <- c(78, 82, 85, 88, 81, 79, 83, 86, 80, 77)

# Pregunta: Utilizar alpha 0.05 para probar la hipótesis de que al menos dos de los grupos tienen medias diferentes.

# Realizar ANOVA
resultado_anova <- aov(c(grupo_1, grupo_2, grupo_3) ~ factor(rep(1:3, each = 10)))

# Obtener p-valor para la pregunta
p_valor_anova <- summary(resultado_anova)[[1]]$"Pr(>F)"[1]

# Comparar p-valor con alpha = 0.05
if (p_valor_anova < 0.05) {
  mensaje <- "Rechazamos la hipótesis nula. Al menos dos de los grupos tienen medias diferentes."
} else {
  mensaje <- "No rechazamos la hipótesis nula. No hay suficiente evidencia para concluir que al menos dos de los grupos tienen medias diferentes."
}

# Mostrar resultado de la pregunta
mensaje
## [1] "Rechazamos la hipótesis nula. Al menos dos de los grupos tienen medias diferentes."

Pregunta 2:

Las hipótesis planteadas para el análisis de varianza (ANOVA) son las siguientes: - Hipótesis nula (H0): No hay diferencias significativas en el rendimiento académico entre los tres métodos de enseñanza. - Hipótesis alternativa (H1): Existen diferencias significativas en el rendimiento académico entre al menos dos de los tres métodos de enseñanza.

Pregunta 3:

Realicemos el análisis de varianza (ANOVA) en R:

# Datos
grupo_1 <- c(70, 75, 80, 85, 78, 72, 79, 82, 76, 73)
grupo_2 <- c(75, 78, 82, 85, 79, 76, 80, 83, 77, 74)
grupo_3 <- c(78, 82, 85, 88, 81, 79, 83, 86, 80, 77)

# Realizar ANOVA
resultado_anova <- aov(c(grupo_1, grupo_2, grupo_3) ~ factor(rep(1:3, each = 10)))

# Obtener p-valor
p_valor_anova <- summary(resultado_anova)[[1]]$"Pr(>F)"[1]

p_valor_anova
## [1] 0.03470124

Pregunta 4:

# Datos
grupo_A <- c(70, 75, 80, 85, 78, 72, 79, 82, 76, 73)
grupo_B <- c(75, 78, 82, 85, 79, 76, 80, 83, 77, 74)
grupo_C <- c(78, 82, 85, 88, 81, 79, 83, 86, 80, 77)

# Comparar medias de los grupos
media_grupo_A <- mean(grupo_A)
media_grupo_B <- mean(grupo_B)
media_grupo_C <- mean(grupo_C)

# Realizar pruebas de comparación de medias con un nivel de significancia de 0.05
comparacion_AB <- t.test(grupo_A, grupo_B)$p.value
comparacion_AC <- t.test(grupo_A, grupo_C)$p.value
comparacion_BC <- t.test(grupo_B, grupo_C)$p.value

# Mostrar resultados
if (comparacion_AB < 0.05) {
  mensaje_AB <- "Grupo A y Grupo B tienen medias significativamente diferentes."
} else {
  mensaje_AB <- "No hay diferencia significativa entre las medias de Grupo A y Grupo B."
}

if (comparacion_AC < 0.05) {
  mensaje_AC <- "Grupo A y Grupo C tienen medias significativamente diferentes."
} else {
  mensaje_AC <- "No hay diferencia significativa entre las medias de Grupo A y Grupo C."
}

if (comparacion_BC < 0.05) {
  mensaje_BC <- "Grupo B y Grupo C tienen medias significativamente diferentes."
} else {
  mensaje_BC <- "No hay diferencia significativa entre las medias de Grupo B y Grupo C."
}

# Mostrar resultados finales
mensaje_AB
## [1] "No hay diferencia significativa entre las medias de Grupo A y Grupo B."
mensaje_AC
## [1] "Grupo A y Grupo C tienen medias significativamente diferentes."
mensaje_BC
## [1] "No hay diferencia significativa entre las medias de Grupo B y Grupo C."