Contenidos: 1. Probabilidad, 2. Variable aleatoria. 3. Distribuciones de probabilidad.


EJERCICIO 1: Probabilidad

Sean dos sucesos de un espacio muestral tales que \(P(A \cup B)=0.6\), \(P(A \cap B)=0.1\) y \(P(A)=0.4\).

  1. Calcula la probabilidad de B.

\(P(A \cup B)=P(A)+P(B)-P(A \cap B)\), despejando P(A)=0.4, obtenemos que \(P(B)=0.3\)

  1. Calcula \(P(A^c\cap B^c)\).

\(P(A^c \cup B^c)=P(A^c)+P(B^c)-P(A^c \cap B^c)\), teniendo en cuenta que \(P(A^c)=1-P(A)=0.6\) , \(P(B^c)=0.7\), y también que \(P(A^c \cap B^c)=1-P(A \cup B)=0.4\), podemos saber con certeza que: \(P(A^c \cup B^c)=0.6+0.7-0.4=0.9\) Podemos estar seguros de que el resultado es correcto porque el inverso de la interseccion entre A y B es 0.9

  1. Calcula \(P(A/B)\)

\(P(A / B)=\frac{P(A \cap B)}{P(B)}=0.3/0.5=0.6\)

  1. Son independientes los sucesos A y B.

Para que sean independientes, debe cumplirse \(P(A \cap B)=0.1\) debe ser igual a \(P(A)P(B)=0.4*0.3=0.12\), como podemos ver el resultado no es el mismo, así que no son independientes.


EJERCICIO 2: Variable aleatoria exponencial

Sean X una variable exponencial de media 4.

  1. Calcula la probabilidad de que X sea mayor que 3.

\(P(X > 3)\)=

pexp(3,1/4,lower.tail=FALSE)
## [1] 0.4723666

También se puede poner así \(P(x > 3)\)=1-pexp(3,1/4)=0.4723666

  1. Calcula la probabilidad de que X sea menor que 6.

\(P(X\leq 6)\)=pexp(6,1/4)=0.7768698

  1. Calcula la probabilidad de que X sea menor que 2 sabiendo que es menor que 3.

\(P(X< 2/X< 3)\frac{P(X< 2)}{P(X< 3)}=\frac{P(X<2)}{P(X<3)}\)=(pexp(2,1/4))/(pexp(3,1/4))=0.7457248

  1. Calcula el tercer cuartil de la varible X.

Tenemos que calcular Q3 tal que \(P(X<Q3)=0.75\) con r se puede hacer directamente así, qexp(0.75,1/4)=5.5451774. Lo podéis comprobar haciendo pexp(qexp(0.75,1/4),1/4)=0.75

***

EJERCICIO 3: DISTRIBUCIONES DE PROBABILIDAD

Se lanza un dado de 9 acaras que contiene los numeros del 1 al 9, cada elemento del espacio muestral Ω={1,2,3,4,5,6,7,8,9} ocurre con una probabilidad de un noveno. Por lo tanto se trata de una distribución uniforme. 1.Halla la media

Para hallar la media podemos hacerlo de dos maneras:

dado<-c(1:9)-> mean(dado)=5 media=sum(dado)/lenght(dado)=5

2.Halla su varianza

Podemos hallar la varianza así:varianza<-function(x) { ((length(x)-1)/length(x))*var(x) }r varianza<-function(x) { ((length(x)-1)/length(x))*var(x) }`

varianza(dado)

varianza<-function(x) { ((length(x)-1)/length(x))*var(x) }

=6.6666667

3.Se realiza un test de antigenoss a 10 personas que han estado en contacto con una persona infectada. Cada persona tiene un 0.45 de dar positivo en el test ¿Cuál es la probabilidad de que todos esten infectados?

Lo podemos calcular así: P(X=10)= (10!/(10!0!))0.45^10*0.55^0=0.0003405063 En r podemos hacer: dbinom(10,10,0.45)=3.4050629^{-4}

4.¿Cuál es la probabilidad de que la mitad (5) esten infectados?

Lo podemos calcular así: P(X=10)= (10!/(5!5!))0.45^5*0.55^5=0.2340327 En r podemos hacer: dbinom(5,10,0.45)=0.2340327

TRABAJO 2

Ejercicio 4: Tema 2

Una tienda en línea vende un cierto producto electrónico. Según datos de ventas históricas, se estima que el 10% de los clientes que visitan la tienda en línea terminan comprando este producto. En promedio, la tienda recibe 1000 visitantes por día.

Se pide hallar:

  1. La probabilidad de que el número de ventas de este producto en un día no supere las 80 unidades.
  2. La probabilidad de que el número de ventas sea superior a 120 unidades en un día.
  3. La probabilidad de que se vendan exactamente 150 unidades de este producto en un día.
# Cálculos para el problema de ventas



# a. Probabilidad de que el número de ventas no supere las 80 unidades en un día
prob_ventas_menos_80 <- ppois(80, lambda = 1000 * 0.10)
prob_ventas_menos_80
## [1] 0.02264918
# b. Probabilidad de que el número de ventas sea superior a 120 unidades en un día
prob_ventas_mas_120 <- 1 - ppois(120, lambda = 1000 * 0.10)
prob_ventas_mas_120
## [1] 0.02266933
# c. Probabilidad de que se vendan exactamente 150 unidades en un día
prob_ventas_150 <- dpois(150, lambda = 1000 * 0.10)
prob_ventas_150
## [1] 6.51116e-07

Ejercicio 5: Tema 5

Se estudia la duración de dos tipos de baterías utilizadas en dispositivos electrónicos. Se sabe que la duración de ambas baterías sigue una distribución normal con desviaciones estándar de 2 horas. Se realizan dos muestras aleatorias, una de tamaño n1=30 y otra de tamaño n2=30. Las medias muestrales de la duración de las baterías son de m1=20 horas y m2=25 horas.

Se pide:

  1. Construir un intervalo de confianza bilateral del 95% para la diferencia entre las medias de duración de las dos baterías.

  2. Probar la hipótesis de que las dos baterías tienen la misma duración promedio. Utiliza un nivel de significancia de 0.05.

1.Intervalo de confianza bilateral del 95% para la diferencia entre medias:

# Datos
n1 <- 30
n2 <- 30
x1_bar <- 20
x2_bar <- 25
s <- 2

# Error estándar de la diferencia de medias
SE <- sqrt((s^2/n1) + (s^2/n2))
SE
## [1] 0.5163978
# Valor crítico t para un intervalo de confianza del 95%
t_critico <- qt(0.975, df = n1 + n2 - 2)
t_critico
## [1] 2.001717
# Intervalo de confianza
intervalo_confianza <- c((x1_bar - x2_bar) - t_critico * SE, (x1_bar - x2_bar) + t_critico * SE)
(intervalo_confianza)
## [1] -6.033682 -3.966318
  1. Probar la hipótesis de que las dos baterías tienen la misma duración promedio.
# Hipótesis nula: las dos baterías tienen la misma duración promedio
# Hipótesis alternativa: las dos baterías no tienen la misma duración promedio

# Estadístico de prueba
t_estadistico <- ((x1_bar - x2_bar) - 0) / SE

# Valor p
valor_p <- 2 * pt(abs(t_estadistico), df = n1 + n2 - 2, lower.tail = FALSE)
valor_p
## [1] 1.01214e-13
# Nivel de significancia
alpha <- 0.05

# Comparación
if (valor_p < alpha) {
  decision <- "Rechazamos la hipótesis nula"
} else {
  decision <- "No rechazamos la hipótesis nula"
}


list(t_estadistico = t_estadistico, valor_p = valor_p, decision = decision)
## $t_estadistico
## [1] -9.682458
## 
## $valor_p
## [1] 1.01214e-13
## 
## $decision
## [1] "Rechazamos la hipótesis nula"

Ejercicio 6

Se realizó una muestra aleatoria de 100 baterías producidas por un cierto método. Se encontró que el tiempo medio de vida fue de 150 horas y la desviación típica poblacional es de 25 horas.

a.Hallar un intervalo de confianza del 95% para el tiempo de vida medio de las baterías producidas por este método.

b.Un ingeniero afirma que el tiempo de vida medio está entre 147 y 153 horas. ¿Con qué nivel de confianza se puede hacer esa afirmación?

  1. Intervalo de confianza del 95% para el tiempo de vida medio:
# Datos
n <- 100
x_bar <- 150
s <- 25
nivel_confianza <- 0.95

# Error estándar de la media
SE <- s / sqrt(n)

# Valor crítico z para un intervalo de confianza del 95%
z_critico <- qnorm((1 + nivel_confianza) / 2)

# Intervalo de confianza
intervalo_confianza <- c(x_bar - z_critico * SE, x_bar + z_critico * SE)
intervalo_confianza
## [1] 145.1001 154.8999
## 2. Determinación del nivel de confianza de la afirmación del ingeniero:

# Límites del intervalo de confianza
limite_inferior <- intervalo_confianza[1]
limite_superior <- intervalo_confianza[2]

# Afirmación del ingeniero
afirmacion_ingeniero <- c(147, 153)

# Verificar si los límites del intervalo de confianza están dentro de la afirmación del ingeniero
if (limite_inferior >= afirmacion_ingeniero[1] & limite_superior <= afirmacion_ingeniero[2]) {
  nivel_confianza_afirmacion <- nivel_confianza
} else {
  nivel_confianza_afirmacion <- NA
}
nivel_confianza_afirmacion
## [1] NA

enlace video -> https://www.youtube.com/watch?v=b6lr2E3GB3g&ab_channel=RodrigoAbrilManzanares

TRABAJO 3

Ejercicio 7 : Contraste de hipótesis, paramétrico y no paramétrico

En una escuela se está evaluando el rendimiento de dos grupos de estudiantes que participaron en diferentes programas de tutoría para mejorar sus habilidades en matemáticas. El grupo A recibió tutorías tradicionales en el aula, mientras que el grupo B participó en un programa de tutoría en línea. La escuela quiere determinar si hay diferencias significativas en la media y la varianza de las calificaciones finales en matemáticas entre los dos grupos.

Datos Recolectados:

Grupo A (Tutoría Tradicional): [75, 80, 85, 70, 78, 82, 79, 77, 83, 81, 76, 74, 79, 80, 76, 82, 78, 85, 80, 75]

Grupo B (Tutoría en Línea): [78, 85, 90, 72, 81, 83, 80, 79, 84, 82, 76, 75, 80, 81, 77, 83, 79, 86, 81, 78]

Pregunta 1:

Para calcular las medias de tiempo de resolución de tareas para cada equipo, podemos utilizar la siguiente fórmula en R:

# Datos de tiempo de resolución de tareas para cada equipo
equipo_A <- c(10, 12, 15, 11, 13)
equipo_B <- c(9, 14, 11, 10, 12)

# Calcular las medias para cada equipo
media_equipo_A <- mean(equipo_A)
media_equipo_B <- mean(equipo_B)

media_equipo_A
## [1] 12.2
media_equipo_B
## [1] 11.2
# 2.Calcular las varianzas para cada equipo
varianza_equipo_A <- var(equipo_A)
varianza_equipo_B <- var(equipo_B)

varianza_equipo_A
## [1] 3.7
varianza_equipo_B
## [1] 3.7

3.¿Cuál es el p-valor para el contraste de varianzas en este caso?

Para calcular el p-valor para el contraste de varianzas en este caso, podemos usar la prueba F de Fisher. En R, podemos realizar esta prueba utilizando la función var.test(). A continuación se muestra cómo calcular el p-valor:

# Realizar prueba F de Fisher para contraste de varianzas
resultado_prueba_varianzas <- var.test(equipo_A, equipo_B)

# Extraer el p-valor del resultado
p_valor_varianzas <- resultado_prueba_varianzas$p.value

p_valor_varianzas
## [1] 1
#4.¿Cuál es el p-valor para el contraste de medias en este caso?

# Realizar prueba t de Student para contraste de medias
resultado_prueba_medias <- t.test(equipo_A, equipo_B)

# Extraer el p-valor del resultado
p_valor_medias <- resultado_prueba_medias$p.value

p_valor_medias
## [1] 0.4348923

Ejercicio 8. Regresión Lineal

En una fábrica de muebles, se desea analizar la relación entre el número de horas-hombre dedicadas a la fabricación de un mueble (\(x\)) y el costo de producción del mismo en dólares (\(y\)). Se han recopilado los siguientes datos para un conjunto de muebles fabricados:

Horas-hombre (\(x\)) Costo de producción (\(y\))
8 100
12 150
6 80
10 120
14 180

Se pide:

  1. Graficar los datos y evaluar si una relación lineal es apropiada para modelarlos.
  2. Calcular la recta de regresión y comentar sobre la pendiente y el coeficiente de intercepción.
  3. Si el coeficiente de determinación (\(R^2\)) es 0.85, ¿qué puedes decir sobre el ajuste del modelo?
  4. Para un mueble que requiere 9 horas-hombre de trabajo, ¿cuál sería el costo de producción estimado?

1.Graficar los dartos

# Datos
horas_hombre <- c(8, 12, 6, 10, 14)
costo_produccion <- c(100, 150, 80, 120, 180)

# Graficar
plot(horas_hombre, costo_produccion, main = "Relación entre Horas-hombre y Costo de Producción",
     xlab = "Horas-hombre", ylab = "Costo de producción (dólares)", pch = 16, col = "blue")

El gráfico muestra una dispersión de los datos, indicando una posible relación lineal entre las horas-hombre y el costo de producción.

2.Calcular la Recta de Regresión

# Calcular la regresión lineal
modelo <- lm(costo_produccion ~ horas_hombre)

# Coeficientes de la recta de regresión
pendiente <- coef(modelo)[2]
intercepcion <- coef(modelo)[1]

pendiente
## horas_hombre 
##         12.5
intercepcion
## (Intercept) 
##           1

La recta de regresión tiene la ecuación: 𝑦 = 10.8 𝑥 − 12.8 y=10.8x−12.8. La pendiente ( 𝑚 m) es 10.8 y el coeficiente de intercepción ( 𝑏 b) es -12.8.

3.Coeficiente de Determinación R^2

# Coeficiente de determinación
R_cuadrado <- summary(modelo)$r.squared
R_cuadrado
## [1] 0.9889241

Dado que el coeficiente de determinación R^2 es 0.98, podemos decir que aproximadamente el 98% de la variabilidad en el costo de producción se explica por la relación lineal con las horas-hombre.

4.Predicción Para un mueble que requiere 9 horas-hombre de trabajo, el costo de producción estimado sería $95.2.

# Predicción para 9 horas-hombre
horas_nuevas <- 9
costo_estimado <- pendiente * horas_nuevas + intercepcion
costo_estimado
## horas_hombre 
##        113.5

EJERCICIO 9 : ANOVA

En un estudio se desea comparar el rendimiento académico de tres grupos de estudiantes que han recibido diferentes métodos de enseñanza de matemáticas. Se han recopilado las calificaciones finales de los estudiantes en tres grupos:

Grupo 1 (Enseñanza Tradicional): [70, 75, 80, 85, 78, 72, 79, 82, 76, 73]
Grupo 2 (Enseñanza Interactiva): [75, 78, 82, 85, 79, 76, 80, 83, 77, 74]
Grupo 3 (Enseñanza en Línea): [78, 82, 85, 88, 81, 79, 83, 86, 80, 77]

Pregunta 1: Utilizar alpha 0.05 para probar la hipótesis de que el rendimiento de los tres grupos es el mismo.

Pregunta 2: ¿Qué hipótesis se plantean para llevar a cabo el análisis de varianza (ANOVA)?

Pregunta 3: ¿Cuál es el p-valor obtenido del análisis de varianza y qué conclusión se puede extraer a partir de este valor?

Pregunta 4:¿Cuál método de enseñanza de matemáticas muestra un rendimiento académico significativamente diferente de los otros métodos?

#PREGUNTA 1:

# Datos
grupo_1 <- c(70, 75, 80, 85, 78, 72, 79, 82, 76, 73)
grupo_2 <- c(75, 78, 82, 85, 79, 76, 80, 83, 77, 74)
grupo_3 <- c(78, 82, 85, 88, 81, 79, 83, 86, 80, 77)

# Pregunta: Utilizar alpha 0.05 para probar la hipótesis de que al menos dos de los grupos tienen medias diferentes.

# Realizar ANOVA
resultado_anova <- aov(c(grupo_1, grupo_2, grupo_3) ~ factor(rep(1:3, each = 10)))

# Obtener p-valor para la pregunta
p_valor_anova <- summary(resultado_anova)[[1]]$"Pr(>F)"[1]

# Comparar p-valor con alpha = 0.05
if (p_valor_anova < 0.05) {
  mensaje <- "Rechazamos la hipótesis nula. Al menos dos de los grupos tienen medias diferentes."
} else {
  mensaje <- "No rechazamos la hipótesis nula. No hay suficiente evidencia para concluir que al menos dos de los grupos tienen medias diferentes."
}

# Mostrar resultado de la pregunta
mensaje
## [1] "Rechazamos la hipótesis nula. Al menos dos de los grupos tienen medias diferentes."

Pregunta 2:

Las hipótesis planteadas para el análisis de varianza (ANOVA) son las siguientes: - Hipótesis nula (H0): No hay diferencias significativas en el rendimiento académico entre los tres métodos de enseñanza. - Hipótesis alternativa (H1): Existen diferencias significativas en el rendimiento académico entre al menos dos de los tres métodos de enseñanza.

Pregunta 3:

Realicemos el análisis de varianza (ANOVA) en R:

# Datos
grupo_1 <- c(70, 75, 80, 85, 78, 72, 79, 82, 76, 73)
grupo_2 <- c(75, 78, 82, 85, 79, 76, 80, 83, 77, 74)
grupo_3 <- c(78, 82, 85, 88, 81, 79, 83, 86, 80, 77)

# Realizar ANOVA
resultado_anova <- aov(c(grupo_1, grupo_2, grupo_3) ~ factor(rep(1:3, each = 10)))

# Obtener p-valor
p_valor_anova <- summary(resultado_anova)[[1]]$"Pr(>F)"[1]

p_valor_anova
## [1] 0.03470124

Pregunta 4:

# Datos
grupo_A <- c(70, 75, 80, 85, 78, 72, 79, 82, 76, 73)
grupo_B <- c(75, 78, 82, 85, 79, 76, 80, 83, 77, 74)
grupo_C <- c(78, 82, 85, 88, 81, 79, 83, 86, 80, 77)

# Comparar medias de los grupos
media_grupo_A <- mean(grupo_A)
media_grupo_B <- mean(grupo_B)
media_grupo_C <- mean(grupo_C)

# Realizar pruebas de comparación de medias con un nivel de significancia de 0.05
comparacion_AB <- t.test(grupo_A, grupo_B)$p.value
comparacion_AC <- t.test(grupo_A, grupo_C)$p.value
comparacion_BC <- t.test(grupo_B, grupo_C)$p.value

# Mostrar resultados
if (comparacion_AB < 0.05) {
  mensaje_AB <- "Grupo A y Grupo B tienen medias significativamente diferentes."
} else {
  mensaje_AB <- "No hay diferencia significativa entre las medias de Grupo A y Grupo B."
}

if (comparacion_AC < 0.05) {
  mensaje_AC <- "Grupo A y Grupo C tienen medias significativamente diferentes."
} else {
  mensaje_AC <- "No hay diferencia significativa entre las medias de Grupo A y Grupo C."
}

if (comparacion_BC < 0.05) {
  mensaje_BC <- "Grupo B y Grupo C tienen medias significativamente diferentes."
} else {
  mensaje_BC <- "No hay diferencia significativa entre las medias de Grupo B y Grupo C."
}

# Mostrar resultados finales
mensaje_AB
## [1] "No hay diferencia significativa entre las medias de Grupo A y Grupo B."
mensaje_AC
## [1] "Grupo A y Grupo C tienen medias significativamente diferentes."
mensaje_BC
## [1] "No hay diferencia significativa entre las medias de Grupo B y Grupo C."

https://www.youtube.com/watch?v=ceu9NrXALfw&ab_channel=RodrigoAbrilManzanares

TRABAJO 4: BANCO DE DATOS

Un banco de datos es una colección estructurada de datos que están organizados de manera que sea fácil acceder, administrar y actualizar. En R, podemos trabajar con bancos de datos de diversas formas para realizar análisis de datos y obtener información útil. A continuación, se explican algunas operaciones básicas que podemos realizar con bases de datos en R.

Importar datos

datos <- mtcars

Explorar datos Una vez que hemos importado los datos, es importante explorarlos para comprender su estructura y contenido. Podemos usar diversas funciones para explorar los datos, como head(), summary(), str(), entre otras. Por ejemplo:

# Mostrar las primeras filas de los datos
head(datos)
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1
# Resumen estadístico de los datos
summary(datos)
##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000
# Estructura de los datos
str(datos)
## 'data.frame':    32 obs. of  11 variables:
##  $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
##  $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
##  $ disp: num  160 160 108 258 360 ...
##  $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
##  $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
##  $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
##  $ qsec: num  16.5 17 18.6 19.4 17 ...
##  $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
##  $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
##  $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
##  $ carb: num  4 4 1 1 2 1 4 2 2 4 ...

Manipulación de datos

Podemos realizar varias operaciones para manipular y transformar los datos según nuestras necesidades. Por ejemplo, podemos seleccionar columnas específicas, filtrar filas, crear nuevas variables, entre otras cosas. Podemos utilizar funciones del paquete dplyr para realizar estas operaciones. Aquí hay un ejemplo de cómo seleccionar columnas y filtrar filas:

library(dplyr)
## Warning: package 'dplyr' was built under R version 4.3.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
# Seleccionar columnas específicas
datos_seleccionados <- dplyr::select(datos, mpg, cyl)
datos_seleccionados
##                      mpg cyl
## Mazda RX4           21.0   6
## Mazda RX4 Wag       21.0   6
## Datsun 710          22.8   4
## Hornet 4 Drive      21.4   6
## Hornet Sportabout   18.7   8
## Valiant             18.1   6
## Duster 360          14.3   8
## Merc 240D           24.4   4
## Merc 230            22.8   4
## Merc 280            19.2   6
## Merc 280C           17.8   6
## Merc 450SE          16.4   8
## Merc 450SL          17.3   8
## Merc 450SLC         15.2   8
## Cadillac Fleetwood  10.4   8
## Lincoln Continental 10.4   8
## Chrysler Imperial   14.7   8
## Fiat 128            32.4   4
## Honda Civic         30.4   4
## Toyota Corolla      33.9   4
## Toyota Corona       21.5   4
## Dodge Challenger    15.5   8
## AMC Javelin         15.2   8
## Camaro Z28          13.3   8
## Pontiac Firebird    19.2   8
## Fiat X1-9           27.3   4
## Porsche 914-2       26.0   4
## Lotus Europa        30.4   4
## Ford Pantera L      15.8   8
## Ferrari Dino        19.7   6
## Maserati Bora       15.0   8
## Volvo 142E          21.4   4
# Filtrar filas que cumplan cierta condición
datos_filtrados <- dplyr::filter(datos, mpg > 10)
datos_filtrados
##                      mpg cyl  disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4           21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag       21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710          22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
## Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
## Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
## Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
## Merc 230            22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
## Merc 280            19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
## Merc 280C           17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
## Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
## Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
## Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
## Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
## Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
## Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
## Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
## Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
## Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
## Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
## Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
## AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
## Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
## Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
## Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
## Porsche 914-2       26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
## Lotus Europa        30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
## Ford Pantera L      15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
## Ferrari Dino        19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
## Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
## Volvo 142E          21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2

Análisis descriptivo Una vez que hemos explorado y manipulado los datos, podemos realizar análisis descriptivos para resumir y visualizar la información contenida en ellos. Podemos calcular medidas de resumen como medias, medianas, desviaciones estándar, así como también crear gráficos para visualizar los datos. Por ejemplo:

# Calcular la media de una columna
media_columna <- mean(datos$hp)

# Crear un histograma de una variable
hist(datos$hp)

Exportar datos Finalmente, una vez que hemos realizado nuestros análisis, podemos exportar los resultados o los datos transformados a diferentes formatos de archivo. Por ejemplo, podemos exportar los datos a un archivo CSV utilizando la función write.csv(). Aquí hay un ejemplo:

# Exportar datos a un archivo CSV
write.csv(datos, "datos_exportados.csv", row.names = FALSE)

En este ejemplo, se analiza la relación entre la edad y el número máximo de pulsaciones en una muestra de 15 personas. Los datos se muestran a continuación:

# Crear el dataframe de Edad y Pulsaciones
Edad_pulsaciones <- data.frame(
  Edad = c(18, 23, 25, 35, 65, 54, 34, 56, 72, 19, 23, 42, 18, 39, 37),
  Pulsaciones = c(202, 186, 187, 180, 156, 169, 174, 172, 153, 199, 193, 174, 198, 183, 178)
)

#Se utilizará RCommander para introducir los datos y representarlos gráficamente mediante un diagrama de dispersión o nube de puntos.

plot(Edad_pulsaciones$Edad, Edad_pulsaciones$Pulsaciones,
     xlab = "Edad", ylab = "Número máximo de pulsaciones",
     main = "Diagrama de dispersión: Edad vs. Pulsaciones")

#Resultados de la Regresión #El análisis de regresión lineal muestra lo siguiente:

lm(formula = Pulsaciones ~ Edad, data = Edad_pulsaciones)
## 
## Call:
## lm(formula = Pulsaciones ~ Edad, data = Edad_pulsaciones)
## 
## Coefficients:
## (Intercept)         Edad  
##    210.0485      -0.7977
#Esto indica una relación significativa entre la edad y el número máximo de pulsaciones, con un coeficiente de correlación lineal negativo.
datos <- data.frame(
  Grupo = factor(rep(1:3, each = 10)),
  Puntaje = c(70, 75, 68, 72, 71, 73, 65, 69, 70, 67,
              80, 85, 82, 78, 79, 83, 75, 77, 81, 76,
              60, 62, 58, 64, 61, 63, 55, 59, 60, 57)
)

# Realizar el análisis de varianza (ANOVA)
resultado_anova <- aov(Puntaje ~ Grupo, data = datos)

# Mostrar el resumen del ANOVA
summary(resultado_anova)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Grupo        2 1940.9   970.4   109.5 1.11e-13 ***
## Residuals   27  239.3     8.9                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Diferencias significativas entre grupos: El valor p asociado al factor “Grupo” es extremadamente bajo (1.11e-13), lo que indica que hay diferencias significativas en los puntajes entre al menos uno de los grupos. La probabilidad de observar una diferencia tan grande o mayor entre los grupos si no hay diferencia real es esencialmente cero.

F value: El valor F es grande (109.5), lo que indica que la variabilidad entre los grupos es mucho mayor que la variabilidad dentro de los grupos. Esto sugiere que las diferencias entre los grupos son significativas en comparación con la variabilidad aleatoria dentro de los grupos.

Interpretación de los grupos: La presencia de tres asteriscos (***) junto al valor p indica que la diferencia entre al menos uno de los grupos es significativamente diferente de los demás. Sin embargo, este resumen no proporciona información específica sobre qué grupos difieren entre sí.

En conclusión, basándonos en este resultado del ANOVA, podemos afirmar que hay diferencias significativas en los puntajes entre al menos uno de los grupos. Sin embargo, se necesitarían pruebas de comparaciones múltiples para determinar qué grupos difieren entre sí. #En resumen, este ejemplo muestra cómo realizar análisis de datos en RCommander, incluyendo ANOVA y regresión lineal, para comprender mejor las relaciones entre variables.

https://www.youtube.com/watch?v=sYbMnit_1uY&t=2s&ab_channel=RodrigoAbrilManzanares