Este manual fue generado por R Markdown. La teoría mencionada puede revisarse en el capítulo 3 de mis notas de clase que aparecen en el siguiente documento: 1.2. Estadística inferencial. Al final de esta guía, usted encontrará una serie de: (a) ejercicios, y (b) enlaces y materiales relacionados con la temática que se explica aquí. Usted encontrará otros documentos de posible interés en el siguiente enlace: https://rpubs.com/hllinas/toc.

1 Paquetes

library(dplyr)  #A) Para filtrar data frames

2 Nuestro data frame

Los siguientes datos representan los resultados obtenidos al realizar una encuesta a 400 estudiantes universitarios. En este documento, se importará la base de datos desde una dirección web (dos opciones):

Opción A (web, desde github): Para esta opción, se necesita cargar la librería “repmis”:

library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?raw=false")
datosCompleto <- Estudiantes

Opción B (web, desde Google Drive):

url.dat<- "http://bit.ly/Database-Estudiantes"
datosCompleto <- read.delim(url.dat)

Recuérdense las otras opciones, si tienen las bases de datos descargadas en su sesión de trabajo (ya sea en extensiones en Rdata, en excel o en otros formatos). Para más detalles, véase el documento R básico. A manera de ejemplo:

Opción C (local, con archivo en Rdata):

load(file="Estudiantes.Rdata")
datosCompleto <- Estudiantes

Opción D (local, con archivo en excel):

datosCompleto <- read.delim('clipboard')

El objetivo es realizar los ejercicios que se indican en las secciones de abajo.

3 Hipótesis estadísticas

Hipótesis estadística: Afirmación sobre uno o más parámetros de una o más poblaciones.
Hipótesis nula y alternativa
1. Hipótesis nula $H_0$: La hipótesis que se debe comprobar. Inicialmente se asume como verdadera.
2. Hipótesis alternativa $H_1$: Se establece como el “complemento” de $H_0$.
Tipos de pruebas de hipótesis. Si $\theta$ es el parámetro de interés:
1. $H_0: \theta \leq k$ vs $H_1: \theta > k$, prueba de hipótesis (unilateral o de una cola) a la derecha.
2. $H_0: \theta \geq k$ vs $H_1: \theta < k$, prueba de hipótesis (unilateral o de una cola) a la izquierda.
3. $H_0: \theta = k$ vs $H_1: \theta \ne k$, prueba de hipótesis (bilateral o de dos colas).
Comentarios:
1. $H_0$ siempre se refiere a un valor específico del parámetro $\theta$ (como, por ejemplo, $\mu$) y no al estadístico correspondiente (como $\overline{X}$).
2. $H_0$ siempre debe contener un signo igual respecto al valor especificado del parámetro. Por ejemplo, la hipótesis nula debe escribirse así: \[H_0:\mu=36,\quad H_0:\mu\leq 36 \quad \mbox{o}\quad H_0:\mu\geq 36\]
3. $H_1$ nunca debe contener un signo igual respecto al valor especificado de parámetro de población. Por ejemplo, la hipótesis alternativa debe escribirse así: \[H_1:\mu\ne 36,\quad H_1:\mu<36\quad \mbox{o} \quad H_1:\mu>36\]

4 Errores de tipo I y de tipo II

Como se indica en el cuadro 3.1, hay dos tipos de errores: I y II.

5 Tabla de supuestos

El objetivo es realizar los ejercicios que se indican en las siguientes secciones, teniendo en cuenta la tabla de supuestos que se muestra abajo.

6 Región crítica

A). Es la región donde se rechaza $H_0$. Para determinarla, se debe tener en cuenta la tabla de supuestos relacionada con la distribución muestral de una media (cuadro A.1).

B). Las distribuciones a utilizar serán la normal o la t de Student con n-1 grados de libertad.

C). Los tres tipos de pruebas se muestran en el cuadro 3.2:

$H_1: \mu < k$ (prueba de una cola a la izquierda)
$H_1: \mu > k$ (prueba de una cola a la derecha)
$H_1: \mu \ne k$ (prueba bilateral o de dos colas)

D). La región crítica es la región sombreada que aparece en la figura 3.1.

E). A los valores a, b, c y d que aparecen en la figura 3.1 o en el cuadro 3.2 se les llamará valores críticos.

7 P-valor (o valor P)

A). Definición:

El $P$-valor es el mínimo nivel de significancia bajo la cual $H_0$ es rechazada.

B). Regla de decisión (al nivel $\alpha$):

Se rechaza $H_0$ cuando $P\mbox{-valor} \; \leq \; \alpha$.
No se rechaza $H_0$ cuando $P\mbox{-valor} \; > \; \alpha$.

C). Fórmula para hallarlo:

El $P$-valor se calcula de la siguiente manera:

\[\text{$P$-valor} \;= \; \begin{cases} P(X\leq x), & \text{para una prueba de una cola a la izquierda}, \\ & \\ P(X\geq x), & \text{para una prueba de una cola a la derecha}, \\ &\\ 2\,P(X\geq |x|),& \text{para una prueba de dos colas}. \end{cases} \]

Aquí: $X$ representa los estadísticos $Z$ o $t$ y $x$ es el llamado valor de prueba, el cual es un posible valor de $X$.

El código para escribir la expresión anterior es:

$$\text{$P$-valor} \;= \;
 \begin{cases}
   P(X\leq x), & \text{para una prueba de una cola a la izquierda}, \\
   & \\
   P(X\geq x), & \text{para una prueba de una cola a la derecha},  \\
   &\\
   2\,P(X\geq |x|),& \text{para una prueba de dos colas}.
 \end{cases} $$

8 Ejemplo 1: Enunciado

Realizar los siguientes ejercicios. Suponga que la población es normal. Interprete todas sus respuestas.

a) Considere solamente las observaciones que van desde la 2 hasta la 35. Con estas observaciones, defina el data frame "datos2a35". Verifique su tamaño, variables y estructura.
   
b) Dentro de "datos2a35": Defina el objeto "P3" como las calificaciones del tercer parcial.
   
c) Dentro de "datos2a35": Halle la media,  varianza y  desviación estándar de P3. 

d) Dentro de "datos2a35": Resuma las tres medidas anteriores en una tabla.

e) Dentro de "datos2a35" y utilizando el método de la región crítica: Al nivel del 5%,  determine si el promedio poblacional de las calificaciones del tercer parcial es igual a 3.5. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fómula, el valor de prueba, el valor crítico, la región crítica e interprete. 

f) Dentro de "datos2a35" y utilizando el método del P-valor: Determine si el promedio poblacional de las calificaciones del tercer parcial es igual a 3.5. Halle el P-valor, interprete y compare su decisión con el inciso (e).

g) Dentro de "datos2a35": Con Geogebra (https://www.geogebra.org/classic#probability), realice la misma prueba de hipótesis del inciso (f) y compare los resultados obtenidos.

h) Dentro de "datos2a35": Con Geogebra, construya un intervalo del 95% de confianza para el promedio poblacional de las calificaciones del tercer parcial (dentro de "datos2a35") y compare los resultados obtenidos en los incisos anteriores.

9 Ejemplo 1: Solución

9.0.1 Solución parte (a)

Filtramos y definimos como “datos2a35” al data frame con las observaciones del 2 al 35:

datos2a35 <- datosCompleto[2:35,]     #A) La nueva base de datos
n <- nrow(datos2a35); n               #B) Número observaciones (tamaño muestral)

## [1] 34

El número de observaciones y de variables se pueden revisar con:

dim(datos2a35)                        #C) Número observaciones y número de variables

Observamos que tamaño muestral es $n=$ 34. Para revisar estructura y variables del data frame:

str(datos2a35)      #D) Estructura
names(datos2a35)    #E) Variables

9.0.2 Solución parte (b)

Definimos la variable numérica:

P3 <- as.numeric(datos2a35$P3)         #F) La variable P3 en "datos2a35"

9.0.3 Solución parte (c)

Calculamos la media, varianza y desviación de las calificaciones del tercer parcial (P3):

xbarra <- mean(P3)     #G) Media muestral
v <- var(P3)           #H) Varianza (muestral)
s <- sd(P3)            #I) Desviación estándar (muestral)

La media, varianza y desviación estándar de P3 son $\overline{x}=$ 3.6117647, $s^2=$ 0.4471301 y $s=$ 0.6686779, respectivamente.

9.0.4 Solución parte (d)

Estas tres medidas se pueden resumir así:

datos2a35 %>% summarise(Media=mean(as.numeric(P3)), Varianza=var(P3), Desviacion=sd(P3)) %>% as.data.frame()

##      Media  Varianza Desviacion
## 1 3.611765 0.4471301  0.6686779

9.0.5 Solución parte (e)

1. Datos:

  * Unidades experimentales: Los estudiantes.
  * Población: Las calificaciones del tercer parcial.
  * Estadístico: la media muestral de las calificaciones del tercer parcial.
  * Parámetro: la media poblacional de las calificaciones del tercer parcial.
  * Tamaño muestral: n=34.
  * Tamaño poblacional: N es desconocido.
  * Grado de confianza: 95%.
  * Nivel de significancia: 5%.
  * Hipótesis nula y alternativa:

\[H_0: \mu = 3.5 \quad \mbox{versus} \quad H_1: \mu \ne 3.5 \]

El código para escribir la expresión anterior es:
$$H_0: \mu = 3.5 \quad \mbox{versus} \quad H_1: \mu \ne 3.5 $$

  * Tipo de prueba: Prueba de bilateral o de dos colas. 
  * Otros datos: media muestral=3.6117647 y desviación muestral=0.6686779.

2. Verificación de supuestos:

De acuerdo a los datos y a la tabla de supuestos (caso 2), tenemos que:

  * La forma de la población es normal.
  * La varianza poblacional es desconocida.
  * El tamaño muestral es grande (n> 30).

3. Conclusión:

La distribución muestral de la media muestral es normal.

4. Fórmula:

Es la que aparece en la última columna del caso 2, es decir,

\[Z= \frac{\overline{x} - \mu}{s/\sqrt{n}} \]

El código para escribir la expresión anterior es:
$$ Z= \frac{\overline{x} - \mu}{s/\sqrt{n}}  $$

5. Cálculo del valor de prueba:

mu <- 3.5    #J) Ver valor numérico en las hipótesis
media <- xbarra
desviacion <- s
muestra <- n
ES <- s/sqrt(n)          #K) Error estándar (= desviación estándar del estadístico)
Z <- (xbarra - mu)/ES    #L) Valor de prueba
Z

## [1] 0.9746017

Observe que el error estándar es ES= 0.1146773 y el valor de prueba es 0.9746017.

6. Región crítica

Tenemos una prueba de dos colas.

7. Cálculo del valor crítico:

El valor crítico (o valor cuantil de la distribución normal) $Z_{\alpha/2}$ es:

alfa <- 0.05
Critico <- qnorm(1- (alfa/2))     #M) Valor crítico
Critico

## [1] 1.959964

Es decir, $Z_{\alpha/2}=$ 1.95996.

8. La decisión:

Se observa que el valor de prueba $Z=$ 0.9746 no cae en la región crítica. Es decir, se cumple: \[ -Z_{\alpha/2} \; < \; Z \; < \; Z_{\alpha/2}\]

El código para escribir la expresión anterior es:
$$ -Z_{\alpha/2} \; < \; < Z \; < \; Z_{\alpha/2}$$

En R se verifica así (el símbolo “|” indica el conectivo lógico “o”):

Z< -Critico | Z> Critico     #N) Región crítica

## [1] FALSE

O sea, no se rechaza $H_0: \mu=3.5$.

9. Interpretación:

Con una confianza del 95%, podemos afirmar que el promedio poblacional de las calificaciones del tercer parcial de todos los estudiantes es 3.5.

9.0.6 Solución parte (f)

1. Fórmula del $P$-valor:

Tenemos una prueba de dos colas. Por lo tanto, por la sección 7C, la fórmula que aplicaremos es la que se indica abajo: \[\text{$P$-valor} \;= \; \begin{cases} & \text{para una prueba de una cola a la izquierda}, \\ & \\ & \text{para una prueba de una cola a la derecha}, \\ &\\ 2\,P(X\geq |x|),& \text{para una prueba de dos colas}. \end{cases} \]

2. Cálculo del $P$-valor:

Con $X=Z$ y $x=$ 0.9746 (el valor de prueba), el $P$-valor es: \[P\mbox{-valor} \; = \; 2\,P(Z \;\geq \; |0.9746|) \; = \; 2\,(0.1649)\; = \; 0.3298\]

El código para escribir la expresión anterior es:
$$P\mbox{-valor} \; = \; 2\,P(Z \;\geq \; |0.9746|) \; = \; 2\,(0.1649)\; = \; 0.3298$$

En R, el $P$-valor se calcula así:

2*(1-pnorm(Z))

## [1] 0.3297579

3. Regla de decisión:

Recordemos la regla de decisión (mencionada en el punto 2 de la sección 5.0.1):

Se rechaza $H_0$ cuando $P\mbox{-valor} \leq \alpha$.
No se rechaza $H_0$ cuando $P\mbox{-valor}> \alpha$.

4. La decisión:

Como el $P$-valor es mayor que 0.05, por la regla de decisión (ver sección 7B), no se rechaza $H_0$ al nivel el 5%. Es decir, $\mu=3.5$.

5. Interpretación:

Por consiguiente, con una confianza del 95%, podemos afirmar que el promedio poblacional de las calificaciones del tercer parcial de todos los estudiantes es 3.5.

9.0.7 Solución partes (g) y (h)

En la imagen de abajo se pueden observar los resultados (de las pruebas de hipótesis e intervalos de confianza) encontrados con Geogebra.

En la figura (g) se observan los mismos resultados obtenidos en el inciso (f). En la figura (h) podemos observar que 3.5 se encuentra dentro del intervalo. Por esta razón, podemos concluir que los dos métodos (pruebas de hipótesis e intervalos de confianza) son equivalentes, ya que generan los mismos resultados.

10 Ejemplo 2: Enunciado

Realizar los siguientes ejercicios. Suponga que la población es normal. Interprete todas sus respuestas.

a) Considere el data frame "datos2a35", definido en el ejemplo 1. Dentro de "datos2a35", defina el objeto "Fuma" como la variable que indica si el estudiante es fumador o no.

b) Dentro de "datos2a35": Construya la tabla de frecuencias para esta variable y el diagrama de barras correspondiente (con colores, título principal, título en los ejes, etc.).

c) Dentro de "datos2a35": Defina el data frame "Fumadores" (obtenido al filtrar "datos2a35"), que representa a los estudiantes fumadores. Verifique su tamaño, variables y estructura.

d) Dentro de "Fumadores":  Defina el objeto "P3F" que representa las calificaciones del tercer parcial.
  
e) Dentro de "Fumadores": Halle la media,  la varianza y  la desviación estándar de P3F. 

f) Dentro de "Fumadores": Resuma las tres medidas anteriores en una tabla.

g) Dentro de "datos2a35": Halle la media,  la varianza y  la desviación estándar de las calificaciones del tercer parcial dentro de cada nivel de Fuma. Sugerencia: utilizar las funciones "group_by" y "summarise". Compare con (e).

h) Dentro de "Fumadores" y utilizando el método de la región crítica: Al nivel del 5%,  determine si el promedio poblacional de las calificaciones del tercer parcial es menor que 3.2. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, el valor de prueba, el valor crítico, la región crítica e interprete. 

i) Dentro de "Fumadores" y utilizando el método del P-valor: Determine si el promedio poblacional de las calificaciones del tercer parcial es menor que 4.2. Halle el P-valor e interprete.

i) Dentro de "Fumadores": Realice la misma prueba de hipótesis del inciso (i) con la función t.test y compare los resultados obtenidos.

j) Dentro de "Fumadores": Con Geogebra (https://www.geogebra.org/classic#probability), realice la misma prueba de hipótesis del inciso (i) y compare los resultados obtenidos.

k) Dentro de "Fumadores": Con Geogebra (https://www.geogebra.org/classic#probability), construya un intervalo del 95% de confianza para el promedio poblacional de las calificaciones del tercer parcial (dentro de "Fumadores") y compare los resultados obtenidos en los incisos anteriores.

11 Ejemplo 2: Solución

11.0.1 Solución parte (a)

Como la variable “Fuma” es categórica se debe definir como factor:

Fuma <- as.factor(datos2a35$Fuma)        #A) La variable

Se puede revisar esta variable:

levels(Fuma)
class(Fuma)

11.0.2 Solución parte (b)

La tabla de frecuencias no agrupadas para la variable fumadores es:

Cuentas <- table(Fuma); Cuentas   #B) Tabla de frecuencias

## Fuma
## No Si 
## 14 20

Se observa que en el muestra de 34 observaciones, hay 14 fumadores y 20 no fumadores. El diagrama de barras:

barplot(Cuentas, main="Diagrama de barras", xlab="¿Fuma?", ylab="Frecuencias", legend = rownames(Cuentas), col=c("green","red"),      ylim = c(0, 30))

Se pueden escoger más colores para las barra dando click en este aquí.

11.0.3 Solución parte (c)

Filtramos nuestra base de datos:

Fumadores <- datos2a35 %>%  filter(Fuma=="Si")   #C) La nueva base de datos
n <- nrow(Fumadores); n               #D) Número observaciones (tamaño muestral)

## [1] 20

El número de observaciones y de variables se pueden revisar con:

dim(Fumadores)                        #E) Número observaciones y número de variables

Observamos que tamaño muestral es $n=$ 20. Para revisar estructura y variables del data frame:

str(Fumadores)      #F) Estructura
names(Fumadores)    #G) Variables

11.0.4 Solución parte (d)

Definimos la variable numérica:

P3F <- as.numeric(Fumadores$P3)         #H) La variable P3 en "datos2a35"

Se puede revisar las propiedades de esta variable:

levels(P3F)
class(P3F)

11.0.5 Solución parte (e)

Calculamos la media, varianza y desviación de P3F dentro de “Fumadores”:

xbarra <- mean(P3F)   #I) Media muestral
v <- var(P3F)         #J) Varianza (muestral)
s <- sd(P3F)          #K) Desviación estándar (muestral)

La media, varianza y desviación estándar de P3F son $\overline{x}=$ 3.555, $s^2=$ 0.6120789 y $s=$ 0.7823547, respectivamente.

11.0.6 Solución parte (f)

Las tres medidas se pueden resumir así:

Fumadores %>%  summarise(Media=mean(P3F), Varianza=var(P3F), Desviacion=sd(P3F)) %>% as.data.frame()

##   Media  Varianza Desviacion
## 1 3.555 0.6120789  0.7823547

11.0.7 Solución parte (g)

De manera más general, pueden hallarse estas medidas dentro de cada nivel de Fuma así:

datos2a35 %>%  group_by(Fuma)%>% summarise(Media=mean(as.numeric(P3)), Varianza=var(P3), Desviacion=sd(P3)) %>% as.data.frame()

##   Fuma    Media  Varianza Desviacion
## 1   No 3.692857 0.2284066  0.4779190
## 2   Si 3.555000 0.6120789  0.7823547

11.0.8 Solución parte (h)

1. Datos:

    * Unidades experimentales: Los estudiantes que fuman.
    * Población: Las calificaciones del tercer parcial dentro de los fumadores.
    * Estadístico: la media muestral de las calificaciones dentro de los fumadores.
    * Parámetro: la media poblacional de las calificaciones dentro de los fumadores.
    * Tamaño muestral: n=20.
    * Tamaño poblacional: N es desconocido.
    * Grado de confianza: 95%.
    * Nivel de significancia: 5%.
    * Hipótesis nula y alternativa:

\[H_0: \mu \geq 4.2 \quad \mbox{versus} \quad H_1: \mu < 4.2 \]

El código para escribir la expresión anterior es:
$$H_0: \mu \geq 4.2 \quad \mbox{versus} \quad H_1: \mu < 4.2 $$

    * Tipo de prueba: Prueba de una cola a la izquierda. 
    * Otros datos: media muestral=3.555 y desviación muestral=0.7823547.

2. Verificación de supuestos:

De acuerdo a los datos y a la tabla de supuestos (caso 3), tenemos que:

    * La forma de la población es normal.
    * La varianza poblacional es desconocida.
    * El tamaño muestral es pequeña (n< 30).

3. Conclusión:

La distribución muestral de la media muestral es la t de Student con v=n-1 grados de libertad.

4. Fórmula:

Es la que aparece en la última columna del caso 3, es decir,

\[t= \frac{\overline{x} - \mu}{s/\sqrt{n}} \]

El código para escribir la expresión anterior es:
$$t= \frac{\overline{x} - \mu}{s/\sqrt{n}}  $$

5. Cálculos:

mu <- 4.2      #L) Ver valor numérico en las hipótesis
media <- xbarra
desviacion <- s
muestra <- n
ES <- s/sqrt(n)    #M) Error estándar (= desviación estándar del estadístico)
t <- (xbarra -mu)/ES      #N) Valor de prueba
t

## [1] -3.686982

Observe que el error estándar es ES= 0.1749398 y el valor de prueba es -3.6869818.

6. Región crítica:

Tenemos una prueba de una cola a la izquierda.

7. Cálculo del valor crítico:

El valor crítico (o valor cuantil de la distribución $t$ de Student) $t_{\alpha}$ es:

alfa <- 0.05
glib <- n-1        # M) Grados de libertad
Critico <- qt(1-(alfa), glib)   #N) Valor crítico
Critico

## [1] 1.729133

Es decir, $t_{\alpha}=$ 1.72913.

8. La decisión:

Se observa que el valor de prueba $t=$-3.68698 está en la región crítica. Es decir, se cumple: \[ t\; < \; -t_{\alpha} \]

El código para escribir la expresión anterior es:
$$ t\; < \; -t_{\alpha} $$

En R se verifica así:

t < -Critico    #O) Región crítica

## [1] TRUE

O sea, se rechaza $H_0: \mu \geq 4.2$. Es decir, $\mu < 4.2$.

9. Interpretación:

Cuando los estudiantes fuman, con una confianza del 95%, podemos afirmar que el promedio poblacional de las calificaciones del tercer parcial de todos los estudiantes es menor que 4.2.

11.0.9 Solución parte (i)

1. Fórmula del $P$-valor:

Tenemos una prueba de una cola a la izquierda. Por lo tanto, por la sección 7C, la fórmula que se aplicará es la que se indica abajo:

\[\text{$P$-valor} \;= \; \begin{cases} P(X\leq x), & \text{para una prueba de una cola a la izquierda}, \\ & \\ & \text{para una prueba de una cola a la derecha}, \\ &\\ & \text{para una prueba de dos colas}. \end{cases} \]

2. Cálculo del $P$-valor:

Con $X=t$ y $x=$ -3.68698 (el valor de prueba), el $P$-valor es: \[P\mbox{-valor} \; = \; P(t \;\leq \; -3.68698) \; = \; 0.0008\]

El código para escribir la expresión anterior es:
$$P\mbox{-valor} \; = \; P(t \;\leq \; -3.68698) \; = \; 0.0008$$

En R, el $P$-valor se calcula así:

pt(t, glib)

## [1] 0.000782757

3. Regla de decisión:

Recordemos la regla de decisión (mencionada en el punto 2 de la sección 5.0.1):

Se rechaza $H_0$ cuando $P\mbox{-valor} \leq \alpha$.
No se rechaza $H_0$ cuando $P\mbox{-valor}> \alpha$.

4. La decisión:

Como el $P$-valor es menor que 0.05, por la regla de decisión (ver sección 7B), se rechaza $H_0$ al nivel el 5%. Es decir, $\mu < 4.2$.

5. Interpretación:

Cuando los estudiantes fuman, con una confianza del 95%, podemos afirmar que el promedio poblacional de las calificaciones del tercer parcial de todos los estudiantes es menor que 4.2.

11.0.10 Solución partes (j) y (k)

En la imagen de abajo se pueden observar los resultados (de las pruebas de hipótesis e intervalos de confianza) encontrados con Geogebra.

En la figura (j) se observan los mismos resultados obtenidos en el inciso (i). En la figura (k) podemos valores de $\mu$ mayores o iguales que 4.2 no se encuentran dentro del intervalo. O sea, debe cumplirse que $\mu$ debe ser menor que 4.2. Por esta razón, podemos concluir que los dos métodos (pruebas de hipótesis e intervalos de confianza) generan los mismo resultados.

12 Ejercicios

Crear un nuevo documento R Markdown, realizando los ejercicios que se indican abajo.

Repetir el ejemplo 1, utilizando un nivel de significancia del
1. 10%
2. 1%
Compare los resultados hallados.
Repetir el ejemplo 2, utilizando como referencia el grupo de los no fumadores y un grado de confianza del
1. 10%
2. 1%
Compare los resultados hallados.
Compare los ejercicios:
1. 1a y 2a
2. 1b y 2b
Repetir el ejemplo 2, utilizando como referencia el grupo de los hombres y un grado de confianza del
1. 10%
2. 1%
Compare los resultados hallados.
Compare los ejercicios:
1. 1a y 4a
2. 1b y 4b
Repetir el ejemplo 3, utilizando como referencia el grupo de las mujeres y un grado de confianza del
1. 10%
2. 1%
Compare los resultados hallados.
Compare los ejercicios:
1. 1a y 6a
2. 1b y 6b
Realizar los siguientes ejercicios. Suponga que la población es normal. Interprete todas sus respuestas.
1. Considere solamente las observaciones que van desde la 1 hasta la 35. Con estas observaciones, defina el data frame “datos1a35”. Verifique su tamaño, variables y estructura.
2. Dentro de “datos1a35”: Defina el objeto “P3” como la variable que representa las calificaciones del tercer parcial.
3. Dentro de “datos1a35”: Halle la media, varianza y desviación estándar de P3.
4. Dentro de “datos1a35”: Resuma las tres medidas anteriores en una tabla.
5. Dentro de “datos1a35” y utilizando el método de la región crítica: Al nivel del 5%, determine si el promedio poblacional de las calificaciones del tercer parcial es mayor que 4.0. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fómula, el valor de prueba, el valor crítico, la región crítica e interprete.
6. Dentro de “datos1a35” y utilizando el método del P-valor: Determine si el promedio poblacional de las calificaciones del tercer parcial es es mayor que 4.0. Halle el P-valor e interprete.
7. Dentro de “datos1a35”: Con Geogebra (https://www.geogebra.org/classic#probability), realice la misma prueba de hipótesis del inciso (f) y compare los resultados obtenidos.
8. Dentro de “datos1a35”: Con Geogebra, construya un intervalo del 90% de confianza para el promedio poblacional de las calificaciones del tercer parcial (dentro de “datos1a35”) y compare los resultados obtenidos en los incisos anteriores.
Realizar los siguientes ejercicios. Suponga que la población es normal. Interprete todas sus respuestas.
1. Considere el data frame “datos1a35”, definido en el ejemplo 1. Dentro de “datos1a35”, defina el objeto “Colegio” como la variable que indica el tipo de colegio de procedencia de los estudiantes.
2. Dentro de “datos1a35”: Construya la tabla de frecuencias para esta variable y el diagrama de barras correspondiente (con colores, título principal, título en los ejes, etc.).
3. Dentro de “datos1a35”: Defina el data frame “Privado” (obtenido al filtrar “datos1a35”), representa a los estudiantes que vienen de colegio privado. Verifique su tamaño, variables y estructura.
4. Dentro de “Privado”: Defina el objeto “P3pr” que representa las calificaciones del tercer parcial.
5. Dentro de “Privado”: Halle la media, la varianza y la desviación estándar de P3pr.
6. Dentro de “Privado”: Resuma las tres medidas anteriores en una tabla.
7. Dentro de “datos1a35”: Halle la media, la varianza y la desviación estándar de las calificaciones del tercer parcial dentro de cada nivel de “Privado”. Sugerencia: utilizar las funciones “group_by” y “summarise”. Compare con (e).
8. Dentro de “Privado” y utilizando el método de la región crítica: Al nivel del 5%, determine si el promedio poblacional de las calificaciones del tercer parcial es menor que 2.0. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, el valor de prueba, el valor crítico, la región crítica e interprete.
9. Dentro de “Privado” y utilizando el método del P-valor: Determine si el promedio poblacional de las calificaciones del tercer parcial es menor que 2.0. Halle el P-valor e interprete.
10. Dentro de “Privado”: Realice la misma prueba de hipótesis del inciso (i) con la función t.test y compare los resultados obtenidos.
11. Dentro de “Privado”: Con Geogebra (https://www.geogebra.org/classic#probability), realice la misma prueba de hipótesis del inciso (i) y compare los resultados obtenidos.
12. Dentro de “Privado”: Con Geogebra (https://www.geogebra.org/classic#probability), construya un intervalo del 90% de confianza para el promedio poblacional de las calificaciones del tercer parcial (dentro de “privado”) y compare los resultados obtenidos en los incisos anteriores.
Realizar los siguientes ejercicios. Suponga que la población es normal. Interprete todas sus respuestas.
1. Considere el data frame “datos1a35”, definido en el ejemplo 1. Dentro de “datos1a35”, defina el objeto “Colegio” como la variable que indica el tipo de colegio de procedencia de los estudiantes.
2. Dentro de “datos1a35”: Construya la tabla de frecuencias para esta variable y el diagrama de barras correspondiente (con colores, título principal, título en los ejes, etc.).
3. Dentro de “datos1a35”: Defina el data frame “Publico” (obtenido al filtrar “datos1a35”), que representa a los estudiantes que vienen de colegio privado. Verifique su tamaño, variables y estructura.
4. Dentro de “Publico”: Defina el objeto “P3pr” que representa las calificaciones del tercer parcial.
5. Dentro de “Publico”: Halle la media, la varianza y la desviación estándar de P3pr.
6. Dentro de “Publico”: Resuma las tres medidas anteriores en una tabla.
7. Dentro de “datos1a35”: Halle la media, la varianza y la desviación estándar de las calificaciones del tercer parcial dentro de cada nivel de “Privado”. Sugerencia: utilizar las funciones “group_by” y “summarise”. Compare con (e).
8. Dentro de “Publico” y utilizando el método de la región crítica: Al nivel del 5%, determine si el promedio poblacional de las calificaciones del tercer parcial es menor que 2.0. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, el valor de prueba, el valor crítico, la región crítica e interprete.
9. Dentro de “Publico” y utilizando el método del P-valor: Determine si el promedio poblacional de las calificaciones del tercer parcial es menor que 2.0. Halle el P-valor e interprete.
10. Dentro de “Publico”: Realice la misma prueba de hipótesis del inciso (i) con la función t.test y compare los resultados obtenidos.
11. Dentro de “Publico”: Con Geogebra (https://www.geogebra.org/classic#probability), realice la misma prueba de hipótesis del inciso (i) y compare los resultados obtenidos.
12. Dentro de “Publico”: Con Geogebra (https://www.geogebra.org/classic#probability), construya un intervalo del 90% de confianza para el promedio poblacional de las calificaciones del tercer parcial (dentro de “privado”) y compare los resultados obtenidos en los incisos anteriores.

13 Enlaces y materiales de ayuda

LLinás, H., Estadística inferencial. Barranquilla: Editorial Universidad del Norte, 2006.
Geogebra: https://www.geogebra.org

Pruebas de hipótesis (en R)

Media poblacional

Dr. rer. nat. Humberto LLinás Solano

1 Paquetes

2 Nuestro data frame

3 Hipótesis estadísticas

4 Errores de tipo I y de tipo II

5 Tabla de supuestos

6 Región crítica

7 P-valor (o valor P)

8 Ejemplo 1: Enunciado

9 Ejemplo 1: Solución

9.0.1 Solución parte (a)

9.0.2 Solución parte (b)

9.0.3 Solución parte (c)

9.0.4 Solución parte (d)

9.0.5 Solución parte (e)

9.0.6 Solución parte (f)

9.0.7 Solución partes (g) y (h)

10 Ejemplo 2: Enunciado

11 Ejemplo 2: Solución

11.0.1 Solución parte (a)

11.0.2 Solución parte (b)

11.0.3 Solución parte (c)

11.0.4 Solución parte (d)

11.0.5 Solución parte (e)

11.0.6 Solución parte (f)

11.0.7 Solución parte (g)

11.0.8 Solución parte (h)

11.0.9 Solución parte (i)

11.0.10 Solución partes (j) y (k)

12 Ejercicios

13 Enlaces y materiales de ayuda