22/07/25
Abstract
La teoría mencionada puede revisarse en el capítulo 2 de mis notas de clase que aparecen en el siguiente documento: 1.1. Estadística básica. En Rpubs:: toc se pueden ver otros documentos de posible interés.
Este manual fue generado por R Markdown. La teoría mencionada puede revisarse en el capítulo 3 de mis notas de clase que aparecen en el siguiente documento: 1.2. Estadística inferencial. Al final de esta guía, usted encontrará una serie de: (a) ejercicios, y (b) enlaces y materiales relacionados con la temática que se explica aquí. Usted encontrará otros documentos de posible interés en el siguiente enlace: https://rpubs.com/hllinas/toc.
library(dplyr) #A) Para filtrar data frames
Los siguientes datos representan los resultados obtenidos al realizar una encuesta a 400 estudiantes universitarios. En este documento, se importará la base de datos desde una dirección web (dos opciones):
Opción A (web, desde github): Para esta opción, se necesita cargar la librería “repmis”:
library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?raw=false")
datosCompleto <- Estudiantes
Opción B (web, desde Google Drive):
url.dat<- "http://bit.ly/Database-Estudiantes"
datosCompleto <- read.delim(url.dat)
Recuérdense las otras opciones, si tienen las bases de datos descargadas en su sesión de trabajo (ya sea en extensiones en Rdata, en excel o en otros formatos). Para más detalles, véase el documento R básico. A manera de ejemplo:
Opción C (local, con archivo en Rdata):
load(file="Estudiantes.Rdata")
datosCompleto <- Estudiantes
Opción D (local, con archivo en excel):
datosCompleto <- read.delim('clipboard')
El objetivo es realizar los ejercicios que se indican en las secciones de abajo.
Hipótesis estadística: Afirmación sobre uno o más parámetros de una o más poblaciones.
Hipótesis nula y alternativa
Tipos de pruebas de hipótesis. Si \(\theta\) es el parámetro de interés:
Comentarios:
Como se indica en el cuadro 3.1, hay dos tipos de errores: I y II.
El objetivo es realizar los ejercicios que se indican en las siguientes secciones, teniendo en cuenta la tabla de supuestos que se muestra abajo.
A). Es la región donde se rechaza \(H_0\). Para determinarla, se debe tener en cuenta la tabla de supuestos relacionada con la distribución muestral de una media (cuadro A.1).
B). Las distribuciones a utilizar serán la normal o la t de Student con n-1 grados de libertad.
C). Los tres tipos de pruebas se muestran en el cuadro 3.2:
D). La región crítica es la región sombreada que aparece en la figura 3.1.
E). A los valores a, b, c y d que aparecen en la figura 3.1 o en el cuadro 3.2 se les llamará valores críticos.
A). Definición:
El \(P\)-valor es el mínimo nivel de significancia bajo la cual \(H_0\) es rechazada.
B). Regla de decisión (al nivel \(\alpha\)):
Se rechaza \(H_0\) cuando \(P\mbox{-valor} \; \leq \; \alpha\).
No se rechaza \(H_0\) cuando \(P\mbox{-valor} \; > \; \alpha\).
C). Fórmula para hallarlo:
El \(P\)-valor se calcula de la siguiente manera:
\[\text{$P$-valor} \;= \; \begin{cases} P(X\leq x), & \text{para una prueba de una cola a la izquierda}, \\ & \\ P(X\geq x), & \text{para una prueba de una cola a la derecha}, \\ &\\ 2\,P(X\geq |x|),& \text{para una prueba de dos colas}. \end{cases} \]
Aquí: \(X\) representa los estadísticos \(Z\) o \(t\) y \(x\) es el llamado valor de prueba, el cual es un posible valor de \(X\).
El código para escribir la expresión anterior es:
$$\text{$P$-valor} \;= \;
\begin{cases}
P(X\leq x), & \text{para una prueba de una cola a la izquierda}, \\
& \\
P(X\geq x), & \text{para una prueba de una cola a la derecha}, \\
&\\
2\,P(X\geq |x|),& \text{para una prueba de dos colas}.
\end{cases} $$
Realizar los siguientes ejercicios. Suponga que la población es normal. Interprete todas sus respuestas.
a) Considere solamente las observaciones que van desde la 2 hasta la 35. Con estas observaciones, defina el data frame "datos2a35". Verifique su tamaño, variables y estructura.
b) Dentro de "datos2a35": Defina el objeto "P3" como las calificaciones del tercer parcial.
c) Dentro de "datos2a35": Halle la media, varianza y desviación estándar de P3.
d) Dentro de "datos2a35": Resuma las tres medidas anteriores en una tabla.
e) Dentro de "datos2a35" y utilizando el método de la región crítica: Al nivel del 5%, determine si el promedio poblacional de las calificaciones del tercer parcial es igual a 3.5. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fómula, el valor de prueba, el valor crítico, la región crítica e interprete.
f) Dentro de "datos2a35" y utilizando el método del P-valor: Determine si el promedio poblacional de las calificaciones del tercer parcial es igual a 3.5. Halle el P-valor, interprete y compare su decisión con el inciso (e).
g) Dentro de "datos2a35": Con Geogebra (https://www.geogebra.org/classic#probability), realice la misma prueba de hipótesis del inciso (f) y compare los resultados obtenidos.
h) Dentro de "datos2a35": Con Geogebra, construya un intervalo del 95% de confianza para el promedio poblacional de las calificaciones del tercer parcial (dentro de "datos2a35") y compare los resultados obtenidos en los incisos anteriores.
Filtramos y definimos como “datos2a35” al data frame con las observaciones del 2 al 35:
datos2a35 <- datosCompleto[2:35,] #A) La nueva base de datos
n <- nrow(datos2a35); n #B) Número observaciones (tamaño muestral)
## [1] 34
El número de observaciones y de variables se pueden revisar con:
dim(datos2a35) #C) Número observaciones y número de variables
Observamos que tamaño muestral es \(n=\) 34. Para revisar estructura y variables del data frame:
str(datos2a35) #D) Estructura
names(datos2a35) #E) Variables
Definimos la variable numérica:
P3 <- as.numeric(datos2a35$P3) #F) La variable P3 en "datos2a35"
Calculamos la media, varianza y desviación de las calificaciones del tercer parcial (P3):
xbarra <- mean(P3) #G) Media muestral
v <- var(P3) #H) Varianza (muestral)
s <- sd(P3) #I) Desviación estándar (muestral)
La media, varianza y desviación estándar de P3 son \(\overline{x}=\) 3.6117647, \(s^2=\) 0.4471301 y \(s=\) 0.6686779, respectivamente.
Estas tres medidas se pueden resumir así:
datos2a35 %>% summarise(Media=mean(as.numeric(P3)), Varianza=var(P3), Desviacion=sd(P3)) %>% as.data.frame()
## Media Varianza Desviacion
## 1 3.611765 0.4471301 0.6686779
1. Datos:
* Unidades experimentales: Los estudiantes.
* Población: Las calificaciones del tercer parcial.
* Estadístico: la media muestral de las calificaciones del tercer parcial.
* Parámetro: la media poblacional de las calificaciones del tercer parcial.
* Tamaño muestral: n=34.
* Tamaño poblacional: N es desconocido.
* Grado de confianza: 95%.
* Nivel de significancia: 5%.
* Hipótesis nula y alternativa:
\[H_0: \mu = 3.5 \quad \mbox{versus} \quad H_1: \mu \ne 3.5 \]
El código para escribir la expresión anterior es:
$$H_0: \mu = 3.5 \quad \mbox{versus} \quad H_1: \mu \ne 3.5 $$
* Tipo de prueba: Prueba de bilateral o de dos colas.
* Otros datos: media muestral=3.6117647 y desviación muestral=0.6686779.
2. Verificación de supuestos:
De acuerdo a los datos y a la tabla de supuestos (caso 2), tenemos que:
* La forma de la población es normal.
* La varianza poblacional es desconocida.
* El tamaño muestral es grande (n> 30).
3. Conclusión:
La distribución muestral de la media muestral es normal.
4. Fórmula:
Es la que aparece en la última columna del caso 2, es decir,
\[Z= \frac{\overline{x} - \mu}{s/\sqrt{n}} \]
El código para escribir la expresión anterior es:
$$ Z= \frac{\overline{x} - \mu}{s/\sqrt{n}} $$
5. Cálculo del valor de prueba:
mu <- 3.5 #J) Ver valor numérico en las hipótesis
media <- xbarra
desviacion <- s
muestra <- n
ES <- s/sqrt(n) #K) Error estándar (= desviación estándar del estadístico)
Z <- (xbarra - mu)/ES #L) Valor de prueba
Z
## [1] 0.9746017
Observe que el error estándar es ES= 0.1146773 y el valor de prueba es 0.9746017.
6. Región crítica
Tenemos una prueba de dos colas.
7. Cálculo del valor crítico:
El valor crítico (o valor cuantil de la distribución normal) \(Z_{\alpha/2}\) es:
alfa <- 0.05
Critico <- qnorm(1- (alfa/2)) #M) Valor crítico
Critico
## [1] 1.959964
Es decir, \(Z_{\alpha/2}=\) 1.95996.
8. La decisión:
Se observa que el valor de prueba \(Z=\) 0.9746 no cae en la región crítica. Es decir, se cumple: \[ -Z_{\alpha/2} \; < \; Z \; < \; Z_{\alpha/2}\]
El código para escribir la expresión anterior es:
$$ -Z_{\alpha/2} \; < \; < Z \; < \; Z_{\alpha/2}$$
En R se verifica así (el símbolo “|” indica el conectivo lógico “o”):
Z< -Critico | Z> Critico #N) Región crítica
## [1] FALSE
O sea, no se rechaza \(H_0: \mu=3.5\).
9. Interpretación:
Con una confianza del 95%, podemos afirmar que el promedio poblacional de las calificaciones del tercer parcial de todos los estudiantes es 3.5.
1. Fórmula del \(P\)-valor:
Tenemos una prueba de dos colas. Por lo tanto, por la sección 7C, la fórmula que aplicaremos es la que se indica abajo: \[\text{$P$-valor} \;= \; \begin{cases} & \text{para una prueba de una cola a la izquierda}, \\ & \\ & \text{para una prueba de una cola a la derecha}, \\ &\\ 2\,P(X\geq |x|),& \text{para una prueba de dos colas}. \end{cases} \]
2. Cálculo del \(P\)-valor:
Con \(X=Z\) y \(x=\) 0.9746 (el valor de prueba), el \(P\)-valor es: \[P\mbox{-valor} \; = \; 2\,P(Z \;\geq \; |0.9746|) \; = \; 2\,(0.1649)\; = \; 0.3298\]
El código para escribir la expresión anterior es:
$$P\mbox{-valor} \; = \; 2\,P(Z \;\geq \; |0.9746|) \; = \; 2\,(0.1649)\; = \; 0.3298$$
En R, el \(P\)-valor se calcula así:
2*(1-pnorm(Z))
## [1] 0.3297579
3. Regla de decisión:
Recordemos la regla de decisión (mencionada en el punto 2 de la sección 5.0.1):
Se rechaza \(H_0\) cuando \(P\mbox{-valor} \leq \alpha\).
No se rechaza \(H_0\) cuando \(P\mbox{-valor}> \alpha\).
4. La decisión:
Como el \(P\)-valor es mayor que 0.05, por la regla de decisión (ver sección 7B), no se rechaza \(H_0\) al nivel el 5%. Es decir, \(\mu=3.5\).
5. Interpretación:
Por consiguiente, con una confianza del 95%, podemos afirmar que el promedio poblacional de las calificaciones del tercer parcial de todos los estudiantes es 3.5.
En la imagen de abajo se pueden observar los resultados (de las pruebas de hipótesis e intervalos de confianza) encontrados con Geogebra.
En la figura (g) se observan los mismos resultados obtenidos en el inciso (f). En la figura (h) podemos observar que 3.5 se encuentra dentro del intervalo. Por esta razón, podemos concluir que los dos métodos (pruebas de hipótesis e intervalos de confianza) son equivalentes, ya que generan los mismos resultados.
Realizar los siguientes ejercicios. Suponga que la población es normal. Interprete todas sus respuestas.
a) Considere el data frame "datos2a35", definido en el ejemplo 1. Dentro de "datos2a35", defina el objeto "Fuma" como la variable que indica si el estudiante es fumador o no.
b) Dentro de "datos2a35": Construya la tabla de frecuencias para esta variable y el diagrama de barras correspondiente (con colores, título principal, título en los ejes, etc.).
c) Dentro de "datos2a35": Defina el data frame "Fumadores" (obtenido al filtrar "datos2a35"), que representa a los estudiantes fumadores. Verifique su tamaño, variables y estructura.
d) Dentro de "Fumadores": Defina el objeto "P3F" que representa las calificaciones del tercer parcial.
e) Dentro de "Fumadores": Halle la media, la varianza y la desviación estándar de P3F.
f) Dentro de "Fumadores": Resuma las tres medidas anteriores en una tabla.
g) Dentro de "datos2a35": Halle la media, la varianza y la desviación estándar de las calificaciones del tercer parcial dentro de cada nivel de Fuma. Sugerencia: utilizar las funciones "group_by" y "summarise". Compare con (e).
h) Dentro de "Fumadores" y utilizando el método de la región crítica: Al nivel del 5%, determine si el promedio poblacional de las calificaciones del tercer parcial es menor que 3.2. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, el valor de prueba, el valor crítico, la región crítica e interprete.
i) Dentro de "Fumadores" y utilizando el método del P-valor: Determine si el promedio poblacional de las calificaciones del tercer parcial es menor que 4.2. Halle el P-valor e interprete.
i) Dentro de "Fumadores": Realice la misma prueba de hipótesis del inciso (i) con la función t.test y compare los resultados obtenidos.
j) Dentro de "Fumadores": Con Geogebra (https://www.geogebra.org/classic#probability), realice la misma prueba de hipótesis del inciso (i) y compare los resultados obtenidos.
k) Dentro de "Fumadores": Con Geogebra (https://www.geogebra.org/classic#probability), construya un intervalo del 95% de confianza para el promedio poblacional de las calificaciones del tercer parcial (dentro de "Fumadores") y compare los resultados obtenidos en los incisos anteriores.
Como la variable “Fuma” es categórica se debe definir como factor:
Fuma <- as.factor(datos2a35$Fuma) #A) La variable
Se puede revisar esta variable:
levels(Fuma)
class(Fuma)
La tabla de frecuencias no agrupadas para la variable fumadores es:
Cuentas <- table(Fuma); Cuentas #B) Tabla de frecuencias
## Fuma
## No Si
## 14 20
Se observa que en el muestra de 34 observaciones, hay 14 fumadores y 20 no fumadores. El diagrama de barras:
barplot(Cuentas, main="Diagrama de barras", xlab="¿Fuma?", ylab="Frecuencias", legend = rownames(Cuentas), col=c("green","red"), ylim = c(0, 30))
Se pueden escoger más colores para las barra dando click en este aquí.
Filtramos nuestra base de datos:
Fumadores <- datos2a35 %>% filter(Fuma=="Si") #C) La nueva base de datos
n <- nrow(Fumadores); n #D) Número observaciones (tamaño muestral)
## [1] 20
El número de observaciones y de variables se pueden revisar con:
dim(Fumadores) #E) Número observaciones y número de variables
Observamos que tamaño muestral es \(n=\) 20. Para revisar estructura y variables del data frame:
str(Fumadores) #F) Estructura
names(Fumadores) #G) Variables
Definimos la variable numérica:
P3F <- as.numeric(Fumadores$P3) #H) La variable P3 en "datos2a35"
Se puede revisar las propiedades de esta variable:
levels(P3F)
class(P3F)
Calculamos la media, varianza y desviación de P3F dentro de “Fumadores”:
xbarra <- mean(P3F) #I) Media muestral
v <- var(P3F) #J) Varianza (muestral)
s <- sd(P3F) #K) Desviación estándar (muestral)
La media, varianza y desviación estándar de P3F son \(\overline{x}=\) 3.555, \(s^2=\) 0.6120789 y \(s=\) 0.7823547, respectivamente.
Las tres medidas se pueden resumir así:
Fumadores %>% summarise(Media=mean(P3F), Varianza=var(P3F), Desviacion=sd(P3F)) %>% as.data.frame()
## Media Varianza Desviacion
## 1 3.555 0.6120789 0.7823547
De manera más general, pueden hallarse estas medidas dentro de cada nivel de Fuma así:
datos2a35 %>% group_by(Fuma)%>% summarise(Media=mean(as.numeric(P3)), Varianza=var(P3), Desviacion=sd(P3)) %>% as.data.frame()
## Fuma Media Varianza Desviacion
## 1 No 3.692857 0.2284066 0.4779190
## 2 Si 3.555000 0.6120789 0.7823547
1. Datos:
* Unidades experimentales: Los estudiantes que fuman.
* Población: Las calificaciones del tercer parcial dentro de los fumadores.
* Estadístico: la media muestral de las calificaciones dentro de los fumadores.
* Parámetro: la media poblacional de las calificaciones dentro de los fumadores.
* Tamaño muestral: n=20.
* Tamaño poblacional: N es desconocido.
* Grado de confianza: 95%.
* Nivel de significancia: 5%.
* Hipótesis nula y alternativa:
\[H_0: \mu \geq 4.2 \quad \mbox{versus} \quad H_1: \mu < 4.2 \]
El código para escribir la expresión anterior es:
$$H_0: \mu \geq 4.2 \quad \mbox{versus} \quad H_1: \mu < 4.2 $$
* Tipo de prueba: Prueba de una cola a la izquierda.
* Otros datos: media muestral=3.555 y desviación muestral=0.7823547.
2. Verificación de supuestos:
De acuerdo a los datos y a la tabla de supuestos (caso 3), tenemos que:
* La forma de la población es normal.
* La varianza poblacional es desconocida.
* El tamaño muestral es pequeña (n< 30).
3. Conclusión:
La distribución muestral de la media muestral es la t de Student con v=n-1 grados de libertad.
4. Fórmula:
Es la que aparece en la última columna del caso 3, es decir,
\[t= \frac{\overline{x} - \mu}{s/\sqrt{n}} \]
El código para escribir la expresión anterior es:
$$t= \frac{\overline{x} - \mu}{s/\sqrt{n}} $$
5. Cálculos:
mu <- 4.2 #L) Ver valor numérico en las hipótesis
media <- xbarra
desviacion <- s
muestra <- n
ES <- s/sqrt(n) #M) Error estándar (= desviación estándar del estadístico)
t <- (xbarra -mu)/ES #N) Valor de prueba
t
## [1] -3.686982
Observe que el error estándar es ES= 0.1749398 y el valor de prueba es -3.6869818.
6. Región crítica:
Tenemos una prueba de una cola a la izquierda.7. Cálculo del valor crítico:
El valor crítico (o valor cuantil de la distribución \(t\) de Student) \(t_{\alpha}\) es:
alfa <- 0.05
glib <- n-1 # M) Grados de libertad
Critico <- qt(1-(alfa), glib) #N) Valor crítico
Critico
## [1] 1.729133
Es decir, \(t_{\alpha}=\) 1.72913.
8. La decisión:
Se observa que el valor de prueba \(t=\)-3.68698 está en la región crítica. Es decir, se cumple: \[ t\; < \; -t_{\alpha} \]
El código para escribir la expresión anterior es:
$$ t\; < \; -t_{\alpha} $$
En R se verifica así:
t < -Critico #O) Región crítica
## [1] TRUE
O sea, se rechaza \(H_0: \mu \geq 4.2\). Es decir, \(\mu < 4.2\).
9. Interpretación:
Cuando los estudiantes fuman, con una confianza del 95%, podemos afirmar que el promedio poblacional de las calificaciones del tercer parcial de todos los estudiantes es menor que 4.2.
1. Fórmula del \(P\)-valor:
Tenemos una prueba de una cola a la izquierda. Por lo tanto, por la sección 7C, la fórmula que se aplicará es la que se indica abajo:
\[\text{$P$-valor} \;= \; \begin{cases} P(X\leq x), & \text{para una prueba de una cola a la izquierda}, \\ & \\ & \text{para una prueba de una cola a la derecha}, \\ &\\ & \text{para una prueba de dos colas}. \end{cases} \]
2. Cálculo del \(P\)-valor:
Con \(X=t\) y \(x=\) -3.68698 (el valor de prueba), el \(P\)-valor es: \[P\mbox{-valor} \; = \; P(t \;\leq \; -3.68698) \; = \; 0.0008\]
El código para escribir la expresión anterior es:
$$P\mbox{-valor} \; = \; P(t \;\leq \; -3.68698) \; = \; 0.0008$$
En R, el \(P\)-valor se calcula así:
pt(t, glib)
## [1] 0.000782757
3. Regla de decisión:
Recordemos la regla de decisión (mencionada en el punto 2 de la sección 5.0.1):
Se rechaza \(H_0\) cuando \(P\mbox{-valor} \leq \alpha\).
No se rechaza \(H_0\) cuando \(P\mbox{-valor}> \alpha\).
4. La decisión:
Como el \(P\)-valor es menor que 0.05, por la regla de decisión (ver sección 7B), se rechaza \(H_0\) al nivel el 5%. Es decir, \(\mu < 4.2\).
5. Interpretación:
Cuando los estudiantes fuman, con una confianza del 95%, podemos afirmar que el promedio poblacional de las calificaciones del tercer parcial de todos los estudiantes es menor que 4.2.
En la imagen de abajo se pueden observar los resultados (de las pruebas de hipótesis e intervalos de confianza) encontrados con Geogebra.
En la figura (j) se observan los mismos resultados obtenidos en el inciso (i). En la figura (k) podemos valores de \(\mu\) mayores o iguales que 4.2 no se encuentran dentro del intervalo. O sea, debe cumplirse que \(\mu\) debe ser menor que 4.2. Por esta razón, podemos concluir que los dos métodos (pruebas de hipótesis e intervalos de confianza) generan los mismo resultados.
Crear un nuevo documento R Markdown, realizando los ejercicios que se indican abajo.
Repetir el ejemplo 1, utilizando un nivel de significancia del
10%
1%
Compare los resultados hallados.
Repetir el ejemplo 2, utilizando como referencia el grupo de los no fumadores y un grado de confianza del
10%
1%
Compare los resultados hallados.
Compare los ejercicios:
Repetir el ejemplo 2, utilizando como referencia el grupo de los hombres y un grado de confianza del
10%
1%
Compare los resultados hallados.
Compare los ejercicios:
Repetir el ejemplo 3, utilizando como referencia el grupo de las mujeres y un grado de confianza del
10%
1%
Compare los resultados hallados.
Compare los ejercicios:
Realizar los siguientes ejercicios. Suponga que la población es normal. Interprete todas sus respuestas.
Considere solamente las observaciones que van desde la 1 hasta la 35. Con estas observaciones, defina el data frame “datos1a35”. Verifique su tamaño, variables y estructura.
Dentro de “datos1a35”: Defina el objeto “P3” como la variable que representa las calificaciones del tercer parcial.
Dentro de “datos1a35”: Halle la media, varianza y desviación estándar de P3.
Dentro de “datos1a35”: Resuma las tres medidas anteriores en una tabla.
Dentro de “datos1a35” y utilizando el método de la región crítica: Al nivel del 5%, determine si el promedio poblacional de las calificaciones del tercer parcial es mayor que 4.0. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fómula, el valor de prueba, el valor crítico, la región crítica e interprete.
Dentro de “datos1a35” y utilizando el método del P-valor: Determine si el promedio poblacional de las calificaciones del tercer parcial es es mayor que 4.0. Halle el P-valor e interprete.
Dentro de “datos1a35”: Con Geogebra (https://www.geogebra.org/classic#probability), realice la misma prueba de hipótesis del inciso (f) y compare los resultados obtenidos.
Dentro de “datos1a35”: Con Geogebra, construya un intervalo del 90% de confianza para el promedio poblacional de las calificaciones del tercer parcial (dentro de “datos1a35”) y compare los resultados obtenidos en los incisos anteriores.
Realizar los siguientes ejercicios. Suponga que la población es normal. Interprete todas sus respuestas.
Considere el data frame “datos1a35”, definido en el ejemplo 1. Dentro de “datos1a35”, defina el objeto “Colegio” como la variable que indica el tipo de colegio de procedencia de los estudiantes.
Dentro de “datos1a35”: Construya la tabla de frecuencias para esta variable y el diagrama de barras correspondiente (con colores, título principal, título en los ejes, etc.).
Dentro de “datos1a35”: Defina el data frame “Privado” (obtenido al filtrar “datos1a35”), representa a los estudiantes que vienen de colegio privado. Verifique su tamaño, variables y estructura.
Dentro de “Privado”: Defina el objeto “P3pr” que representa las calificaciones del tercer parcial.
Dentro de “Privado”: Halle la media, la varianza y la desviación estándar de P3pr.
Dentro de “Privado”: Resuma las tres medidas anteriores en una tabla.
Dentro de “datos1a35”: Halle la media, la varianza y la desviación estándar de las calificaciones del tercer parcial dentro de cada nivel de “Privado”. Sugerencia: utilizar las funciones “group_by” y “summarise”. Compare con (e).
Dentro de “Privado” y utilizando el método de la región crítica: Al nivel del 5%, determine si el promedio poblacional de las calificaciones del tercer parcial es menor que 2.0. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, el valor de prueba, el valor crítico, la región crítica e interprete.
Dentro de “Privado” y utilizando el método del P-valor: Determine si el promedio poblacional de las calificaciones del tercer parcial es menor que 2.0. Halle el P-valor e interprete.
Dentro de “Privado”: Realice la misma prueba de hipótesis del inciso (i) con la función t.test y compare los resultados obtenidos.
Dentro de “Privado”: Con Geogebra (https://www.geogebra.org/classic#probability), realice la misma prueba de hipótesis del inciso (i) y compare los resultados obtenidos.
Dentro de “Privado”: Con Geogebra (https://www.geogebra.org/classic#probability), construya un intervalo del 90% de confianza para el promedio poblacional de las calificaciones del tercer parcial (dentro de “privado”) y compare los resultados obtenidos en los incisos anteriores.
Realizar los siguientes ejercicios. Suponga que la población es normal. Interprete todas sus respuestas.
Considere el data frame “datos1a35”, definido en el ejemplo 1. Dentro de “datos1a35”, defina el objeto “Colegio” como la variable que indica el tipo de colegio de procedencia de los estudiantes.
Dentro de “datos1a35”: Construya la tabla de frecuencias para esta variable y el diagrama de barras correspondiente (con colores, título principal, título en los ejes, etc.).
Dentro de “datos1a35”: Defina el data frame “Publico” (obtenido al filtrar “datos1a35”), que representa a los estudiantes que vienen de colegio privado. Verifique su tamaño, variables y estructura.
Dentro de “Publico”: Defina el objeto “P3pr” que representa las calificaciones del tercer parcial.
Dentro de “Publico”: Halle la media, la varianza y la desviación estándar de P3pr.
Dentro de “Publico”: Resuma las tres medidas anteriores en una tabla.
Dentro de “datos1a35”: Halle la media, la varianza y la desviación estándar de las calificaciones del tercer parcial dentro de cada nivel de “Privado”. Sugerencia: utilizar las funciones “group_by” y “summarise”. Compare con (e).
Dentro de “Publico” y utilizando el método de la región crítica: Al nivel del 5%, determine si el promedio poblacional de las calificaciones del tercer parcial es menor que 2.0. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, el valor de prueba, el valor crítico, la región crítica e interprete.
Dentro de “Publico” y utilizando el método del P-valor: Determine si el promedio poblacional de las calificaciones del tercer parcial es menor que 2.0. Halle el P-valor e interprete.
Dentro de “Publico”: Realice la misma prueba de hipótesis del inciso (i) con la función t.test y compare los resultados obtenidos.
Dentro de “Publico”: Con Geogebra (https://www.geogebra.org/classic#probability), realice la misma prueba de hipótesis del inciso (i) y compare los resultados obtenidos.
Dentro de “Publico”: Con Geogebra (https://www.geogebra.org/classic#probability), construya un intervalo del 90% de confianza para el promedio poblacional de las calificaciones del tercer parcial (dentro de “privado”) y compare los resultados obtenidos en los incisos anteriores.
LLinás, H., Estadística inferencial. Barranquilla: Editorial Universidad del Norte, 2006.
Geogebra: https://www.geogebra.org