1 Objetivo

Utilizar funciones de una distribución T Student para calcular función de densidad, probabilidades e identificar valores de t e intervalo de confianza.

2 Descripción

Antes de todo, se cargan las librerías.

En el sustento teórico, se da a conocer un panorama de la importancia de la distribución T Student comparando la campana de gauss de una distribución normal estándar y distribuciones t; se identifica la fórmula de densidad t y se mencionan las funciones de paquete base de R: dt(), pt(), qt y rt() y la función xpt() y visualize.t de la librería mosaic y visualize()para graficar T Student y para el tratamiento de este tipo de distribuciones. (tdistribution?).

De igual forma el caso ofrece visualización de T Student mediante gráficos programados usando funciones de la librería ggplot2().

En el desarrollo, se resuelven e interpretan algunos ejercicios con datos bajo la distribución T Student,, se identifican ntervalos de confianza con de una distribución T Student.

3 Fundamento teórico

3.1 Cargar librerías

Se cargan librerías usadas a lo largo del caso.

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(mosaic)
## Registered S3 method overwritten by 'mosaic':
##   method                           from   
##   fortify.SpatialPolygonsDataFrame ggplot2
## 
## The 'mosaic' package masks several functions from core packages in order to add 
## additional features.  The original behavior of these functions should not be affected by this.
## 
## Attaching package: 'mosaic'
## The following object is masked from 'package:Matrix':
## 
##     mean
## The following object is masked from 'package:ggplot2':
## 
##     stat
## The following objects are masked from 'package:dplyr':
## 
##     count, do, tally
## The following objects are masked from 'package:stats':
## 
##     binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
##     quantile, sd, t.test, var
## The following objects are masked from 'package:base':
## 
##     max, mean, min, prod, range, sample, sum
library(ggplot2)  # Para gráficos
library(cowplot) #Imágenes en el mismo renglón
## 
## Attaching package: 'cowplot'
## The following object is masked from 'package:mosaic':
## 
##     theme_map
library("visualize")

options(scipen=999) # Notación normal

3.2 Cargar funciones

source ("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/funciones/funciones.para.distribuciones.r")
## 
## Attaching package: 'gtools'
## The following object is masked from 'package:mosaic':
## 
##     logit

3.3 Fórmula para encontrar el valor de T Student

Existe la fórmula para calcular el valor de t en la distribuciones T Student.. Se usa la siguiente fórmula para transformar distribuciones normales a t.

t=(x¯−μ)s/n−−√=diferencia a probaree =error estándart=(x¯−μ)s/n=diferencia a probaree =error estándar

x¯=media muestralμ=media poblacionals=desviación estándar de la muestran=número de elementos de la muestrax¯=media muestralμ=media poblacionals=desviación estándar de la muestran=número de elementos de la muestra

Para muestras aleatorias de tamaño nn desde una población normal(mendenhall2010?).

El numerador representa la diferencia a probar y el denominador la desviación estándar de la diferencia llamado también Error Estándar.

En esta fórmula tt representa al valor estadístico que se estará buscando x¯x¯ es el promedio de la variable analizada de la muestra, y μμ es el promedio poblacional de la variable a estudiar.

En el denominador se tiene a ss como representativo de la desviación estándar de la muestra y nn el tamaño de ésta.

La distribución t es más útil para tamaños muestrales pequeños, cuando la desviación estándar de la población no se conoce o ambos en comparación con la distribución normal estándar.

3.4 Características de T Student

La T Student tiene estas características:

  • Tiene forma de montículo o campana de gauss y es simétrica alrededor de t=0t=0, igual que zz la normal estándar.

  • Es más variable que zz, con “colas más pesadas”; esto es, la curva tt no aproxima al eje horizontal con la misma rapidez que zz. Esto es porque el estadístico tt abarca dos cantidades aleatorias, x¯x¯ y ss, en tanto que el estadístico zz tiene sólo la media muestral, x¯x¯. Ver curvas de T Student y Normal Estándar zz.

  • La forma de la distribución tt depende del tamaño muestral nn. A medida que nn aumenta, la variabilidad de tt disminuye porque la estimación ss de σσ está basada en más y más información.

  • Cuando nn sea infinitamente grande, las distribuciones tt y zz son idénticas. (mendenhall2010a?).

3.5 Funciones en R para T Student

Al igual que otras distribuciones como la binomial, Poisson uniforme, normal, entre otras, se disponen de las funciones dt(), pt(), qt() y rt() para el tratamiento de distribuciones T Student.

3.6 Grados de libertad

El número de grados de libertad es igual al tamaño de la muestra nn (número de observaciones independientes) menos 1 (estadística2016?).

gl=df=(n–1)∴df=grados de libertadn=total de elementos de la muestra de tgl=df=(n–1)∴df=grados de libertadn=total de elementos de la muestra de t

El divisor (n−1)(n−1) en la fórmula para la varianza muestral s2=∑(xi−x¯n−1)s2=∑(xi−x¯n−1) se denomina número de grados de libertad (df) asociado con s2s2 determina la forma de la distribución tt. El origen del término grados de libertad es teórico y se refiere al número de desviaciones independientes elevadas al cuadrado en s2s2 existentes para estimar σ2σ2.

Estos grados de libertad pueden cambiar para diferentes aplicaciones y como especifican la distribución t correcta a usar, es necesario recordar que hay que calcular los grados de libertad correctos para cada aplicación. (mendenhall2010a?).

Si la muestra tiene un valor de tt en el rango del nivel de confianza entonces se acepta la hipótesis de lo contrario de rechaza.

3.6.1 Ejemplo

Calcular el valor de t.

Se aplica una prueba de autoestima a 25 personas quienes obtienen una calificación promedio de 62.1 con una desviación estándar de 5.83. Se sabe que el valor correcto de la prueba debe ser mayor a 60. Calcular el valor de t.

n=25;x¯=62.1;s=5.83;μ=60

n <- 25; media.m <- 62.1; desv.m <- 5.83; media.p <- 60
t <- f.devolver.t(media.muestra = media.m, media.pob = media.p, desv.muestra = desv.m, n = n)
t
## [1] 1.801029

Se tiene 1.8010 como valor de t pero ¿qué significa ese valor?.

En la gráfica siguiente significa el punto que hace la diferencia entre el color morado y amarillo en la gráfica siguiente y se interpreta para comparar con un punto crítico y evaluar evaluar intervalos e hipótesis.

xpt <- xpt(q = t , df = n-1, xlab = "t's")

xpt
## [1] 0.957861

El valor de xpt= 0.957861 es el área bajo la curva a un valor de t de 1.8010 o sea 95.78%

3.7 Usando pt() para área bajo la curva

Representa el área bajo la curva desde su parte izquierda hasta el punto 1.8010.

pt(q = 1.8010 , df = 24)
## [1] 0.9578586

3.8 Obtener el valor de t.critico con 95% de confianza

Se obtiene mediante función qt() de R el valor del punto crítico al 95% de confianza. Puede ser para cualquier nivel de confianza 0.90, 0.95, 0.99 o cualquier otro.

Al igual que en distribución normal de z se obtiene α=1−0.95α=1−0.95 y el valor critico sería α/2α/2.

t.critico <- abs(qt(p = (1 - 0.95) / 2, df = n-1))
t.critico
## [1] 2.063899

Si el valor de t es mayor que el valor de t.critico entonces se interpreta que está dentro de un intervalo de confianza o región de aceptación en relación a la curva y se acepta una tentativa hipótesis de lo contrario cae en región de no aceptación y se rechaza. Se verán las pruebas de hipótesis en casos más adelante.

3.9 Gráfica con visualize

Se utiliza función visualize de librería previamente instalada

visualize.t(stat = c(-t.critico, t.critico), df = 24, section = "tails") +
  abline(v = t, col = "red", lwd = 3, lty = 2) +
  text(0, 0.2, expression(0.95), col = "black")

## integer(0)

3.10 Gráfica de campana normal Stándar y T Student

Se presenta una muestra pequeña de 28 valores, se generan valores de una secuencia alrededor de cero, esto se hace porque la distribución T Student, los valores de la variable aleatoria xx se centran con media igual a cero y por supuesto desviación igual a 11.

Se construyen gráficas:

  • g1 es una distribución normal estándar,

  • g2 distribución t student con 27 grados de libertad,

  • g3 t student con 5 grados de libertad y

Se visualizan las tres gráficas con una forma de campana o gauss, simétricas, solo que la distribución tt se achata en relación a la distribución normal estándar zz y se observa diferencia de dispersión con los grados de libertad en las gráficas tt.

# Grafica Normal Z con media igual a 0 y desv igual a 1
n <- 25

x <- seq(from = -3, to = 3, length.out = n)

media <- 0 #, round(mean(x),2)
desv <- 1 #round(sd(x), 2)

dens.z  <- dnorm(x = x, mean = media, sd = desv)

tabla <- data.frame(x = x, y = dens.z)
#tabla.normal

g1 <- ggplot(data = tabla, aes(x = x, y = dens.z)) +
  geom_point(colour = "red") +
  geom_line(colour = 'blue') +
  ggtitle("Normal Estándar(Z)", subtitle = paste("media = ", media, "sd=", desv)) +
  labs(x = "Z's", y= "Densidad")


# Distribución T Aproximada a Distribución t con 24 grados de libertad
denst.24  <- dt(x = x, df = n - 1)

# Se vuelve a generar la tabla
tabla <- data.frame(x = x, y = denst.24)

g2 <- ggplot(data = tabla, aes(x = x, y = denst.24)) +
  geom_point(colour = "red") +
  geom_line(colour = 'green') +
  ggtitle("T Student", subtitle = paste(n-1, " grados de libertad")) +
  labs(x = "t's", y= "Densidad")

# Distribución T Aproximada a Distribución t con 5 grados de libertad

denst.5  <- dt(x = x, df = 5)

# Se vuelve a generar la tabla nuevamente
tabla <- data.frame(x = x, y = denst.5)

g3 <- ggplot(data = tabla, aes(x = x, y = denst.5)) +
  geom_point(colour = "red") +
  geom_line(colour = 'yellow') +
  ggtitle("T Student", subtitle = paste(5, " grados de libertad")) +
  labs(x = "t's", y= "Densidad")

plot_grid(g1, g2, g3, nrow = 1, ncol = 3)

Construyendo una tabla con las tres distribuciones incluyendo los valores de z′s;t′sz′s;t′s y de las densidades juntas

# Gráficas juntas con una misma tabla
tabla <- data.frame(x, dens.z, denst.24, denst.5)

g4 <- ggplot(data = tabla) 
g4 <- g4 + geom_line(aes(x= x, y = dens.z), colour = "blue") 
g4 <- g4 + geom_line(aes(x= x, y = denst.24), colour = "green") 
g4 <- g4 + geom_line(aes(x= x, y = denst.5), colour = "yellow") 

g4 <- g4 + ggtitle("Normal Stándar(Z) y T Student", subtitle = paste("media = 0, sd = 1; ", (n-1)," y 5", " grados de libertad") )
g4 <- g4 + labs(x = "Z's y t's", y= "Densidad")

g4

3.11 Intervalo de confianza t student

3.11.1 Fórmula

IC=x¯±t⋅Sn−−√IC=x¯±t⋅Sn

Determinar el intervalo de confianza con el valor real de t. El valor al 95% de los datos al rededor de la media, el resto 5% se reparte a ambos lados de la curva.

α=(1−95%)/2α=(0.05)/2=0.025

4.2.1 Los datos

media.m <- 0.32
desv.m <- 0.09
n <- 10
media.p = 0.30
confianza = 0.95

4.2.2 Construir una tabla de datos

tabla <- data.frame(variables = c("n", "Grados libertad", "Media muestra", "Desv.Std muestra", "Media Pob.", "Confianza"), datos = c(n, (n-1), media.m, desv.m, media.p, confianza)) 
tabla
##          variables datos
## 1                n 10.00
## 2  Grados libertad  9.00
## 3    Media muestra  0.32
## 4 Desv.Std muestra  0.09
## 5       Media Pob.  0.30
## 6        Confianza  0.95

4.2.3 Valor de t real

t <- qt(p = (1 - confianza) / 2, df = n-1) # dos colas
t <- abs(t)
t
## [1] 2.262157

4.2.5 Evaluar el intervalo

El intervalo de confianza con valores entre 0.2556179 y 0.3843821 con un 95% de confianza se interpreta que el fabricante a un 95% de confianza puede estar seguro de que la profundidad media de las cuerdas oscila entre 0.2556179 y 0.3843821. Como el valor de la media es 0.3 es posible a un 95% que la media de la población de 0.3 esté dentro de la región de confianza.

4.2.6 Visualizar gráfica Gauss

visualize.t(stat = c(-t, t), df = n-1, section = "tails") +
  text(0, 0.2, expression("95%"), col = "red") 

## integer(0)

4.3 Vendedores

Se ha obtenido una muestra de 1515 vendedores de una Editorial para estimar el valor medio de las ventas por trabajador en la Empresa. La media y la desviación de la muestra ( en miles de euros ) son 55 y 1.4641.464, respectivamente.

Se pide deducir el intervalo de confianza al 90%

4.3.1 Los datos

media.m <- 5
desv.m <- 1.464
n <- 15

confianza <- 0.90

El intervalo de confianza con valores entre 4.3342192 y 5.6657808 con un 90% de confianza se interpreta que la media de la población debe estar en ese intervalo.

4.3.5 Visualizar gráfica Gauss

visualize.t(stat = c(-t, t), df = n-1, section = "tails") +
  text(0, 0.2, expression("90%"), col = "red") 

## integer(0)

5 Interpretación

La distribución t de Student o distribución t es un modelo teórico utilizado para aproximar el momento de primer orden de una población normalmente distribuida cuando el tamaño de la muestra es pequeño y se desconoce la desviación típica.