Intervalo de predicción para una sola observación.

EJEMPLO

Hasta el momento, los intervalos revisados son para el promedio de una población o para la mediana de una población. Hay ocasiones en las que no interesa saber la posición central de los datos, si no que se requiere saber donde se ubicará la siguiente medición (solo una).

Por ejemplo, en el caso del contenido de arsénico, uno pudiera preguntarse lo siguiente:

Si realizamos una sola medición de arsénico en agua subterránea de esa región, ¿en que intervalo caerá esa medición?. Note que este cuestionamiento es diferente al que habiamo hecho con los intervalos sobre medias o medianas. En éste ultimo caso la pregunta a responder era: si realizamos varias mediciones de arsénico de aguas subterráneas de esa región: ¿en que intervalo estará la media o la mediana?.

Otro ejemplo, si usamos la situación de los pollos alimentados con maíz transgenico es: Si se pesa a un pollo alimentado con maíz transgenico ¿en que intervalo estará su peso?. Cosa distinta es lo que nos hemos preguntado antes: si seleccionamos varios pollos alimentados con maíz transgénico ¿ en que intervalo estará el peso promedio de ellos?

Pues bien, para elaborar un intervalo de predicción pueden usarse tambien varios métodos:

  1. El primero que revisaremos es cuando los datos son normales:

Ejemplo. Los siguientes datos son sobre las estaturas de alumnos de una universidad.

estaturas <- c(1.54, 1.66, 1.60, 1.69, 1.72, 1.76, 1.56, 1.70, 1.68, 1.75, 1.55,1.61, 1.68, 1.59, 1.58, 1.67, 1.70, 1.75, 1.63, 1.76)

El problema planteado es: Si un nuevo alumno se seleccionará de esa universidad, su estatura en que intervalo estará?

Con la ayuda de un histograma y la prueba de Shapiro primero pruebe si losdatos son normales :

hist(estaturas, col = '#F78181', xlab = 'Estaturas' )

shapiro.test(estaturas)

    Shapiro-Wilk normality test

data:  estaturas
W = 0.93645, p-value = 0.2053

El histograma es ligeramente simétrico, pero como hay pocos datos lo mejor es realizar la prueba de Shapiro. Al hacer la prueba se concluye que los datos son normales (pues el valor p es aprox. 0.20).

Por lo que podremos usar el intervalo para hacer el intervalo de predicción. Los siguiente serequiere hacer en R.

# el tamaño de muestra
n = 20

# calculamos la media
m <- mean(estaturas)
m
[1] 1.659
# ahora la desviación estándar
s <-sd(estaturas) 
s
[1] 0.07239511
# valor de la distribución t al 95%, recuerde que el tamaño de muestra es 20 y en la formula se establece que  n-1
t <- abs(qt(.025,19))
t
[1] 2.093024
  # Ahora los limites del intervalo de predicción

# Límite inferior
li <- m - t*sqrt(s^2+(s^2/n))
li
[1] 1.503733
#Límite superior
ls <- m + t*sqrt(s^2+(s^2/n))
ls
[1] 1.814267

Por lo que la conclusión sería: Al 95% de confianza esa persona seleccionada de la universidad mediria entre 1.50m y 1.81 m.

Ejercicios

  1. Un silvicultor calculó la edad de 25 arboles.
arboles <- c(104, 99, 106, 99, 96, 92, 115, 104, 114, 97, 97, 98, 101, 101, 100, 101, 102, 100, 96, 107, 102, 101, 106, 107, 102)

Si selecciona un siguiente árbol, ¿su edad en que intervalo estará? Al 95 % de confianza.

Se necesita saber si los datos son normles o no.

hist(arboles, col = '#D0F5A9', xlab = 'Edad', main = 'Edad de los árboles')

shapiro.test(arboles)

    Shapiro-Wilk normality test

data:  arboles
W = 0.93771, p-value = 0.1311

El histograma se ve algo asimétrico, sin embargo la prueba de Shapiro indica un valor de p de 0.13 aproximadamente por lo que los datos son normales.

Esto indica que se puede proceder a realizar el Intervalo de predicción con R.

# Tamaño de la Muestra
an <- 25

# Media de la edad de los Árboles
am <- mean(arboles)
am
[1] 101.88
# Desvacion eseándar de los datos 
as <- sd(arboles)
as
[1] 5.286145
#Valor de la distribucion t con 95% de confianza 
at <- abs(qt(0.025,24))
at
[1] 2.063899
# Calculo de los limites del intervalo de predicción

# Limite Inferior
ali <- am - at*sqrt(as^2+(as^2/an))
ali
[1] 90.75387
# Limite Superior
als <- am + at*sqrt(as^2+(as^2/an))
als
[1] 113.0061

Conclusión Ejercicio 1: Se puede concluir que con un 95% de confianza el siguente árbol que el sivilcultor seleccionará, la edad calculada de este estaría entre 91 y 113 años.

  1. Se muestran a continuación los rendimientos (ton/ha) en un cultivo de 22 parcelas de productores:
renPar <- c(9, 12, 5, 9, 10, 3, 9, 4, 9, 7, 10, 10, 8, 10, 7, 10, 12, 5, 9, 7, 8, 9)

Si se selecciona una parcela de otro agricultor ¿cual será su rendimiento? con un intervalo del 95%

Se necesita saber si los datos son normles o no.

hist(renPar, col = '#81DAF5', xlab = 'Rendimiento (ton/ha)', main = 'Rendimiento de las Parcelas')

shapiro.test(renPar)

    Shapiro-Wilk normality test

data:  renPar
W = 0.92548, p-value = 0.09879

A pesar de que en el histograma los datos parecen asimétricos, la prueba de Shapiro indica que estos son normales debido a que el valor de p es de 0.09879, mayor a 0.05.

Se puede prosigue a realizar el cálculo del intervalo de predicción con R.

# Tamaño de la muestra
rn <- 22

# Media
rm <- mean(renPar)
rm
[1] 8.272727
# Desviacion Estándar
rs <- sd(renPar)
rs
[1] 2.374103
# Valor de Distribucion t al 95%, tamano de la muestra 22
rt <- abs(qt(0.025,21))
rt
[1] 2.079614
# Cálculo de los limites del Intervalo de Predición

# Límite Inferior
rli <- rm - rt*sqrt(rs^2+(rs^2/rn))
rli
[1] 3.224548
# Límite Superior
rls <- rm + rt*sqrt(rs^2+(rs^2/rn))
rls
[1] 13.32091

Conclusión Ejercicio 2: Con un 95% de confianza, se puede concluir que, si se seleccionara una parcela de otro agricultor, el rendimiento de esta estará entre 3.23 y 13.32 toneladas por hectárea.

………… Melanie icedo Félix …………

