Un parámetro es una medida que describe el comportamiento de una población Parámetros
Hay una población de N = 22 personas, se mide la estatura y genero. Todo esto es un CENSO
datos <- read.csv('poblacion.csv')
mean(datos$estatura)
[1] 1.665909
sd(datos$estatura)
[1] 0.1015433
var(datos$estatura)
[1] 0.01031104
table(datos$genero)/22*100 #Probalilidad
h m
27.27273 72.72727
la estatura promedio poblacional es 1.67 metros
para saber la porporcion de hombres y mujeres
Otra definicion de Parametro
Los paremetros son medidas descriptivas que se calcuulan con los datos de la población, EJEMPLO: media poblacional, moda poblacional, varianza poblacional,,, por ello general, son desconoocidos pero de interés.
suponga que debe seleccionar una muesytra aleatoria simple de 5 personas.
## numeros obtenidos al azar 5,1,4,9,22
estatura1 <- c(1.60, 1.45, 1.90, 1.59, 1.62) #Altura
genero1 <- c('m','m', 'h', 'm', 'm')
mean(estatura1)
[1] 1.632
“Se estima que la estatura promedio de la poblacion de estudiantes es aproximadamente es 1.63”.
mean(c(1.61,1.58,1.60,1.58,1.59))
[1] 1.592
sample(1:20,5) #primero es el intervalo de donde se desean obtener los datos (se usa para separar el ":") desoues de la coma son los numeros que se desan generar
[1] 9 10 12 4 14
EJEMPLO; i=2—-1.58M 4. seleccionar en la muestra i, i+k, i+2k, 1+3k….
mean(c(1.58, 1.60, 1.65, 1.6, 1.68))
[1] 1.622
Se estima que la estatura promedio de la poblacion es de 1.62 metros.
como medir el error
Un investogador esta interesado en conocer la concentracion de arsernico (As) en las aguas subterraneas de New Hampshire. Los siguientes datos son las concientaciones de arsérnico (ppb) en aguas subterráneas en New Hampshire (Boudette and others, 1985), Elegidas al azar de manera simple (Datos de el libro paguna 63).
As <- c(1.3, 1.5, 1.8, 2.6, 2.8, 3.5, 4.0, 4.8, 8, 9.5, 12, 14, 19, 23, 41, 80, 100, 110, 120, 190, 240, 250, 300, 340, 580)
length(As)
[1] 25
sort(As)
[1] 1.3 1.5 1.8 2.6 2.8 3.5 4.0 4.8 8.0 9.5 12.0 14.0 19.0 23.0 41.0 80.0 100.0 110.0 120.0 190.0 240.0 250.0
[23] 300.0 340.0 580.0
mean(As)
[1] 98.352
median(As)
[1] 19
hist(As, labels =TRUE, col = '#F6D8CE') #Forma asimetrica con sesgo positivo
hay pocos datos que son mucho mas grandes que la mayoria, en este caso la mejor medida de tendencia central es la mediana.
Lo primero que hay que hacer es verificar la forma de los datos:
Si la forma es muy evidente en un histograma esto sera suficiente. como en este caso los datos del arsérnico son (evidentemente) Asimétricos a la derecha.
De otra forma deben de usarse pruebas estadisticas para verificar la normalidad de los datos:
TAREA: Investigar como se realiza la prueba de Shapiro-Wilk
shapiro.test(As)
Shapiro-Wilk normality test
data: As
W = 0.71947, p-value = 1.348e-05
La prueba permite verificar si los datos son normales o no lo son.
Para hacer la prueba primero se especifica la confianza de la prueba como una probabilidad (las mas comunes son 90, 95 o 99%) a este se le conoce como confianza. Una vez establecida la confianza, al complemento de la confianza (10, 5 o 1%) se le llama significancia estadística.
En el ejemplo de arsernico, considere una confianza de 95 (significancia de 5% o 0.05)
shapiro.test(As)
Shapiro-Wilk normality test
data: As
W = 0.71947, p-value = 1.348e-05
como el valor p es de (0.000001348) es menor que 0.05 entonces los datos del arsernico NO SON NORMALES …
La mejor medida de tendencia central en estos datos es la mediana.
rr median(As) mean(As)
caja <- boxplot(As, notch = TRUE, col = '#F2F5A9')#notch es una muesca
caja$stats
[,1]
[1,] 1.3
[2,] 4.0
[3,] 19.0
[4,] 120.0
[5,] 250.0
caja$conf
[,1]
[1,] -17.656
[2,] 55.656
As <- c(1.3, 1.5, 1.8, 2.6, 2.8, 3.5, 4.0, 4.8, 8, 9.5, 12, 14, 19, 23, 41, 80, 100, 110, 120, 190, 240, 250, 300, 340, 580)
No parametricos significa que no asume algun modelo de distribucion de datos
n = tamaño de muestra \(Z_{\alpha / 2}\) = Valor de la distribucion normal que satiface una confianza establecida. Rl = Es la posicion del limite inferior Ru = Es la posicion del limite superior
n <- length(As)
z <- abs(qnorm(0.025)) #Usar el valor de alfa sobre 2 como argumento
z
[1] 1.959964
#Rl
rl <- (n-z*sqrt(n))/2
rl
[1] 7.60009
#Ru
ru <- ((n+z*sqrt(n))/2) +1
ru
[1] 18.39991
#Confianza = 95% = 1/alfa
# alfa = 0.05
# alfa/2 = 0.05/2
La posicion se indica en los datos ordenados 4.8 ppb es la posicion 8 y 110 ppb es la posicion 18
Con una confianza del 95% de la co0ncentracion de las aguas subterrnaesa de New Hampshire se ubican entre 4.8 y 110 ppb.
DATOS DE LOS INCREMENTOS DE LOS PESOS DE POLLOS CON DIFERENCIA DE ALIMENTO ENTRE LA VARIACION NORMAL Y MEJORADA
Un investigador Esta interesado en conocer el incremento promedio en peso de pollos alimentasdos con una variedad de maíz mejorada (Ver problema resuelto anteriormente en estadistica descriptiva). Recopila la siguiente información:
normal <- c(380, 321, 366, 356, 283, 349, 402, 462, 356, 410, 329, 399, 350, 384, 316, 272, 345, 455, 360, 431)
mejorada <- c(361, 447, 401, 375, 434, 403, 393, 426, 406, 318, 467, 407, 427, 420, 477, 392, 430, 339, 410, 326)
Lo primero que haremos es la prueba de shapiro wilks para ver si los datos son normales.
hist(mejorada, col = '#CECEF6')
shapiro.test(mejorada)
Shapiro-Wilk normality test
data: mejorada
W = 0.95922, p-value = 0.5284
El valor-p es mayor al 0.05 (mayor al 5%) por lo tanto los datos son normales.
mean(mejorada)
[1] 402.95
median(mejorada)
[1] 406.5
Como los datos son normales entonces se puede contruir un intervalo para la mediana o para el promedio. El mas comun es para el promedio.
Un intervalo de confianza para el promedio de una población cuando se ha extraido una muestra simple aleatoria o sistematica aleatoria se encuentra usando:
interT
t.test(mejorada, conf.level = 0.99)
One Sample t-test
data: mejorada
t = 42.174, df = 19, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval:
375.6155 430.2845
sample estimates:
mean of x
402.95
# Esta función genera un intervalo de confianza en donde solo se utilizan los datos, tambien sirve para otras cosas
#La funcion "conf.level = " sirve para cambiar la confiaza; R por default da una de 0.95
li <- mean(mejorada) -
abs(qt(0.025, df = length(mejorada)-1) *sqrt(var(mejorada)/length(mejorada)))
li
[1] 382.9524
#li = limite inferior (se usa la formula de la imagen)
#al tamano de la muestra menos 1 se le llama grados de libertad
##### para el limite superior es lo mismo con un mas
ls <- mean(mejorada) +
abs(qt(0.025, df = length(mejorada)-1) *sqrt(var(mejorada)/length(mejorada)))
ls
[1] 422.9476
El incremento de peso promedio de los pollos alimentados con esta nueva variedad estara entre 382.95 gr y 422.95 gr con una confianza del 95%.
Como los datos son normales tambien puede usarse un intervalo para la mediana.
Se obtiene los valores criticos de la tabla b5 del libro o de la hoja de excel con las probabilidades binomiales (X’) correspondientes a \(\alpha\)/2 o lo mas cercano a \(\alpha\)/2.
EJEMPLO DE LOS POLLOS
#pbinom(x,n,p)
pbinom(c(0:20),20,0.5)
[1] 9.536743e-07 2.002716e-05 2.012253e-04 1.288414e-03 5.908966e-03 2.069473e-02 5.765915e-02 1.315880e-01 2.517223e-01 4.119015e-01
[11] 5.880985e-01 7.482777e-01 8.684120e-01 9.423409e-01 9.793053e-01 9.940910e-01 9.987116e-01 9.997988e-01 9.999800e-01 9.999990e-01
[21] 1.000000e+00
# Pobobilidades aculumadas
cumsum(pbinom(c(0:20),20,0.5))
[1] 9.536743e-07 2.098083e-05 2.222061e-04 1.510620e-03 7.419586e-03 2.811432e-02 8.577347e-02 2.173615e-01 4.690838e-01 8.809853e-01
[11] 1.469084e+00 2.217361e+00 3.085773e+00 4.028114e+00 5.007420e+00 6.001511e+00 7.000222e+00 8.000021e+00 9.000001e+00 1.000000e+01
[21] 1.100000e+01
# cumsum muestra las sumas acumuladas
En la siguiente imagen se mustra como se obtiene x’
La posicion 8 de los datos ordenados es 4.8 ppm
-La consentracion mediana de arsernico esta entre 4.8 y 110 ppm.
Para poner letras griegas se utiliza el simbolo \[\-nombre-de-la-letra\], se ponen los 2 $ para que aparesca centrado y una para que aparesca normal, este formato se llama LATEX palabra asi se encuentra en cursiva palabra asi esta en negritas