# install.packages('summarytools', 'pastecs', 'ggplot2', 'graphics', 'tidyverse', 'ryouready', 'lsr', 'RCurl', 'reshape2', 'raster', practma', 'dplyr')
library(tidyverse)
library(pastecs)
library(summarytools)
library(RCurl)
library(reshape2)
library(pracma)
library(raster)
library(dplyr)
Las actividades de estimación, comprobación, etc., que se realizan con los resultados de una muestra, tienen por objetivo estudiar características específicas de una población denominadas Parámetros. Los parámetros se entienden como constantes dentro de una población ya que no dependen de una muestra n particular sino de los N valores de la población definida. Los más frecuentes son seis:
Promedio: Suma total de los valores de una variable dividida por la cantidad de unidades consideradas.
Totales: total de los valores de una variable.
Proporciones: casos favorables a un determinado valor de variable respecto al total de unidades.
Cantidad de Casos Favorables: conteo de casos o unidades que cumplen una cierta condición en la población (uede analizarse como una combinación de proporciones y totales)
Varianzas y Desviación Estándar: medidas de dispersión.
Razones: indicadores relacionales cuando se trabaja con dos o más variables (Proporciones, Promedios, Tasas, etc.)
Los parámetros se estiman o comprueban utilizando los denominados estimadores o estadísticos.
Los estimadores a través de su aplicación, sirven para aproximarse a un determinado valor poblacional desconocido (parámetro) en base a los valores (i) obtenidos de los elementos (xi) de una muestra (n). Para cada parámetro que se desee estimar existe una serie de fórmulas algebraicas diferentes. Por ejemplo, el estimador de la media poblacional μ puede expresarse como x̄ = ∑ xi / n (la sumatoria de todas las unidades xi muestrales dividido por el tamaño n de la muestra).
A su vez, en muchos casos no sólo se desea estimar el parámetro sino también la distribución muestral del estimador y/o el error por muestreo.
Los estimadores, a diferencia de los parámetros que se consideran constantes desconocidas, son entendidos como variables aleatotrias. Esto se debe a que el valor de los mismos pueden variar entre muestra, dependiendo de las unidades seleccionadas (y estas, a su vez, al ser seleccionadas al azar varían de muestra en muestra)
Existen una serie de propiedades deseables de lo estimadores que ya han sido probadas teóricamente y que tienen su correlato en la constitución de sus expresiones algebraicas.
A grandes rasgos pueden nombrarse cuatro propiedades deseables. Se espera que el Estimador, entonces, sea:
Insesgado
Según Cochran, un estimador x* de un parámetro X es insesgado si su valor medio calculado a través de todas las muestras posibles coincide con el verdadero valor del parámetro X. Es decir, si la esperanza matemática de estimador (x*) coincide con el valor poblacional a estimar (X).
Por ejemplo, la media muestral x̄ es un estimador insesgado del promedio poblacional μ.
Consistente
Se considera a un estimador x* consistente cuando su sesgo tiende a 0 al aumentar el tamaño de la muestra (n->N ó n->∞).
Puede pensarse también que, a medida que la información obtenida mediante el muestreo aleatorio se vuelve má completa, la distribución en el muestreo del estimador se encuentra cada vez más concentrada alrededor del parámetro.
Dicho en términos de probabilidad, P(x* -> X*) tiende a 1 si n->N ó n->∞.
Por ejemplo, la media muestral (x̄) es un estimador consistente de la media poblacional (μ) ya que cuando n tiende a infinito, la probabilidad de que x̄ -> μ se acerca a 1. A su vez, cuando n tiende a infinito, σx̄ tiende a 0.
Eficiente
Un estimador x* es eficiente (o más preciso) al presentar menor varianza o desvío estándar que otros. Es deseable que la dispersión de un estimador alrededor del parámetro sea lo más pequeña posible
Suficiente
Se dice que un estimador x* es suficiente cuando resume toda la información relevante contenida en la muestra, de forma que ningún otro estimador pueda proporcionar información adicional sobre el parámetro X desconocido de la población.
Robustez
Un estimador x* se considera robusto cuando se ve menos influido por valores extremos o alejados de una variable.
Como se dijo más arriba, es deseable que un estimador posea todas estas propiedades (que tenga una distribución en el muestreo concentrada alrededor del parámetro, que su varianza disminuya al crecer la muestra, que su dispersión sea lo menor posible, etc.) aunque es muy raro en la práctica encontrar alguno que satisfaga todas las condiciones imaginadas.
De acuerdo con la forma en que se desee expresar esa estimación, y a los procedimientos que se esté dispuesto a aplicar, la estimación puede ser puntual o por intervalos. En el primer caso lo que se hace es aplicar la fórmula de un estimador a la muestra para obener una cifra como estimación del parámetro en estudio. En el caso de la estimación por intervalos de confianza lo que busca es establecer, con un determinada probabilidad, el intervalo (marcado por un límite inferior y un límite superior) en el que se encuentra el valor del parámetro, en base a la utilización de las funciones de probabilidad.
Cualquiera de los parámetros que caracterizan una población es factible de ser estimado de manera puntual (el valor per se), aplicando correctamente la fórmula que le corresponde. Aclaración : durante el curso de Estadística I se parte del supuesto que todas las muestras extraídas fueron tomadas mediante el MAS (Muestreo Aleatorio Simple.
A continuación se presentan la forma de calcular los cinco parámetros más comunes presentados anteriormente de manera puntual (Promedio, Totales, Cantidad de Casos Favorables y Varianza/Desvío Estándar). En el otro apartado, se introducen las funciones de probabilidad que sirven para determinar en ciertos casos la posibilidad de ocurrencia (por ejemplo, que un valor (x) en una distribución normal sea menor o mayor a la media) de un suceso en base a modelos matemáticos y, sobre todo, para la estimación por intervalos de confianza. Pero antes:
Es generalmente el punto de partida para analizar la estimación de parámetros.
Si de una población de N unidades, con una variable xi, media poblacional desconocida μ y varianza σ2 , se extrae una muestra de tamaño n unidades para estimar μ, siendo μ la sumatoria de todos los valores de la población dividida por el total poblacional (μ = ∑xi / N), el estimador de μ será x̄ = ∑ xi / n.
Ejemplo: página 27 de Guía de Aspectos Conceptuales
En la CABA, una empresa lechera desea determinar el consumo promedio mensual de manteca en una población (μ). Se realiza una encuesta a 300 personas (n), de la que se obtiene que entre todos los encuestados consumen por mes 225kg de manteca (∑ xi).
sum_xi = 225
n = 300
x_raya = sum_xi/n
print(paste("El consumo mensual de manteca es de", x_raya, "kg. por persona. Mmm... No lo sé. Rick"))
## [1] "El consumo mensual de manteca es de 0.75 kg. por persona. Mmm... No lo sé. Rick"
El total representa la expansión de la media muestral en la población. Así, el estimador del total poblacional (X) será la media muestral (x̄) multiplicada por el tamaño (N) de la población. X = N.x̄
Ejemplo: página 27 de Guía de Aspectos Conceptuales
La empresa lechera estimó que la media muestral de consumo mensual de manteca por persona en la CABA era de 0,75kg por persona (x̄), sobre una encuesta a 300 personas (n) que arrojo un total de 225kg consumidos entre todes elles (∑ xi) por mes. La intención es ahora saber cuál es el consumo total (X) de manteca para los 3.000.000 de habitantes (N).
sum_xi = 225
n = 300
N = 3000000
x_raya = sum_xi/n
X = N*x_raya
print(paste("Los habitantes de la CABA consumen un total de", X, "kg. de manteca por mes"))
## [1] "Los habitantes de la CABA consumen un total de 2250000 kg. de manteca por mes"
Parte de la clasificación binaria de la variable observada, buscando contabilizar la presencia o ausencia de esa categoría particular en la población. Siendo la población N se denomina la aparición de la categoría a en la poblacióncomo Na.
La proporción poblacional (P) será, así, P = ∑xi / N , donde ∑xi es la sumatoria de las apariciones de la categoría a en la población (Na), por lo que también puede expresarse como P = Na / N.
A diferencia de la media poblacional (μ), el valor de la proporción poblacional (P) -y sus correlatos muestrales- siempre da un resultado que oscila entre 0 y 1, representando sus extremos la total ausencia o presencia de dicha categoría en la población.
El estimador de la proporción poblacional (P) será la proporción muestral (p̂ o p_hat) donde para una determinada muestra (n) y la categoría (a), se cuenta la aparición el total de ocurrencias de dicha categoría en la muestra (na) y así se define que p̂= na/n. También puede definirse como p̂ = ∑xi / n, tomando cada aparición de la a como 1 para cada xi y su ausencia como 0. Es importante recordar la relación entre la proporción y la función binomial.
Ejemplo: página 28 de Guía de Aspectos Conceptuales
Se desea estimar, continuando el ejemplo anterior, la proporción de habitantes que consume manteca en CABA (P). Para esto se toma una nueva muestra de 300 personas (n) en las que 240 (na) refieren consumir la misma.
n_a = 240
n = 300
p_hat = n_a/n
print(paste("Se estima que la proporción de habitantes de la CABA que consumen manteca es de", p_hat, "por mes"))
## [1] "Se estima que la proporción de habitantes de la CABA que consumen manteca es de 0.8 por mes"
Como en el caso del total, planteado en el punto 2., muchas veces se requiere calcular sobre el total poblacional (N) los casos favorables (total de ocurrencias de la categoría a en N). Para eso se utiliza el estimador de casos poblacionales (A), que es en sí la expansión de la proporción muestral (p) por la población (N). Es decir, A=N.p
Ejemplo: página 29 de Guía de Aspectos Conceptuales
Continuando con el ejemplo anterior, se desea estimar la cantidad de habitantes que consume manteca en la CABA (A), sabiendo que la muestra anteriror de 300 (n) indicaba que (na) personas decían consumir habitualmente manteca entre los 3.000.000 de habitantes (N).
Se desea estimar A: la cantidad de personas que consume manteca entre los habitantes de la ciudad de Buenos Aires.
n_a = 240 #casos favorables
n = 300
N = 3000000
p_hat = n_a/n #proprocion muestral de casos favorables
A = N*p_hat #Estimador de total de casos favorables
print(paste("Se estima que un total de", A, "habitantes de la CABA consumen manteca mensualmente"))
## [1] "Se estima que un total de 2400000 habitantes de la CABA consumen manteca mensualmente"
Se trata de una estimación de la dispersión y variación de los valores poblaciones o muestrales.
Una varianza (σ2) baja indica que la mayor parte de los datos de una población (N) tienden a estar agrupados cerca de su promedio (μ), mientras que una varianza alta indica que los datos se extienden sobre un rango de valores más amplio. A su vez, la desviación típica (σ) es la raíz cuadrada de la varianza. Esta se calcula para poder trabajar sobre las unidades de medida iniciales (o sea, para trabajar sobre manzanas y no mazanas al cuadrado!)
Flashback: para calcular la varianza (s2) de una terminada muestra de datos (n), lo que hacíamos era restarle a cada observación (xi) su media (x̄) y luego, sumarlas (xi), elevarlas al cuadrado ∑(xi -x)2 y dividir todo por el total de la muestra (s2 = ∑(xi -x̄)2 / (n-1)). Una vez hecho esto, hacíamos la raíz cuadrada y calculabamos la desviación típica σ. El concepto de desviación típica es también la base sobre la que posteriormente se aplicarán algunas las funciones de probabilidad de dispersión sobre otros estimadores poblacionales, particularmente cuando se trate de aquellas poblaciones o muestras que presenten distribuciones normales (o en forma de campana).
Bueno, aunque la interpretación del valor que arroja no nos da demasiada información, su cálculo es necesario para obtener el valor de otros parámetros.
Para calcular la covarianza ecesitamos la varianza y no la desviación típica, también para calcular algunas matrices econométricas se utiliza la varianza y no la desviación típica. Es una cuestión de comodidad a la hora de trabajar con los datos en según qué cálculos.
Volviendo, la varianza (σx2) de la media de una población (N) se define como σx2= ∑((xi -μ)2/N . utilizarse el estimador de la varianza muestral (s2). El mismo se calcula como más arriba (sx2 = ∑(xi -x̄)2 / n-1), aunque restando el tamaño de la muestra (n) por 1. Nota: esas x que aparecen como subíndice sigifica que lo que estamos calculando se va a usar para calcular distintas varianzas; no sólo de la media σx̄2, sx̄2 sino también del total, σN.x̄2, sN.x̄2, la proporción σp̂2 , Sp̂2 , etc. a través de las funciones de probabilidad de desviación que se verán a continuación. Re divertido.
En general igual, por ser más práctico, lo que se usa para calcular directamente la desviación estándar no es la fórmula o expresión algebraica de definición más arriba sino la de trabajo, hete aquí: sx = √[1/(n-1).∑(xi)2 - (n/n-1).x̄2]. Cómo olvidarla. Practiquísima.
Ejemplo: página 30 de Guía de Aspectos Conceptuales
Finalizando con el ejemplo anterior, Se desea estimar el desvío estándar del la media del consumo de manteca (σx̄) de los habitantes de CABA (N), para lo cual con los datos de la muestra (n) se calculó que la sumatoria de la resta del consumo de cada persona (xi) contra la media (x̄), elevados al cuadrado( ∑(x̄-xi)2 ), fue de 200 kg. Amigue, si hiciste hasta ahí terminala! Es empujar la pelota nomás! Bue
Con los otros datos presentados (muestra de 300 personas (n) de la que se obtuvo que entre todos los encuestados consumen por mes 225kg de manteca (∑ xi) y sabiendo que hay 3.000.000 de habitantes en la CABA (N) y, bueno, que ∑(x̄-xi)2 = 200kg) nos piden que utilicemos esta sencilla ecuación sx = √[1/(n-1).∑(xi)2 - (n/n-1).x̄2] para calcular el desvío estandar de la media muestral (sx̄). O bueno, podemos escribir una línea de código y ya. Vot 6.
sum_xi = 225 #sumatoria del consumo de manteca de las 300 personas de la muestra
sum_xi_menos_xraya_al_cuadrado = 200 #cuadrado de la sumatoria de la sustracción de cada consumo individual a la media muestral
n = 300
N = 3000000
x_raya <- sum_xi/n
s_x = sqrt((1/(n-1))*sum_xi_menos_xraya_al_cuadrado - (n/(n-1))*x_raya^2)
print(paste("La desviación estandar de consumo mensual de manteca es de", s_x, "kg. respecto a la media"))
## [1] "La desviación estandar de consumo mensual de manteca es de 0.32328787506992 kg. respecto a la media"
Algo que no se había visto hasta aquí y se debe aplicar, cuando el problema lo amerite, es el factor de corrección para poblaciones finitas. Para aquellos casos en que N sea conocido y finito (por ejemplo, el ejercicio en que sabemos que los habitantes de la CABA son 3.000.000), debe utilizarse el factor de corrección a la hora de calcular las medidas de dispersión muestral.
Para esto, a la hora de estimar la varianza σ2 e base a una muestra (σx2 / n) deberemos multiplicar a la misma por [(N-n)/(N-1)], siendo N el tamaño de la pobación y n el tamaño de la muestra. Esto igual va a ser retomado en la fórmula de cada una de las estimaciones.
Desde el punto de vista teórico, los estimadores o estadísticos poblacionales (media, total, proporción, total de casos favorables y varianza) se construyen a partir de estadísticos muestrales. A su vez,el estadístico muestral es una variable aleatoria: su resultado individual es incierto y, sin embargo, existe una distribución regular de los resultados después de un gran número de repeticiones. Asimismo, el concepto de probabilidad indica que la probabilidad de cualquier resultado de un fenómeno aleatorio es la proporción de veces que el resultado se da después de una larga serie de repeticiones.
Entonces, por ejemplo, al considerar la media aritmética muestral (x̄)como una variable aleatoria podemos, a través de la aplicación de un modelo matemático, graficar su curva de densidad de probabilidad (por ejemplo, la campana de Gauss para la distribución normal) y, a través de ella, por un lado, visualizar la forma de distribución de dicha variable aleatoria y, en base a eso, intentar predecir la probabilidad de un valor xi .1
En otras palabras, una parte de las tareas de la Inferencia Estadística es, no sólo la estimación de los valores paramétricos o muestrales en sí sino también el estudio de sus formas de distribución y sus probabilidades de ocurrencia. Como partimos de que lo resultados de los estadísticos muestrales conforman una distribución de probabilidad muestral es posible aplicar -según las condiciones del problema, el parámetro a estimar y los datos conocidos- diferentes funciones de probabilidad (es decir, modelos matemáticos) para calcular la probabilidad de que una variable xi tome determinado valor (o se encuentre entre determinados valores, en el caso de los intervalos de confianza).
Por ejemplo, quiero saberun caso de la utilización de la función de probabilidad normal para estimación puntual:
En nuestro ejemplo ya clásico de la manteca en la CABA, nos interesa saber cuál es la probabilidad de que alguien consuma más de 2kg de manteca por mes (yo cuando hago puré de papas), habiendo estimado ya la media poblacional de consumo de manteca por persona mensualmente (µx̄ = 0,75kg), y sabiendo que la desviación típica (σx̄) es de 0,32kg. Es importantísimo aclarar que sabemos que el consumo de manteca tiene forma de distribución normal.
Acompañenme a la cocina.
Nota: La función pnorm permite calcular la función de distribución acumulada de la distribución normal en R, que es la probabilidad de que la variable x* tome valores menores o iguales que X. A continuación se presenta a sintaxis de la función.
##Estimación puntual de probabilidad de la media
v = 2 #valor a evaluar de consumo de manteca
p = pnorm(v,
mean = 0.75, #mu de x_raya
sd = 0.32, #desviacion_estandar de mu calculada en base a la muestra anterior
lower.tail = FALSE) # Si TRUE, se analiza las probabilidad de que media >= v;
# Si FALSE se analiza la probabilidad de que v > media.
print(paste("La probabilidad es", p*100, "% (o sea muy baja, lo cual es lógico porque estoy como más de 3 desvíos estándar para la derecha)"))
## [1] "La probabilidad es 0.00468697650164552 % (o sea muy baja, lo cual es lógico porque estoy como más de 3 desvíos estándar para la derecha)"
Vale aclarar que durante este curso se usan las funciones de probabilidad que se aplican a variables continuas. Estas también se denominan funciones de densidad de probabilidad, que seben diferenciarse de otras funciones de probabilidad que se aplican a variables discretas (no se verán en este curso).
Como se dijo, de acuerdo a las condiciones del problema y al parámetro que se deba estimar o sobre el cual se quiera trabajar, existen diversos tipos de funciones de probabilidad para la resolución de estos problemas. Nota: para todos estos calculos se refieren tablas pero es mucho más fácil hacerlo con alguna app o linea de programación. Las principales funciones son:
Función de probabilidad normal (tabla del Z score): es la principal función de probabilidad. Sirve para evaluar la distribución de la media muestral (x̄), del estimador del total (X), de la proporción muestral (p) y de cualquier otro estadístico muestral, siempre que el tamaño de la muestra (n) se considere grande (Nota: a efectos de este curso grande es n>=100). Como se verá después, es debido al Teorema Central del Límite que bajo ciertas condiciones se la puede aplicar a las distribuciones y pruebas de todos los estimadores conocidos.
Función de probabilidad t de Student (tabla de t): permite evalular la distribución de la media muestral (x̄) y del estimador del total (X), en casos en que el tamaño de la muestra (n) sea pequeño (n<100). Permite realizar estimaciones y pruebas para la media y el total. Matemáticamente se calcula también utilizando el valor z y chi cuadrado.
Lo único importante de esto es que, para encontrar su valor, hay que calcular el valor de t en base a los grados de libertad, los cuales a su vez dependen del tamaño (n) de la muestra (grados de libertad ó df=n-1).
Video sobre cómo usar t de Student (desde minuto 3.25)
Función de probabilidad Chi Cuadrado (tabla de Chi Cuadrado ó χ2): permite evalular la distribución de la varianza muestral (s2), realizar estimaciones y pruebas para la varianza y la realización de pruebas no paramétricas (continuará…). También es necesario para su cáculo contar con los grados de libertad, determinados en base al tamaño (n) de la muestra.
Video sobre cómo usar Chi Cuadrado (hasta minuto 3.24)
Función F de probabilidad F de Snedecor (tabla de la distribución F): se utiliza en condiciones muy particulares en las cuales se quiere trabajar en cocientes (divisiones) entre varianzas (s2). Es decir, su principalidad utilidad es la de comparar la dispersión entre dos poblaciones. Se retomará cuando se vean Pruebas de Hipótesis. Por ahora vale sólo subrayar que la misma se calcula como el cociente entre los chi cuadrado de las varianzas muestrales (s2) dividida por sus respectivos grados de libertad (nx) (es un cociente de promedios de sumas de variables normales estandarizadas al cuadrado #wtf). La fórmula sería F = χ2(n1) / χ2(n1) y da como resultado F(n1;n2), que es la función F de Snedecor con n1 yn2 grados de libertdad para el numerador y denominador respectivamente y lo buscas en esta tablita:
Más claro echale agua.
Antes de avanzar con la aplicación de las funciones de probabilidad al conjunto de los principales estimadores, haremos una un poco más extensa explicación de qué es lo que sucede en el caso específico de la media muestral (x̄). Esto es fundamental, ya que en base al estudio de la distribución de x̄ y su forma se podrán realizar (o no) las estimaciones y comprobaciones necesarias.
La media muestral (x̄) es el estimador que inicialmente se toma para analizar las distribuciones de muestreo. Como dijimos anteriormente, se puede describir el comportamiento de un estimador mediante un modelo de probabilidad. Entonces, en este caso, la pregunta sería ¿qué pasaría si calcularamos la media (x̄) muchas veces, en diferentes muestras?
Ejemplo de la Guía conceptual Página 42
Supongamos que se analiza la variable (xi) que representa el número de hijos de una población hipotética compuesta por un grupo de 4 parejas (N=4), donde los valores de cada una de las unidades de la población son x1=1, x2=2, x3=3, x4=4. Esta es una población de una variable discreta con distribución uniforme, con la siguiente forma y características:
library(ggplot2)
x1 = 1
x2 = 2
x3 = 3
x4 = 4
x_i = c(x1,x2,x3,x4) #creamos cada una de las x_i
N= length(x_i) #calculo mi N contando el total de x_i
#Hacemos un gráfico de frecuencias de los Xi
qplot(x_i, geom="histogram",
binwidth = 0.5,
xlab = "xi", ylab = "Frecuencia de xi")
Como puede observarse cada valor de vartiable tiene frecuencia 1, es decir que f(xi)=1.
Ahora, si quisieramos calcular nuestra media poblacional (μ) para nuestra población de grupos familiares (N):
x_i = c(x1 = 1, x2 = 2, x3 = 3, x4 = 4)
N= length(x_i) #calculo mi N contando el total de x_i
sum_xi = (x1+x2+x3+x4)
mu = sum_xi/N
print(paste("El promedio poblacional es de", mu,"hijos por pareja"))
## [1] "El promedio poblacional es de 2.5 hijos por pareja"
Y la varianza (σ2)y desvío estándar (σ) de la población (N), será:
varianza = ((x1-mu)^2+(x2-mu)^2+(x3-mu)^2+(x4-mu)^2)/N #revisar porque no puedo hacerlo con la función var()
de = sqrt(varianza)
print(paste("La varianza poblacional es de",varianza, "y el desvío estándar de", de))
## [1] "La varianza poblacional es de 1.25 y el desvío estándar de 1.11803398874989"
Entonces, tenemos una población N=4; con una media poblacional de μ= 2,5; una varianza σ2= 1,25; y un desvío estádar σ=1,12 . Vale aclarar que estos datos poblacionales en la práctica siempre son desconocidos.
Para estimar nuestro μ deberíamos realizar un muestreo aleatorio. En este ejemplo, se definió que se realizaron 6 muestras diferentes, sin reposición, de tamaño 2 (n=2)2, dando como resultado:
n_1 = c(1,2) #una muestra con una pareja con un hijo y otra con dos hijos
n_2 = c(1,3) #una muestra con una pareja con un hijo y otra con tres hijos
n_3 = c(1,4) #una muestra con una pareja con un hijo y otra con cuatro hijos
n_4 = c(2,3) #una muestra con una pareja con dos hijo y otra con tres hijos
n_5 = c(2,4) #una muestra con una pareja con dos hijos y otra con cuatro hijos
n_6 = c(3,4) #una muestra con una pareja con tres hijos y otra con cuatro hijos
Si ahora se quisiese calcular la media muestral (x̄) para cada una de las 6 muestras de tamaño n=2 se tendría:
x_raya_1 = mean(n_1)
x_raya_2 = mean(n_2)
x_raya_3 = mean(n_3)
x_raya_4 = mean(n_4)
x_raya_5 = mean(n_5)
x_raya_6 = mean(n_6)
print(paste("x_raya_1 es", x_raya_1,
", x_raya_2 es", x_raya_2,
", x_raya_3 es", x_raya_3,
", x_raya_4 es", x_raya_4,
", x_raya_5 es", x_raya_5,
", x_raya_6 es", x_raya_6))
## [1] "x_raya_1 es 1.5 , x_raya_2 es 2 , x_raya_3 es 2.5 , x_raya_4 es 2.5 , x_raya_5 es 3 , x_raya_6 es 3.5"
Podemos observar que en función de las distintas muestras al azar de igual tamaño que se pueden extraer de la población, se obtienen distintos valores del estimador μx
Lo que convierte a x̄ en una nueva variable con 6 resultados (uno por cada muestra, con la repetición de las x_raya_3 y x_raya_4), que determina la distribución de las medias muestrales:
frecuencia_x_raya = c(x_raya_1, x_raya_2, x_raya_3, x_raya_4, x_raya_5, x_raya_6)
#Hacemos un gráfico de frecuencias de los X_rayas
qplot(frecuencia_x_raya, geom="histogram",
binwidth = 0.25,
xlab = "x_raya", ylab = "Frecuencia de x_raya")
Si bien es razonable utilizar x̄ para estimar µ, al tomar seis muestras aleatorias podemos ver que sólo dos representan exactamente a nuestra media poblacional µ. Es claro que no esperamos que x̄ sea siempre igual a µ, y sabemos que si tomáramos otra muestra, el azar seguramente nos daría x̄.
Así pues, si x̄ difícilmente nos da el valor exacto de µ y además su valor cambia de muestra a muestra, ¿por qué x̄ es un estimador razonable de la media poblacional µ?3
Veamos que sucede si hacemos el promedio entre estas medias muestrales (es decir, la media de las medias para cada x_raya)
sum_x_raya = x_raya_1 + x_raya_2 + x_raya_3 + x_raya_4 + x_raya_5 + x_raya_6
n_muestras= length(frecuencia_x_raya) #mi tamaño de muestra de x_raya
x_raya_de_rayas = sum_x_raya/n_muestras
print(paste("El promedio de las medias de", x_raya_de_rayas))
## [1] "El promedio de las medias de 2.5"
Por lo que podemos ver, al calcular el promedio de las diferentes x̄ nos da exactamente el valor de µ. Y, viendo el gráfico anterior, puede también aseverarse que -si bien existe dispersión de las medias muestrales- la moda está centrada en µ.
En un muestreo repetido, x̄ tomará algunas veces valores mayores que el verdadero valor del parámetro µ y otras veces, valores distintos. No existe una tendencia sistemática a subestimar o a sobrestimar el valor del parámetro. Debido a que la media de x̄ es igual a µ, decimos que x̄ es un estimador insesgado del parámetro µ4.
Todo esto, sin embargo, ya lo sabíamos (ponele). Pero veamos ahora ¿qué pasa con la Desviación Estándar?
varianza_x_raya = ((x_raya_1-mu)^2+
(x_raya_2-mu)^2+
(x_raya_3-mu)^2+
(x_raya_4-mu)^2+
(x_raya_5-mu)^2+
(x_raya_6-mu)^2)/n_muestras #revisar porque no puedo hacerlo con la función var()
de_x_raya = sqrt(varianza_x_raya)
print(paste("La varianza de las seis x̄ es de",varianza_x_raya, "y el desvío estándar de", de_x_raya))
## [1] "La varianza de las seis x̄ es de 0.416666666666667 y el desvío estándar de 0.645497224367903"
Es decir, para la misma población, en base a nuestro primer cálculo de frecuencias, teníamos una media poblacional µ = 2,5. Este valor coincide con nuestro estimador µx̄ del segundo calculo, con las seis muestras. Sin embargo, hemos reducido el desvío estandar del 1,12 hijos por grupo familiar a 0,65 hijos.
No sólo la desviación típica σ de la distribución de x̄ es menor que la desviación típica de las observaciones individuales, sino que esta se hará aún menor a medida que el tamaño de la muestra aumente. Los resultados de muestras grandes son menos variables que los resultados de muestras pequeñas.
Si n es grande, la desviación típica de x̄ es pequeña y casi todas las muestras dan valores de x̄ muy próximos al verdadero parámetro µ. Es decir, se puede confiar en la media muestral de una muestra grande para estimar de forma precisa la media poblacional.
Lo visto previamente (que a un n más grande la desviación típica de la media x̄ disminuye y, por tanto, x̄ se acerca más a los valores poblacionales) se aplica a cualquier forma en que se distribuyan las medias muestrales (sea normal, asimétrica, etc.). Sin embargo, en Inferencia Estadística es sumamente importante conocer la forma que toma esa distribución, ya que es en función de esto que se podrán (o no) realizar las estimaciones y comprobaciones deseadas.
Los principales elementos que influyen en la forma que toma la distribución de la media muestral son:
Si el tamaño de la muestra que se extrae.
Si la distribución de la variable (x) de la población (N) de la que se extrae la muestra (n)
Si la varianza σ2 o desvío estándar σ de la población (N)
Es conocide
Es desconocide (y si se estima con la varianza muestral (s))
Anticipando, el único caso en que no podremos realizar estimaciones sobre el estimador de la media será cuando el tamaño de la muestra (n) sea pequeña y se desconozca la forma de la distribución de la variable (x) en la población.5
Para todo lo demás le echamos mano a la función de probabilidad normal o la t de student (para cuando n <100 y la desviación estandar σ es desconocida).
Como se dijo, los principales elementos que influyen para determinar la forma de la distribución de las medias muestrales x̄ son tres:
El conocimiento de la forma de la distribución (o no) de la variable en la población original
El conocimiento previo (o no) de la dispersión (σ2 ó σ) de la población (N)
El tamaño de la muestra (n) tomada de la misma
De todas estas, la más importante es el tamaño de la muestra, ya que el Teorema Central del Límite (TCL) ha demostrado que si una muestra elegida aleatoriamente es grande6, la distrbución de cualquier función lineal de valores muestrales tiende a distribuirse normalmente.
En forma algebraica, puede resumirse diciendo que:
x̄ = ∑(xi)/n se distribuye como N(µ ; σ2 / n) cuando n ->∞
La importancia del TCL se debe a que relaciona la teoría de las probabilidades con la teoría del muestreo y, a través de su comprobación, permite utilizar los cálculos de probabilidad de una población normal para responder a preguntas sobre las medias muestrales de muchas observaciones, incluso cuando la distribución de la población es desconocida o no es normal.7
Es decir, sin saber nada acerca de la distribución de la variable original (x) en la poblacion, siempre que µ y σ2 sean finitas, si el tamaño de la muestra (n) es grande la x̄ presenta una distribución normal.
Vale destacar que en la media muestral (x̄),la parte aleatoria es la suma muestral del numerador (∑ xi) -ya que el denominador es una constante (el tamaño de la muestra n)- con lo cual este Teorema se generaliza a cualquier otro caso en que un estimador esté constituido por una suma muestral, y se encuentre o no multiplicado por una constante.
Ejemplo: Guía Conceptual página 45
En cierto momento de la campaña agrícola 2012/2013, se desea evaluar el desarrollo de las plantas de maíz de un campo del sur de Santa fe. Para hacerlo se decide medir la altura de 900 plantas elegidas por métodolo aleatorio (n), sabiendo que el año anterior en ese mismo momento de la campaña, la altura de las mismas tenía un promedio de 85cm (µx̄), con un desvío estándar de 6cm (σx̄).
Suponiendo que las medidas del año anterior se mantienen vigentes, se nos pide:
En principio, sólo tenemos información sobre el tamaño de la muestra (n = 900), la estimación de la media poblacional del año pasado (µx̄ = 85) y su desvío estándar (σx̄ = 6). Sin embargo, al partir de la TCL podemos asumir que como la muestra es grande (n = 900), y µx̄ y σx̄ conocidos:
mu_x_2011 = 85 #estimación del año anterior
de_x_2011 = 6 #estimación del desvío estándar del año anterior
n_2012 = 900 #muestra actual
#esperamos que, por el tamaño muestral, x_raya_2012 = x_raya_2011
x_raya_2012 = mu_x_2011
#calculamos el desvío estandar muestral s
s_2012 = de_x_2011/sqrt(n_2012)
print(paste("Siguiendo la TCL, debido a que el tamaño de la muestra es grande (",n_2012,") puede considerarse que la forma de distribución de las alturas de las plantas de maíz es de una normal con media muestral", x_raya_2012, "y desvío estandar muestral", s_2012))
## [1] "Siguiendo la TCL, debido a que el tamaño de la muestra es grande ( 900 ) puede considerarse que la forma de distribución de las alturas de las plantas de maíz es de una normal con media muestral 85 y desvío estandar muestral 0.2"
Para eso utilizo la función de probabilidad normal para calcular el valor estándar (z score), de la variable a evaluar (x) en la tabla… o utilizo unas líneas de código. Lo que estoy buscando es si la probabilidad de que x < µx̄ dado que x=84,6 y µx̄ =85 en una muestra de 900 plantas (n) con una σx̄=0,2.
##Estimación media poblacional con funcion de probabilidad normal
x_raya = 84.6
mu = 85
de = 0.2
prob_x = pnorm(x_raya, mean= mu, sd=de, lower.tail=TRUE) #Se coloca TRUE porque se busca un valor de x_raya menor a la media dada (lower); si se busca comprobar si el valor es mayor que la media se coloca FALSE
print(paste("La probabilidad de que la media sea inferior a", x_raya, " es de", round(prob_x*100, 2), "%"))
## [1] "La probabilidad de que la media sea inferior a 84.6 es de 2.28 %"
Qué se yo. En fin.
Tenemos que hacer la operación contraria, convertir la probabilidad de robocop_raya = 0,1 ´con la tabla estandarizada del z score a un valor poblacional y ver cuál es el valor de la altura que en vez de estar abajo estaría un 10% arriba de =85, en una muestra de 900 plantas (n) con una σx̄=0,2
##Estimación media poblacional con funcion de probabilidad normal
robocop_raya = 0.1
mu = 85
de = 0.2
robocop_valor = qnorm(robocop_raya, mean= mu, sd=de, lower.tail=FALSE) #Se coloca FALSE porque se busca un valor de x_raya mayor a la media dada (lower=FALSE); si se busca comprobar si el valor es menor que la media Se coloca TRUE
print(paste("La altura que tendría que tener una planta para estar un 10% arriba de la media es de", round(robocop_valor, 2), "cm"))
## [1] "La altura que tendría que tener una planta para estar un 10% arriba de la media es de 85.26 cm"
En los casos en que la muestra n no es grande (y no se puede aplicar el Teorema Central del Límite), pero sí se conoce o se puede comprobar que la distribución de la variable original x (la que se analiza en la población) tiene distribución Normal, se dispone de desarrollos teóricos que demuestran que hay dos alternativas para estimar la media, según conozcamos o no la varianza (σ2 ) o el desvío estándar (σ)de la población:
Ejemplo Guía Conceptual. Página: 46
Se tiene una máquina para el llenado de cajas de cereal, cuyas especificaciones de fábrica dicen que la cantidad que coloca en cada caja (x) es una variable aleatoria que se distribuye normalmente con media µ = 500 gr. y σ desviación estándar de 20gr.
Para verificar si el peso medio de las cajas se mantiene en 500 gr., se toma una muestra aleatoria de 25 cajas (n) en forma periódica, pesándose el contenido de las mismas y calculando el peso promedio de la muestra.
El responsable de la planta ha decidido detener el proceso y encontrar la falla cada vez que el promedio de la muestra sea mayor a 508 gr. o menor a 492 gr.
O sea, queremos que x̄ se mantenga entre 492gr y 508 gr (492<x̄<508), y si bien nuestra muestra de cajas es pequeña (n=25), como ya nos fijeron que x es pequeña podemos utilizar la función de probabilidad normal. Sabemos que la media µ = 500 gr. y σ desviación estándar de 20gr.
Primero, debemos calcular el desvío de nuestra muestra.
##Estimación con funcion de probabilidad normal
mu = 500
de = 20
n = 25
s = de/sqrt(n)
x_raya_menor = 492
x_raya_mayor = 508
prob_x_menor = pnorm(x_raya_menor, mean= mu, sd=s, lower.tail=TRUE) #Calculo la probabilidad de que el proceso se detenga por ser menor a 492
prob_x_mayor = pnorm(x_raya_mayor, mean= mu, sd=s, lower.tail=FALSE) #Calculo la probabilidad de que el proceso se detenga por ser mayor a 508
#sumo sus probabilidades
prob_detencion = prob_x_mayor + prob_x_menor
print(paste("La probabilidad de que el proceso se detenga es de ", round(prob_detencion*100, 2), "%"))
## [1] "La probabilidad de que el proceso se detenga es de 4.55 %"
##Estimación media poblacional con funcion de probabilidad normal
robocop_raya = 0.05
mu = 500
de = 20
n = 25
s = de/sqrt(n)
robocop_valor = qnorm(robocop_raya, mean= mu, sd=s, lower.tail=TRUE) #Se coloca TRUE porque se busca un valor de x_raya menor a la media dada (lower); si se busca comprobar si el valor es mayor que la media se coloca FALSE
print(paste("La cajas contendrían un total de", round(robocop_valor, 2), "gr. de cereal"))
## [1] "La cajas contendrían un total de 493.42 gr. de cereal"
Bueno, aca en el apunte no había nada. Pero sé que todes queremos trabajar con la t de student. Así que para cumplir ese sueño:
Ejemplo 2: Cuando fui a la fábrica de cereales, me robé 8 paquetes de papas fritas (n) que hacía la misma compañía. Soy amigo de un pibe que trabaja ahí y me dijo que entre esos paquetes hay un promedio de 125 gr de papas por paquete y que el peso sigue una distribución normal. Además el chabón tiene rayos x y me dijo que el desvío estandar (s) de los paquetes (muestral) es de 1.5gr.
a. ¿Qué posibilidad tengo de que me toque un paquete de entre 126.5 gr. y 128 gr. de papas?
###Estimación de probabilidad de variable x con t de student
x = 126.5
x_raya = 125
n = 8
s= 1.5
t = (x-x_raya)/((s/sqrt(n)))
t
## [1] 2.828427
prob_t = pt(t, df = n-1, lower.tail = FALSE)
print(paste("la probabilidad de que me toque un paquete con 126.5 gr. de papas o más es de ", round(prob_t*100,2), "%"))
## [1] "la probabilidad de que me toque un paquete con 126.5 gr. de papas o más es de 1.27 %"
Ya se enumeraron algunos de los Parámetros que pueden llegar a estimarse a partir de datos muestrales. Entre ellos figuraba el “Total” X̂), presentándose en ese momento las fórmulas correspondientes al parámetro (X) y su estimador (X̂):
Total Poblacional : X = ∑xi = N.μ y su estimador muestral: X̂ = N.x̄
Es decir que en este caso el estimador del Total Poblacional se construye a partir del estimador de la media, el cual ya se mencionó bajo qué condiciones puede aceptarse que se distribuye normalmente, en particular cuando la muestra es grande y puede aplicarse el Teorema Central del Límite.
Ahora podemos entonces generalizar la manera de identificar un estadístico muestral:
Puede observarse que si la variable es cuantitativa, con k = 1/n, esa expresión es un promedio (x̄), mientras que con k = N/n representa un Total (X̂).8
Por otro lado, la expresión de la varianza σ2/ n solo vale para la media (μ), ya que para un total (X) de una variable (x), aplicando las propiedades arriba mencionadas para la media y la varianza σ2 , será: N2.(σ2/n).
Nota: Esto sólo principalmente a fines de entender mejor las fórmulas que serán utilizadas a continuación para trabajar (en vez de utilizar las de definición).
En resumen: para los casos en que deban resolverse problemas de Totales de una Población, inferidos a partir de datos muestrales, se podrá utilizar la Normal en los mismos casos vistos para la Distribución de la Media Muestral, y la t de Student para el caso allí indicado.
Ejemplo Guía Conceptial. Página 50:
En una finca situada en el Partido de Balcarce (Provincia de Buenos Aires), se desea estimar la producción de papas que aún no ha sido recogida. La finca dedica a ese producto una extensión de 3 km2 ( N = 3.000.000 m2), de los cuales para realizar la estimación solicitada se eligen al azar 400 unidades de 1m2 cada una (n = 400).
Los resultados de la muestra (n) indican que el total de papas recogidas en ella alcanzan a los 1.000 kg. (∑xi), con una dispersión entre unidades de 0,4 kg (s).
En base a esa muestra se debe estimar la cantidad de papas a recoger en toda la finca (N.x̄), como así también realizar una estimación de la dispersión de esa estimación (sNx̄).
Manos a la obra (?)
options(scipen = 999)
N= 3000000
n=400
sum_xi = 1000
s= 0.4
x_raya = sum_xi/n
N_x_raya = N*x_raya
print(paste('la estimación de la producción total de papa de la finca será', N_x_raya,'kilos de papas'))
## [1] "la estimación de la producción total de papa de la finca será 7500000 kilos de papas"
Y ahora vamos con la dispersión del estimador del total, para el cual utilizaremos el factor de correción para poblaciones finitas ya que conocemos el N poblacional.
s_nx = N*(s/sqrt(n)
)*sqrt((N-n)/(N-1)) #Este es el factor de corrección de poblaciones finitas
s_nx
## [1] 59996.01
print(paste('la estimación de la dispersión del estimador del total es de ', s_nx,'kilos de papas'))
## [1] "la estimación de la dispersión del estimador del total es de 59996.0098659936 kilos de papas"
La Proporción (P) y el Total de Casos Favorables (NA) son otros de los parámetros sobre los que analizaremos su forma de distribución. Previamente, se presentaron las fórmulas correspondientes a los parámetros (P y NA) y sus estimadores (p̂ y N.p̂).
Ambos estimadores (p̂ y N.p̂) se construyen (aunque en forma más indirecta) a partir del estimador de la media poblacional (𝝻 sombrerito). Como se vio en el apartado anterior, existen una serie de consideraciones en las cuales puede aceptarse que la media poblacional se distribuye normalmente; en particular, en el caso en que la muestra es considerada grande (n>100) y puede aplicarse el TCL.
Por lo taaanto, la distribución de los Estimadores Proporción y Cantidad de Casos Favorables Muestrales, pueden ser considerados “casos particulares” del Teorema Central del Límite, con lo cual si n es grande se distribuirán normalmente.
En álgebra esto se diría así:
Retomando la forma genérica de identificar un “estadístico” muestral (k.∑xi), ya que para el caso de las proporciones la variable xi sólo puede tomar los valores cero o uno (es dicotómica), si reemplazamos k = 1/n, esa expresión algebraica se convierte en el estimador de la proporciónl (p̂); si reemplazamos k = N/n, nuestra fórmula representa el estimador de total de una clase o cantidad de casos favorables (N.p̂).
Y nuevamente, visualizamos, en la formulación algebraica estos estimadores, que el tamaño muestral (n) es una variable determinante, por lo que se reafirma más arriba dicho sobre su forma de distribución y el TCL. Como si fuera poco, Bernoulli además se encargo de demostrar que su función binomial (perdoná Bernoulli, “tu función”, daaale) al crecer el n tendía a distribuirse como una normal, lo que luego fue generalizado para otras funciones de variables discretas. Acá dejo un video de ejemplo de esa demostración: aproximación de la binomial a la normal.
Como sabemos que la binomial, gracias a la TCL, se distribuye como una normal cuando el tamaño de la muestra (n) es grande, podemos ahora utilizar la función de probabilidad normal para inferir probabilidades sobre el estimador de la proporción (p̂) y la cantidad de casos favorables (N.p̂). Remarcamos entonces: si n no es grande no es posible aceptar que el estimador p̂ se distribuye normallmente, y no puede utilizarse esta función para los trabajos de inferencia estadística.
Para poder utilizar la función de probabilidad normal (cuando se cumple el TCL), debemos estandarizar p̂, como en los casos anteriores. Sin embargo, para estandrizar es necesario hacer una consideración particular en lo que respecta a la varianza σ2 , ya que para calcular la misma sí debemos basarnos en la función binomial.
En forma algebraica, recordemos que:
p̂ = na/n, donde na es la sumatoria de la aparición de la categoría a en nuestra muestra (también puede definirse como p̂ = ∑xi/n, si consideramos cada aparición de a como 1 para cada xi y su ausencia como 0 para cada xi)
Por lo que si la Esperanza de p̂ = P, se espera una Varianza de(p̂) = P.Q9/n. Es decir, la dispersión de p̂ surgirá de la multiplicación de las chances de ocurrencia de nuestro suceso (P entre 0 y 1) y las chances de no ocurrencia del suceso (Q, que es 1-P), sobre el tamaño de la muestra (n).
Si puede aplicarse el TCL porque la muestra es grande, se asume que la distribución de p̂ sigue una forma normal, por lo que p̂ ~ N[P; √(P.Q/n)]
Entonces, la varianza de p̂ (σp̂2) sería σp̂2 = p̂.q̂/n y su desviación estándar σp̂ = √(p̂.q̂/n)
Si se desconoce P,puede ser estimado con p̂, estandarizando el estimador a su z score:
z = (p̂-P)/√(p̂.q̂/n)
Todo esto mismo se aplica para el estimador total de casos favorables (N.p̂), siempre que se pueda aplicar el TCL y se asuma una distribución normal. La única diferencia que entra en juego el total poblacional (N). Por lo que la fórmula para la el desvío estándar de N.p̂, resultaría: σNp̂ = √[N2.(p̂.q̂/n)].
Y ahora sí, vamos con unos lindos ejemplos.
Ejemplo Guía Conceptual. Páginas 52-53:
a. En el caso anterior de la finca donde se producen papas, se desea también estimar el porcentaje de las que presentan defectos como para ser descartadas de la producción total (p̂.100), y la cantidad que son defectuosas (N.p̂).
De un total de 37.500.000 papas (N), en una muestra observada de 5.000 (n), el total de papas con defectos fue de 600 (na, recordar que esta es mi categoría a de casos favorables).
n= 5000
n_a = 600
p_hat = n_a/n
print(paste("El",p_hat*100,"%de las papas son unidades defectuosas" ))
## [1] "El 12 %de las papas son unidades defectuosas"
Y el total de casos favorables (si nos parece que una papa en mal estado es favorable, claro):
options(scipen=999) #para que no me aparezca el resultado en notación científica
N = 37500000
A = p_hat*N
print(paste(A, "de las papas son unidades defectuosas" ))
## [1] "4500000 de las papas son unidades defectuosas"
Y de yapa calculamos la dispersión de ambos estimadores:
s_p_hat = sqrt((p_hat)*(1-p_hat)/n) #entiendase (p_hat)*(1-p_hat) como p*q
s_A= N*s_p_hat #lo miso que arriba pero multiplicado por el total poblacional N
print(paste('el porcentaje de dispersión de la estimación de papas defectuosas es de', round(s_p_hat*100,2),'%, lo que representa en el total de casos unas',round(s_A,2), 'papas defectuosas.'))
## [1] "el porcentaje de dispersión de la estimación de papas defectuosas es de 0.46 %, lo que representa en el total de casos unas 172336.88 papas defectuosas."
b. ¿ Qué probabilidad hay que si la proporción de papas defectuosas fuera del 15% (la voy a llamar p̂b = 0.15, para diferenciar), la estimación de papas defectuosas (N.p̂b) hubiese dado 4.500.000 o menos (A<4.500.000)?
N = 37500000 #este dato ya lo teníamos
p_hat_b = 0.15
A_b = p_hat_b*N
print(paste("Con una proporción de 15%, se hubiese esperado un total de", A_b ,"papas defectuosas"))
## [1] "Con una proporción de 15%, se hubiese esperado un total de 5625000 papas defectuosas"
O sea, lo que tengo que ver es cuál es la probabilidad de que NA<4.500.000 (tener menos de 4.500.000 de papas defectuosas) sabiendo que, en base a mi muestra de 5000 unidades (n=5000) con un 15% de proporción de papas en mal estado, debo esperar 5.625.000 de papas feas (Ab).
Para poder hacer esto tengo que calcular el valor z, por lo que debo en primera instancia hallar la dispersión estándar (s) de mi p̂b
n= 5000
p_hat_b = 0.15
s_p_hat_b = sqrt((p_hat_b)*(1-p_hat_b)/n) #desío estandar muestral
s_A_b= N*(s_p_hat_b) #lo miso que arriba pero multiplicado por el total poblacional N
print(paste('Con un porcentaje de dispersión en la estimación de papas defectuosas del', round(p_hat_b*100,2),'%, la dispersión del total de casos sería de',round(s_A_b,2), 'papas defectuosas.'))
## [1] "Con un porcentaje de dispersión en la estimación de papas defectuosas del 15 %, la dispersión del total de casos sería de 189365.72 papas defectuosas."
Entonces ahora, por ser una muestra grande (n=5000) puedo usar la función de probabilidad normal (pnorm) para calcular mi z score y ver la probabilidad de que mi estimación de papas defectuosas hubiera dado 4.500.000 o menos.
N_a = 4500000
A_b = 5625000
s_A_b = 189365.72
prob_N_a = pnorm(N_a, A_b, s_A_b, lower.tail= TRUE)
print(paste('La probabilidad de que mi estimación de papas defecuosas hubiera dado', N_a, 'es casi 0 (',prob_N_a*100, '%)'))
## [1] "La probabilidad de que mi estimación de papas defecuosas hubiera dado 4500000 es casi 0 ( 0.000000141743561789831 %)"
También puede hacerse considerando la distribución del estimador p̂ (o de la variable nA), considerando que el valor esperado es 0,15 (o sea 750 papas), y que el que se debe comprobar es 600/5.000 = 0,12 (o 600).
Bueno, y ahora el último, que es lo mismo pero al revés:
c. ¿ Y cuál es la probabilidad de que en ese caso (o sea, p̂b = 0,15) la estimación de la cantidad de papas defectuosas (NA) hubiese dado 5.625.000 unidades o más?
N_a = 5625000
p_hat_b = 0.15
A_b = 5625000
s_A_b = 189365.72
prob_N_a = pnorm(N_a, A_b, s_A_b, lower.tail= FALSE)
print(paste('La probabilidad de que mi estimación de papas defecuosas hubiera dado', N_a, 'sería de (',prob_N_a*100, '%)'))
## [1] "La probabilidad de que mi estimación de papas defecuosas hubiera dado 5625000 sería de ( 50 %)"
Con relación al estimador de la varianza (el estadístico S2), sólo se adelantará en este momento (…saraaaan…) que dada una variable aleatoria xi que presenta una distribución normal en la población, con media μ y variancia σ2 , es decir xi ~ N(μ; σ2);
Si se extrae de la misma población una muestra de tamaño n (x1, x2, … , xi ; siendo i variables aleatorias independientes), y se calcula con la misma la varianza muestral (S2) para estimar la varianza poblacional (σ2):
S2 = [1/(n-1)] ∑(xi - x̄)2
La varianza sigue una distribución denominada Chi Cuadrado (χ2), con (n-1, es decir el tamaño de la muestra menos 1) grados de libertad, modificada por el parámetro y sus grados de libertad (meme de si vos ente.
En símbolos: (n-1).S2/σ2 se distribuye como χ2 n-1 (función de Chi Cuadrado con un total de grados de libertad igual al de la muestra menos uno)
Esta función de probabilidad “Chi Cuadrado” fue presentada como una de las distribuciones muestrales.
Lo desarrollado hasta el momento dentro de Inferencia Estadística, pretendía “ascender un nuevo escalón” dentro de los conocimientos necesarios de la Estadística, tendiendo a dar una base que permita introducir posteriormente las nociones y herramientas más acabadas del tema.
Es así, que partiendo de la presentación del significado de los términos más usuales en la Estadística Inferencial, se mencionaron los principales parámetros poblacionales y sus estimadores, se analizaron las formas de las distribuciones uestrales de estos y las condiciones que se debían dar para que sean Normales, y finalmente de vieron algunos casos de estimadores cuyas distribuciones muestrales no eran normales.
Estas estimaciones se hicieron puntualmente, es decir obteniendo con los valores de la muestra extraída (n) se calculó un único resultado que pretendía aproximarse al verdadero valor del parámetro desconocido.
Es decir que con el valor del estadístico calculado en la muestra se obtiene una estimación puntual, con la cual se infiere el valor del parámetro en la población. Se definió que un estimador es un estadístico (variable), y una estimación puntual es cualquiera de sus resultados al aplicarse la fórmula que lo define.
Pero, además, conociendo la forma en que se distribuye un estimador, es posible determinar probabilidades de que sus resultados tomen determinados valores, concepto que es utilizado para la realización de Estimaciones por Intervalos de Confianza.
Para realizar una Estimación por Intervalos de Confianza, se deben calcular a partir del estimador dos valores (uno por debajo llamaso Límite Inferior o Liy otro superior o Ls) en medio de los cuales está debería estar contenido el verdadero valor del parámetro (X*) con una cierta probabilidad (1-⍺).
Este procedimiento inferencial que se denomina Estimación por Intervalos de Confianza conjuga en su técnica de trabajo la Estimación Puntual con la Distribución de Probabilidad de los Estimadores.
En otras palabras:
Una Estimación por Intervalos consiste en la estimación de un Parámetro (X*) por medio de una franja o segmento aleatorio denominado Intervalo de Confianza, cuyos extremos son usualmente identificados con Li o L1 (el inferior) y Ls o L2(el superior), tal que la probabilidad de que el parámetro se encuentre entre Liy Ls no supere un número k de veces el desvío estándar del Estimador σx*, es igual a (1- ⍺), siendo ⍺ un valor pequeño que mide el error o riesgo de que el intervalo no cubra el Parámetro.
Nota: k será el coeficiente de precisión, que se calculará a partir del intervalo de confianza predefinido (1- ⍺). Para encontrar este número se utilizará, según el estimador y/o tamaño de muestra, las tablas correspondientes a las funciones de probabilidad previamente abordadas (normal, t de student ó chi cuadrado)
En símbolos:
P(Li < X* < Ls ) = 1- ⍺, donde:
Li es el Límite Inferior
Ls es el Límite Superior
AM = Ls - Li: es la Amplitud del Intervalo, la que determina la precisión del mismo.
1 - ⍺ es el Nivel de Confianza de la Estimación, o Probabilidad de que el Intervalo cubra al verdadero (y desconocido) valor del Parámetro.
⍺ es el Nivel de Riesgo o Error
Ejemplo: Si ⍺ = 5 %, será 1 - ⍺ = 0,95, esto significa que 95 de cada 100 intervalos construidos con muestras obtenidas con la misma metodología y diseño, cubrirán el verdadero valor del parámetro, y 5 de cada 100 de ellos no lo cubrirán.
Como siempre, el primer acercamiento a la estimación por IC será el de la media o promedio.
De acuerdo al concepto general enunciado, el Intervalo de Confianza para la media poblacional μ estará dado por:
P(x̄-k.σx̄ ≤ μ ≤ x̄+k.σx̄) = 1 - ⍺
Es importante recordar que, a parte de la media muestral y poblacional, es importante considerar el tamaño de la muestra (n), la distribución de la variable (x) en la población original (es decir, si sabemos que presenta una forma de normal), y si conocemos de antemano el devío estandar muestral (s) o poblacional (x̄) y si, además, contamos con el valor del N poblacional, para aplicar el factor de corrección para poblaciones finitas. Es en función de todo esto que deberemos aplicar una u otra fórmula para construir correctamente los límites y calcular el coeficiente de precisión (k).
Entonces, a la hora de hacer estimaciones por IC, aparte de la media muestral y poblacional, se tendrá que considerar que:
| k= z score |
|
|---|---|
| k = t de student (con grados de libertad n-1) |
|
| σ2x̄ = σ2/n | Si el tamaño poblacional (N) es infinito y con varianza (σ2) conocida |
|---|---|
| σ2x̄ = s2/(n-1) | Si el tamaño poblacional (N) es infinito y con varianza (σ2) desconocida (debemos calcular s2 en base a nuestra muestra). Flashback bis: recordar que para calcular la varianza en base a la muestra seleccionada debemos hacer: s2 = ∑(xi -x̄)2 / (n-1) |
| σ2/n ó s2/n debe ser multiplicado por (N-n)/(N-1) | Si el tamaño poblacional (N) es finito y conocido |
Ejemplos Guía Conceptual. Página 56-57:
En este caso, no disponemos de información sobre el tamaño poblacional (N), así como tampoco la forma de distribución del peso medio al nacer en la población (x). Sin embargo, podemos considerar nuestra muestra como grande (n = 100), por lo que es aplicable el TCL, y la función de probabilidad normal (nuestro coeficiente de precisión (k) será el z score)
Nota: La funcion qnorm(z), nos tira el z score para cualquier probabilidad dada (o sea, en vez ir a buscar z a la tabla)
##Estimación media pobacional por intervalos de confianza con z score
confianza = 0.9
x_raya = 30
de = 7 #dispersion poblacional
n = 100
sx = de/sqrt(n) #dispersion de x_raya en la muestra
prob_k = 1-((1-(confianza))/2) #calculo del k
limite = qnorm(prob_k)*sx #k (en este caso z score) por el desvío muestral
li = x_raya-limite
ls = x_raya+limite
print(paste("la media poblacional del peso de los terneros se encuentra entre", round(li,2), "y", round(ls,2), "con un nivel de confianza del", confianza*100, "%"))
## [1] "la media poblacional del peso de los terneros se encuentra entre 28.85 y 31.15 con un nivel de confianza del 90 %"
A diferencia del ejercicio anterior, en este contamos con una muestra pequeña (n<100), peeero sabemos que la distribución de la altura tiene forma de normal y conocemos la dispersión muestral(s2), por lo que puede hacerse el calculo del IC utilizando como coeficiente de precisión (k) la t de Student.
##Estimación de la media poblacional por intervalos de confianza con t de student
#Ejemplo con ejercicio página 57
confianza = 0.95 #1-alpha
x_raya = 0.85
s = 0.3 #dispersion muestral, ya hecha la raiz cuadrada de la varianza 0.09
n = 16
sx = s/sqrt(n) #dispersion de x_raya en la muestra
prob_k= 1-((1-(confianza))/2)
limite = qt(prob_k,df=n-1)*sx
li = x_raya-limite
ls = x_raya+limite
print(paste("la media poblacional se encuentra entre", round(li,2), "y", round(ls,2), "mts, con un nivel de confianza del", confianza*100, "%"))
## [1] "la media poblacional se encuentra entre 0.69 y 1.01 mts, con un nivel de confianza del 95 %"
Si bien es factible hacer con el Total el mismo razonamiento que llevó a determinar la forma de estimar por Intervalos a la Media, viendo la relación directa que existe entre ambos estimadores, surge rápidamente que a partir del Intervalo de Confianza definido para la Media, multiplicando todos los términos por el tamaño poblacional (N) se obtiene el Intervalo de Confianza para el Total, es decir que será:
P(N.x̄-k.σNx̄ ≤ X ≤ N.x̄+k.σNx̄) = 1 - ⍺
Como antes, también, nuestro coeficciente de precisión (k) será el z score o la t de student.
Aclaración: vale decir que, como estamos trabajando ahora sí sobre una población finita, es necesario siempre multiplicar la dispersión del estimador del total por el factor de corrección. O sea:
σNx̄ = N.(σ/√n).√[(N-n)/(N-1)]
Ejemplo Guía Conceptual. Página 57:
En un pueblo del norte bonaerense, una empresa distribuidora de bebidas sin alcohol efectúa un estudio que involucra entre otros trabajos, la realización de la estimación del Ingreso Total Mensual (X) de los 12.000 habitantes (incluidas todas las personas, activas o inactivas) (N).
Para hacerlo se selecciona una muestra de 400 habitantes (n), con la que se realizan los siguientes cálculos:
Ingreso Total Mensual en la Muestra: $ 2.200.000 (suma de los 400 habitantes) (∑xi =2.200.000)
Desvío Estándar Muestral: $ 300 (s2= 300 )
Además, se fija para hacer la estimación, un error aceptable en el 5 % de los casos (⍺ = 0,05 -o como veníamos haciendolo: 1 - ⍺ = 0,95)
(Me da gracia porque se nota que a esta altura se le acabó la nafta al narrador de los ejemplos y ya te tira los datos así, a la que te criaste).
Volviendo al ejercicio:
a. A partir de esta información se deben calcular los límites inferior y superior del Ingreso Total Mensual (X) de los 12.000 habitantes.
Si bien no dice la manera en que se distribuyen los ingresos entre la población, dado el tamaño de la muestra y el resto de la información que tenemos podemos utilizar la función de probabilidad normal y calcular el IC con el coeficiénte de precisión (k) calculado en base al z score.
Recordad usar el factor de corrección para poblaciones finitas!
confianza = 0.95
N = 12000
n = 400
sum_xi = 2200000
x_raya = sum_xi/n
s = 300 #desvío estandar muestral
s_nx = N*(s/sqrt(n) #Desvío estandar del total poblacional
)*sqrt((N-n)/(N-1)) #Este es el factor de corrección de poblaciones finitas
prob_k= 1-((1-(confianza))/2) #calculo del k
limite <- qnorm(prob_k)*s_nx #k (en este caso z score) por el desvío muestral
li <- N*x_raya-limite
ls <- N*x_raya+limite
print(paste("El total de ingresos de la población se encuentra entre $", round(li,2), "y $", round(ls,2), "con un nivel de confianza del", confianza*100, "%"))
## [1] "El total de ingresos de la población se encuentra entre $ 65653121.75 y $ 66346878.25 con un nivel de confianza del 95 %"
b. Y si la muestra hubiese sido de 40 habitantes, con los mismos resultados, pero el gasto se distribuyera normalmente ¿cuál sería la respuesta?
Por ser n pequeño, saber que la variable (x) se distribuye normalmente y no conocerse el Desvío Estándar poblacional (recordar que el que teníamos antes era s muestral, para esos 400 habitantes, o sea, no nos sirve para ahora), debe usarse la t de Student (todos los demás datos son los mismos):
##Estimación del total por intervalos de confianza con t de student
confianza = 0.95 #1-alpha
x_raya = 5500 #calculado en el punto anterior
s = 300 #dispersion muestral, ya hecha la raiz cuadrada de la varianza 0.09
n = 40
s_nx = N*(s/sqrt(n) #Calculamos nuevamente la desviación estandar para el nuevo n
)*sqrt((N-n)/(N-1)) #Este es el factor de corrección de poblaciones finitas
limite = qt(prob_k,df=n-1)*s_nx
li = N*x_raya-limite
ls = N*x_raya+limite
print(paste("La estimación del total de ingresos de la población, en base a la muestra de 40 habitantes, se encuentra entre $", round(li,2), "y $", round(ls,2), "con un nivel de confianza del", confianza*100, "%"))
## [1] "La estimación del total de ingresos de la población, en base a la muestra de 40 habitantes, se encuentra entre $ 64850536.74 y $ 67149463.26 con un nivel de confianza del 95 %"
Con un esquema de análisis similar al de la Media, puede plantearse este caso expresando que el estimador puntual de la proporción poblacional P es la proporción muestral p̂ dada por:
P(p̂ - k.σp̂ ≤ P ≤ p̂ + k.σp̂) = 1 - ⍺
Donde para nuestro coeficiente de precisión (k) será el z score, siempre que n sea grande. Esto se debe a que la proporción, si bien parte de la binominal, quedo demostradó anteriormente que puede trabajarse como una función de probabilidad normal gracias al TCL.
Asimismo, la dispersión
σ2p̂ = p̂.q̂/n (por el factor de corrección si el tamaño poblacional N es finito y conocido)
Ejemplo Guía Conceptuial. Página 59:
De una extensa quinta de la zona de Baradero, se seleccionó una muestra aleatoria de 600 naranjas (n=600, o sea gramde), encontrándose 80 frutos atacados por insectos (na = 80). Estimar por intervalo del 99% la proporción de naranjas atacadas (1 - ⍺ = 0,99)
Debido a que la muestra puede ser considerada “grande”, calculemos:
##Estimación de la proporción por intervalos de confianza con z score
confianza = 0.99
n = 600
n_a = 80
p_hat = n_a/n
s_p_hat = sqrt(p_hat*(1-p_hat)/n) #desvío estandar muestral, sin factor de corrección
prob_k = 1-((1-(confianza))/2) #calculo del k
s_p_hat
## [1] 0.01387777
prob_k
## [1] 0.995
limite = qnorm(prob_k)*s_p_hat #(en este caso z score) por el desvío muestral, pero por algun motivo me da diferente q a ellos.
li = p_hat-limite
ls = p_hat+limite
limite
## [1] 0.03574678
print(paste("El porcentaje de naranjas atacadas por insectos se encuentra comprendido entre ", round(li,3), "y", round(ls,3), "con un nivel de confianza del", confianza*100, "%"))
## [1] "El porcentaje de naranjas atacadas por insectos se encuentra comprendido entre 0.098 y 0.169 con un nivel de confianza del 99 %"
Tomando en este caso como base lo desarrollado para la Estimación por Intervalos de la Proporción Poblacional y el Estimador Puntual del Total Casos Favorables, es también simple arribar a la forma del Intervalo de Confianza para este último parámetro. Veamos:
NA =∑NAxi (me quedó horrible, pero sería la sumatoria de todos los casos favorables NA de los elementos xi), lo que sería también = N.P
O sea, ∑xA es el número de elementos que presentan cierto atributo (ya que x = 1 si lo posee y x = 0 si no lo posee. Y, entonces:
A = N.p
con lo cual, el estimador del Total de Casos (A) es una función lineal del estimador de la proporción.
Con el mismo criterio que en la estimación del Total, a partir del Intervalo de la Proporción, multiplicando todos los términos por N se obtiene el Intervalo de Confianzapara el Total de Casos Favorables, es decir que será:
P(N.p - k.σp ≤ A ≤ N.p + k.σp) = 1 - ⍺
donde k = z score ~ N (0,1); o sea que k se calculará con una probabilidad del z score entre 0 y 1, siempre que n sea grande (por el TCL) y la varianza
σ2N.p = N2.(p.q)/n (recordar que p es la probabilidad de ocurrencia del suceso y q la probabilidad de no ocurrencia del suceso), el cual deberá ser multiplicado por el factor de corrección si el N es finito y conocido.
Ejemplo guía conceptual, página 60.
Volviendo al caso del pueblo del norte bonaerense, en el que una empresa distribuidora de bebidas sin alcohol decide efectuar un estudio que involucra la realización de la estimación del Ingreso Total Mensual de los 12.000 (N) habitantes (incluidas todas las personas, activas o inactivas), se pretende ahora estimar el Total de habitantes Económicamente Activos (NA) que aportan a la integración de ese Ingreso Total.
En la muestra de 400 habitantes (n), resulta que 180 (∑xA=180) e ellos cumplen las condiciones para ser Económicamente Activos. Estimar el total en la población con un intervalo que tenga una probabilidad del 90 % (1 - ⍺ = 0,9) de cubrir a la verdadera cifra.
##Estimación de la proporción por intervalos de confianza con z score
N = 12000
confianza = 0.9
n = 400
n_a = 180
p_hat = n_a/n
q_hat = 1-p_hat
Na = N*p_hat
Na_s = N*sqrt(p_hat*q_hat/n #desvío estandar muestral,
)*sqrt((N-n)/(N-1)) #factor de corrección
prob_k = 1-((1-(confianza))/2) #calculo del k
limite = qnorm(prob_k)*Na_s #(en este caso z score) por el desvío muestral, pero por algun motivo me da diferente q a ellos.
li = Na-limite
ls = Na+limite
limite
## [1] 482.7503
print(paste("Con una probabilidad del", confianza*100,"%, la cantidad de habitantes del pueblo bonaerense en condiciones de Económicamente Activos se encuentra aproximadamente entre", round(li), "y", round(ls), "personas"))
## [1] "Con una probabilidad del 90 %, la cantidad de habitantes del pueblo bonaerense en condiciones de Económicamente Activos se encuentra aproximadamente entre 4917 y 5883 personas"
Al analizarse la distribución de los Estimadores, se mencionó que el estimador S2 es el estimador de la Variancia, y que tiene una forma de distribuirse vinculada a la función de probabilidad Chi Cuadrado presentada en ese mismo momento.
Ahora bien, si se realiza una modificación lineal de la variable z (es decir, si se le suman y multiplican constantes), puede demostrarse que la variable “modificada” tendrá una distribución de probabilidad del tipo Chi Cuadrado presentada en ese mismo momento.
Entonces. mediante simples pasos algebraicos es factible construir el Intervalo de Confianza para la Varianza:
P [S2.(n-1)/(𝜒21-α/2) < σ2 < S2.(n-1)/(𝜒21-α/2)] = 1 - α
El único requisito que se debe cumplir, es que la variable en análisis debe tener distribución Normal. En el caso de que se deseara estimar por Intervalos de Confianza al Desvío Estándar, para el cálculo de los Límites, se puede utilizar la raíz cuadrada de los obtenidos para la Variancia, pero serán sólo valores aproximados, ya que no se conoce la forma en que se distribuye el estimador S.
Ejemplo guía conceptual, página 62:
El Programa Materno Infantil (PROMIN), realiza un estudio sobre la nutrición infantil (niñas/os de 1 hasta 5 años de edad), para el cual se realiza una muestra de niños del Gran Buenos Aires, sobre los que se realizan diversas mediciones antropométricas.
Ya se ha verificado que la altura y el peso de los niños tiene una distribución Normal, pero que sus parámetros difieren de acuerdo con el grado de desarrollo de los mismos. Dentro del estudio, se requiere estimar con un Intervalo de Confianza del 90 % la varianza del peso de los niños, para lo cual se observa una muestra de 50 niños, con la que se obtienen los siguientes datos:El Programa Materno Infantil (PROMIN), realiza un estudio sobre la nutrición infantil (niñas/os de 1 hasta 5 años de edad), para el cual se realiza una muestra de niños del Gran Buenos Aires, sobre los que se realizan diversas mediciones antropométricas.
Ya se ha verificado que la altura y el peso de los niños tiene una distribución Normal, pero que sus parámetros difieren de acuerdo con el grado de desarrollo de los mismos.
Dentro del estudio, se requiere estimar con un Intervalo de Confianza del 90 %, a la Variancia del peso de los niños, para lo cual se observa una muestra de 50 niños, con la que se obtienen los siguientes datos:
s = 1,5 Kg. ; S2 = 2,25
Otros datos a tener en cuenta son los siguientes:
N = 1.400.000 de niños en el GBA
n = 50 niños (de 1 a 5 años)
α = 0,10 (o sea, 1-α = 0,9) lo que determina que los valores de la distribución Chi-Cuadrado con n (50) - 1 = 49 grados de libertad.
Por lo que, entonces:
##Estimación varianza/desvio estandar por intervalos de confianza con chi cuadrado
confianza = 0.9
x_raya <- 14 #no es relevante para este estimador
s <- 1.5 #dispersion muestral
n <- 50 #determina grados de libertad de chi cuadrado
sx<-s/sqrt(n) #dispersion de x_raya en la muestra
prob_k= 1-((1-(confianza))/2)
li <- s^2*(n-1)/qchisq(prob_k, df=(n-1), lower.tail=TRUE) #recordar q estoy buscando todo hasta el li
ls <- s^2*(n-1)/qchisq(prob_k, df=(n-1), lower.tail=FALSE) #idem pero para el ls, por eso lower.tal es FALSE
print(paste("la varianza poblacional se encuentra entre", round(li,2), "y", round(ls,2), "con un nivel de confianza del", confianza*100, "%"))
## [1] "la varianza poblacional se encuentra entre 1.66 y 3.25 con un nivel de confianza del 90 %"
Y si se quiere saber la desviación estándar de la varianza poblacional:
print(paste("la desviacion estandar poblacional se encuentra entre", round(sqrt(li),2), "y", round(sqrt(ls),2), "con un nivel de confianza del", confianza*100, "%"))
## [1] "la desviacion estandar poblacional se encuentra entre 1.29 y 1.8 con un nivel de confianza del 90 %"
Es oportuno mencionar que con cualquier Parámetro de una población, para los cuales se tenga desarrollado algún Estimador basado en muestras, es factible realizar estimaciones por Intervalos de Confianza. El “único” requisito para hacerlo es conocer la distribución muestral del estimador, cuyas condiciones se analizaron anteriormente.
El esquema de trabajo es siempre el mismo, dependiendo del Estimador y de su distribución en el muestreo:
P(Li < Parámetro < Ls) = 1 - α
Donde los valores Li y Ls son funciones de los estimadores, y α el error o riesgo fijado para la estimación.
Todos los métodos comprendidos dentro de la Inferencia Estadística, llevan implícitos la realización de muestras aleatorias o probabilísticas, que son aquellas en las que las unidades que integran las muestras son seleccionadas mediante procedimientos en los que interviene el azar, es decir que la muestra en sí es la resultante de un “experimento aleatorio”.10
Este es un requisito indispensable de la Inferencia Estadística, ya que la selección de muestras aleatorias11 permite el cálculo de las probabilidades de cada una de ellas, y por extensión las probabilidades de cada uno de los resultados de los estimadores que con ellas se calculan. Esta propiedad de las muestras aleatorias, es la que admite introducir los conceptos de “error”, “nivel de confianza”, y de otros términos con los que debe aprender a convivir el profesional que trabaja en Estadística, y que marcan el término que diferencia a esta disciplina de las restantes: la “incertidumbre”.
Si bien no es objetivo de este curso el entrar en detalles relativos a las técnicas de muestreo, para facilitar la comprensión de lo que se debe desarrollar, y delimitarlo a los aspectos específicos de lo que se requiere para poder proseguir avanzando dentro de la Inferencia Estadística, se realizará un bosquejo del amplio capítulo que identifica con mayor precisión la esencia de lo que es la Estadística: el muestreo y las técnicas que incluye. Posteriormente, se abordará los cáculos pertinents para la consideración del tamaño de muestra n, según los parámetros poblacionales que se deseen estimar con un intervalo de confianza y un N dado (o no).
Los tipos o técnicas de muestreo pueden ser clasificacios inicialmente en Aletorios o Probabilísticos y los No Aleatorios. Si bien estos últimos no permiten el nivel de inferencias estadísticas con los fundamentos teoricos que brinda la probabilidad, están muy difundidos para algunas aplicaciones por lo que se presentará en principio sus principios, bondades y defectos.
Es aquel en el cual las unidades que integran la muestra (n) no se eligen por procedimientos aleatorios (no me la container), y por lo tanto no es posible conocer y asignar a cada unidad una probabilidad de ser seleccionada. Antes de dedicarte a leer todo esto, una aclaración: estas técnicas No Aleatorias, no forman parte de las que serán consideradas para la realización de inferencias estadísticas.
Las técnicas No Aleatorias pueden ser clasificadas en:
Circunstancial, casual o fortuito: quien realiza la elección de las unidades, lo hace de modo de cubrir la mayor cantidad de casos en el menor tiempo posible, y lo hace seleccionando a aquellas unidades y le resultan más accesibles. La muestra se elige entonces por comodidad o circunstancialmente. Por ejemplo: queremos ver cuantas personas piensan que en este país la gente es pobre porque quiere y algune empieza a tirar que el abuelo de sultano vino sin un mango y en base a eso ahora es dueño de tres restoranes que quebraron. No mentira, un ejemplo malísimo pero sin lugar a dudas sobre el cual la gran mayoría de las conversaciones de la cena familiar tienen lugar, pero nunca te van a dar pelota porque estudiaste estadística. A nadie le va a importar.
No obstante, la mesa familiar es un hermoso ejemplo de por qué esta técnica tiene alto riesgo de sesgos o errores sistemáticos (sobre todo en mesas gorilas). Pero bueno, en caso de poblaciones homogéneas a veces este tipo de muestras brinda resultados satisfactorios, aunque con los problemas ante señalados.
E.G. : En arqueología se obtienen conclusiones a partir de los elementos que se pueden conseguir a mano, algo similar ocurre a veces en las ciencias de la salud o la astronomía.
Puede ser mejorado con el muestreo por cuotas, que será visto después, en el cual el que realiza las entrevistas o contactos con las unidades a muestrear debe cumplir con cierta representación en esas cuotas.
Selección Experta: es el caso en que se recurre a expertos para seleccionar especímenes, unidades o grupos que, a su juicio, sean considerados representativos de la población. Una variante de este método es componer una muestra integrada por todos los respondentes que se suponen calificados. No obstante las bondades aparentes, la subjetividad de la opinión experta puede llevar a una mala elección, falseando los resultados.
Intencional u Opinable: en una derivación de la anterior. En este caso los encuestadores o seleccionadores eligen expresamente las unidades que participarán de la muestra, recurriendo a su intención u opinión. En general la elección de las unidades intenta obtener una “muestra representativa” de la población bajo estudio, pero esta representatividad queda sujeta a la subjetividad y preferencias de quien elige. Sus defensores aducen que un buen muestrista debe poder elegir una mejor muestra que el azar, y lo sacrifican arriesgándose a que influya consciente o inconscientemente en los resultados, su intención o inclinación por ciertas unidades. También sacrifican la posibilidad que brinda el azar de medir los posibles errores adjudicables al muestreo.
Por Cuotas: para el caso anterior se considera que una forma de mejorar la representación de la población que se muestrea es adjudicando porciones de la muestra a las unidades que cumplen una cierta condición, arribándose a lo que se conoce como “Muestreo por Cuotas” de difundida aplicación en los estudios de mercado o los de opinión.
A los encuestadores se los instruye para obtener cuotas preestablecidas, de clases de elementos que presentan alguna característica común. La selección de las unidades dentro de la población, queda a cargo del encuestador, quien únicamente debe respetar los tamaños fijados para las cuotas.
E. G.: en un estudio del mercado automotor, las cuotas asignadas a los encuestadores pueden consistir en entrevistar un número determinado de propietarios de vehículos de diferentes marcas, por ejemplo: 7 propietarios de Renault; 6 de Ford; 4 de Volkswagen; 5 de Fiat, etc., pero es el encuestador quien elige según su criterio a los propietarios de cada tipo de vehículo hasta agotar la correspondiente cuota.
Por Cuotas “cuasi” Probabilístico: últimamente en las grandes ciudades se agudizaron los inconvenientes de los encuestadores para entrar en los hogares particulares. Esto trajo como consecuencia cierta popularización del muestreo por cuota, pero cumpliendo algunas condiciones que lo acercan al muestreo probabilístico.
El diseño consiste en:
a) Seleccionar en forma aleatoria, en una primera etapa, manzanas urbanas,
b) determinar los tamaños de cada cuota sobre la base de sus pesos en la población que se suponen conocidos (por ejemplo de un censo anterior),
c) los encuestadores visitan los hogares de cada manzana elegida, siguiendo algún sistema de contactos, hasta agotar cada cuota, pero con la posibilidad de reemplazar los domicilios en que no lograron concretar la entrevista. n
Este tipo de muestreo es común en las encuestas de opinión, no obstante no es un modelo probabilístico ya que en la última etapa el encuestador elige a conveniencia, lo que lleva a tomar las respuestas de aquel que está dispuesto a responder.
De Poblaciones en Movimiento: es también un tipo de muestra casual o fortuita. La población está constituida por seres vivos (peces, insectos, animales salvajes, etc.) que se capturan para su análisis y sacar conclusiones y se los vuelve a dejar en libertad con alguna marca identificatoria así en caso de recaptura se obtendrían datos con relación a su movilidad, cambios experimentados, etc. Este método es conocido como “Muestreo de Captura y Recaptura”. Podría ser Probabilístico o “cuasi”, si las zonas de “contacto” se seleccionaran al azar.
Grupos Focales: se define como “Grupo Focal” a un grupo de personas que son reunidas en un mismo lugar o espacio físico y que poseen conocimientos para informar sobre un tema especificado a requerimiento de un conductor o encuestador. En otras palabras es una reunión de personas que se suponen capacitadas o expertas para responder sobre el tema en estudio, en la cual el coordinador hace preguntas y obtiene las respuestas individuales o en conjunto, usualmente a través de un diálogo. Si bien puede concebirse que el conjunto de personas que conforman el grupo podrían ser elegidas aleatoriamente, en la práctica es un caso raro que lo sea, por otra parte el diálogo que se establece tiende a modificar las respuestas de los panelistas individuales, pero además los resultados suelen ser muy influenciados por la opinión del encuestador o coordinador.
Otros: existen algunas otras formas de muestreo no probabilístico, pero todas tienen en común, que dependen del criterio individual de una o más personas, o de lo que se pueda obtener, contactar o capturar. En condiciones adecuadas, cualquiera de estos métodos podría ser útil, sin embargo, no es lícito medir el error de muestreo de las estimaciones. La única forma de evaluar una muestra no probabilística, es comparándola con una situación en que los resultados sean conocidos. Esto resulta raro en la práctica, pues si se dispone de los mismos no tiene fundamento realizar la muestra.
Como ya se lo adelantó, es aquel en el cual las unidades que integran la muestra se eligen mediante procedimientos aleatorios y por lo tanto es posible conocer y asignar a cada unidad de la población una probabilidad de ser seleccionada. La operación de selección aleatoria es indispensable en el muestreo probabilístico. Consiste en obtener de una muestra de n números aleatorios del total poblacional N, donde cada uno identifica a una unidad de muestreo seleccionada, y su conjunto constituye la muestra probabilística.
El sistema de selección de las unidades de la población puede ser cualquiera que garantice que todas y cada una de ellas tenga una probabilidad conocida y distinta de cero de participar de la muestra. En la práctica, esta probabilidad es asignada a cada unidad de muestreo en forma automática, a través de la selección aleatoria. Estos son números seleccionados al azar, dentro del rango determinado por la cantidad de unidades de la población.
Para la selección son válidas tanto las Tablas de Números Aleatorios, cualquier juego de azar (dados, bolilleros, ruletas, etc.), números aleatorios generados en una calculadora o sistema de procesamiento electrónico (planillas de cálculo, “software” estadísticos, etc.).
En definitiva las unidades de la población son seleccionadas por algún procedimiento que garantice la incorporación aleatoria a la muestra. Por otra parte solo si la muestra es probabilística se justifica medir el error debido al muestreo de los estimadores.
Dependiendo de las características de la población, y del conocimiento que se tenga de ellas, existen diversas Técnicas Muestrales que se pueden aplicar, existiendo para cada una extensos desarrollos teóricos que fundamentan y permiten el cálculo de los estimadores y de sus dispersiones.
Sin pretender entrar en mayores detalles, pueden enunciarse las siguientes Técnicas de Muestreo:
Muestreo Aleatorio Simple (MAS) o Muestreo Simple al Azar
Como su nombre lo sugiere, es la técnica de muestreo más simple y es la que se toma como base para todos los desarrollos teóricos de la Inferencia Estadística que se desarrollaron y se desarrollarán. Para su aplicación se requiere tener identificadas a todas y cada una de las N unidades que integran la población (por ej.: con un número individual y unívoco) y, aplicando algún sistema aleatorio de selección, elegir a partir de ellos cada una de las n unidades que integrarán la muestra.
Lo lógico es que las unidades sean elegidas sin reemplazo (es decir que no exista la posibilidad de elegir dos o más veces a la misma unidad), sin embargo dentro del cálculo muestreo se realiza con reemplazo, los que tienen aplicaciones a ciertos casos particulares.
Si bien lo usual en el MAS es que todas las unidades de la población tengan la misma probabilidad de ser elegidas en la muestra, esta no es una condición indispensable, aunque de ser así se facilitan las fórmulas que se deben aplicar para realizar las estimaciones y medir sus dispersiones.
Muestreo Sistemático (MS)
Con esta técnica de selección, se debe identificar (por ej.: numerar), una parte de la población (las primeras k unidades), elegir de ellas una al azar por MAS, y a partir de la elegida seleccionar las n – 1 restantes en forma sistemática, una cada k unidades (es decir, saltear k – 1 unidades y tomar para la muestra a la k-ésima).
El MS se muestra más eficiente que el MAS en el caso que previo a la selección las unidades se encuentran o son ordenadas en base a algún aspecto o variable que tiene que ver con la causa del muestreo (por ej.: si se tiene que elegir una muestra de unidades producidas a fin de controlar su calidad, tenerlas ordenadas de acuerdo con la hora en que salieron de la producción en serie). Tiene el riesgo de que, si el orden de las unidades contiene algún factor que coincide con el salto sistemático, la muestra puede brindar resultados muy sesgados.
De las diversas técnicas de muestreo, el MS es la de menor desarrollo teórico, y en muchos casos las estimaciones y cálculo de dispersiones de muestras elegidas sistemáticamente se efectúan mediante las fórmulas del MAS.
También en este caso las unidades suelen tener la misma probabilidad de selección, aunque de ser necesario es posible asignar probabilidades diferentes a cada una (por ej.: probabilidades proporcionales al tamaño), aspecto que debe ser tenido en cuenta al momento de realizar las estimaciones (cada unidad de la muestra debe ser ponderada por la inversa de su probabilidad de selección).
Muestreo Replicado
La muestra total esta compuesta por un número de submuestras elegidas de la misma población. Por ejemplo por este método en lugar de seleccionar una única muestra de n = 500, seleccionaríamos 5 (u otra cantidad) muestras independientes de 100 elementos cada una de la misma población de “N”.
Muestreo Estratificado (ME)
Consiste en subdividir a la población en partes o “estratos”, dentro de cada uno de los cuales las unidades deben ser lo más parecidas posibles (en cuanto al aspecto o variable por las que se muestrean), pero entre ellos las unidades contenidas deben ser lo mas diferentes posible. La técnica prevé que dentro de cada estrato se obtenga una parte de la muestra total, haciéndoselo mediante MAS o MS12.
De construirse bien los estratos usualmente el ME logra mejores resultados que el MAS o del MS. Su principal desventaja es el conocimiento que se debe tener de la población, y su acondicionamiento para que se puedan extraer muestras independientes de cada estrato.
Para la determinación de la muestra a extraer dentro de cada estrato, se puede recurrir a diversos criterios alternativos: igual tamaño de muestra en cada estrato, proporcional al tamaño de cada uno en la población, asignación óptima (proporcional a la dispersión que presentan las unidades dentro de cada estrato), o asignación por costo (inversamente proporcional al costo de seleccionar cada unidad en cada estrato).
De acuerdo con el procedimiento de asignación de la muestra a cada estrato, varían las fórmulas que se deben aplicar para el cálculo de los estimadores y sus dispersiones.
Muestreo por Conglomerados
Esta técnica requiere disponer la población en grupos o partes que cumplen características totalmente inversas a los estratos. En este caso, los “conglomerados” deben contener dentro de sí a todo tipo de unidades, y representar cada uno un fiel reflejo de la población total; y en ese caso todos los conglomerados deberían ser parecidos entre si en lo que concierne a su constitución o estructura.
Cumplido ese requisito, la técnica consiste en elegir uno o varios de esos conglomerados, para constituir con todas sus unidades la muestra a observar. De no cumplirse las condiciones de esta técnica, sus resultados pueden dar resultados muy sesgados, pero tiene la ventaja de ser usualmente la más económica de las técnicas de muestreo. Debido a que uno de los campos de aplicación más frecuente es en los muestreos de zonas geográficas, se lo conoce también como “Muestreo por Áreas”.
Paneles
Se define como “Panel” a un grupo de unidades (personas, hogares, etc.), que son seguidas a través del tiempo para medirles un conjunto de variables similares en cada una de las tomas o muestras, y analizar su evolución.
En realidad los “Paneles” no constituyen una técnica de muestreo diferente, ya que para constituir la muestra de unidades que se analizarán cronológicamente, puede recurrirse a cualquiera de las otras técnicas conocidas.
Representa más bien una forma de análisis de la población, que contiene dentro de si una serie de particularidades que le han dado un desarrollo teórico especial, para por ejemplo determinar cómo tratar a las unidades que “desaparecen” con el correr de las tomas, los cambios que esas unidades van teniendo en el tiempo, etc. (reemplazarlas o no).
Otras técnicas muestrales
Sin ser ubicadas entre las técnicas muestrales “originales”, a lo largo del tiempo se fueron desarrollando diversas técnicas muestrales, tendientes a satisfacer casos o problemas particulares que no resolvían las técnicas ya existentes. Cada una de ellas tiene sus propios desarrollos teóricos que las sustentan, y campos de aplicaciones específicos, que se van extendiendo a medida que se encuentran similitudes para adaptarlos a otros casos. Algunas de ellas son: Muestreo Doble, Muestras Replicadas, etc.
Técnicas de Muestreo Combinadas o Complejas
Existen pocos casos en la realidad, en que las técnicas enumeradas pueden ser aplicadas individualmente sin alteraciones o agregados13. En la mayoría de los casos (particularmente cuando deben contactarse personas), se deben realizar “Diseños Muestrales” en los que se combinan dos o más tipos de muestreo con varias fases de trabajo, y posteriormente los estimadores y sus dispersiones en las diversas etapas de muestreo deben ser calculados especialmente.
Hasta el momento, se presentaron los aspectos y conceptos iniciales de la Estadística Inferencial (los Parámetros y sus Estimadores, las distribuciones de éstos, etc.), dedicando Intervalos de Confianza.
Este tema se debe tomar como punto de partida para la determinación del tamaño de la muestra, ya que como se lo visualizó al analizarse los componentes de los límites de los Intervalos (Li y Ls), la precisión o amplitud (d), el nivel de confianza (1-⍺), la dispersión (σx), el tamaño de la población (N) y el tamaño de la muestra (n) que se observa, se encuentran íntimamente vinculados y el conocimiento o la fijación de algunos de ellos permite determinar el valor o tamaño de los demás.
La Determinación del Tamaño de la Muestra a extraer de una población (n), es uno de los aspectos de la Inferencia Estadística que aparece para muchos de los que se inician en el tema, como rodeado de cierto halo de hechizo y misterio, que solo puede ser develado por algunos privilegiados.
Otra de las creencias que rodean el tema (y que se contrapone con la visión “mágica” anterior), es que una muestra para ser “representativa” de la población de la cual se extrae, basta con que resulte proporcional a los diversos componentes que integran esta.
Finalmente, están los que piensan que la única muestra “buena” es la que obtienen ellos, y que usualmente es de las del tipo “dirigida”14 , es decir sin que el diseño prevea algún procedimiento aleatorio en la selección de las unidades de la población.
Ni la visión “mágica”, ni la “simplista”, ni la “dirigista” son ciertas, pero lo que si es innegable es que la determinación del tamaño de la muestra es uno de los temas inferenciales más relevantes, en donde se conjugan una cantidad de aspectos conceptuales de la Estadística y de las Probabilidades, cuya comprensión y manejo permite avanzar sin inconvenientes en otros temas.
Ahora bien, existen muchas de incógnitas alrededor de este tema, como ser:
¿Cuáles son los factores que influyen ?
¿Todos los factores que participan tienen el mismo grado de influencia?
Si las muestras se realizan con el fin de realizar inferencias sobre los Parámetros ¿cómo participan estos o cuáles de ellos son los que permiten determinar el n?
Para la determinación del tamaño de n ¿ se requiere el cumplimiento de condiciones especiales?
Obtenido un cierto tamaño en la muestra a extraer, ¿ su aplicación es irrestricta, o deben verificarse ciertos aspectos para que su utilización sea válida?
A todas estas preguntas, debería agregarse otro aspecto: la influencia que tiene en la determinación del tamaño de la muestra el Diseño Muestral utilizado, tema sobre el que se ha introducido en el punto anterior. Esto es concluyente al tener que determinarse el valor del n a utilizar. Sin embargo no es tema de este curso y recién se lo desarrollará en la materia específica de “Muestreo”.
Para poder seguir adelante con el tamaño de la muestra dentro de la Inferencia Estadística, se adoptará que la muestra se elige aleatoriamente, y que el Diseño Muestral que se aplica es el más básico de todos: el Muestreo Simple al Azar o Muestreo Aleatorio Simple (MAS).
Resumiendo lo mencionado en el punto anterior, los requisitos de aplicación del MAS son los siguientes:
Tener numerados o identificados inequívocamente a cada uno de los N elementos que componen la población.
No preparar ni ordenar los valores de la población con ningún criterio ni lógica previa.
Elegir las unidades de la muestra mediante algún método aleatorio (tablas impresas de números al azar, uso de software informático, uso de calculadoras avanzadas, etc.).
Suponiendo la estricta aplicación del MAS, en las páginas siguientes se intentarán responder las dudas o preguntas planteadas, cada una de las cuales está vinculada a una o varias de las demás. Para hacerlo se comenzará respondiendo una de esas preguntas anteriores, la que dará la posibilidad de ir paulatinamente abordando a las restantes:
Una de las formas de enfocar el análisis de la determinación del tamaño de la muestra, es partiendo de que la misma será utilizada para estimar algún parámetro. Tomaremos inicialmente como en otros casos, el problema de la estimación de la Media Poblacional μ.
Si la determinación de un tamaño de muestra tiene por objeto realizar una estimación de la Media Poblacional (μ), deben fijarse las condiciones bajo las cuales se desea realizar esa estimación (por ejemplo, la precisión que se pretende tener (d) y el grado de confianza 1-⍺ con que se quiere realizarla).
La fijación de esas condiciones, ligadas al conocimiento que se debe tener de algunos aspectos de la población (su tamaño N y dispersión σx), permiten razonar y despejar de todos estos datos el tamaño de n que satisface las condiciones requeridas a partir de los conocimientos disponibles. Veamos:
Al querer estimarse una μ con un Intervalo de Confianza, se debe conocer el tamaño de la Población N15, ya que parece lógico suponer que cuanto más grande es N, mayor debe ser la muestra n.
También es importante conocer la dispersión (σx) de la población, ya que también parece lógico que cuanto más dispersos sean los valores de la variable, mayor debería ser la muestra que los represente.
Por otro lado, debe fijarse el grado de precisión (d) con que quiere realizarse la estimación, ya que al trabajarse con una muestra (en realidad con un estimador calculado a partir de ella), no puede pretenderse realizar la estimación sin errores. Lo que sí es factible, en limitar ese posible error a un cierto valor aceptable (sería la diferencia entre el parámetro y su estimador, es decir, d). En este caso la lógica indica que cuanto más precisión se pretende en la estimación, mayor debería ser la muestra a extraer.
Finalmente, al ser el Estimador una variable, debe fijarse un cierto grado de confianza con el cual trabajar (1-⍺), a partir del cual se pronosticará correctamente con una probabilidad ligada al mismo, y se cometerán errores en un ⍺% de los casos en que se realice la estimación bajo las mismas condiciones. La lógica en este caso sugiere que cuanto mayor sea el nivel de confianza (1-⍺) con que se quiere realizar la estimación, mayor deberá ser la muestra (n) a observar.
Resumiendo lo expresado con la simbología apropiada, si con la muestra a extraer se pretende calcular un Intervalo de Confianza del tipo:
P (Li < μ < Ls ) = 1-⍺
donde oportunamente se llamó: A = Li - Ls que es la amplitud del Intervalo de Confianza (o precisión de la estimación). La mitad de esta amplitud, es lo que se denominó como la diferencia aceptable entre el parámetro y su estimador: d. Es decir que si d = A/2 también A = 2.d.
Aclaración, antes de pasar a dar todas las fórmulas: para que el valor calculado de n tenga validez, debe comprobarse (o conocerse) que x̄ sigue una Distribución Normal.
Reemplazando los límites del Intervalo por su forma de calcularlos (nota: k es el coeficiente de precisión, que en este caso refiere a la Función de Probabilidad Normal, es decir, el z score):
P (x̄-k.σx̄ ≤ μ ≤ x̄+k.σx̄) = 1-⍺
donde: σx̄ = (σ/√n).√[(N-n)/(N-1)]; y si dejamos inicialmente de lado el Factor de Corrección para poblaciones finitas (es decir, suponiendo, N = ∞) simplificamos: σx̄ = σ/√n, de donde: A = Li-Ls = 2.d = 2.k (σ/√n), es decir que d = k.(σ/√n), por lo que para calcular n:
n = (k2.σ2)/d2
En esta fórmula se verifica el análisis lógico realizado anteriormente:
El tamaño de n es directamente proporcional a la Dispersión de la Población (σ), y este valor debe ser conocido o estimado previamente.
También es directamente proporcional al nivel de confianza fijado como condición (1-⍺), ya que este es el que determina el valor de k. Este valor k debe ser calculado con la Función de Probabilidad Normal, que se adopta como forma de distribución del estimador x̄.
La muestra es inversamente proporcional a la diferencia pretendida entre el estimador y su parámetro (d), y como a mayor d, menor es la precisión de la estimación, una condición de mayor precisión implica un mayor tamaño de muestra. Debe ser fijado como condición a cumplir con la muestra a extraer.
En el caso de que la Población N sea finita y conocida, para despejar el valor de n se complica la fórmula, ya que debe usarse el factor de corrección:
d = k.(σ/√n).√[(N-n)/(N-1)], por lo que para calcular n:
n = (k2.σ2)/(d2+ (k2.σ2)/N)
fórmula con la que se comprueba que cuanto mayor sea N, mayor es la muestra que debe extraerse.
Ya se dispone de dos fórmulas para calcular el tamaño de muestra en los casos en que con la misma se desee estimar un promedio poblacional: una (la más simple) cuando se desconoce el tamaño de la Población (o se la supone como muy grande), y otra para cuando la población es finita y conocida.
Ahora bien, ¿que supuestos implica el desarrollo que se realizó para lograr esas fórmulas?; o bien, ¿pueden ser aplicadas indiscriminadamente sin ninguna limitación? Las respuestas a estas dos preguntas tienen un mismo punto de referencia, señalado previamente:
Para llegar a cualquiera de las dos fórmulas alcanzadas, se partió de un supuesto implícito: que la media que se calcule con la muestra que se extrae sigue una Distribución Normal. Debido a ese supuesto es que se pudo calcular el n utilizando el valor de k, que queda determinado por el nivel de confianza 1-⍺ fijado previamente como condición.
Y ahora sí, lo que todes queríamos, unos ejemplos super ilustrativos.
Ejemplo Guía Conceptual, página 73:
a. Para la realización de un estudio relativo al ingreso familiar en la ciudad de San Nicolás (Provincia de Buenos Aires), se decide realizar una muestra (n) que permita estimar el promedio (x̄) con un error máximo de $ 125 (d) y un nivel de confianza del 90 % (1-⍺ = 0,9). En la última medición realizada, la dispersión (σ) del ingreso de la totalidad de las 20.000 (N) familias de la ciudad era de $ 3.000 (σ = 3000).
En este caso se trata de una población finita, por lo que deberemos usar el factor de corrección y la fórmula n = (k2.σ2)/(d2+ (k2.σ2)/N), para calcular el tamaño de la muestra.
N = 20000 #total de familias
de = 3000 #desviacion estandar en pesos
confianza = 0.9 # 1 - alpha
d = 125 #error entre el estimador y
#primero deberemos calcular nuestra probabilidad k para un intervalo de confianza de 0.9, para el cual, después con la función qnorm(), calcularemos el z score
prob_k = 1-((1-(confianza))/2) #calculo del k
#ahora la formula completa
n = (qnorm(prob_k)^2*de^2)/(d^2+(qnorm(prob_k)^2*de^2)/N)
print(paste("La muestra para estimar el promedio de ingresos familiar debe ser de", ceiling(n), "familias"))
## [1] "La muestra para estimar el promedio de ingresos familiar debe ser de 1446 familias"
Esta cifra siempre se redondea para arriba (el valor arrojado era de 1445,74 familias). Nota: uso en r la función ceiling(), que sirve para redondear al número entero mayor, en caso decimales
Lo fundamental aquí es reconocer que este valor es lo suficientemente grande (n>100) para suponer que la x̄ que se calcula con ella se distribuirá de manera normal (en función del TCL). De esta forma, el cáculo realizado puiede ser considerado válido.
b. Entonces, ¿cuál habría sido y qué hubiese sucedido con el tamaño de la muestra, si de acuerdo con los datos del año anterior, la dispersión de la población hubiera sido de $ 500 (σ = 500)?
Antes de realizar los cálculos es importante mencionar que, como se dijo previamente, el tamaño de la muestra n es directamente proporcional a la dispersión σ. A simple vista, entonces, podemos predecir que nuestra dispersión seis veces menor a la que teníamos previamente implicará una redución en nuestro valor calculado para el tamaño de la muestra. La pregunta apunta, entonces, a saber si en base a este nuevo n, la muestraserá lo suficientemente grande como para considerar que nuestra x̄ sigue una distribución normal que permita realizar inferencias.
Veamos:
N = 20000 #total de familias
de = 500 #desviacion estandar en pesos actualizada
confianza = 0.9 # 1 - alpha
d = 125 #error entre el estimador y
#primero deberemos calcular nuestra probabilidad k para un intervalo de confianza de 0.9, para el cual, después con la función qnorm(), calcularemos el z score
prob_k = 1-((1-(confianza))/2) #calculo del k
#ahora la formula completa
n = (qnorm(prob_k)^2*de^2)/(d^2+(qnorm(prob_k)^2*de^2)/N)
print(paste("La muestra para estimar el promedio de ingresos familiar debe ser de",ceiling(n), "familias"))
## [1] "La muestra para estimar el promedio de ingresos familiar debe ser de 44 familias"
Si se hubiese dado que la dispersión poblacional era de $ 500, el cálculo de la fórmula hubiese dado n ≅ 44 familias, cifra muy pequeña como para poder considerar que la x̄ que con ella se calcule se distribuirá normalmente, más aun sabiendo que el ingreso familiar (el de la población) no tiene una distribución normal (usualmente es muy asimétrico).
En este caso el valor encontrado para n no hubiese sido conceptualmente aplicable. También se observa que a menor dispersión de la población, es razonable que la muestra requerida sea menor.
c. ¿ Y qué hubiese pasado en el caso a) si se desconociera el tamaño de la Población de familias de San Nicolás?
Bueno, acá lo que tenemos que hacer es desestimar el factor de corrección y utilizar la primera fórmula:
de = 3000 #desviacion estandar en pesos
confianza = 0.9 # 1 - alpha
d = 125 #error entre el estimador y
#primero deberemos calcular nuestra probabilidad k para un intervalo de confianza de 0.9, para el cual, después con la función qnorm(), calcularemos el z score
prob_k = 1-((1-(confianza))/2) #calculo del k
#ahora la formula completa
n = (qnorm(prob_k)^2)*(de^2)/(d^2)
print(paste("La muestra para estimar el promedio de ingresos familiar debe ser de", ceiling(n), "familias"))
## [1] "La muestra para estimar el promedio de ingresos familiar debe ser de 1559 familias"
La diferencia respecto al n del punto a) es de casi un 8 % (1446 vs. 1558), con lo que puede apreciarse que las 20.000 familias de San Nicolás puede ser considerada una Población no muy grande, ya que su consideración y utilización modifica sustancialmente el tamaño de la muestra resultante (8%).
d. ¿ Qué hubiese sucedido con el tamaño de la muestra calculado en (a) o en (c), si…
Conceptualmente, como se vio, si aumenta el nivel de confianza, nuestro n deberá ser mayor.
N = 20000 #total de familias
de = 3000 #desviacion estandar en pesos
confianza = 0.99 # 1 - alpha
d = 125 #error entre el estimador y
#primero deberemos calcular nuestra probabilidad k para un intervalo de confianza de 0.9, para el cual, después con la función qnorm(), calcularemos el z score
prob_k = 1-((1-(confianza))/2) #calculo del k
#ahora la formula completa
n = (qnorm(prob_k)^2*de^2)/(d^2+(qnorm(prob_k)^2*de^2)/N)
print(paste("La muestra para estimar el promedio de ingresos familiar debe ser de", ceiling(n), "familias"))
## [1] "La muestra para estimar el promedio de ingresos familiar debe ser de 3209 familias"
N = 20000 #total de familias
de = 3000 #desviacion estandar en pesos
confianza = 0.9 # 1 - alpha
d = 100 #error entre el estimador y
#primero deberemos calcular nuestra probabilidad k para un intervalo de confianza de 0.9, para el cual, después con la función qnorm(), calcularemos el z score
prob_k = 1-((1-(confianza))/2) #calculo del k
#ahora la formula completa
n = (qnorm(prob_k)^2*de^2)/(d^2+(qnorm(prob_k)^2*de^2)/N)
print(paste("La muestra para estimar el promedio de ingresos familiar debe ser de", ceiling(n), "familias"))
## [1] "La muestra para estimar el promedio de ingresos familiar debe ser de 2171 familias"
Bueno, a diferencia del punto anterior -y como ya se dijo- el error tolerado es inversamente proporcional al tamaño de muestra, por lo que a menor d, mayor n.
N = 10000 #total de familias
de = 3000 #desviacion estandar en pesos
confianza = 0.9 # 1 - alpha
d = 125 #error entre el estimador y
#primero deberemos calcular nuestra probabilidad k para un intervalo de confianza de 0.9, para el cual, después con la función qnorm(), calcularemos el z score
prob_k = 1-((1-(confianza))/2) #calculo del k
#ahora la formula completa
n = (qnorm(prob_k)^2*de^2)/(d^2+(qnorm(prob_k)^2*de^2)/N)
print(paste("La muestra para estimar el promedio de ingresos familiar debe ser de", ceiling(n), "familias"))
## [1] "La muestra para estimar el promedio de ingresos familiar debe ser de 1349 familias"
En este último caso, al ser menor la Población de referencia, parece lógico que la muestra necesaria sea también menor. No obstante, puede comprobarse también que el N es el elemento que menos influye en la determinación del tamaño de muestra n (con un N de 10.000, es decir 50% menor al original (20.000), la variación respecto a nuestro n del punto a) (1446), es de 6,7%).
Bueno, básicamente de ahora en adelante todos los razonamientos matemáticos son los mismos para el resto de los estimadores de parámetros, con algunas pequeñas modificaciones en las fórmulas.
Se parte de que se quiere estimar X con:
P (Li < X < Ls ) = 1-⍺
Donde reemplazando los límites por sus formas de cálculo se tiene:
P(N.x̄-k.σNx̄ ≤ X ≤ N.x̄+k.σNx̄) = 1 - ⍺
que, considerando el factor de corrección para poblaciones finitas (situación obligada por tratarse del Total), nos da la fórmula:
n = (N2.k2.σ2)/(d2+ (N2.k2.σ2)/N) ó, simplificando las N:
n = (N.k2.σ2)/(d2+ (N.k2.σ2)
Ejemplo Guía Conceptual, página 78:
a. Los responsables del Sector de Abastecimiento de un Centro Comercial del oeste del Gran Buenos Aires necesitan estimar el monto total (X) que las familias de su zona de influencia destinarán a los gastos de artículos de librería y afines durante el segundo trimestre del año.
Para hacerlo deben determinar el tamaño de la muestra de familias a encuestar, sabiendo que el total de las mismas (las que habitan su zona de influencia) es de aproximadamente 4.000 (N = 4000), y que el año anterior el promedio (x̄) de los gastos del mismo trimestre fue de $180 por familia (x̄=180) y la dispersión (σ) llegó a los $50 (σ=50).
La estimación se la quiere realizar con un nivel de confianza del 95% (1-⍺ = 0.95) e intentando que la estimación difiera (d) del monto total desconocido en menos del 10% (nota: tomando como referencia el Total del año anterior).
Entonces, lo primero que tenemos que hacer es calcular d, haciendo una estimación puntual del total de gastos de artículos de librería y afines (X)del año anterior y ver cuál es el 10% del mismo; ese será nuestro d.
#Estimación puntual de X para el año anterior
N=4000
x_raya = 180
X = N*x_raya
#Calculo de d, siendo deseado el 10% de X como diferencia entre el estimador y su parámetro
d = X*0.1
print(paste("El error máximo aceptado para el calculo del total será de",d,"$"))
## [1] "El error máximo aceptado para el calculo del total será de 72000 $"
Y ahora realizamos el cálculo de n para el estimador del Total (X), dada la información presentada previamente.
#Estimación puntual de X para el año anterior
N = 4000 #total de familias
de = 50 #desviacion estandar en pesos
confianza = 0.95 # 1 - alpha
d = 72000 #error entre el estimador y su parámetro
#primero deberemos calcular nuestra probabilidad k para un intervalo de confianza de 0.9, para el cual, después con la función qnorm(), calcularemos el z score
prob_k = 1-((1-(confianza))/2) #calculo del k
#ahora la formula completa
n = (N^2*qnorm(prob_k)^2*de^2)/(d^2+(N^2*qnorm(prob_k)^2*de^2)/N)
print(paste("La muestra para estimar el total de gastos en artículo de librerías y afines deberá ser de", ceiling(n), "familias"))
## [1] "La muestra para estimar el total de gastos en artículo de librerías y afines deberá ser de 30 familias"
El tamaño de muestra obtenido no puede ser considerado “grande”, por lo que no sería posible llevar adelante la inferencia. A partir de esa muestra no sería factible adoptar que el estimador del total que con ella se calcule tenga una distribución lormal (supuesto implícito al utilizar el valor de k de la función de probabilidad normal).
Una opción hubiese sido saber, de antemano, que la población original sigue una distribución normal, condición en este caso desconocida y, en términos del campo de estudio, no aceptable al trabajarse con los gastos familiares (en librería o en lo que sea), ya que es una distribución usualmente asimétrica.
b. ¿Cuál hubiese sido el tamaño de la muestra si el barrio hubiese tenido 40.000 familias?
En primer lugar tengo que calcular nuevamente el error máximo entre el estimador y su parámetro dado el tamaño de la nueva muestra:
#Estimación puntual de X para el año anterior
N=40000
x_raya = 180
X = N*x_raya
#Calculo de d, siendo deseado el 10% de X como diferencia entre el estimador y su parámetro
d = X*0.1
print(paste("El error máximo aceptado para el calculo del total será de",d,"$"))
## [1] "El error máximo aceptado para el calculo del total será de 720000 $"
N = 40000 #total de familias
de = 50 #desviacion estandar en pesos
confianza = 0.95 # 1 - alpha
d = 720000 #error entre el estimador y su parámetro actualizado
#primero deberemos calcular nuestra probabilidad k para un intervalo de confianza de 0.9, para el cual, después con la función qnorm(), calcularemos el z score
prob_k = 1-((1-(confianza))/2) #calculo del k
#ahora la formula completa
n = (N^2*qnorm(prob_k)^2*de^2)/(d^2+(N^2*qnorm(prob_k)^2*de^2)/N)
print(paste("La muestra para estimar el total de gastos en artículo de librerías y afines deberá ser de", ceiling(n), "familias"))
## [1] "La muestra para estimar el total de gastos en artículo de librerías y afines deberá ser de 30 familias"
Al ser mayor la Población de referencia (N), la muestra necesaria debe ser también mayor pero, como se lo mencionó en el ejemplo del punto anterior, puede comprobarse que pese a que la población es 10 veces mayor el tamaño de muestra no crece proporcionalmente (y según el tamaño que se obtenga será válida o no).
c. ¿Cuál hubiese sido el tamaño de la muestra si la dispersión poblacional hubiese sido mayor que la verificada el año anterior? (por ejemplo $100):
N = 4000 #total de familias
de = 100 #desviacion estandar en pesos actualizado
confianza = 0.95 # 1 - alpha
d = 72000 #error entre el estimador y su parámetro
#primero deberemos calcular nuestra probabilidad k para un intervalo de confianza de 0.9, para el cual, después con la función qnorm(), calcularemos el z score
prob_k = 1-((1-(confianza))/2) #calculo del k
#ahora la formula completa
n = (N^2*qnorm(prob_k)^2*de^2)/(d^2+(N^2*qnorm(prob_k)^2*de^2)/N)
print(paste("La muestra para estimar el total de gastos en artículo de librerías y afines deberá ser de", ceiling(n), "familias"))
## [1] "La muestra para estimar el total de gastos en artículo de librerías y afines deberá ser de 116 familias"
En este caso, al tener una disperción poblacional mayor, se hubiera requerido una muestra mayor. A diferencia del caso anterior, la dispersión sí influye en nuestro cáculo de n. Aquí, al ser nuestra muestra de 116 familias podemos asumir que se trata de una muestra grande (n>100), por lo que nos permite tomar la distribución de X como una normal y realizar las operaciones inferenciales correspondientes.
d. ¿Cuál hubiese sido la muestra requerida si el nivel de confianza hubiese sido de sólo el 80 %?
N = 4000 #total de familias
de = 50 #desviacion estandar en pesos actualizado
confianza = 0.8 # 1 - alpha
d = 72000 #error entre el estimador y su parámetro
#primero deberemos calcular nuestra probabilidad k para un intervalo de confianza de 0.9, para el cual, después con la función qnorm(), calcularemos el z score
prob_k = 1-((1-(confianza))/2) #calculo del k
#ahora la formula completa
n = (N^2*qnorm(prob_k)^2*de^2)/(d^2+(N^2*qnorm(prob_k)^2*de^2)/N)
print(paste("La muestra para estimar el total de gastos en artículo de librerías y afines deberá ser de", ceiling(n), "familias"))
## [1] "La muestra para estimar el total de gastos en artículo de librerías y afines deberá ser de 13 familias"
Razonablemente (????), a menor exigencia en grado de confianza, la muestra a obtener debe ser menor. Sin embargo, esta n es menor que el primer caso, por lo que no puede aplicarse la función de distribución normal, y por ende, debe descartarse la posiblidad de realizar estimaciones.
f. Y en el caso de que se pidiera hacer la estimación con menor error (por ejemplo, sólo el 5 % del total del año previo), ¿qué pasaría con el tamaño de la muestra?
Calculamos oootra vez nuestro nuevo d:
#Estimación puntual de X para el año anterior
N=4000
x_raya = 180
X = N*x_raya
#Calculo de d, siendo deseado el 10% de X como diferencia entre el estimador y su parámetro
d = X*0.05
print(paste("El error máximo aceptado para el calculo del total será de",d,"$"))
## [1] "El error máximo aceptado para el calculo del total será de 36000 $"
N = 4000 #total de familias
de = 50 #desviacion estandar en pesos
confianza = 0.95 # 1 - alpha actualizada
d = 36000 #error entre el estimador y su parámetro actualizado
#primero deberemos calcular nuestra probabilidad k para un intervalo de confianza de 0.9, para el cual, después con la función qnorm(), calcularemos el z score
prob_k = 1-((1-(confianza))/2) #calculo del k
#ahora la formula completa
n = (N^2*qnorm(prob_k)^2*de^2)/(d^2+(N^2*qnorm(prob_k)^2*de^2)/N)
print(paste("La muestra para estimar el total de gastos en artículo de librerías y afines deberá ser de", ceiling(n), "familias"))
## [1] "La muestra para estimar el total de gastos en artículo de librerías y afines deberá ser de 116 familias"
A menor error en la estimación pretendida, es lógico que la muestra tenga que ser mayor.
Planteando un análisis similar al caso de la Media y del Total, y sin necesidad de mayores detalles conceptuales, se tiene para estimar P:
P(Li < P < Ls) = 1 - α, donde reemplazando los límties por sus formas de cálculo, se tiene:
P(p̂ - k.σp̂ ≤ P ≤ p̂ + k.σp̂) = 1 - ⍺
donde: k= z ~ N(0,1) siempre que la muestra n sea “grande” (debido a que, por el TCL, está demostrado que la binomial se comporta como una distribución normal en muestras grandes) y σp̂2 = p̂.q̂/n (por el factor de corrección en caso de que N sea conocido y finito).
Por tanto, para aquellos casos que se desee estimar el tamaño de la muestra para un n finito y conocido, y recordando que d = k.√[(p.q)/n].√[(N-n)/(N-1)] (cómo hago compañeros pa’ decirle que no he podido olvidarla), se despeja el valor de n:
n = (k2.p.q) / [d2+ (k2.p.q)/N]
Y, para los casos donde N es desconocida o tomada como infinita, la fórmula simplificada:
n = (k2.p.q)/d2
Recordad que para el caso de proporción, nuestro error d también se expresará como una proporción entre 0 y 1.
Ejemplo guía conceptual, página 77
a. En el mismo problema del Sector de Abastecimiento del Centro Comercial del oeste del Gran Buenos Aires se necesita estimar la proporción de personas que realizan compras entre la totalidad que ingresa cada fin de semana (P). La estimación se la quiere realizar con un nivel de confianza del 90% (1 - ⍺ = 0,9), y de modo que el valor resultante no supere el 5% en más o en menos de la proporción real desconocida (d=0,05). Determinar el tamaño de muestra con el que se puedan satisfacer los requisitos fijados, sabiendo que estudios realizados por una consultora en otros centros comerciales, sugieren que cerca del 30% de los que ingresan a los mismos finalmente realizan alguna compra (p = 0,3 y, por ende, q = 0,7).
Aclaración: como nuestra N es desconocida, utilizaremos la fórmula simplificada.
confianza = 0.9
p = 0.3
q = 1-p
d = 0.05
prob_k = 1-((1-(confianza))/2) #calculo del k
n = (qnorm(prob_k)^2*p*q)/d^2
print(paste("La muestra para estimar el la proporción de personas que realizan gastos en el centro comercial, por fin de semana, debe ser de al menos", ceiling(n), "personas"))
## [1] "La muestra para estimar el la proporción de personas que realizan gastos en el centro comercial, por fin de semana, debe ser de al menos 228 personas"
Esta muestra puede ser considerada suficientemente grande como para que el estimador de la Proporción tenga una distribución aproximadamente Normal.
b. ¿ Qué hubiese sucedido si se conocía que durante un fin de semana, las personas que ingresan al Centro Comercial son aproximadamente 5.000 (N = 5000)?
Pues bien, en este caso utilizando la fórmula ampliada:
N = 5000
confianza = 0.9
p = 0.3
q = 1-p
d = 0.05
prob_k = 1-((1-(confianza))/2) #calculo del k
n = (qnorm(prob_k)^2*p*q)/
(d^2+qnorm(prob_k)^2*p*q/N)
print(paste("La muestra para estimar el la proporción de personas que realizan gastos en el centro comercial, por fin de semana, debe ser de al menos", ceiling(n), "personas"))
## [1] "La muestra para estimar el la proporción de personas que realizan gastos en el centro comercial, por fin de semana, debe ser de al menos 218 personas"
Como se ve el N afecta el tamaño de nuestra muestra n haciendola disminuir. No obstante, proporcionalmente la disminución no es demasiado significativa.
c. ¿Y si no se tuviese información sobre la posible proporción de personas que realizan compras entre las que ingresan al Centro comercial? ¿se hubiese podido hacer algo?
Ante un caso de determinación de tamaño de muestra en el que se dan condiciones para estimar una proporción, si se desconoce cual es tentativamente el valor de P (situación razonable ya que es lo que se desea estimar), lo que puede hacerse es ponerse en la “peor situación”, y que es suponer que la P es cercana a la mitad (es decir p = 0,5). Este supuesto es el que da un tamaño de muestra máximo, con lo cual se cubre sobradamente cualquier posible situación.
confianza = 0.9
p = 0.5
q = 1-p
d = 0.05
prob_k = 1-((1-(confianza))/2) #calculo del k
n = (qnorm(prob_k)^2*p*q)/d^2
print(paste("La muestra para estimar el la proporción de personas que realizan gastos en el centro comercial, por fin de semana, debe ser de al menos", ceiling(n), "personas"))
## [1] "La muestra para estimar el la proporción de personas que realizan gastos en el centro comercial, por fin de semana, debe ser de al menos 271 personas"
Con este caso se finaliza la enumeración y análisis de los Parámetros a partir de cuya estimación es posible determinar el tamaño de muestra que se necesita. La Cantidad de Casos Favorables es una combinación de los casos ya vistos para la Proporción y para el Total. De esta forma, a partir de plantear que se quiere calcular:
P(Li < A < Ls) = 1 - α
y al remplazar los límites por sus valores se tiene:
P(N.p - k.σp ≤ A ≤ N.p + k.σp) = 1 - ⍺
Luego de varios pasos algebraicos, se llega a la fórmula ampliada, en la que n es aproximadamente:
n = (N2.k2. p.q) / [d2+ (N2.k2.p.q) / N]
Debido a que N debe ser obligadamente finita y conocida, la fórmula simplificada (para N ≅∞), no tiene sentido expresarla.
Ejemplo guía conceptual. Página 78:
a. Continuando con el mismo problema anterior (el del Sector de Abastecimiento del Centro Comercial del oeste del Gran Buenos Aires), si se tuviera como objetivo el estimar la cantidad de potenciales compradores (NA) de un fin de semana (es decir, cuántos de los que ingresan al Centro pueden resultar compradores), para determinar el tamaño de la muestra de personas a observar, estamos ante el caso de tener que estimar “la Cantidad de Casos Favorables” (ya que las personas que ingresan al Centro durante el fin de semana pueden ser clasificados en “compradores” y “no compradores”)
Ante ello, los profesionales del Sector Comercialización deben suministrar los datos necesarios para hacer el trabajo, como por ejemplo (unos fenómenos los profesionales):
Total de personas que ingresan el fin de semana al Centro: ~ 10.000 (N = 10.000).
Proporción histórica de las personas que compran algo: desconocida (adoptaremos el supuesto de “peor situación”, es decir que el valor de P es cercano a 0,50 (p=0,50).
Nivel de Confianza o Seguridad con el que se quiere trabajar (es decir la Probabilidad de que la estimación que luego se realice sea correcta): elevada = 99 % (1 - ⍺ = 0,99, lo que determina que k (z score) = 2,575).
Amplitud del intervalo con el que se estimará la cantidad de potenciales compradores: 500 personas (podría haberse dado como una proporción cercana al 5 % del total de personas que ingresan al Centro). Siendo AM = 500 ; d = AM/2 = 250 personas (d = 250).
#Tamaño de muestra para total de casos favorables
N = 10000
confianza = 0.99
p = 0.5
q = 1-p
d = 250
prob_k = 1-((1-(confianza))/2) #calculo del k
n = N^2*(qnorm(prob_k)^2*p*q)/(d^2+N^2*(qnorm(prob_k)^2*p*q)/N)
print(paste("La muestra para estimar el total cuántas personas que realizan gastos en el centro comercial, por fin de semana, debe ser de al menos", ceiling(n), "personas"))
## [1] "La muestra para estimar el total cuántas personas que realizan gastos en el centro comercial, por fin de semana, debe ser de al menos 2098 personas"
Visto el resultado obtenido (una muestra sumamente grande que supera el 20 % de la población que ingresa al Centro), es probable que se les deba decir a los profesionales del Sector de Abastecimiento que las condiciones impuestas resultan exageradas, y que si desean disminuir el probablemente elevado costo de hacer la muestra, deberían “aflojar” (sic) un poco los requisitos.
b. Hacer el mismo cáculo suponiendo que se baja la pretensión del nivel de confianza (aflojaron los pro), de modo que la estimación se cumpla en un 90 % de los casos (1 - ⍺ = 0,9)
N = 10000
confianza = 0.9
p = 0.5
q = 1-p
d = 250
prob_k = 1-((1-(confianza))/2) #calculo del k
n = N^2*(qnorm(prob_k)^2*p*q)/(d^2+N^2*(qnorm(prob_k)^2*p*q)/N)
print(paste("La muestra para estimar el total cuántas personas que realizan gastos en el centro comercial, por fin de semana, debe ser de al menos", ceiling(n), "personas"))
## [1] "La muestra para estimar el total cuántas personas que realizan gastos en el centro comercial, por fin de semana, debe ser de al menos 977 personas"
Es decir que con el cambio realizado en el nivel de confianza, la muestra disminuye a menos de la mitad.
c. Además de lo anterior, en el Sector de Abastecimiento, deciden aceptar que la diferencia entre el estimador y el parámetro puede ser del doble (es decir d = 500 personas).
N = 10000
confianza = 0.9
p = 0.5
q = 1-p
d = 500
prob_k = 1-((1-(confianza))/2) #calculo del k
n = N^2*(qnorm(prob_k)^2*p*q)/(d^2+N^2*(qnorm(prob_k)^2*p*q)/N)
print(paste("La muestra para estimar el total cuántas personas que realizan gastos en el centro comercial, por fin de semana, debe ser de al menos", ceiling(n), "personas"))
## [1] "La muestra para estimar el total cuántas personas que realizan gastos en el centro comercial, por fin de semana, debe ser de al menos 264 personas"
Resumiendo lo desarrollado en este punto, es posible concluir lo siguiente:
1. En esta etapa de la Inferencia Estadística, para la determinación del tamaño de la muestra a extraer, se parte del supuesto de que la misma será extraída mediante criterios aleatorios determinados por el Muestreo Aleatorio Simple (MAS). En el caso de utilizarse otros diseños más complejos o que requieren la preparación previa de la Población, existen otras formas para calcular el tamaño de la muestra n.
2. Es requisito indispensable para el razonamiento que se aplica que la muestra deberá utilizarse para estimar alguno de los Parámetros que se utilizan para caracterizar a las Distribuciones de Frecuencias (Media, Total, Proporción o Casos Favorables). Existen otras formas de llegar a la determinación del n que no serán desarrolladas en este Curso.
3. En cualquiera de los cuatro casos analizados, el tamaño de la muestra se determina a partir de los datos disponibles (forma de distribución de la población y dispersión de la misma) y de las condiciones o requisitos que se imponen a los cálculos a realizar con la muestra a extraer (el nivel de confianza o el de riesgo, y la precisión de la estimación a realizar).
4. The most important: En todos los casos, el análisis lógico de los problemas coincide con lo que muestran las fórmulas de n, a saber:
A mayor exigencia de confianza en los resultados (1 - ⍺), mayor es la muestra a extraer.
Cuanto mayor es la dispersión de la variable original (σx o su equivalente para la proporción), mayor deberá ser la muestra que la represente.
Cuanto más precisión se pretenda en la estimación (medida con d o con AM), mayor deberá ser la muestra.
Cuanto más grande sea la Población a muestrear (N), mayor debe ser la muestra a observar (no obstante que esto no es ni medianamente proporcional, sino que a partir de un cierto valor de la población, su cuantía deja de influir en el tamaño de la muestra).
El desarrollo del tema Pruebas, “Test” o Ensayos de Hipótesis dentro de un Curso de Estadística constituye un nuevo paso en el análisis y utilización de los métodos inferenciales ya que en el mismo se conjugan no solo los puntos básicos de la Estadística Descriptiva y el Cálculo de Probabilidades sino que se avanza en la incorporación y uso de elementos de la Teoría de la Decisión.
Si bien el concepto involucrado en la realización de una Prueba de Hipótesis no es simple, puede intentar resumírselo diciendo que:
El recurrir a la realización de un Ensayo de Hipótesis implica la realización de una afirmación respecto a alguna característica desconocida de una población. La esencia de probar una hipótesis estadística está relacionada con poder decidir si la afirmación realizada se encuentra apoyada o no por la evidencia muestral.
Esa afirmación involucra ya sea a un parámetro o a alguna forma funcional no conocida (o sea, algo que no vimos ni veremos aún) de la distribución a partir de la cual se obtiene una muestra aleatoria. La decisión acerca de si los datos muestrales apoyan estadísticamente la afirmación, se toma en base a probabilidades, y como se verá, si ésta es pequeña será rechazada la hipótesis.
Diversos autores plantean este tema de Prueba de hipótesis relacionándolo con un Juicio Penal, en el que se parte del supuesto de que el acusado es inocente, y en el que la realización del juicio implica la ejecución de una serie de pruebas y búsquedas de evidencias mediante las cuales se pueda demostrar lo contrario. Si los testimonios y pruebas recogidos no permiten rebatir el supuesto original, el acusado permanecerá inocente, y en caso contrario (es decir si los testimonios y pruebas lo condenan), se lo declarará culpable.
Al realizarse un Ensayo de Hipótesis sucede lo mismo: el conocimiento previo de la población o los supuestos que se realicen sobre ella, suministrarán la hipótesis básica (o nula) sobre algunos de sus parámetros (equivalente al supuesto de “inocencia” en el Juicio), a partir de una muestra se obtienen los “testimonios o pruebas”, y los resultados de la misma determinarán si los supuestos previos son rechazados o no, es decir “si el jurado declara al acusado inocente o culpable”.
Este concepto que es relativamente simple de resumir, implica una serie de aspectos y alternativas que deben ser tratados cuidadosamente para facilitar su comprensión y posterior aplicación. Inicialmente se plantearán estos aspectos en forma genérica, para posteriormente verlos detalladamente al analizarse las Pruebas de Hipótesis en los principales parámetros (particularmente, y como ya se lo hizo en otros temas, al desarrollarse el caso de la Media Aritmética).
Ya se adelantó someramente, que la realización de una Prueba de Hipótesis Estadística, implica el planteo de una Hipótesis Básica (denominada también Hipótesis Nula e identificada con H0), basada en los conocimientos previos de la población que se desean comprobar.
Estos supuestos o afirmaciones no son siempre fáciles de concretar, y se debe tener cuidado para que su estructura tienda a satisfacer lo que realmente se desea verificar. Pueden realizarse sobre cualquiera de los parámetros que caracterizan a una población, tales como:
Promedios - Por ejemplo: Que pese a las modificaciones económicas de los últimos años, el promedio de ingreso por familia no se ha modificado.
Totales - Por ejemplo: Que el monto total de gastos de las personas que viajan a Mar del Plata los fines de semana largos, permanece invariable pese a la promoción realizada por la Dirección Provincial de Turismo de Buenos Aires.
Proporciones – Por ejemplo: Que el otorgamiento de planes de apoyo a “Jefes y Jefas de Hogares” no ha logrado disminuir el porcentaje de personas económicamente activas desocupadas.
Cantidad de Casos Favorables – Por ejemplo: Que la cantidad de fumadores de la localidad de Ituzaingó no ha variado pese a las leyendas de nocividad del tabaco en las marquillas y publicidades.
Dispersiones – Por ejemplo: Que el Desvío Estándar de la distribución del consumo de carne por persona no se ha modificado pese a la evidente disminución en el consumo “per cápita”.
Realizada una afirmación como Hipótesis Básica, debe existir como contrapartida una Hipótesis Alternativa (identificada usualmente con H1 o HA), que es la que se tomará como cierta en caso de que a partir de los datos de la muestra se derive en el rechazo de la H0.
De acuerdo a la forma que tome la Hipótesis Alternativa, se llega a tener dos grandes situaciones en las Pruebas de Hipótesis: los Ensayos Unilaterales (a derecha o a izquierda) y los Ensayos Bilaterales. Esto será desarrollado en detalle al enfocarse las Pruebas de Hipótesis para la Media Aritmética.
Otro aspecto que será desarrollado detalladamente al tratarse las Pruebas de Hipótesis para la Media Aritmética, es que en este Curso se adoptará el criterio de que en todos los casos las Hipótesis Nulas se harán en base a la igualdad del parámetro a verificar con un valor puntual, planteándose la Alternativa como menor, mayor o diferente a ese valor según el tipo de “Test” que se deba realizar.12
Se ha mencionado que la decisión con respecto a la validez o no de las hipótesis que se planteen, se toma en base a una muestra extraída de la población bajo estudio. La teoría que fundamenta esta acción es la misma en que se basa toda la Inferencia Estadística: los Estimadores son variables y sus distribuciones toman formas de acuerdo con las particularidades de cada muestra (tamaño de n, conocimiento del σx, forma de distribución de la población, etc.).
Ahora bien, al tomarse la decisión en base a una muestra, se corren los riesgos ya analizados en Estimación por Intervalos: que los resultados que se obtengan no sean de los más probables, con lo cual la decisión que se tome puede estar basada en muestras poco “representativas”. Esto, dentro del tema Ensayo de Hipótesis, conlleva la posibilidad de dos tipos de Errores:
Error de Tipo I (εI): consiste en rechazar H0 siendo cierta. La Probabilidad (P, no confundir con la otra P del estimador de la proporción que exactamente igual, por lo que es obvio que uno se confunde) de este Error se la identifica con la letra ⍺, es decir que: P(εI) =⍺ (probabilidad de un error de tipo I es igual a alpha)
Error de Tipo I (εII): consiste en NO rechazar H0 siendo falsa. La Probabilidad de este Error se la identifica con la letra 𝛃, es decir que: P(εII) = 𝛃
A partir de este concepto se define y calcula lo que se denomina la “Potencia del Test”, que es la probabilidad 1 - 𝛃. se desarrollará más adelante.desarrollará más adelante. Este concepto de Potencia del Test y en general el tema de los Errores, se retomará a continuación al verse la Prueba de Hipótesis para la Media Poblacional.
De la misma forma que ya se lo hizo en otros temas de Inferencia Estadística, el primer parámetro sobre el cual se desarrollan los conceptos de Prueba de Hipótesis, será la media Poblacional. La mayoría de los autores lo enfocan de esta manera, con la que posteriormente resulta simple pasar al mismo planteo para los demás parámetros.
Spoiler alert: esto va a ser una repetición de la misma fórmula para todo el resto de los parámetros, con la excepción del de la varianza, donde se usa la función de probabilidad chi cuadrado (y que sólo puede tomar resultados positivos). Además, tanto el análisis para derecho como izquierda es igual, por lo que puede verse uno sólo de este tipo y el de ambas colas (donde se realiza una pequeña modificación conceptual) y ya tenés todo.
El planteo genérico es el siguiente:
Se afirma que la media de una población es μ0, contra la alternativa de que es mayor que ese valor (representada por μ1). Es decir, μ1 está a la derecha de μ0. De esta afirmación derivan las siguientes hipótesis:
H0) μ = μ0
H1) μ = μ1 > μ0
Hecho el planteo, la definición sobre cuál de las hipótesis es válida se realizará extrayendo una muestra de n unidades con la que se calculará la media muestral (x̄). El razonamiento a realizar es el siguiente.
Si es cierta H0, la x̄ debe tener una distribución cuyo promedio es μ0 y cuya dispersión será la de la población original dividida por la raíz de n y por el factor de corrección para poblaciones finitas. En los casos analizados oportunamente (n “grande”, etc.), la distribución de la x̄ seguirá la foirma de uina normal, por lo que podrá utilizarse esta función para continuar con el razonamiento del ensayo13
Expresado en términos simbólicos, para aquellos casos en que x̄~ N (μ0, σx̄) se tendra que: la Probabilidad de que x̄ > x̄c = ⍺ y P(x̄ < x̄c)= 1- ⍺ . Aclaración: x̄c es el denominado “valor crítico” contra el que estamos -en este caso- testeando el valor de nuestra la media muestral. En ese sentido, si ⍺ es suficientemente chica, es de esperar que la x̄ no supere el valor de x̄c ya que la probabilidad de que eso suceda es pequeña.
Si en una muestra en particular sucediera eso, se podría sospechar que ocurre porque no es cierto que μ = μ0, sino que μ = μ1 donde μ1 > μ0.
Este razonamiento permite enumerar los pasos a realizar a partir de realizar la afirmación de las hipótesis, y plantear la regla de decisión para realizar la prueba de hipótesis:
Siendo que x ~ N, si la H0 fuera cierta, puede calcularse un valor x̄c alejado de μ0 hacia la derecha tal que: P(x̄ > x̄c) = ⍺, donde ⍺ es un valor pequeño (generalmente 0,05) fijado a voluntad por quien realiza la experiencia.
Se realiza la muestra, y con ella se calcula la x̄.
Se compara x̄ con el valor x̄c Si resulta x̄ < x̄c se está dando un resultado razonable siendo cierta H0 (ya que su probabilidad es 1 - ⍺), por lo cual NO SE RECHAZA H0. La conclusión del ensayo que es que no existen evidencias significativas para rechazar que μ = μ0 (si fuera un Juicio, no se pudo demostrar la culpabilidad del acusado).
Si la comparación diera que x̄ > x̄c se está dando un valor muy poco probable (su probabilidad es sólo ⍺) si fuera cierta H0 , por lo cual SE RECHAZA H0 , siendo la conclusión del ensayo que a partir de la muestra observada existen evidencias significativas para rechazar que μ = μ0, con lo que implícitamente se adopta H1 en la que se proponía que μ = μ1 > μ0 (en el Juicio se demostró que el acusado es culpable)14.
Puede apreciarse que en esta regla de decisión, la H1 (y su distribución centrada en μ1) no se tienen en cuenta para nada, y esto es lógico, ya que en la práctica la alternativa es desconocida, y en caso de rechazarse H0 se deberá estimar el valor de la μ.
En un pueblo de la provincia de Catamarca, hasta hace 10 años la población joven había ido paulatinamente emigrando, con lo cual el total había ido disminuyendo y envejeciendo.
La promoción industrial parece haber modificado esa situación, pero no se tienen datos fehacientes sobre el tema.
Previo a la realización de un estudio demográfico que lo incluye (al pueblo), se plantea el supuesto (H0) que en dicho pueblo el promedio de personas por vivienda es de 2,5 (μ0=2,5) mientras que en la Intendencia Municipal consideran que esa cifra es muy baja y que en realidad el valor medio por vivienda es superior (H1 ; μ1 > 2,5).
De esta manera se está frente a un Ensayo de Hipótesis en el cual se tiene:
H0) μ = μ0 = 2,5 personas (a partir del supuesto que se plantea en el estudio demográfico)
H1) μ = μ1 > 2,5 personas (en base a lo afirmado por la Intendencia)
Con el fin de verificar la H0 se realiza una muestra de 256 viviendas (n =256) con la que se obtienen los siguientes resultados:
x̄ = 2,68 personas
sx = 0,80 personas
Se desea realizar la prueba con un nivel de riesgo del 10% (es decir que ⍺ = 0,10, o sea 1-⍺ = 0,9)
Además debe tenerse presente que se desconoce el tamaño de la población de viviendas del pueblo (N es desconocida).
Siendo n = 256 viviendas, puede llegar a ser considerada una muestra “grande”, con lo cual es posible adoptar que x̄~ N (μ0, σx̄), donde: μ0 = 2,5 y σx̄ = sx/√n:
n = 256
sx = 0.8
de_x = sx/sqrt(n)
print(paste('El desvío estándar de la media muestral, calculado a partir de la muestra de',n,' viviendas es de', de, 'personas'))
## [1] "El desvío estándar de la media muestral, calculado a partir de la muestra de 256 viviendas es de 50 personas"
En base a ello, es posible calcular un valor de x̄ alejado hacia la derecha (x̄c), tal que: P(x̄ > x̄c) = ⍺ (y ⍺ = 0,1)
Lo que debemos hacer es, entonces, estandarizar estos valores para llevarlos -en este caso- al z score y comparar el z (valor estandarizado de la media, tomado de μ0) con el zc. En este caso hay una funcioncita de R que lo hace por nosotres si les pasamos todos los datos en cuestión:
mu = 2.5 #nuestra mu 0
alpha = 0.1
x_raya = 2.68
de_x = 0.05
confianza = 1 - alpha
z_critico = qnorm(confianza, lower.tail = TRUE) # el valor z para el nivel de confianza predefinido, como estoy buscando por HASTA el z critico tengo que aclarar lower.tail=TRUE
x_raya_critico = mu+z_critico*de_x #desestandarización del z critico, llevado nuevamente al valor de la media para comparar con el x_raya calculado a partir de la muestra n
if (x_raya<x_raya_critico) {
print(paste('El valor de la media muestral(', x_raya,') -o estadístico de prueba- no supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha)', alpha,', por lo que la Hipótesis Nula no debe ser rechazada'))
} else {
print(paste('El valor de la media muestral(', x_raya,') -o estadístico de prueba- supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha) de', alpha,', por lo que la Hipótesis Nula debe ser rechazada'))
}
## [1] "El valor de la media muestral( 2.68 ) -o estadístico de prueba- supera el valor crítico( 2.56 ) calculado para un nivel de significacion (alpha) de 0.1 , por lo que la Hipótesis Nula debe ser rechazada"
Esto quiere decir que el promedio de personas por vivienda en el pueblo es superior a las 2,5 personas propuestas como H0, y que en realidad la población del pueblo no parece haber disminuido tanto como se suponía (si bien esto no fue verificado, puede suponérselo como resultante).
mu = 2.5 #nuestra mu 0
alpha = 0.1
x_raya = 2.68
de_x = 0.05
confianza = 1 - alpha
curve(dnorm(x,2.5,0.05),xlim=c(2.3,2.7),col="blue",lwd=2,
xlab="𝛍",main="Distribución de la media muestral bajo H0")
# Me falta plotear los x_criticos
a. ¿Qué significado tiene en este caso el ⍺ = 0,10?
Si el valor de μ es 2,5 personas, y si se tomasen muchas muestras de tamaño n = 256 de la población, debe esperarse que en un 10% de las veces (100.⍺), se encuentre un valor del estadístico de prueba superior al x̄c = 2,564, y en los casos en que esto se da debe rechazarse H0.
La probabilidad ⍺ también se conoce como el nivel de significación. Esto implica que la evidencia muestral es tal que garantiza el rechazo de H0 a un nivel dado de ⍺ = 0,10.
b. ¿Qué se hubiese hecho si la muestra observada hubiese dado un promedio de personas por familia menor a 2,5 (por ejemplo x̄ = 2,38)?
Bueno, dada la H1) μ = μ1 > 2,5 si la muestra hubiese dado menor (x̄ = 2,38) no sería necesario realizar la comparación entre x̄ y x̄c, ya que lógicamente el valor muestral x̄ cae en la zona de No Rechazo. O sea, recordemos que estamos evaluando, en base a un valor muestral extraído de una población N, la posibilidad de rechazar nuestra hipótesis nula “por derecha”, es decir si el valor de x̄ extraído, al ser mayor que μ (y dada tal forma de distribución, tal desvío estándar y tal nivel de significación), indicaría un cambio en el valor del parámetro, y por ende, debemos rechazar μ0. Entonces, como estamos evaluando “por derecha”, cualquier valor x̄ menor a μ0 cae en nuestra zona de no rechazo por el tipo de test que estamos haciendo.
De todas maneras, acá igual hacemos lo mismo que antes y lo probamos.
mu = 2.5 #nuestra mu 0
alpha = 0.1
x_raya = 2.38
de_x = 0.05
confianza = 1 - alpha #también conocido como p-value
z_critico = qnorm(confianza) # el valor z para el nivel de confianza predefinido
x_raya_critico = mu+z_critico*de_x #desestandarización del z critico, llevado nuevamente al valor de la media para comparar con el x_raya calculado a partir de la muestra n
if (x_raya<x_raya_critico) {
print(paste('El valor de la media muestral(', x_raya,') no supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha)', alpha,', por lo que la Hipótesis Nula no debe ser rechazada'))
} else {
print(paste('El valor de la media muestral(', x_raya,') supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha) de', alpha,', por lo que la Hipótesis Nula debe ser rechazada'))
}
## [1] "El valor de la media muestral( 2.38 ) no supera el valor crítico( 2.56 ) calculado para un nivel de significacion (alpha) 0.1 , por lo que la Hipótesis Nula no debe ser rechazada"
c. Si el nivel de riesgo ⍺ hubiese sido menor (por ejemplo del 5 %), ¿hubiese podido cambiar la conclusión del problema ?
Con un menor ⍺ se reduce la Región de Rechazo, por lo que podría ser que habiéndose rechazado antes H0, el valor de x̄ podría ahora no superar al x̄c, no rechazándose de esa manera H0 (deberían hacerse los cálculos).
Bueno, hagamos los cálculos
mu = 2.5 #nuestra mu 0
alpha = 0.05
x_raya = 2.68
de_x = 0.05
confianza = 1 - alpha #también conocido como p-value
z_critico = qnorm(confianza) # el valor z para el nivel de confianza predefinido
x_raya_critico = mu+z_critico*de_x #desestandarización del z critico, llevado nuevamente al valor de la media para comparar con el x_raya calculado a partir de la muestra n
if (x_raya<x_raya_critico) {
print(paste('El valor de la media muestral(', x_raya,') no supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha)', alpha,', por lo que la Hipótesis Nula no debe ser rechazada'))
} else {
print(paste('El valor de la media muestral(', x_raya,') supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha) de', alpha,', por lo que la Hipótesis Nula debe ser rechazada'))
}
## [1] "El valor de la media muestral( 2.68 ) supera el valor crítico( 2.58 ) calculado para un nivel de significacion (alpha) de 0.05 , por lo que la Hipótesis Nula debe ser rechazada"
Pues güe, los cálculos dieron que debe ser rechazada.
d. Y si el desvío estándar muestral hubiese sido menor que el 0,80 (sx̄ = 0,8) personas obtenido; ¿podría haberse modificado la decisión tomada de rechazar H0?
El valor de sx̄ es utilizado para determinar x̄c , por lo cual si fuese menor que 0,8 personas se agranda la Región de Rechazo, por lo que no se modificaría la conclusión de rechazar H0.
Hagamos ejemplo con sx̄ = 0,70 por ejemplo.
n = 256
sx = 0.7
de = sx/sqrt(n)
print(paste('El desvío estándar del parámetrui mu, calculado a partir de la muestra de 256 personas, es de', de, 'personas'))
## [1] "El desvío estándar del parámetrui mu, calculado a partir de la muestra de 256 personas, es de 0.04375 personas"
mu = 2.5 #nuestra mu 0
alpha = 0.1
x_raya = 2.68
de_x = 0.04375
confianza = 1 - alpha #también conocido como p-value
z_critico = qnorm(confianza) # el valor z para el nivel de confianza predefinido
x_raya_critico = mu+z_critico*de_x #desestandarización del z critico, llevado nuevamente al valor de la media para comparar con el x_raya calculado a partir de la muestra n
if (x_raya<x_raya_critico) {
print(paste('El valor de la media muestral(', x_raya,') no supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha)', alpha,', por lo que la Hipótesis Nula no debe ser rechazada'))
} else {
print(paste('El valor de la media muestral(', x_raya,') supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha) de', alpha,', por lo que la Hipótesis Nula debe ser rechazada'))
}
## [1] "El valor de la media muestral( 2.68 ) supera el valor crítico( 2.56 ) calculado para un nivel de significacion (alpha) de 0.1 , por lo que la Hipótesis Nula debe ser rechazada"
e. En caso de que la muestra hubiese sido de sólo 100 familias (n = 100); ¿podría haberse modificado la decisión de rechazar H0?
El tamaño de muestra n influye sobre la dispersión del estimador, es decir que σx̄ sería mayor, lo que achica la Zona de Rechazo, y posibilitaría que se cambie la decisión y no se rechace (deberían hacerse los cálculos).
#Estimación del nuevo desvío estándar en base al nuevo tamaño muestral
n = 100
sx = 0.8
de = sx/sqrt(n)
print(paste('El desvío estándar del parámetro mu, calculado a partir de la muestra de ',n,' personas, es de', de, 'personas'))
## [1] "El desvío estándar del parámetro mu, calculado a partir de la muestra de 100 personas, es de 0.08 personas"
mu = 2.5 #nuestra mu 0
alpha = 0.1
x_raya = 2.68
de_x = 0.08
confianza = 1 - alpha #también conocido como p-value
z_critico = qnorm(confianza) # el valor z para el nivel de confianza predefinido
x_raya_critico = mu+z_critico*de_x #desestandarización del z critico, llevado nuevamente al valor de la media para comparar con el x_raya calculado a partir de la muestra n
if (x_raya<x_raya_critico) {
print(paste('El valor de la media muestral(', x_raya,') no supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha)', alpha,', por lo que la Hipótesis Nula no debe ser rechazada'))
} else {
print(paste('El valor de la media muestral(', x_raya,') supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha) de', alpha,', por lo que la Hipótesis Nula debe ser rechazada'))
}
## [1] "El valor de la media muestral( 2.68 ) supera el valor crítico( 2.6 ) calculado para un nivel de significacion (alpha) de 0.1 , por lo que la Hipótesis Nula debe ser rechazada"
f. Finalmente, ¿ que sucedería si se sabe que la cantidad total de familias de ese pueblo es de 800 (N=800)?
Bien, en este caso deberíamos usar el factor de corrección, lo que ocasiona que disminuya el σx̄ .Esto lleva a un aumento de a Zona de Rechazo, por lo que no se podría modificar la decisión de rechazar H0.
Entonces primero calculamos nuevamente el desvío estándar en base a la muestra, aplicando el factor de corrección.
#Estimación del nuevo desvío estándar en base al nuevo tamaño muestral
n = 256
sx = 0.8
de = sx/sqrt(n)*sqrt((N-n)/(N-1)) #factor de correccion para poblaciones finitas
print(paste('El desvío estándar del parámetro mu, calculado a partir de la muestra de ',n,' personas, es de', de, 'personas'))
## [1] "El desvío estándar del parámetro mu, calculado a partir de la muestra de 256 personas, es de 0.049358318694648 personas"
Bueeno, es casi igual la desviación estándar calculada, así que es difícil que cambie nuestra decisión de rechazar la Hipótesis Nula de arriba.
mu = 2.5 #nuestra mu 0
alpha = 0.1
x_raya = 2.68
de_x = 0.049358318694648
confianza = 1 - alpha #también conocido como p-value
z_critico = qnorm(confianza) # el valor z para el nivel de confianza predefinido
x_raya_critico = mu+z_critico*de_x #desestandarización del z critico, llevado nuevamente al valor de la media para comparar con el x_raya calculado a partir de la muestra n
if (x_raya<x_raya_critico) {
print(paste('El valor de la media muestral(', x_raya,') no supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha)', alpha,', por lo que la Hipótesis Nula no debe ser rechazada'))
} else {
print(paste('El valor de la media muestral(', x_raya,') supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha) de', alpha,', por lo que la Hipótesis Nula debe ser rechazada'))
}
## [1] "El valor de la media muestral( 2.68 ) supera el valor crítico( 2.56 ) calculado para un nivel de significacion (alpha) de 0.1 , por lo que la Hipótesis Nula debe ser rechazada"
Tal como se ha elaborado el ensayo, el procedimiento de prueba se construye de manera tal que la Hipótesis Nula sea RECHAZADA o NO RECHAZADA. Sin embargo, con la inclusión de la hipótesis alternativa, probar una hipótesis estadística es proporcionar una decisión entre H0 y H1. Para ello se clasifica el campo de variación de la variable x̄ en dos subconjuntos o sectores:
- Región Crítica o de Rechazo: contiene los resultados no favorables a la hipótesis nula.
- Región de NO Rechazo: contiene los resultados favorables a la hipótesis nula.
Esta mención permite introducir un aspecto ya de mencionado en forma general:
Los Errores que se pueden cometer y sus Probabilidades
library(graphics)
par(mfrow = c(1, 1))
# Rejilla de valores para el eje X
#-----------------------------------------
# Misma desviación típica, distinta media
#-----------------------------------------
# Media 2.5, desviación típica 0.08
curve(dnorm(x,2.5,0.05),xlim=c(2.3,2.7),col="blue",lwd=2,
xlab="mu=2.5", main="Distribución de la media muestral bajo H0 y HI")
# Media 2.6, desviación típica 0.08
curve(dnorm(x,2.7,0.05), add = TRUE, xlim=c(2.5,2.8),col="red",lwd=2,
xlab="mu1")
# Añadimos una leyenda
legend("topright", c(expression(paste(, mu, " ", sigma)), "2.5 0.05", "2.7 0.05"),
lty = c(0, 1, 1), col = c("red", "blue"), box.lty = 0, lwd = 2)
abline(v = 2.58) # Línea vertical del x crítico calculado para el nivel de signficación de alpha
grid()
par(mfrow = c(1, 1))
Las posibles decisiones que pueden tomarse con respecto a la Hipótesis Nula y sus Probabilidades se resumen en la siguiente tabla:
| Decisión Adoptada | H0 Cierta | H0 Falsa |
|---|---|---|
| No rechazar H0 | Decisión acertada (1-⍺) |
Error de Tipo II β |
| Rechazar H0 | Error de Tipo I ⍺ |
Decisión acertada (1-β)15 |
La Hipótesis Nula puede ser Verdadera o Falsa. Si No se Rechaza (o se “acepta”) una Hipótesis Cierta o si se Rechaza una Hipótesis Falsa, no se comete ningún Error.
Si se Rechaza la Hipótesis Nula “Cierta”, se comete un error denominado Error de Tipo I, cuya probabilidad se simboliza ⍺. Luego, ⍺ es la probabilidad de cometer el Error de Tipo I, es decir la probabilidad de Rechazar una Hipótesis Nula Verdadera (rechazar mal).
Si no se Rechaza una Hipótesis Nula Falsa, se comete un error denominado Error de Tipo II, cuya probabilidad se simboliza con β. Luego, β es la probabilidad de cometer un Error de Tipo II, es decir la probabilidad de No Rechazar (o “aceptar”) una Hipótesis Nula Falsa (“aceptar” mal).
Lo óptimo es tratar de minimizar ambos errores, pero éstos varían o juegan en forma inversa: dada una situación, al disminuir uno se agranda el otro. En la práctica, se especifica o fija el valor de ⍺, y se elige la Región de Rechazo de manera que se minimice β. Por esta razón corresponde decir “no rechazar H0” más que “aceptar H0” cuando la evidencia muestral no apoya el rechazo de la hipótesis nula.
El razonamiento es similar al anterior, pero con la zona de rechazo de H 0 del lado izquierdo. Veamos:
En este caso el planteo genérico es el siguiente: Se afirma que la media de una población es H0, contra la alternativa de que es menor que ese valor (representada por H1). De esta afirmación derivan las siguientes hipótesis:
H0) μ = μ0
H1) μ = μ1 < μ0
Como en el caso anterior, hecho el planteo, la definición sobre cuál de las hipótesis es válida, se realizará extrayendo una muestra de n unidades con la que se calculará la Media Muestral. El razonamiento a realizar es el siguiente:
Si es cierta H0, la x̄ debe tener una distribución cuyo promedio es μ0 y cuya dispersión será la de la población original dividida por la raíz de n y por el factor de corrección para poblaciones finitas. En los casos analizados oportunamente (n “grande”, etc.), la distribución de la x̄ seguirá la foirma de uina normal, por lo que podrá utilizarse esta función para continuar con el razonamiento del ensayo16
Expresado en términos simbólicos, para aquellos casos en que x̄~ N (μ0, σx̄) se tendra que: la Probabilidad de que x̄ < x̄c = ⍺ y P(x̄ > x̄c)= 1- ⍺ . En ese sentido, si ⍺ es suficientemente chica, es de esperar que la x̄ no supere el valor de x̄c ya que la probabilidad de que eso suceda es grande.
Si en una muestra en particular sucediera eso (x̄ > x̄c ) se podría sospechar que ocurre porque no es cierto que μ = μ0, sino que μ = μ1 donde μ1 < μ0.
Repitiendo lo realizado en el caso del test univateral derecha, con el razonamiento anterior es posible enumerar los pasos a realizar a partir de realizar la afirmación de las hipótesis, y plantear la regla de decisión para realizar la prueba de hipótesis:
Siendo que x ~ N, si la H0 fuera cierta, puede calcularse un valor x̄c alejado de μ0 hacia la izquierda tal que: P(x̄ < x̄c) = ⍺, donde ⍺ es un valor pequeño (generalmente 0,05) fijado a voluntad por quien realiza la experiencia.
Se realiza la muestra, y con ella se calcula la x̄.
Se compara x̄ con el valor x̄c Si resulta x̄ < x̄c se está dando un resultado razonable siendo cierta H0 (ya que su probabilidad es 1 - ⍺), por lo cual NO SE RECHAZA H0. La conclusión del ensayo que es que no existen evidencias significativas para rechazar que μ = μ0
Si la comparación diera que x̄ < x̄c se está dando un valor muy poco probable (su probabilidad es sólo ⍺) si fuera cierta H0, por lo cual SE RECHAZA H0, siendo la conclusión del ensayo que a partir de la muestra observada existen evidencias significativas para rechazar que μ = μ0, con lo que implícitamente se adopta H1 en la que se proponía que μ = μ1 < μ0.
Como en el caso anterior, puede apreciarse que en esta regla de decisión, la H1 (y su distribución centrada en μ1) no se tienen en cuenta para nada, y esto es lógico, ya que en la práctica la alternativa es desconocida.
Después los hago, pero bue, es todo lo mismo que para el otro lado.
En este caso el razonamiento difiere de los anteriores, ya que la zona de rechazo de H0 debe ser planteada de ambos lados de la Hipótesis básica. Veamos:
En este caso el planteo genérico es el siguiente: Se afirma que la media de una población es H0, contra la alternativa de que es distinta que ese valor (representada por H1). De esta afirmación derivan las siguientes hipótesis:
H0) μ = μ0
H1) μ = μ1 ≠ μ0
El procedimiento es el mismo que en los casos anteriores: se extrae una muestra de n unidades, se calcula -en este caso- la media muestral (x̄), se define parte de que H0 es cierta si el promedio de la media muestral es μ0, se calcula la dispersión ue la Hla dispersión (con el factor de corrección de ser necesario), se chequea que la distribución sea normal o se confirma tener un n>100 y se aplica el TCL, etc.
AHORA
Para aquellos casos en que x̄~ N (μ0, σx̄) la Probabilidad de que x̄ < x̄c1 = ⍺/2; y P(x̄ > x̄c2)= ⍺/2 y P(x̄c1 < x̄ < x̄c2) = 1 - ⍺ . Es decir, vemos que en este caso tenemos no uno sino dos valores críticos. Y es de esperar que si ⍺ es suficientemente, la x̄ “caiga” entre medio de los valores críticos, ya que la probabilidad de que suceda eso es grande.
Si en una muestra en particular sucediera que x̄ < x̄c1 o > x̄c2, se podría sospechar que ocurre porque no es cierto que μ = μ0 , sino que μ = μ donde μ1 ≠ μ0. Es decir, haremos un doble análisis donde lo que se divide de manera simétrica es el nivel de significancia. Para todo lo demas, las reglas de decisión son las mismas.
Previo a la recesión económica, los gastos mensuales de las familias “tipo” destinados a alimentos “básicos” era de $2.600 (μ0 = 2600), con una Variancia de 10.000 (σ2=10000, o sea, σ = 100).
Para comprobar si en la actualidad ese promedio (μ = μ0) se mantiene (tomado a valores constantes de 2008, año en que se realizó la medición anterior), se observa una muestra de 36 familias (n = 36), con las que se obtiene un gasto medio en ese tipo de alimentos de $2.670 (x̄ = 2670). Realizar la prueba de hipótesis con un nivel de significación del 10 % (⍺=0,1), adoptando que los gastos en ese rubro tienen una distribución aproximadamente Normal (x̄ ~ N).
Pues bien, si bien acá la muestra que tenemos es pequeña, sabemos por la consigna que tiene una distribución normal, por lo que podemos aplicar esa función para calcular los zc y los x̄c , con la única salvedad que nuestro nivel de significancia (⍺=0,1) deberá dividirse por dos para calcular cada uno de los valores críticos (⍺1 y ⍺2=0,05).
Primero, calculamos nuestra dispersión muestral en base a las dispersión poblacional.
n = 36
de_mu = 100
de_x = de_mu/sqrt(n)
print(paste('El desvío estándar muestral, para una muestra de',n,'personas es de',round(de_x, 2), 'pesos'))
## [1] "El desvío estándar muestral, para una muestra de 36 personas es de 16.67 pesos"
Así queeee:
mu = 2600 #nuestra mu 0
alpha = 0.1/2# Esto es lo que cambia con respecto a las alternativas por izquierda o derecha, ya que dividimos el intervalo por confianza por dos, para conformar nuestros dos valores críticos
x_raya = 2670
de_x = 16.67
confianza = (1 - alpha)
z_critico = qnorm(confianza)
# el valor z para el nivel de confianza predefinido
x_raya_critico_1 = mu-z_critico*de_x #desestandarización del z critico, llevado nuevamente al valor de la media para comparar con el x_raya calculado a partir de la muestra n
x_raya_critico_2 = mu+z_critico*de_x
x_raya_critico_1
## [1] 2572.58
if ((x_raya>x_raya_critico_1) & (x_raya<x_raya_critico_2)) {
print(paste('El valor de la media muestral(', x_raya,') no supera el valor crítico(', round(x_raya_critico,2),') calculado para un nivel de significacion (alpha)', alpha,', por lo que la Hipótesis Nula no debe ser rechazada'))
} else {
print(paste('El valor de la media muestral(', x_raya,') está por fuera de los valores críticos por izquierda (',round(x_raya_critico_1,2),') y por derecha (',round(x_raya_critico_2,2),'), calculados para un nivel de significacion (alpha) de',alpha,', por lo que la Hipótesis Nula debe ser rechazada'))
}
## [1] "El valor de la media muestral( 2670 ) está por fuera de los valores críticos por izquierda ( 2572.58 ) y por derecha ( 2627.42 ), calculados para un nivel de significacion (alpha) de 0.05 , por lo que la Hipótesis Nula debe ser rechazada"
En el caso de la Variancia (o del Desvío Estándar), la única prueba que interesa realizar es la de la derecha, ya que lo que preocupa es que la dispersión sea mayor que algún valor que se desea comprobar (dispersiones pequeñas o menores que las supuestas son beneficiosas para los trabajos de inferencia estadística Tell me why ). En ese caso se tendrá como planteo:
H0) σ2 = σ20
H1) σ2 > σ21
Para realizar la prueba debe recurrirse al estimador muestral, que en este caso es s2 , que se distribuye como un Chi Cuadrado modificado. El requisito más importante para poder realizarse es que la población tenga una distribución normal, ya que estamos utilizando una función que mide desviación de la normalidad (era re yuta la función).
La prueba ser realiza fijando un valor “crítico” del estimador (sc2), a la derecha de la función, de acuerdo con el nivel de confianza (o de riesgo) fijado para la prueba. En este caso será:
sc2 = σ20. χ2 (1 – α) / (n – 1)
Como en los casos anteriores, la definición sobre cuál de las dos hipótesis es válida, se realizará extrayendo una muestra de n unidades con la que se calculará el estimador Muestral de la Variancia (sc).
Se compara s2 con el valor sc2 ; si resulta s2 < sc2 NO SE RECHAZA H0), adoptándose que σ2 = σ20
Si la comparación diera que s2 > sc2 SE RECHAZA H0, ya que se considera que existen evidencias significativas para rechazar que σ2= σ20 , adoptándose la H1) en la que se proponía que σ2 = σ21 > σ20 .
Como propiedades a recordar, sobre la distribución χ2 :
Todos los valores de χ2 son no negativos (positivos),y la distribución no es simétrica.
Hay una distribución χ2 para cada número de grados de libertad
Para encontrar el valor χ2 para un determinado grado de libertad en la tabla o con software, recordar que los grados de libertad son iguales a n - 1
El ejemplo de la guía no me gustó, así que voy a tomar uno que hace Triola (en la página 401) sobre la relación entre la desviación estandar de las alturas de las modelos respecto a la población en general, tomando una muestra de 16 personas. Pero antes, con esas 16 personas vamos a ver cuál hubiera sido la distribución χ2 para gl = 16-1 (n -1) = 15
n = 16 #el n que dije antes
gl = n-1 # los grados de libertad
curve(dchisq(x, df = gl), from = 0, to = 40, col="blue", main = 'Distribución Chi Cuadrado para 15 Grados de Libertad')
Se plantea el siguiente ejemplo, para hacer un test de hipótesis de la varianza con el p-value.
A continuación se listan las estaturas (en cm) de la muestra aleatoria simple de las supermodelos Lima, Bundchen, Ambrosio, Ebanks, Iman, Rubik, Kurkova, Kerr, Kroes, Swanepoel, Prinsloo, Hosk, Kloss, Robinson, Heathearton y Reaeli (n = 16).
Use un nivel de significancia de 0,01 (α = 0,01) para probar la hipótesis de que las supermodelos tienen estaturas con una desviación estándar menor que σ = 7,5 cm (desviación estándar de la población femenina en general). ¿Parece que las alturas de las modelos vcarían menos que las alturas de las mujeres en general?
x1 = 178cm, x2 = 177cm, x3=176cm,x4=174, x5=175cm, x6=178cm, x7=175cm, x8=178cm, x9=178cm, x10=177cm, x11=180cm, x12=176cm, x13=180cm, x14=178cm, x15=180cm, x16 =176cm
Very important aclaration: Triola nos dice que, si bien es una muestra chica, da fe que se extrajo con el MAS (Muestreo Aleatorio Simple) y que cumple la normalidad, sin presentar valores atípicos.
Primero voy a armar una serie (o vector en R) con todos los xi
altura_modelos = c(178,177,176,174,175,178,175,178,178,177,180,176,180,178,180,176)
#voy a calcular el n directamente desde el lenght de mi vector
n = length(altura_modelos)
#ahora calculo la desviación estandar puntual "s" a partir de esta muestra
sx = sd(altura_modelos) #la funcion sd me tira la desviación estandar muestral
print(paste('La desviación de la altura de la muestra de',n,'super modelos es de', sx, 'cm'))
## [1] "La desviación de la altura de la muestra de 16 super modelos es de 1.84390889145858 cm"
Agora, calculamos el p-value para una muestra de n=16, usando la función chi cuadrado
n= 16
de = 7.5
sx = 1.84390889145858
alpha = 0.01
prob_k = 1-alpha
chi_critico = qchisq(prob_k, df=(n-1), lower.tail=FALSE) # calculo el valor crítico de chi_cuadrado para una probabilidad de 0,99 en base a una muestra de 16 personas, o sea, 15 grados de libertad.
chi_muestral = (n-1)*sx^2/de^2 #formula para calcular el valor de chi cuadrado en base a la desviacion muestral calculada, el tamaño de la muestra y la desviacion estandar poblacional
if (chi_muestral<chi_critico) {
print(paste('El valor de la desviación estandar muestral(', round(chi_muestral,2),') -o estadístico de prueba- no supera el valor crítico(', round(chi_critico,2),') calculado para un nivel de significacion alpha =', alpha,', por lo que la Hipótesis Nula no debe ser rechazada'))
} else {
print(paste('El valor de la desviación estandar muestral(', round(chi_muestral,2),') -o estadístico de prueba- supera el valor crítico(', round(chi_critico,2),') calculado para un nivel de significacion alpha =', alpha,', por lo que la Hipótesis Nula debe ser rechazada'))
}
## [1] "El valor de la desviación estandar muestral( 0.91 ) -o estadístico de prueba- no supera el valor crítico( 5.23 ) calculado para un nivel de significacion alpha = 0.01 , por lo que la Hipótesis Nula no debe ser rechazada"
Es decir, que la Hipótesis Nula de que la variación entre las super modelos es menor que entre la población femenina en general, no puede ser rechazada (“aceptamos”, digamos, que entre las super modelo varía menos la altura que entre el resto ¿por qué será? 👀)
gl = 15
curve(dchisq(x, df = gl), from = 0, to = 40,
main = 'Prueba de hipótesis σ < 7,5 cm',
ylab = 'Density',
lwd = 2)
#create vector of x values
x_vector <- seq(0, 5.23)
#create vector of chi-square density values
p_vector <- dchisq(x_vector, df = gl)
polygon(c(x_vector, rev(x_vector)), c(p_vector, rep(0, length(p_vector))),
col = adjustcolor('red', alpha=0.8), border = NA)
abline(v= 0.91)
Me falta agregar las etiquetas de los valores pero donde termina el rojo es el valor crítico de χ2 = 5,229, a partir desde el cual rechazaríamos la hipótesis nula, y donde cae la linea es el estadístico muestral χ2 = 0,91, para una muestra con 15 Grados de Libertad y una significancia de 0,01. Como vemos, cae a la izquierda, por lo que no rechazamos la hipótesis nula.
En la República Argentina, durante la década del ’80, pudo verificarse que el consumo de carne por persona tenía una distribución aproximadamente Normal (σ ~N), con un promedio mensual de 4,5 kg (μ = 4,5). y un desvío estándar de 1,5 kg (σ=1,5, por lo que la varianza es σ2 = 2,25 kg2).
Debido a las modificaciones económicas producidas, se supone que la dispersión pudo haberse incrementado, y para comprobarlo con un nivel de riesgo del 5% (⍺=0,05), se observa una muestra de 80 personas (n=80), con las que se obtienen los siguientes resultados: Promedio = 4,65 kg (x̄=4,65) y Desvío Estándar = 3 kg (s=3, por lo que la varianza muestral s2= 9).
A diferencia del ejercicio anterior, en este directamente lo haremos comparando el estadístico de prueba contra el poblacional (no el p-value)
H0) σ2 = σ20 = 2,25 kg2
H1) σ2 > σ20 o sea, σ2 > 2,25 kg2
Resumiendo la información disponible:
n =80
x̄ = 4,65 y s2 = 9
μ = 4,5 y σ2 = 2,25 kg2
⍺ = 0,05
Entonces, lo que tenemos que ver en este caso es si, tomando la función chi cuadrado -ya que sabemos que la dispersión sigue una distribución normal-, nuestro estadístico de la varianza muestral s2 = 9 es mayor que el valor crítico para σ2 para un nivel de significatividad ⍺ = 0,05.
n= 80
de = 2.25
sx = 9
alpha = 0.05
prob_k = 1-alpha
chi_critico = qchisq(prob_k, df=(n-1), lower.tail=TRUE) # calculo el valor crítico de chi_cuadrado para una probabilidad de 0,99 en base a una muestra de 16 personas, o sea, 15 grados de libertad.
# !!! recordar q estoy buscando todo hasta el valor crítico, por lo que es lower.tail = TRUE,
varianza_critica = de*chi_critico/(n-1) #fórmula con la que desesntandarizo el p-value
chi_muestral = ((n-1)*sx^2)/de^2 #formula para calcular el valor de chi cuadrado en base a la desviacion muestral calculada, el tamaño de la muestra y la desviacion estandar poblacional si quisiera hacerlo comparando los p-values, como ejn el caso anterior
if (sx<varianza_critica) {
print(paste('El valor de la desviación estandar muestral(', round(sx,2),') -o estadístico de prueba- no supera el valor crítico(', round(chi_critico,2),') calculado para un nivel de significacion alpha =', alpha,', por lo que la Hipótesis Nula no debe ser rechazada'))
} else {
print(paste('El valor de la desviación estandar muestral(', round(sx,2),') -o estadístico de prueba- supera el valor crítico(', round(varianza_critica,2),') calculado para un nivel de significacion alpha =', alpha,', por lo que la Hipótesis Nula debe ser rechazada'))
}
## [1] "El valor de la desviación estandar muestral( 9 ) -o estadístico de prueba- supera el valor crítico( 2.87 ) calculado para un nivel de significacion alpha = 0.05 , por lo que la Hipótesis Nula debe ser rechazada"
Y ahora os voy a graficar lo mimso que antes sobre el p-value del chi critico y el chi muestral
gl = 79
curve(dchisq(x, df = gl), from = 0, to = 1380,
main = 'Prueba de hipótesis σ < 7,5 cm',
ylab = 'Density',
lwd = 2)
#create vector of x values
x_vector <- seq(0, chi_critico)
#create vector of chi-square density values
p_vector <- dchisq(x_vector, df = gl)
polygon(c(x_vector, rev(x_vector)), c(p_vector, rep(0, length(p_vector))),
col = adjustcolor('red', alpha=0.2), border = NA)
abline(v= chi_muestral)
El gráfico quedó espantoso, pero donde cae la línea es el chi cuadrado muestral, y donde concluye el área roja es el chi crítico.
En el Capítulo 1., se comenzó a trabajar con técnicas estadísticas que relacionan más de una unidad por vez, confeccionándose “Indicadores” o “Relaciones”, con los que se resumía la información básica enriqueciéndose el análisis de los datos.
Naturalmente, esa no es la única forma de relacionar y trabajar con más de una variable, sino que por el contrario, desde las últimas décadas del siglo XX los avances en el procesamiento electrónico de la información, posibilitaron que desarrollos teóricos multivariados realizados años atrás puedan ser llevados a la práctica, ampliándose además ese campo específico de la Estadística.
Como una breve introducción al tema es posible mencionar que la relación entre variables se realiza mediante el estudio de:
Si bien no existen limitaciones en la cantidad de variables que pueden llegar a formar parte de un estudio estadístico de relación o asociación entre ellas, a fin de facilitar la comprensión y el análisis del tema, exceptuando algunas menciones en ejemplos del momento, en este capítulo sólo se analizará en detalle el caso de dos variables.
Con esta simplificación, y sin utilizar los términos precisos para los que se requieren otros conocimientos previos, puede decirse que existe asociación o relación entre dos variables, cuando la presencia o resultados de una de ellas, influye en la presencia o resultados de la otra17.
Con respecto a la existencia o no de relación/asociación entre dos variables, la forma de determinarlo es verificando la citada definición, para lo cual se requiere aplicar alguno de los varios métodos desarrollados para hacerlo.
Lo mismo sucede con respecto a la importancia, grado o fuerza de la relación/asociación, para lo cual también se han desarrollados métodos específicos aplicables de acuerdo a las condiciones que se verifican, los cuales pueden llevar en algunos casos a valores numéricos que determinan esa importancia.
Sobre el sentido o dirección de la relación/asociación, sólo consiste en determinar la orientación de la misma (si es que existe), la que usualmente queda determinada por los métodos que se aplican para responder las dos cuestiones previas.
Finalmente, con respecto al tipo o naturaleza de la relación/asociación, se requiere realizar algunas disquisiciones, ya que se plantean varios posibles tipos:
Dependencia Causal Unilateral: cuando una de las variables influye sobre la otra pero no sucede a la inversa. El ejemplo clásico es el de la “cantidad de lluvia caída” y “producción agrícola”, ya que mientras que se reconoce la influencia de la primera sobre la segunda, pero es ilógico pensar en la situación inversa.
Interdependencia Causal: aquellos casos en que ambas variables se influyen recíprocamente, siendo en este caso el ejemplo clásico el de “la cantidad demandada de un bien” y “el precio del mismo”.
Dependencia Indirecta: aquellas situaciones en las cuales existe relación/asociación entre dos variables, pero que la misma se da a partir de una tercera que es la que las une. Los ejemplos más comunes están dados a partir de todas las variables que dependen de la cantidad de población de una región (consumo de leche, venta de zapatos, cantidad de robos, polución ambiental, etc.), con las que se podrían encontrar relaciones de a pares, pero en las que las mismas se explican por estar todas vinculadas con la cantidad de personas.
Dependencia Casual: aquellas variables que sin estar aparentemente vinculadas, presentan en sus comportamientos variaciones asociadas sin explicación razonable.
La definición simplificada indicada anteriormente puede aplicarse a todo tipo de variables: cualitativas (nominales u ordinales) o cuantitativas (discretas o continuas). En los puntos siguientes se analizan algunas de las alternativas posibles, presentándose conceptualmente y sin mayores desarrollo teóricos los principales métodos para analizar su asociación o relación.
El tipo de variables que se están analizando determinará las herramientas estadísticas disponibles. Así tenemos que:
| Si se trata de | Recurrimos a |
|---|---|
| Dos variables categóricas | Tablas de contingencia |
| Una variable numérica y una categórica | Comparación de medias entre grupos |
| Dos variables numéricas | Análisis de Correlación |
El término “asociación” justamente se reserva para las variables cualitativas (variables categóricas). Debe recordarse que estas son aquellas cuyos resultados se expresan con palabras por lo que no son factibles de resumirlas en medidas que las caractericen (promedios, coeficientes, etc.) y, en el mejor de los casos, sus resultados pueden ser volcados en tablas y gráficos de frecuencias absolutas o relativas. Importante: recordar que la proporción es un caso de variable cualitativa (p y q).
Cualquier análisis estadístico supone la organización y/o resumen de los datos. En el análisis univariado organizábamos los datos en tablas de frecuencias simples, indicando la cantidad (o porcentaje) de individuos que presentaban un determinado valor de la variable.19
Ahora bien, si pretendemos responder preguntas del tipo:
¿Cuántas personas de nivel socioeconómico alto opinan que el servicio eléctrico es bueno?
¿Cuántos hombres leen frecuentemente el periódico? Y, ¿cuántas mujeres?
Entre los que nunca leen revistas, ¿cuántos son hombres?
Entre nuestros estudiantes del curso de Estadística, de los que vienen de colegios privados ¿cuántos son varones y cuántas mujeres?
Tendremos que describir a los individuos mediante el tratamiento simultáneo de dos variables categóricas. Ante esta necesidad, nos debemos preguntar:
¿Cómo presentar los datos para describir a los individuos a partir de dos variables categóricas simultáneamente?
Si intentáramos responder a la pregunta sobre cantidad de hombres y mujeres que vienen de colegios privados y públicos, podríamos contar en la matriz de datos cuántos individuos cumplen simultáneamente la doble condición de:
- ser mujer y haber asistido a un colegio público, - ser mujer y haber asistido a un colegio privado, - ser varón y haber asistido a un colegio público, - ser varón y haber asistido a un colegio privado
Si realizado el conteo en la matriz de datos, observamos que fueron 86 las mujeres que asistieron a un colegio público, y 24 los varones; y a un colegio privado asistieron 21 de las mujeres y 5 de los varones, podríamos organizar estos datos en una tabla como la siguiente:
Esta forma de organizar los datos se conoce como tabla de contingencia. En el cuerpo de la tabla (zona resaltada) se presenta la distribución conjunta que da cuenta del número de individuos que presentan cada una de las combinaciones posibles de las categorías de las variables. Se distribuyen así los 136 estudiantes según la doble clasificación: “tipo de colegio” y “sexo”.
En toda tabla de contingencia podemos distinguir:
Los Marginales: corresponden a la última fila y la última columna de la tabla que, encabezados por la palabra “total”, presentan la distribución univariada según “sexo” (última fila) y según “tipo de colegio” (última columna). Se puede leer entonces que de nuestros 136 entrevistados, 29 son hombres y 107 mujeres; a la vez que 110 estudiantes asistieron a establecimientos públicos y 26 lo hicieron a privados.
Las Filas: presentan la distribución de los individuos que vienen de establecimientos públicos o privados según el sexo. En la primera fila, tenemos la distribución según el sexo de los 110 individuos que asistieron a establecimientos públicos.
Las Columnas: presentan la distribución de varones y mujeres por tipo de colegio. En la primera columna, tenemos la distribución de los 29 varones según el tipo de colegio al que asistieron.
Las Celdas: consignan las frecuencias correspondientes a la combinación de pares de categorías de las variables. Así, en la segunda celda de la primera fila se puede leer que hay 86 estudiantes que asistieron a establecimientos públicos y son mujeres.
Conceptualmente se tendría:
Siendo:
Xi : resultado i-ésimo de una variable X que toma valores desde 1 hasta k (k de Kuka)
Yj : resultado j-ésimo de una variable Y que toma valores desde 1 hasta l (ele de león)
fij: frecuencia conjunta de los resultados Xi e Yj
f.i : frecuencia marginal de Xi
f.j : frecuencia marginal de Yj
f = n: cantidad de casos en los que se miden las variables Xi e Yj
Es posible disponer los resultados de ambas variables en una tabla a doble entrada de la siguiente forma (o tabla de contingencia):
Con la información dispuesta de esta forma, de acuerdo a los valores de n, k y l, no resultaría simple determinar la existencia o no de asociación entre las variables X e Y, pero es posible calcular los valores relativos de las frecuencias, para lo cual se pueden tomar como referencia o bien el valor de n, o los de las frecuencias marginales f.i o f.j .
Voy a intentar traducir todo esto en base al Capítulo 11 del libro de Triola sobre Bondad de Ajuste y Tablas de Contingencia.
Pero primero la definición de Tabla de Contingencia:
Una tabla de contingencia (o tablas de frecuencias bidireccional) es una tabla que consiste en conteos de frecuencias de datos categóricos correspondientes a dos variables diferentes (una variable se usa para categorizar las filas y una segunda variable se usa para categorizar las columnas)20
Contingente tiene varios significados distintos, entre los cuales, justamente, se refiere a la dependencia de algún otro factor. Usamos el término tabla de contingencia porque lo que se busca probar es la independencia entre las variables de fila y de columna. En otras palabras, ponemos a prueba la hipótesis nula H0 de que las variables de fila y de columna son independientes (podemos decir que la H1 es que las variables de fila y de columnas son dependientes).
Esto tiene que ver mucho con laburo con matrices, por lo que para hacer este tipo de análisis es importante tener fresco eso21.
Guía de Aspectos Conceptuales, página 110:
Puede descargarse el archivo de acá
El laboratorio La Aguja Inquieta, realiza un estudio en el que se intenta determinar si el uso de calmantes de venta libre, se encuentra asociado al nivel de estudios alcanzados por las personas que los consumen, para lo cual realiza una consulta sobre 88 casos de los que resulta:
Esto quiere decir por ejemplo que:
De las 88 personas consultadas, 32 personas tienen estudios de nivel secundario o más, de las cuales 22 utilizan calmantes de venta libre, mientras que las 10 restantes no.
De las 51 que utilizan calmantes, 10 tienen estudios secundarios o más, y las restante 41 no.
Pese a que las cifras no son elevadas, la lectura de esta tabla para determinar la existencia o no de asociación entre las dos variables no resulta simple a partir de las frecuencias absolutas que contiene.
urlfile_1 = 'https://raw.githubusercontent.com/oblitterator/estadistica_untref/main/calmantes_nivel_estudio.csv'
tabla_estudios_calmantes = read.csv(url(urlfile_1)) #leo el .csv
as.matrix(tabla_estudios_calmantes [2, 2])
## [,1]
## [1,] 15
Le agrego las frecuencias marginasles para que se entienda bien, antes de pasar a hacer las operaciones:
Es muy frecuente que nos formulemos preguntas del tipo:
¿Los salarios que perciben las mujeres difieren del que perciben los hombres?
¿El rendimiento escolar de los estudiantes en el examen de Lengua varía según se trate de escuelas rurales o urbanas?
¿El gasto en regalos y souvenir difiere según la forma de organización del viaje de los turistas (cuenta propia o tours)?
¿El número de hijos por familia es distinto según sea el nivel socioeconómico?
Buscar respuestas a estos interrogantes nos conduce al análisis de la relación entre una variable cualitativa y una cuantitativa. Ahora bien, ¿cómo se manifestaría la existencia de una relación entre una variable categórica y una variable numérica?
En términos generales, en este tipo de análisis intentaríamos ver si los valores de la variable numérica al ser reagrupados según las categorías de la segunda variable, constituyen clases diferentes entre sí.
Desde esta perspectiva, el problema nos remite a resumir la información de manera de poner en evidencia la existencia o no de este comportamiento en las variables en estudio.
Es decir, para poder ver si existe alguna relación o no, lo primero que tenemos que explorar es si hay alguna clara delimitación entre las clases que construyamos.
Para eso debemos echar mano a las distintas herramientas sobre Estadística Descriptiva (media, mediana, moda, máximo, mínimo, varianza, desvio estándar, coeficiente de variación -sx/x̄-, coeficiente de asimetría, etc.) así como a los métodos de Análisis Exploratorios de Datos que nos parezca (boxplot, histograma o bueno, si tenés un esclavo y hacés gráficos en la Antigua Grecia, el diagrama de tallos y hojas).
Es necesario comparar este análisis univariado por clase para determinar si realmente tiene una distribución “propia”, para luego -llegado el caso- poder medir la fuerza de relación entre ellas.
Los pasos entonces son:
Clasificar a los datos en función de las alternativas existentes en la variable cualitativa, conformando grupos o estratos independientes.
Con cada uno de esos grupos aplicar todos los recursos que se disponga de la Estadística Descriptiva y el Análisis Exploratorio de Datos, tanto los algebraicos como los gráficos.
Comparar los resultados obtenidos en cada grupo, intentando determinar discrepancias y similitudes entre ellos, aplicando cuando sea posible las técnicas desarrolladas en el capítulo anterior sobre Pruebas de Hipótesis Paramétricas.
Es posible obtener una medición del grado de correlación misma calculando el coeficiente Razón de Correlación, que se explicará más adelante.
Voy a intentar analizar los primeros tres puntos con un ejemplo (que no cumplirían, a priori, con el criterio de tratarse de tres categorías que se comportan de manera diferenciada) y luego voy a mostrar cómo se calcula el coeficiente de correlación (RC o 𝛈).
Guía de aplicaciones: ejercicio 86, página 42.
Se desea verificar si el ramo de actividad de las empresas influyen en el tamaño de las mismas, medido en la cantidad de personas ocupadas que poseen. Para hacerlo se consulta un conjunto de 50 empresas, en las que se miden las ramas de actividad (en tres categorías), y la cantidad de empleados que tiene cada una. Los resultados son los siguientes.
| Rama de Actividad | Cantidad de empleados |
|---|---|
| Metalúrgica | 5-38-126-8-74-244-41-15-24-42 |
| Alimentos | 8-12-4-38-22-12-18-7-14-25-188-3-30-21-14-7-21-131-15-6-78-43-11-8-54 |
| Bioquímicas | 63-21-6-28-12-64-111-31-66-4-15-87-38-22-32 |
Estratifico los datos en función de las ramas de actividad (ya venía dado): mis categorías son Metalúrgica, Alimentos, Bioquímicas.
Exploro los datos, primero calculando todos las medidas de tendencia central y dispersión para cada categoría.
metalurgica = c(5,38,126,8,7,244,41,15,24,42)
alimentos = c(8,12,4,38,22,12,18,7,14,25,188,3,30,21,14,7,21,131,15,6,78,43,11,8,54)
bioquimicas = c(63,21,6,28,12,64,111,31,66,4,15,87,38,22,32)
#Armo boxplot con outliers
boxplot(metalurgica,alimentos,bioquimicas, names = c('metalurgica', 'alimentos', 'bioquimicas'))
stat.desc(metalurgica)
## nbr.val nbr.null nbr.na min max range
## 10.000000 0.000000 0.000000 5.000000 244.000000 239.000000
## sum median mean SE.mean CI.mean.0.95 var
## 550.000000 31.000000 55.000000 23.802428 53.844832 5665.555556
## std.dev coef.var
## 75.269885 1.368543
stat.desc(bioquimicas)
## nbr.val nbr.null nbr.na min max range
## 15.0000000 0.0000000 0.0000000 4.0000000 111.0000000 107.0000000
## sum median mean SE.mean CI.mean.0.95 var
## 600.0000000 31.0000000 40.0000000 8.1269686 17.4306141 990.7142857
## std.dev coef.var
## 31.4756141 0.7868904
stat.desc(alimentos)
## nbr.val nbr.null nbr.na min max range
## 25.000000 0.000000 0.000000 3.000000 188.000000 185.000000
## sum median mean SE.mean CI.mean.0.95 var
## 790.000000 15.000000 31.600000 8.598643 17.746728 1848.416667
## std.dev coef.var
## 42.993217 1.360545
stat.desc(list(metalurgica, bioquimicas, alimentos))
## nbr.val nbr.null nbr.na min max range
## 50.000000 0.000000 0.000000 3.000000 244.000000 241.000000
## sum median mean SE.mean CI.mean.0.95 var
## 1940.000000 21.500000 38.800000 6.796277 13.657631 2309.469388
## std.dev coef.var
## 48.056939 1.238581
#Armo boxplot sin outliers
boxplot(metalurgica,alimentos,bioquimicas, names = c('metalurgica', 'alimentos', 'bioquimicas'), outline = FALSE)
Bueno, en función del análisis de los datos daría la impresión que los valores de las medianas no son diferenciados entre los tres grupos (de hecho la ramas de Metalúrgica y Bioquímica comparten la mediana).
Algo similar pasa con las formas de distribución, donde parecería haber una asimetría positiva entre la rama de alimentos y las bioquímicas, pero no así en las metalúrgicas.
Los valores mínimos en los tres casos, además, son bastante coincidentes y, si bien podría decirse que la media tiene alguna diferenciación entre las tres, el nivel de valores anómalos con los que contamos puede estar tironeando el valor de la misma, por lo que no es útil como variable para esta medición.
En función de este análisis preliminar, es probable que el cálculo de la intensidad de la relación sea bastante pobre. De todas maneras, calcularemos el Coeficiente de Razón de Correlación para tener una métrica más exacta.
Para la construcción de este coeficiente, se parte de que la Variabilidad o Dispersión Total (VT) de una variable numérica, puede ser descompuesta o dividida en dos partes:
La Variabilidad o Dispersión existente dentro o intra de cada grupo que integra (VI).
La Variabilidad o Dispersión entre los diferentes grupos (VE).
Es decir, la Variabilidad Total (VT) = Variabilidad Intragrupal (VI) + Variabilidad Intergrupal (VE)
Mediante algunas simplificaciones algebraicas, es posible representar a las variabilidades o dispersiones, mediante las sumas de los cuadrados de los desvíos de los valores de la variable cuantitativa, respecto a alguna de las medias o promedios calculados durante el procedimiento. Específicamente:
VT = Suma de los cuadrados de los desvíos de los valores respecto a la media total o general.
VI = Suma de los cuadrados de los desvíos de los valores respecto a la media de cada uno de los grupos o estratos que integra.
VE = Suma de los cuadrados de los desvíos de las medias de cada grupo respecto a la media total.
Supongamos que cada observación es yxi donde ‘x’ indica la categoría a la que pertenece la observación,’i’ es la etiqueta de la observación en particular. Digamos que nx es el número de observaciones en la categoría ’x’
Entonces se tiene que la media de la categoría ‘x’ es:
Y la media de la población (o sea, del total de categorías que estoy midiendo) sería:
Por lo que para medir la correlación entre la dispersión de una categoría respecto al total (la razón de correlación η), debería hacer
Que es más sencillo pensarla como:
O sea, RC (η) = VE/VT. Este valor da un núimero entre 0 y 1, donde RC = 0 implica inexistencia de asociación o independencia entre las variables y RC = 1 indica total asociacion entre las dos variables.
Siguiendo con el ejemplo anterior, deberíamos calcular entonces, la media para cada una de las ramas y luego hacer la suma de cuadrados para las diferencia con respecto de la media por categoría. Esto nos da nuestro denominador:
metalurgica = c(5,38,126,8,7,244,41,15,24,42)
alimentos = c(8,12,4,38,22,12,18,7,14,25,188,3,30,21,14,7,21,131,15,6,78,43,11,8,54)
bioquimicas = c(63,21,6,28,12,64,111,31,66,4,15,87,38,22,32)
Hay un paquete que tiene incoroporado ya el calculo la RC (η), pero obviamente no me funcionó en Linux o no sé qué onda (está arriba, se llama “ryouaready”). Por suerte, un alma bondadosa armó la función y pego el código. Con eso, lo que tenemos que pasarle a la función “eta()” es una lista de vectores, y listo, calcula todo.
##La función para calcular el coeficiente de la razón de correlación##
eta = function(x, squared = FALSE, ...) {
stopifnot(is.list(x))
## unlist
y <- unlist(x)
## group mean
mg <- rapply(x, mean, ...)
## group size
ng <- rapply(x, length, ...)
## total mean
mtot <- mean(y, ...)
## SSb
ssb <- sum(ng * (mg - mtot) ^ 2)
## SSt
sst <- sum((y - mtot) ^ 2)
# get eta-squared
if (squared) {
res <- ssb/sst
# get eta
} else {
res <- sqrt(ssb/sst)
}
return(res)
}
print(paste('El valor del Coeficiente de Razón de Correlación es de',
eta(list(metalurgica, alimentos, bioquimicas) #armo una lista de vectores para comparar las varianzas intra e inter grupal
)))
## [1] "El valor del Coeficiente de Razón de Correlación es de 0.186639758980749"
Considerando que el RC se mueve entre 0 y 1, podemos decir que un resultado de 0,19 está mostrando una muy débil correlación entre las ramas de la industria y las personas empleadas (aunque no inexistente).
Ya se ha mencionado que dentro del tema relación/asociación entre variables, se están desarrollando los casos y los métodos desde lo más general a lo más particular, es decir, mientras que lo visto para el caso de dos variables cualitativas es aplicable a todos los demás casos, lo desarrollado para una cualitativa y otra cuantitativa no es factible aplicarlo al anterior, pero si al de dos variables numéricas se analiza en este punto.
Este caso de dos variables cuantitativas es el más específico, para el cual se ha logrado un desarrollo metodológico profuso y de mucha mayor eficiencia que en los anteriores, acorde a lo que ha sucedido dentro de la Estadística en el desarrollo de las técnicas aplicables a las variables cualitativas y cuantitativas. Esto sucede debido a que con las variables cuantitativas es factible aplicar los métodos de Regresión y Correlación, de amplio desarrollo teórico y al que también se han dedicado diversos sistemas de procesamiento electrónico de información.
En este caso, si bien parece más lógico analizar primero el grado o intensidad de la relación existente entre las variables, para posteriormente (si es que ese análisis previo lo aconseja), pasar a determinar el tipo y orientación de la misma, para el desarrollo del tema en un curso de este nivel resulta más apropiado plantearlo invirtiendo el orden: es decir que se verá primero el tipo o naturaleza de la relación, luego el sentido u orientación, y finalmente el grado o importancia con que se vinculan las variables.
Tomando como punto de partida la existencia y disponibilidad de los datos correspondientes a dos variables aleatorias cuantitativas, el método de Regresión tiene por objeto el desarrollo de un modelo matemático para explicar el comportamiento y predecir los valores de una de esas variables (considerada dependiente o explicada), mediante el conocimiento y uso de los valores de la otra variable (considerada independiente o explicativa). En caso de ser ambas variables independientes (requisito indispensable del modelo), el rol de cada una de ellas puede rotar.
El desarrollo del método lleva a determinar primero el tipo o naturaleza de la relación, y posteriormente el sentido u orientación que tiene. Para lo primero (tipo o naturaleza de la relación), ni el transcurso del tiempo ni los adelantos tecnológicos de los años recientes han podido superar el antiguo sistema de la “representación gráfica”, mediante la confección de un Diagrama de Puntos o Dispersión, que consiste en representar e interpretar los valores individuales en un gráfico bidimensional, en el cual la abcisa se dedica usualmente a la variable considerada explicativa, y la ordenada a la explicada, aunque esto no sea totalmente indispensable.
El conjunto de los pares de puntos de las xi e yi que se vuelcan en el Diagrama, es denominado “nube de puntos”. La lectura del ese Gráfico, logra dar una idea del “tipo” o “naturaleza” de la relación, lo que permite definir el “modelo” de regresión a utilizar, el que estará vinculado a la forma que adopte la “nube”.
Este modelo será el que determine el sentido u orientación de la relación. A título de ejemplos, algunos “Tipos” de relación pueden ser:
De acuerdo a la forma que adopte la “nube” de puntos, los modelos de regresión que se adapten a ellas pueden tomar formas algebraicas sencillas (rectas, parábolas, etc.), o funciones matemáticas complicadas (exponenciales, logarítmicas, funciones compuestas, etc.). En lo concerniente a este curso, se tomará para desarrollar el modelo más simple: el lineal o rectilíneo, cuyo modelo teórico se presenta de la siguiente forma:
Recta teórica: yi = ⍺ + β.Xi + 𝝴i
Yi : es la variable dependiente o explicada.
Xi : es la variable independiente o explicativa.
⍺ : es la ordenada al origen o la intersección (intercept) de la recta con el eje Y. Representa el valor de Y cuando X es igual a cero.
𝛃 : es la pendiente de la recta. Representa el cambio o incremento de Y por unidad de cambio o incremento en X. Si este coeficiente fuera positivo la relación entre ambas variables es directa o positiva; si fuese negativo la relación sería inversa o negativa.
𝝴i : representa el Error aleatorio en Y para la observación i-ésima, es decir, la diferencia entre los valores reales de Y y los correspondientes sobre la recta (Yi )
Si bien en la realidad, de acuerdo a la forma que adopte la “nube de puntos” en el Diagrama de Dispersión, las formas o funciones a utilizar podrían ser muy diversas, siempre será posible calcular una recta que se adapte bien o mal a los datos, y eso es lo que se hará en este curso.
Desde un punto de vista conceptual, para poder aplicar el modelo lineal al análisis de la relación entre dos variables, debe verificarse previamente el cumplimiento de una serie de supuestos que se requieren para que el modelo sea válido. Aunque esto no será tenido en cuenta, sin entrar en mayores detalles, pueden mencionarse los siguientes supuestos:
LINEALIDAD: totalmente lógico ya que es lo que da origen a la función rectilínea mencionada. En los casos en que no se cumpla esa condición, si se usa un modelo lineal se producirán más errores de los esperados.
HOMOSCEDASTICIDAD: este supuesto es más complejo de definir. Plantea que las varianzas de las distribuciones de la variable Y (observada), alrededor de cada valor promedio es la misma. Es decir:
σ2(Y/X1) = σ2(Y/X2) = … σ2(Y/Xk) = σ2(Y/X)
NORMALIDAD: supuesto que recién se podrá comprender cuando se avance en la Carrera. Plantea que los valores de Y observados para cada X, están distribuidos normalmente alrededor de cada promedio.
A partir de un conjunto de n unidades sobre cada una de las cuales se observan dos variables (cuantitativas), para la determinación de la recta que las liga se puede recurrir a una variedad de métodos que difieren en complejidad y calidad de resultados. Desde el simple trazado de una recta con una regla obtenida de la observación visual, hasta la obtención de fórmulas que cumplen una serie de requisitos y condiciones, muchas son las opciones existentes. En su momento, la definición de estos métodos tuvo por objeto no solo cumplir condiciones deseables en las rectas a obtener a partir de ellos, sino también que todos aquellos que los apliquen lleguen a los mismos resultados.
En este curso, la recta a utilizar será aquella que provee el denominado Método de los Mínimos Cuadrados (MMC), uno de los que mejor conforman por su simplicidad y eficiencia, y que se basa en el siguiente razonamiento:
Se tiene un conjunto de n pares de datos, provenientes de la medición de dos variablesv cuantitativas sobre dicho conjunto.
Se desea obtener con los mismos, una función lineal que determine el sentido de la orientación de la “nube” de puntos.
Para aproximar al modelo teórico enunciado anteriormente, la ecuación de regresión es similar al mismo:
yi = Ŷi + a + b.xi
Los coeficientes de la recta teórica (α y β) se “estiman” con los datos observados y se los identifica con a y b con similares significados a los anteriores α y β.
No existe el Error 𝝴i , pero como se verá, el método lo tiene en cuenta.
Los valores de yi son los que caen sobre la recta, y difieren de los reales Yi que son los que corresponden a la “nube” de puntos.
El MMC expresa que la recta que mejor se ajusta a los datos es aquella para la cual las diferencias entre los valores observados (Yi) y los valores predichos (yi) son mínimas.
Para ello, la recta debe pasar indefectiblemente sobre el punto en que se cruzan los promedios aritméticos de las dos variables (x e y), debido a lo cual la recta cumple la condición que:
∑ni=1 (Ŷi - yi) = 0 (es decir que se compensan los desvíos positivos con los negativos).
Lamentablemente esta condición la cumplen las infinitas rectas que pasan por ese punto. Lo expresado en el MMC equivale a minimizar matemáticamente la expresión:
∑ni=1 (Ŷi - yi)2
y para resolver algebraicamente lo expresado, se debe recurrir al operador matemático “derivadas parciales”, las que igualadas a cero (para obtener el mínimo requerido), generan un sistema de dos ecuaciones con dos incógnitas, a y b, de donde, con cualquier sistema de resolución se obtiene que:
y reemplazando b en la recta:
a = ȳ - b.x̄
También es factible calcular a con la fórmula resultante del sistema de resolución de las ecuaciones, lo que generaría el mismo resultado pero con una fórmula más complicada.
Puede comprobarse que la recta calculada de esa forma, es la que genera que la suma de las diferencias ∑ni=1 (Ŷi - yi) se anule (propiedad que, como ya se dijo, cumplen todas las recta quen pasen por donde se unen x̄ e ȳ), y que la suma de las diferencias al cuadrado ∑ni=1 (Ŷi - yi)2 sea mínima con respecto a la que se obtendría con otra recta diferente.
Dentro de la Estadística, el MMC se utiliza en varias oportunidades en que se requieren criterios de optimización para la determinación de formas de cálculo de estimadores, proyecciones en el tiempo, etc.
Cabe mencionar que siempre es posible calcular una Recta de Regresión, cualquiera sea la forma de la nube de puntos, y cualquiera sea la conclusión respecto al tipo de relación existente entre las variables (rectilínea, curvilínea, sinusoidal, amorfa, etc.). Posteriormente se podrá determinar la “bondad” de esa recta, a partir de algún coeficiente de asociación, prueba de ajuste, etc. (ver puntos y capítulo siguientes).
No en toda la bibliografía sobre el tema, se aclara que de la misma forma que se enfocó el análisis de la recta de regresión, asumiendo que xi era la variable independiente, y que la yi era la dependiente, siendo ambas estadísticamente independientes, es posible cambiar el enfoque y rotar el rol de cada una de ellas.
Las diferencias que se tendrían, equivalen a reemplazar las xi por las yi y viceversa, obteniéndose lo siguiente Recta de Regresión de xi en función de yi :
xi = Xi + a’ + b’.yi
Donde:
y reemplazando b’ en la recta:
a’ = x̄ - b.ȳ
Cumpliéndose con ellos todos los requisitos del MMC, con la única diferencia que en este caso las diferencias que se minimizan son en sentido horizontal.
En la práctica no es usual que se calculen ambas rectas de regresión, ya que el problema se plantea usualmente buscando estimar o aproximarse a una de las variables (la “explicada”), a partir de la otra (la “explicativa”).
La disponibilidad de estas rectas (o una de ellas), permite que a partir del conocimiento de una variable (la explicativa), se puedan realizar estimaciones de la otra (explicada), mediante el simple procedimiento de reemplazar en la función (yi) un valor de la primera de ellas (xE):
yE = ŶE = a + b.xE ; lo mismo puede hacerse con Xi = XE = a’+b’.yE
De acuerdo a lo planteado en la Introducción de este punto 2., resta analizar la forma de encarar el estudio del grado o importancia con que se vinculan las variables.
También allí se expresó que al cubrirse expresamente el tema de asociación lineal entre variables cuantitativas, el objetivo es desarrollar el tema de Correlación entre variables, dejándose de lado los métodos menos potentes de asociación en general (utilizados cuando participa por lo menos una variable cualitativa), y dedicando los esfuerzos al desarrollado por Karl Pearson (algo así como en Johann Sebastian Bach de la Estadística), tendiente a calcular un Coeficiente de Correlación Lineal (r), que permite estudiar la covariación entre dos variables, mediante un número que mide el grado o intensidad de dicha covariación.
El método desarrollado por Pearson, está muy vinculado al de los Mínimos Cuadrados, y el valor de r, que es una expresión relativa de la covariación entre dos variables, termina siendo calculado mediante la relación (cociente) entre la Covarianza (medida absoluta de esa variación conjunta), y los Desvíos Estándar de cada una de las variables.
El método desarrollado por Pearson está muy vinculado al de los Mínimos Cuadrados y el valor de r, que es una expresión relativa de la covariación entre dos variables, termina siendo calculado mediante la relación (cociente) entre la Covarianza (medida absoluta de esa variación conjunta), y los Desvíos Estándar de cada una de las variables.
Algebraica, el coeficiente está dado por r = covarianza (x;y) / σx . σy , donde covarianza (x;y) = [∑ (xi - x̄). (yi - ȳ)]/n es la covarianza entre xi e yi, e indica la variación conjunta entre ambas variables.
Y del otro lado, lo ya sabido:
Estas expresiones constituyen las Fórmulas de Definición, ya que expresan directamente la forma en que se definen los componentes del coeficiente r. En Estadística Descriptiva se ha visto con los Desvíos Estándar, que mediante algunos simples pasos algebraicos es posible transformar esas expresiones en una Fórmula de Trabajo, más fácil de aplicar si se debe operar manualmente. Ella es:
Es relativamente fácil verificar que el Coeficiente de Correlación Lineal (r) (cualquiera sea la forma de calcularlo), tiene homogeneizado o normalizado su resultado, ya que varía entre –1 y 1, donde:
Si r = 1 La relación lineal es directa o positiva y perfecta. Es decir que existe correlación directa exacta entre las variables.
Si r = -1 La relación lineal es inversa o negativa y perfecta. Es decir que existe correlación indirecta exacta entre las variables.
Si r = 0 No existe relación lineal entre las variables.
Cualquier otro resultado entre medio de estos, indicaría relación lineal alta o baja, positiva o negativa de acuerdo a los valores que tome el r.
También es fácil verificar, que si previo al cálculo del r se debieron calcular las dos rectas de regresión del problema bajo análisis, la forma más simple de calcular r es haciendo:
r = √(b.b’)
Con el único cuidado de mantener el signo de la raíz cuadrada (o sea, hacer la raíz cuadrada del valor absoluto pero después volver a colocar el correspondiente, ya que no se puede hacer la raíz de un valor negativo, entiendo), de acuerdo con el signo que tomen los dos coeficientes de las dos rectas (ya que ambos deben tener el mismo signo).
Cualquiera sea la fórmula de cálculo, el r mide la correlación lineal existente entre ambas variables, sin particularizar entre la explicada o la explicativa, y también se lo puede calcular cualquiera sea la conclusión respecto al tipo de relación existente entre las variables (rectilínea, curvilínea, sinusoidal, amorfa, etc.)22
Pese a la facilidad de lectura de los resultados del r, se puede mejorar su interpretación construyendo el Coeficiente de Determinación, mediante una simple modificación:
CD = r2 . 100 = b . b’ . 100
Cuya lectura e interpretación es mas fácil, ya que, en términos simples, expresa el porcentaje de los cambios en una de las variables que están explicados por los cambios en la otra.
A. En la Secretaría de Agricultura, Ganadería y Pesca, desea hacerse una rápida estimación de la cantidad de silos (yi) que se deberán utilizar en la próxima campaña de recolección de granos, para lo cual sólo se dispone de información obtenida en un último censo relativo al equipamiento (xi) que poseen los productores agrarios del país.
Adoptándose que la cantidad de silos a utilizar se encuentra íntimamente asociada a la cantidad de equipo pesado que posee cada productor, se considera aceptable utilizar esta última variable (conocida a partir del mencionado censo), para estimar el número de silos necesarios. Con el fin de comprobar el supuesto inicial (asociación entre ambas variables), se consulta a 5 productores en relación a ellas, obteniéndose:
| Productor (i) | Equipos (xi) | Silos (yi) |
|---|---|---|
| 1 | 0 | 0 |
| 2 | 2 | 5 |
| 3 | 1 | 1 |
| 4 | 2 | 3 |
| 5 | 3 | 6 |
Con esta información, se debe calcular y analizar:
La Recta de Regresión que vincula la cantidad de Silos con la cantidad de Equipos (yi = a + b.Xi).
El Coeficiente de Correlación entre ambas variables (r).
El Coeficiente de Determinación (CD).
Analizar todos los coeficientes calculados.
Estimar la cantidad de Silos de un productor que posee 4 Equipos pesados (xi=4).
Graficar la nube de puntos, la recta que se obtenga y la estimación efectuada.
Bue, vamo’ a calcula’
Lo primero que voy a hacer es convertir esta tabla a R, para poder operar sobre ella de manera más sencilla. También voy a escribir el código por si fuese necesario levantarla como un “.csv”.
#Armo la columna índice
id_productor = c('1', '2', '3', '4','5') #i
#Escribo la cantidad de equipos
# El orden tiene que corresponder a sus id
equipos_productor = c(0,2,1,2,3) #x_i
#Escribo la cantidad de silos para cada productor
silos_productor = c(0,5,1,3,6) #y_i
#Hagamos una tabla con toda la información
tabla_productor = data.frame(productor = id_productor,
equipos = equipos_productor,
silos= silos_productor)
tabla_productor
## productor equipos silos
## 1 1 0 0
## 2 2 2 5
## 3 3 1 1
## 4 4 2 3
## 5 5 3 6
Y ahora si quieren bajarlo directo del link de GitHube:
#library (RCurl) libreria para bajar contenido url
urlfile_2 = "https://raw.githubusercontent.com/oblitterator/estadistica_untref/main/tabla_productor.csv" #Como ya subi el archivo a Git Hube copio el enlace y lo meto en una variab le
tabla_productor = read.csv(url(urlfile_2)) #leo el .csv
tabla_productor
## productor equipos silos
## 1 1 0 0
## 2 2 2 5
## 3 3 1 1
## 4 4 2 3
## 5 5 3 6
¿Con que no os gusto?
Pues tengo otra: se descargan el .csv de este link (u, obviamente quizá ya lo tienen en su PC). Y ahí lo buscan en Descargas, o donde sea el path, y lo leen:
tabla_productor = read.csv("/home/oblitterator/Descargas/tabla_productor.csv") #/home/oblitterator/Descargas/" es el path donde está mi archivo en la PC.
tabla_productor
## productor equipos silos
## 1 1 0 0
## 2 2 2 5
## 3 3 1 1
## 4 4 2 3
## 5 5 3 6
plot(tabla_productor$equipos,
tabla_productor$silos) #uso la función plot y le paso mis columnas como x e y.
Donde:
Xi : Cantidad de Equipos pesados que posee cada productor (variable independiente o descriptora).
Yi: Cantidad de Silos para almacenamiento de granos que posee cada productor.
Además de lo requerido específicamente, es conveniente disponer también de algunas características de los datos con los que se trabaja (promedios, etc.). Tanto para el cálculo de los promedios como para responder a la consulta planteada, debe prepararse una tabla de cálculos como la siguiente:
tabla_productor <- tabla_productor %>%
mutate( xi_por_yi = equipos*silos,
xi.cuadrado_equipos = equipos^2,
yi.cuadrado_silos = silos^2)
tabla_productor
## productor equipos silos xi_por_yi xi.cuadrado_equipos yi.cuadrado_silos
## 1 1 0 0 0 0 0
## 2 2 2 5 10 4 25
## 3 3 1 1 1 1 1
## 4 4 2 3 6 4 9
## 5 5 3 6 18 9 36
Bueno, esto en realidad no es necesario. Sólo si querés torturarte haciendo los cálculos a mano. Sino simplemente hacemos:
modelo_lineal= lm(formula= silos ~ equipos,
data = tabla_productor) #primero la variable y (dependiente) y despues la variable x (independiente), y en data seleccionamos la tabla de la que sacamos las columnas
summary(modelo_lineal) #veo las métricas de mi modelo
##
## Call:
## lm(formula = silos ~ equipos, data = tabla_productor)
##
## Residuals:
## 1 2 3 4 5
## 0.38462 1.15385 -0.73077 -0.84615 0.03846
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.3846 0.7938 -0.485 0.6612
## equipos 2.1154 0.4184 5.056 0.0149 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9541 on 3 degrees of freedom
## Multiple R-squared: 0.895, Adjusted R-squared: 0.86
## F-statistic: 25.56 on 1 and 3 DF, p-value: 0.01493
names(modelo_lineal) #veo los atributos del objeto
## [1] "coefficients" "residuals" "effects" "rank"
## [5] "fitted.values" "assign" "qr" "df.residual"
## [9] "xlevels" "call" "terms" "model"
r = cor(tabla_productor$silos,
tabla_productor$equipos) #creeme, es más fácil que la otra forma.
print(paste("el coeficiente de correlación r es de ", round(r,3)
)
)
## [1] "el coeficiente de correlación r es de 0.946"
cd= r^2*100
print(paste("El Coeficiente de determinación es de ",round(cd,1)
)
)
## [1] "El Coeficiente de determinación es de 89.5"
coefficients(modelo_lineal) # nos tira primero la posicion "a" donde x corta al eje y (Intercept) y después la pendiente de la recta
## (Intercept) equipos
## -0.3846154 2.1153846
En este caso yi = 0,384 + 2,12.Xi. Y ahí le hacemos una liníta o lineíta, no sé cómo se escribe.
plot(tabla_productor$equipos,
tabla_productor$silos,
xlab='Equipos',
ylab='Silos')
abline(modelo_lineal)
El valor negativo de “a” no tiene explicación lógica, excepto que por su cercanía a cero se interpreta que ese debería ser el valor (al que no se llegó por casualidades algebraicas o redondeos), y que productores sin Equipamiento no tienen ningún Silo. (o sea, en principio no explicamos nada, arrancamos bien). No bueno, eso, hay que pensar que hay errores de redondeo que arrastramos también por tener una muestra baja, creo yo.
El b = 2,12, sugiere que por cada Equipo pesado que se incrementa, la cantidad de Silos aumenta (por ser positivo) 2,12.
Los elevados valores de r y CV, indican que entre ambas variables existe una importante relación positiva o directa (el r es positivo), situación ya observada en el Diagrama de puntos. El resultado del CD indica que conociendo la cantidad de Equipos, se está conociendo (o explicando) casi el 90 % de la cantidad de Silos, lo que es realmente el el objeto del estudio.
Conclusión: el conocer la cantidad de Equipos de los productores agrarios, permite aproximarnos con buenas perspectivas a la cantidad de Silos que utilizarán para la cosecha de granos.
estimacion_silos_por_equipos = predict(object = modelo_lineal, newdata = data.frame(equipos = c(4))) #le paso un dataframe con la columna que quiero predecir y un vector de lo que se me cante
print(paste("La estimación para un productor con 4 Equipos: ",estimacion_silos_por_equipos))
## [1] "La estimación para un productor con 4 Equipos: 8.07692307692308"
plot(tabla_productor$equipos,
tabla_productor$silos,
xlab='Equipos',
ylab='Silos')
abline(modelo_lineal)
Con los datos del problema anterior, suponer que la situación era la inversa; es decir que por un registro de la Sociedad Agraria de la región se conoce la cantidad de Silos de cada productor, y a partir de ella se desea saber la cantidad de Equipos pesados que cada uno posee. Los datos son los mismos.
tabla_productor
## productor equipos silos xi_por_yi xi.cuadrado_equipos yi.cuadrado_silos
## 1 1 0 0 0 0 0
## 2 2 2 5 10 4 25
## 3 3 1 1 1 1 1
## 4 4 2 3 6 4 9
## 5 5 3 6 18 9 36
A partir de la misma información básica anterior (promedios, tabla de cálculos, etc.), la Recta de Regresión que se necesita en este caso es la de los Equipos (Xi) en función de los Silos (Yi). Entonces, tiramos el mismo código pero cambiando el orden de las columnas (obvio que también, si tenés todas las ganas calculalo con la formula de trabajo).
otro_modelo_lineal = lm(formula = equipos ~ silos,
data = tabla_productor) #ahi puse primero la variable x y después la y, porque ya estaba al revés WTF
summary(otro_modelo_lineal)
##
## Call:
## lm(formula = equipos ~ silos, data = tabla_productor)
##
## Residuals:
## 1 2 3 4 5
## -0.3308 -0.4462 0.2462 0.4000 0.1308
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.33077 0.31532 1.049 0.3712
## silos 0.42308 0.08368 5.056 0.0149 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4267 on 3 degrees of freedom
## Multiple R-squared: 0.895, Adjusted R-squared: 0.86
## F-statistic: 25.56 on 1 and 3 DF, p-value: 0.01493
coefficients(otro_modelo_lineal)
## (Intercept) silos
## 0.3307692 0.4230769
Por su lado, los Coeficientes de Regresión y Determinación, puede comprobarse que no variarían, ya que sus componentes son los mismos, con lo que debe concluirse que siendo ambas variables aleatorias, dependiendo del problema cualquiera de ellas puede ser la explicada o la explicativa.
También puede comprobarse la forma simplificada de calcular r o CD si ya se tiene los dos Coeficientes Angulares (las pendientes “b” de las dos rectas). La verdad no sé cómo se hace, así que voy a calcular “r” de la misma manera que hice antes, pero cambiando el orden de nuevo.
r_otro_modelo_lineal= cor(tabla_productor$equipos,
tabla_productor$silos)
print(paste("el coeficiente de correlación r es de ", round(r_otro_modelo_lineal,3)
)
)
## [1] "el coeficiente de correlación r es de 0.946"
O sea, vemos que es igual sin temas de redondeo, porque lo calculamos sobre la misma base, sin aproximaciones. Y ahora, lo mismo para el Coeficiente de Detemrinación:
cd_otro_modelo_lineal= r_otro_modelo_lineal^2*100
print(paste("El Coeficiente de determinación es de ",round(cd_otro_modelo_lineal,1)
)
)
## [1] "El Coeficiente de determinación es de 89.5"
Y bueno, ahora así quedamos todos contentos, hacemos la misma línea que antes y hasta acá estuvo bien. Ya.
plot(tabla_productor$equipos,
tabla_productor$silos,
xlab='Silos',
ylab='Equipos')
abline(otro_modelo_lineal, col = 'blue')
abline(modelo_lineal, col = 'red')
“Si se representara la recta calculada sobre el mismo gráfico anterior, podría verse que se cruza con la anterior sobre el punto en que coinciden los promedios de ambas variables, y que por tener tan elevado valor de r, son casi coincidentes gráficamente.” (Guía de Aspectos Conceptuales, pág. 126)
Ehhh bueno, para mí está utilizando las pendientes de las rectas calculadas (para la primera yi = -0,4 + 2,12Xi y para la segunda: xi = 0,34 + 0,42.Yi ) pero le cambió el signo por positivo a negativo a la ordenada “a” de la “otra recta de regresión” (xi = -0,34 + 0,42.Yi, o sea en vez de a = 0,34 usa a = -0,34), entonces le sale esto.
¿Por qué le cambió el signo a la ordenada? No hay por qué. En fin, la hipotenusa.
De la misma forma que al trabajarse con una sola variable cuantitativa, el tratamiento estadístico se podía realizar con los datos aislados o sin agrupar, o bien agrupándolos de acuerdo a los valores diferentes de la variable y sus correspondientes frecuencias, al trabajar con dos (o más) variables sucede lo mismo.
Hasta el momento, en todos los casos presentados para aplicar los métodos de Regresión y Correlación se trabajó con datos sin agrupar, es decir que los pares de valores de las dos variables, venían dados de a pares, sin agruparlos con sus frecuencias aunque algunos se repitieran.
Ahora bien, es común tener que aplicar esta metodología en grandes volúmenes de datos, en los cuales la información debe ser agrupada en tablas de frecuencias a doble entrada (similar a la analizado en el punto 2. de este capítulo), por lo cual es necesario conocer las modificaciones que deben hacerse a los métodos hasta ahora utilizados con los datos no agrupados.
El punto de partida es que se tienen dos variables cuantitativas (de variables discretas o continuas), por lo cual son factibles de ser resumidas en medidas que las caractericen (promedios, dispersiones, etc.), además de que sus resultados pueden ser volcados en tablas de frecuencias absolutas o relativas a doble entrada.
De la misma forma que al trabajarse con una sola de ellas, era posible preparar una tabla de frecuencias (determinando de esa forma la importancia de cada resultado diferente), y expresarlas tanto en términos absolutos o relativos, al trabajarse con dos variables conjuntamente es posible construir una tabla de frecuencias a doble entrada en la que se presenta la distribución de ambas en forma conjunta en una tabla a doble entrada de la siguiente forma23:
Siendo:
xi: resultado i-ésimo de una variable x que toma valores desde 1 hasta k
yj: resultado j-ésimo de una variable y que toma valores desde 1 hasta l (ele)
fij: frecuencia conjunta de los resultados xi e yj
fi.: frecuencia marginal de xi
f.j: frecuencia marginal de yj
f = n: cantidad de casos en los que se miden las variables xi e yj
Advertencia: tómese un tiempo para respirar antes de lo que viene
Con la información dispuesta de esta forma, de acuerdo a los valores de n, k y l, además de poder calcularse las frecuencias relativas que se mencionaron en el caso de dos variables cualitativas, es posible adaptar las fórmulas utilizadas en el caso de variables sin agrupar, a este caso de Tablas de Frecuencias. Para ello deben tenerse presente las siguientes expresiones:
La información para calcular todas estas medidas se obtienen de la siguiente tabla de cálculos:
A partir de esas medidas, es posible calcular las rectas y el Coeficiente de Correlación:
yx = a + b.xi
b = √(cov(xi;yj)/σx2)
a = ȳ - b.x̄
Y la “otra” recta:
xy = a’ + b’.yi
b’ = √(cov(xi;yj)/σy2)
a’ = x̄ - b.ȳ
Y finalmente, el coeficiente de relación (r)
r = √(cov(xi;yj)/σx.σy)
C’est fini
Ejemplo Guía de Aspectos Conceptuales, pág. 130.
Los Alumnos ingresados a la Carrera de Estadística de la UNTREF en el año 2008, fueron encuestados, relevándose para cada uno de ellos 8 variables:
Los datos relevados figuran acá en GitHub o acá en GoogleDrive.
A partir de la misma se solicita:
alumnos_2008 = read.csv("/home/oblitterator/Descargas/base_datos_alumnos_2008.csv") #/home/oblitterator/Descargas/" es el path donde está mi archivo en la PC.
names(alumnos_2008)
## [1] "n_orden" "cant_hijos" "cant_grupo_familiar"
## [4] "edad" "sexo" "materias_cursadas"
## [7] "estado_civil" "hs_semanales_trabajo" "nota_parcial"
Como vemos tiene 9 atributos o columnas (el primero es el indexador “n_orden”) y 36 observaciones o filas.
Advertencia: todo lo que usted está a punto de ver son pasos de álgebra y cálculo explícitos para realizar inferencias a través de una tabla de frecuencias extraída de un conjunto de datos (como se ve en esta página de la guía).
Sólo estoy haciendo esto para que usted vea exactamente que es lo que pasa matemáticamente atrás de las funciones que utilizamos en el paso anterior. NADA DE TODO ESTO ES REALMENTE NECESARIO Y PUEDE LIMARLE LA CABEZA.
Si no desea que su cerebro se destruya puede saltear esta sección e ir a la parte donde directamente leo y calculo toda esta información desde los datos de origen con funciones de R, que es recién punto g) (punto “g”, ñami)
Lo que voy a tener que hacer a continuación es ir colapsando las celdas o reagrupandolas en función de lo solicitado. En este caso, primero tengo que armar una tabla de doble entrada con cantidad de materias cursadas por horas de trabajo, agrupadas en los intervalos pedidos.
Voy a agregar una columna a mi tabla, con los intervalos ya definidos de agrupamiento horario (“0” – “10 a 20” – “20 a 30” – “30 a 40” – “40 a 50” – “50 a 60”).
alumnos_2008 = alumnos_2008 %>%
mutate(horas_trabajo_agrupada =
case_when(hs_semanales_trabajo == 0 ~ "0",
hs_semanales_trabajo > 10 & hs_semanales_trabajo <=20 ~ "10 - 20",
hs_semanales_trabajo > 20 & hs_semanales_trabajo <=30 ~ "20 - 30",
hs_semanales_trabajo > 30 & hs_semanales_trabajo <=40 ~ "30 - 40",
hs_semanales_trabajo > 40 & hs_semanales_trabajo <=50 ~ "40 - 50",
hs_semanales_trabajo > 50 & hs_semanales_trabajo <=60 ~ "50 - 60")
)
#freq(alumnos_2008$horas_trabajo_agrupada) # y le tiro la función freq para ver la frecuencia de ocurrencia, sólo porque puedo
Ahora que tengo ya armados los grupos, construyo una nueva tabla sólo con materias_cursadas y horas_trabajo_agrupada, que acabo de crear:
library(reshape2)
mat_por_hs_trab = dcast(alumnos_2008, materias_cursadas ~ horas_trabajo_agrupada) # con la funcion dcast le paso el df original y las dos columnas para que me arme una tabla de frecuencias nueva. En este caso se pasa primero mis filas (materias_cursadas) y después las columnas (horas_trabajo_agrupada)
## Using horas_trabajo_agrupada as value column: use value.var to override.
## Aggregation function missing: defaulting to length
mat_por_hs_trab
## materias_cursadas 0 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60
## 1 2 0 0 0 0 1 1
## 2 3 0 1 1 7 5 0
## 3 4 4 0 1 3 0 1
## 4 5 4 2 0 1 1 1
## 5 6 0 0 0 1 0 1
Uno diría "pero y cómo voy a hacer para armar una recta de regresión si tengo de un lado una variable Yi cuantitativa discreta y del otro una cualitatitva Xi (agrupamiento de horas de trabajo). Bueno, lo que hace en la guía es (obviamente sin decirnos) convertir estos intervalos en variables cuantitativas discretas, medio con el criterio que le parece: el intervalo de 10-20 lo deja con el valor 20, y el resto parte los intervalos por la mitad (20 a 30= 25, 30 a 40 = 35, 40 a 50 = 45, 50 a 60 = 55).
Y además. hacer algo muy muy muy al pedo. Vamos convertir toda la tabla a una matriz, para poder hacer operaciones matriciales (cuac). Para eso, además, voy a inventar un vector (v1) que coincida con las horas definidas por grupo. Todo esto para calcular la x̄, para el MMC. (imaginate que después hay que calcular todo el resto de las cosas)
Para el conocer el valor de la media aritmética x̄ tengo entonces que por un lado armar el numerador (sumatoria de Yi . ni ) y dividirlo por el denominador (el total marginal)
mat_por_hs_trab_matrix = as.matrix(cbind(mat_por_hs_trab$"0",
mat_por_hs_trab$"10 - 20",
mat_por_hs_trab$"20 - 30",
mat_por_hs_trab$"30 - 40",
mat_por_hs_trab$"40 - 50",
mat_por_hs_trab$"50 - 60")
)
v1 = c(0, 20, 25, 35, 45, 55) #vector de frecuencias Xi
##Y ahora con esta función calculo el el Yi*ni, es decir las la sumatoria del total de horas semanales de trabajo por la frecuencia de materias cursadas.
x_raya = sum(sweep(
x = mat_por_hs_trab_matrix,
MARGIN = 2,
v1, FUN="*") #el numerador para la media
)/ sum(mat_por_hs_trab_matrix) #el denominador para la media, que es la sumatoria de las frecuencias marginales
## Y ahora hago lo mismo para y_raya ##
v2 = c(2, 3, 4, 5,6)
y_raya= (sum(mat_por_hs_trab_matrix*v2) #aca simplemente lo mutiplico por el vector porque tiene la misma cantidad de filas.
/sum(mat_por_hs_trab_matrix)) #el denominador para la media, que es la sumatoria de las frecuencias marginales
print(paste("Mi media de x es",round(x_raya,2),"hs, y mi media y_raya es", round(y_raya,2), "materias"))
## [1] "Mi media de x es 29.58 hs, y mi media y_raya es 3.86 materias"
Y ahora después de todos esto… más pasos al pedo. Porque tengo que calcular la varianza σx2 , la varianza σy2 , la covarianza (x;y), la pendiente bx y la ordenada al origen ax .
Todo esto porque el señorito quería hacerlo a mano y no agarrar directamente la tabla y pasarle los valores para armar el modelo. Pero ya estamos acá, así que:
varianza_x = (sum(sweep(x = mat_por_hs_trab_matrix,
MARGIN = 2,
v1^2, FUN="*") #el numerador para la varianza, notad que lo que hago es en realidad multiplicar la matriz de antes por mis X al cuadrado
)/sum(mat_por_hs_trab_matrix))-x_raya^2
varianza_y = (sum(mat_por_hs_trab_matrix*(v2^2))
/sum(mat_por_hs_trab_matrix))-y_raya^2
print(paste("La varianza de x es", varianza_x, "horas al cuadrado, y la varianza de y es", varianza_y,"materias al cuadrado"))
## [1] "La varianza de x es 331.076388888889 horas al cuadrado, y la varianza de y es 1.06404320987654 materias al cuadrado"
Y ahora por último, la covarianza, las pendientes y la ordenada al origen:
covarianza = sum(mat_por_hs_trab_matrix%*%diag(v1)*v2)/sum(mat_por_hs_trab_matrix) - (x_raya*y_raya) # sumatoria de Xi . Xj .nij (o sea, sumatoria de j) dividido las frecuencias marginales, menos la multiplicación del promedio de x por el promedio de y
b_x= sqrt(covarianza/varianza_x) #la raiz cuadrada del valor absoluto de la razon entre la covarianza y la varianza de x
## Warning in sqrt(covarianza/varianza_x): Se han producido NaNs
Me da número inexistente, porque estoy intentando hacer la raíz de un número negativo. Pensar que todo esto se calcula con derivadas y yo no lo estoy haciendo de esa manera.
Para seguir tengo que entonces hacer la raíz cuadrada del módulo (el valor absoluto) de la relación entre la covarianza y luego volver a multiplicarlo por -1, para tener el signo correcto:
b_x= sqrt(abs(covarianza/varianza_x))*(-1) #ahí lo vuelvo a su signo original
a_x = y_raya - (b_x)* x_raya
print(paste("la pendiente b tiene un valor de", round(b_x,2),"y la ordeanada al origen es de", round(a_x,2), ", Por tanto la recta de regresión lineal es yx =",round(a_x,2),"+",round(b_x,2),"* xi"))
## [1] "la pendiente b tiene un valor de -0.13 y la ordeanada al origen es de 7.81 , Por tanto la recta de regresión lineal es yx = 7.81 + -0.13 * xi"
Listo el punto a) entonces: yx = 7,79 + -0,133 . xi
Nunca más en mi vida voy a volver a hacer esto, lo juro por Charly García.
¿Cuántas materias debería Cursar en promedio un alumno que Trabaja 50 horas semanales? Bueno, se debe reemplazar ese valor en la recta encontrada en a):
xi = 50
y_x = a_x + b_x*xi
print(paste("Para un alumno que trabaja", xi,"horas semanales la cantidad de materia que debería cursar en promedio es de", y_x))
## [1] "Para un alumno que trabaja 50 horas semanales la cantidad de materia que debería cursar en promedio es de 1.13764012211686"
b_y= sqrt(abs(covarianza/varianza_y))*(-1) #ahí lo vuelvo a su signo original
a_y = x_raya - (b_y)* y_raya
print(paste("la pendiente b tiene un valor de", round(b_y,2),"y la ordeanada al origen es de", round(a_y,2), ", Por tanto la recta de regresión lineal es xi=",round(a_y,2),"+",round(b_y,2),"* yi"))
## [1] "la pendiente b tiene un valor de -2.35 y la ordeanada al origen es de 38.67 , Por tanto la recta de regresión lineal es xi= 38.67 + -2.35 * yi"
Para estimar cuantas Horas Trabaja (en promedio), un alumno que Cursa 5 Materias, se debe reemplazar ese valor en la recta encontrada en c):
yi = 5
x_y = a_y + b_y*yi
print(paste("Para un alumno que trabaja", yi,"horas semanales la cantidad de materia que debería cursar en promedio es de", x_y))
## [1] "Para un alumno que trabaja 5 horas semanales la cantidad de materia que debería cursar en promedio es de 26.903524936688"
Para obtener los Coeficientes de Correlación y Determinación de ambas variables, teniendo ya calculadas las dos rectas, hacemos:
r = sqrt(b_x*b_y)*(-1) #lo multiplico por -1 ya que recordemos que la pendiente de x era negativa
cd = r^2*100
print(paste("Nuestro coeficiente de Correlación (r) es de", r, "y nuestro Coeficiente de Determinación es de ", cd,"%"))
## [1] "Nuestro coeficiente de Correlación (r) es de -0.560247789105436 y nuestro Coeficiente de Determinación es de 31.387758519753 %"
El análisis de los coeficientes de ambas rectas y los obtenidos en el punto e), debería ser como sigue:
En la recta de, yx el valor de ax = 7,79 indica que en promedio los alumnos que no trabajan (es decir con xi = 0), podrían cursar entre 7 y 8 materias (7,8).
El valor de bx = -0,133 indica la cantidad de materias que disminuye, en promedio, cada alumno que incrementa en una hora semanal las horas trabajadas.
En la recta de xy el valor de ay = 38,65 indica que en promedio los alumnos que no cursan ninguna materia (es decir con yj = 0), podrían trabajar entre 38 y 39 horas semanales.
El valor de by = -2,35 indica la cantidad de horas semanales de trabajo que disminuye en promedio un alumno que incrementa en una las materias cursadas.
El valor de r = 0,56 muestra que la relación entre ambas variables no es demasiado alta, y que el uso de una de ellas para estimar la otra, puede no resultar de utilidad.
Esto se refuerza con el valor CD = 31,3 %, lo que sugiere que menos de un tercio de una de las variables, queda determinado por el conocimiento de la otra, y que la diferencia a 100 depende de otras variables no consideradas.
Bueno, veo que te has adelantado hasta aquí, y has hecho bien. Quizá después puedas repasar el punto f), porque es interesante ver cuál es el análisis, más allá de los calculos. Pero antes que nada, voy a armar los modelos re regresión en tres simples pasos.
alumnos_2008 = read.csv("/home/oblitterator/Descargas/base_datos_alumnos_2008.csv")
colnames(alumnos_2008)
## [1] "n_orden" "cant_hijos" "cant_grupo_familiar"
## [4] "edad" "sexo" "materias_cursadas"
## [7] "estado_civil" "hs_semanales_trabajo" "nota_parcial"
Primero voy a tirar un gráfico:
plot(alumnos_2008$hs_semanales_trabajo,
alumnos_2008$materias_cursadas)
Ya con esto te digo que no tiene una cosa que ver por la otra, la dispersión es muy grande y no parece seguir una relación lineal.
Nos hubiésemos ahorrado todos los fucking cálculos de arriba, me quiero ir.
Pero bueno, dale, modelo de regresión lineal:
modelo_materias = lm(formula = materias_cursadas ~ hs_semanales_trabajo, data = alumnos_2008)
summary(modelo_materias)
##
## Call:
## lm(formula = materias_cursadas ~ hs_semanales_trabajo, data = alumnos_2008)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.6557 -0.7318 -0.3404 0.6596 2.5117
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.340394 0.321130 13.516 0.00000000000000312 ***
## hs_semanales_trabajo -0.015215 0.008661 -1.757 0.088 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.016 on 34 degrees of freedom
## Multiple R-squared: 0.08322, Adjusted R-squared: 0.05625
## F-statistic: 3.086 on 1 and 34 DF, p-value: 0.08797
Tomando los datos crudos vemos que el modelo que se arma es muchísimo menos preciso que si armamos los intervalos esos (de 0, 20, 25-35, etc.), aunque la pendiente coincide bastante.
r = cor(alumnos_2008$materias_cursadas,
alumnos_2008$hs_semanales_trabajo) #creeme, es más fácil que la otra forma.
print(paste("el coeficiente de correlación r es de ", round(r,3)
)
)
## [1] "el coeficiente de correlación r es de -0.288"
cd= r^2*100
print(paste("El Coeficiente de determinación es de ",round(cd,1),"%"
)
)
## [1] "El Coeficiente de determinación es de 8.3 %"
Vemos como ambos Coeficientes muestran muchísima menos fuerza en la relación que cuando se definió el agrupamiento en intervalos de edad y la imputación de frecuencias a los valores.
Y ahora voy a predecir lo que estaba en el punto b) (lo otro ya me aburrió, pero es lo mismo calculando el otro modelo)
estimacion_materias_por_hs_trab <- predict(
object = modelo_materias,
newdata = data.frame(hs_semanales_trabajo = c(5)))
#le paso un dataframe con la columna que quiero predecir y un vector de lo que se me cante
print(paste("La estimación de materias a cursar para una persona que trabaja 50 horas por semana es de:",mean(estimacion_materias_por_hs_trab), "materias"))
## [1] "La estimación de materias a cursar para una persona que trabaja 50 horas por semana es de: 4.26431758943198 materias"
estimacion_materias_por_hs_trab
## 1
## 4.264318
O sea, nada que ver. Pero bue.
Al iniciarse el tema de Estadística Inferencial, y en particular al comenzarse con el capítulo de Ensayos de Hipótesis, se mencionó que de las dos grandes ramas se vería inicialmente la Inferencia Estadística Paramétrica, es decir aquella referida a los diversos Parámetros que caracterizan a las Distribuciones de Frecuencias y a las Funciones de Probabilidad.
En ese punto se dejó de lado la denominada Inferencia Estadística No Paramétrica, y en particular la dedicada específicamente a las Pruebas de Hipótesis, cuya introducción y mención de los casos más frecuentes se analizarán en este capítulo. Además, en el capítulo anterior referido a la Asociación y Relación entre Variables, al analizarse los métodos aplicables a variables cualitativas, se mencionó que la determinación de existencia o no de asociación entre las variables, se vería en este capítulo.
Para comenzar a desarrollar el tema, es conveniente destacar las particularidades de las Pruebas de Hipótesis No Paramétricas, particularizando en las ventajas y desventajas con relación a las ya desarrolladas sobre los Parámetros.
En los métodos estadísticos paramétricos, para poder concluir con una aplicación específica en los procedimientos de estimación por intervalos o comprobación de alguna hipótesis, debían verificarse previamente algunos datos, determinar el cumplimiento de algunos requisitos, o realizar algunos supuestos respecto a la población, no siempre comprobables ni seguros.
Por ejemplo: era común tener que suponer o verificar que la variable en estudio tiene distribución Normal; o que se conoce la dispersión de la misma (utilizándose alguna anterior); o que la muestra extraía es suficientemente grande.
Esta es la principal desventaja o debilidad de los métodos paramétricos, y es el punto en que los Métodos No Paramétricos los superan, ya que para su aplicación no se requiere el cumplimiento de ninguno de esos requisitos o supuestos.
Por su lado, los métodos paramétricos tienen la ventaja de su potencia y precisión, ya que permiten tomar decisiones respecto a ciertos valores y características (los parámetros), con idea de la orientación o sentido de las pruebas.
La otra diferencia que tienen ambos métodos, es que los paramétricos sólo se pueden aplicar a variables cuantitativas (discretas o continuas), mientras que la mayoría de los No Paramétricos no tienen limitaciones en cuanto al tipo de variables, y se los aplica especialmente a las variables cualitativas (nominales u ordinales).
Estas dos ventajas o particularidades (aplicabilidad a variables de todo tipo, especialmente las cualitativas; e inexistencia de requisitos previos o innecesidad de hacer supuestos), han convertido a los Métodos No Paramétricos en los preferidos en innumerables aplicaciones de las ciencias sociales, ya que en estas no es usualmente simple disponer de esos requisitos (normalidad, muestras grandes, variables cuantitativas, etc.), por lo que resulta mucho más fácil la aplicación de técnicas menos exigentes.
Sin pretender agotar todas las múltiples pruebas de índole No Paramétricas desarrolladas hasta la fecha, puede realizarse una enumeración de las que se utilizan con mayor frecuencia:
a. Prueba de Secuencias o Corridas (Wald-Wollfowitz): se utiliza para determinar si los valores de una muestra se seleccionaron aleatoriamente, o bien si dos muestras aleatorias fueron extraídas de una misma población.
b. Prueba del Signo (se utiliza la Función Binomial): para verificar diferencias entre dos muestras u opiniones.
c. Prueba de la Mediana (se utiliza la Función Binomial): para verificar si un determinado valor coincide con la Mediana.
d. Prueba del “Antes y Después” (se utiliza la Función Binomial): se utiliza para comprobar la existencia de cambios en una población a partir de la verificación de ciertos cambios.
e. Prueba de Wilcoxon o de Mann-Whitney: a partir de la suma de los rangos u órdenes, también se la utiliza para determinar si dos muestras aleatorias fueron extraídas de una misma población.
f. Prueba de Pares Asociados y Órdenes provistas de signo (Wilcoxon): Esta prueba requiere un nivel de medición de mayor precisión que el de los “órdenes”, y se utiliza para captar diferencias entre dos muestras con pares asociados de valores.
g. Prueba de Kolmogorov- Smirnov: es similar a la Prueba se Secuencias o a la de Mann-Whitney, pero se utiliza en los casos en que las categorías de la variable ordinal son 4 o más.
h. Prueba de Suma de Rangos (Kruskal-Wallis): se la utiliza para identificar diferencias entre tres o más muestras.
i. Prueba de Homogeneidad (se utiliza la Función Chi Cuadrado): se la aplica para determinar la similitud del origen de dos muestras diferentes (es decir que las distribuciones son “homogéneas”).
j. Prueba de Ajuste (se utiliza la Función Chi Cuadrado): se la aplica para comprobar si una cierta variable de una población (de la cual se extrae una muestra), tiene una cierta distribución conocida (normal, binomial, uniforme, etc.).
k. Prueba de Independencia o Asociación (se utiliza la Función Chi Cuadrado): se la aplica para determinar si dos variables se encuentran relacionadas o son independientes.
Debido a la universalidad de sus aplicaciones, y a la posibilidad de utilizar elementos ya desarrollados (la función del Chi Cuadrado), las dos últimas pruebas son las que se desarrollarán durante este curso.
En los capítulos y puntos referidos a Distribución de los Estimadores, Estimación por Intervalos de Confianza y Pruebas de Hipótesis Paramétricas, se mencionó a la Función de probabilidad del Chi Cuadrado como la que se debía aplicar en los casos en que se debía trabajar con la distribución de la Variancia Muestral (s2), ya que se había comprobado que esteestimador cumple con esa forma de distribuirse.
Además de esas aplicaciones, la función de probabilidad del Chi Cuadrado tienen dentro de la Inferencia Estadística otro tipo de aplicaciones, en particular en diversos casos de Pruebas de Hipótesis No Paramétricas, ya que, sin entrar en mayores detalles teóricos, se ha podido comprobar experimentalmente, que si se comparan de una cierta forma las frecuencias observadas de una variable (foi o Oi) clasificada en k categorías o intervalos, con los valores esperados de la misma (fei o Ei) (es decir, considerando la forma en que se distribuye o podría distribuirse esa variable), es posible construir un “estadístico muestral” al que denominaremos 𝛘2 , que tiene una distribución aproximadamente Chi Cuadrado con k – 1 grados de libertad.
Esta condición o propiedad de la función Chi Cuadrado, la convierte en una de las de mayor utilidad para la realización de diversas pruebas de hipótesis en las que no se requiere comprobar valores de parámetros, sino que lo que se verifica es la forma en que se distribuye una variable, en comparación con un cierto modelo que se toma como referencia, habiéndose desarrollado diversos tipos de “Pruebas del Chi Cuadrado” (Ajuste, Independencia y Homogeneidad), utilizándose también de base para otras aplicaciones no paramétricas específicas.
Se la utiliza en los casos en que se intenta comprobar si una variable tiene una cierta forma de distribuirse, y debido a las escasas restricciones determinadas para su aplicación (no depende de condiciones especiales que deban cumplir los datos), es utilizada en innumerable cantidadde casos.
El esquema de razonamiento que se aplica es el siguiente:
Se parte del supuesto que una cierta variable (x) tiene una cierta forma de distribuirse f(x)0, que puede ser de cualquier tipo (Uniforme, Binomial, Rectangular, Normal, etc.), situación que se contrasta con la negación de esa afirmación. De esta forma se plantean dos hipótesis:
H0) f(x) = f(x)0 la forma de la distribución que se desea testear
H1) f(x) ≠ f(x)0
Con el fin de realizar la comprobación, de la población original de datos de x, se obtiene una muestra de una cierta cantidad de casos (n).
Esos n datos se clasifican en k categorías en las que se divide o agrupa la población.
A cada una de esas categorías le corresponde una cierta “frecuencia observada” (foi o Oi)
Conociendo la forma de la distribución que se está testeando (f(x)0), es posible calcular los “valores esperados” (fei o Ei) para cada una de las k categorías. Para ello se calcula:
Con esos valores ya es posible calcular el valor del Chi Cuadrado “experimental” (𝛘2 ), cuya fórmula de cálculo es:
Es decir que tiene una distribución Chi Cuadrado (k - 1) grados de libertad.
El valor empírico 𝛘2 es comparado con el que se extrae de la función Chi Cuadrado con (k – 1) grados de libertad, y fijando un nivel de confianza de (1 – α) o un nivel de riesgo de α.
Si el 𝛘2 es menor o igual al 𝛘2(k-1)(1- α), NO SE RECHAZA H0, ya que se obtuvo un resultado lógico dentro del nivel de confianza fijado.
Si el 𝛘2 es mayor que 𝛘2(k-1)(1- α), SE RECHAZA H0, ya que se obtuvo un resultado poco esperado o probable si es que ella fuera cierta.
El valor 𝛘2 es un estadístico o variable cuyo campo de variabilidad o dominio es:
0 ≤ 𝛘2 ≤ n.(k-1)
COMENTARIOS: Si bien no se requieren requisitos especiales ni supuestos relativos a la forma de las distribuciones, se tienen algunas limitaciones o particularidades que deben ser tenidas en cuenta:
La muestra de n unidades debe ser extraída aleatoriamente.
Las frecuencias esperadas (fei o Ei) pueden ser valores no enteros.
Se ha comprobado empíricamente, que para una mayor eficiencia del test, cada una de las frecuencias observadas (foi o Oi) debe ser mayor o igual a 5. Si alguna de ellas fuera Oi < 5 se deben agrupar las categorías vecinas.
Esto implica que también las Ei deben ser mayores o iguales a 5 (para la comparabilidad de las frecuencias).
Un inconveniente metodológico: la prueba está afectada por el tamaño de la muestra, de manera tal que si se tienen dos tablas con asociación porcentual similar e igual cantidad de categorías, si una de ellas tiene el doble de casos, el Chi Cuadrado experimental da dos veces más grande.
Este tipo de comprobación, se puede realizar utilizando para el ajuste cualquier tipo de función de probabilidad, o hasta alguna distribución proveniente de la experiencia, aunque una de las pruebas más comunes es la de “normalidad”, es decir, verificar si un supuesto de normalidad en una distribución de una cierta variable, es cierta o no.
Guía de Aspectos Conceptuales, pág. 138.
En la empresa “La Martingala” que los fabrica dados, para comprobar la calidad del proceso se toma periódicamente uno de los dados que sale del mismo, y se los arroja 60 (n = 60) veces observándose los resultados que se obtienen. Si los resultados están dentro de lo que se considera aceptable o lógico con un nivel de riesgo del 5% (α=0,05) se continúa con el proceso de fabricación, y sino se lo detiene para analizar las posibles fallas que pudieran estar influyendo.
En una de esas comprobaciones, los resultados de la prueba dieron:
Aclaración: este tipo de distribución se llam a Distribución Uniforme, ya que se supone que cada categoría cuenta con la misma probabilidad de ocurrencia.
Tomando como referencia el tipo de comprobaciones realizadas y los resultados de la prueba, responder:
¿Qué actitud se debió haber tomado respecto al proceso de producción?
¿ Cuántas veces puede llegar a pararse el proceso sin causas reales? (es decir que funcionando bien, igualmente se rechaza la prueba).
Si durante un día se realizan 10 pruebas similares a la descripta, y los resultados conjuntos son iguales a los de la tabla pero multiplicados por 10, ¿qué sucedería al hacer la comprobación?
Vamos primero con a)
#Armo unos vectores con los datos vocados en la tabla
alpha = 0.05 #nivel de riesgo dado
caras_dado = c(1,2,3,4,5,6)
fo = c(7,9,12,13,10,9) #frecuencias observadas
n = 60 #muestra n, o lo que es lo mismo, cantidad de veces que se realizó el experimento
k = length(caras_dado) #total k de categorías
prob_i = 1/k #probabilidad de i de la distribución uniforme con k=6
ei = n*prob_i #es decir nuestra esperanza de i, en base al tamaño de la muestra y la probabilidad de cada categoría
tabla_calculos = data.frame(k = caras_dado,
observadas_i = fo,
esperadas_i = ei) %>%
mutate(
obs_vs_esp = (observadas_i-esperadas_i)^2/esperadas_i
)
chi_muestral = sum(tabla_calculos$obs_vs_esp)
chi_critico = qchisq(alpha, df = (k-1), lower.tail = FALSE)
if (chi_muestral<chi_critico) {
print(paste('El valor del chi estadístico de prueba (', round(chi_muestral,2),') no supera el valor chi crítico(', round(chi_critico,2),') calculado para un nivel de significacion alpha =', alpha,', por lo que la Hipótesis Nula no debe ser rechazada'))
} else {
print(paste('El valor del chi estadístico de prueba (', round(chi_muestral,2),') supera el valor chi crítico(', round(chi_critico,2),') calculado para un nivel de significacion alpha =', alpha,', por lo que la Hipótesis Nula debe ser rechazada'))
}
## [1] "El valor del chi estadístico de prueba ( 2.4 ) no supera el valor chi crítico( 11.07 ) calculado para un nivel de significacion alpha = 0.05 , por lo que la Hipótesis Nula no debe ser rechazada"
De esta forma, siendo 𝛘2 = 2,4 < 𝛘2 (5)(0,95) = 11,071 NO SE RECHAZA H0) f(x) = 1/6 (que el dado tiene en todas sus caras la misma probabilidad 1/6, es decir una distribución uniforme), y por lo tanto no se detiene el proceso productivo.
Con las mismas pautas de trabajo anterior, el proceso productivo puede llegar a pararse en aproximadamente un 5 % de los casos sin que realmente el proceso esté fuera de control (es decir, el valor del riesgo α)
Para este planteo, se debe construir la misma tabla de cálculo anterior, pero con n = 600, y los valores observados y esperados multiplicados por 10.
Bueno, dale..
#Armo unos vectores con los datos vocados en la tabla
alpha = 0.05 #nivel de riesgo dado
caras_dado = c(1,2,3,4,5,6)
fo = c(7,9,12,13,10,9)*10 #frecuencias observadas # por 10
n = 60*10 #muestra n, o lo que es lo mismo, cantidad de veces que se realizó el experimento # por 10
k = length(caras_dado) #total k de categorías
prob_i = 1/k #probabilidad de i de la distribución uniforme con k=6
ei = n*prob_i #es decir nuestra esperanza de i, en base al tamaño de la muestra y la probabilidad de cada categoría
tabla_calculos = data.frame(k = caras_dado,
observadas_i = fo,
esperadas_i = ei) %>%
mutate(
obs_vs_esp = (observadas_i-esperadas_i)^2/esperadas_i
)
chi_muestral = sum(tabla_calculos$obs_vs_esp)
chi_critico = qchisq(alpha, df = (k-1), lower.tail = FALSE)
if (chi_muestral<chi_critico) {
print(paste('El valor del chi estadístico de prueba (', round(chi_muestral,2),') no supera el valor chi crítico(', round(chi_critico,2),') calculado para un nivel de significacion alpha =', alpha,', por lo que la Hipótesis Nula no debe ser rechazada'))
} else {
print(paste('El valor del chi estadístico de prueba (', round(chi_muestral,2),') supera el valor chi crítico(', round(chi_critico,2),') calculado para un nivel de significacion alpha =', alpha,', por lo que la Hipótesis Nula debe ser rechazada'))
}
## [1] "El valor del chi estadístico de prueba ( 24 ) supera el valor chi crítico( 11.07 ) calculado para un nivel de significacion alpha = 0.05 , por lo que la Hipótesis Nula debe ser rechazada"
Como se vio más arriba, el tamaño de la muestra (si se proyectan los mismo valores), influye directamente en el valor del Chi Cuadrado Muestral, que de hecho aumento de forma directamente proporcional al multplicarlo por 10.
Esta situación aparentemente ilógica, se produce ya que cuanto mayor es un tamaño de muestra, más se exige a la aproximación entre la realidad y la teoría, es decir que deberían corregirse las diferencias entre los valores observados y los esperados.
Con un esquema de pensamiento similar al de la Prueba de Ajuste24, se puede utilizar la función del Chi Cuadrado para comprobar la independencia o no entre dos variables. Para ello se requiere que las categorías o resultados de ambas variables (que pueden ser cualitativas o cuantitativas), hayan sido dispuestas en una tabla a doble entrada, y que en los casilleros de cruce entre las alternativas de cada una, figure la frecuencia cruzada correspondiente.
Nota del Narrador: heme aquí una vez de nuevo con tablas, y recién ahora caigo en la cuenta de que tener un manejo más o menos claro del tema de matrices -sobre todo para lo que son estos cálculos de frecuencias y probabilidades conjuntas- ayuda bastannnnnnnte.
Esas frecuencias pasan a constituir los valores “observados” (los Oi), que serán comparados con los “esperados” (los Ei), que se calculan presuponiendo la no existencia de relación entre las variables, es decir que las mismas son independientes.
El concepto de independencia que se adopta, es el de: “dos variables son independientes si la presencia de una de ellas no modifica (sustancialmente) la presencia (o no) de la otra”, donde esa “modificación” se mide en términos de probabilidades, o lo que en este caso es lo mismo, de frecuencias relativas.
Como en el caso del ajuste, se relacionan los valores empíricos con los de las frecuencias teóricas, construyéndose el 𝛘2 empírico, y se lo compara con el que proviene de la distribución Chi Cuadrado con (k-1) grados de libertad (𝛘2 (k-1)(1-α)), donde los grados de libertad se calculan como el producto de la cantidad de categorías o resultados de una de las variables menos uno, por la cantidad de categorías o resultados de la otra variable menos uno. Como antes (1 – α) es el nivel de confianza con que se realiza la prueba.
Las hipótesis que se plantean en este caso son:
H0) Las variables son independientes, por lo que las foi = fei (o parecidas)
H1) Las variables NO son independientes (o están asociadas), es decir que las foi≠ fei
Si el 𝛘2 es menor o igual al 𝛘2(k-1)(1-α), NO SE RECHAZA H0, ya que se obtuvo un resultado lógico dentro del nivel de confianza fijado, y se concluye que las dos variables son independientes entre si.
La adopción de esta hipótesis, implica suponer que las diferencias que se tengan entre los valores de Oi y Ei deben ser adjudicadas al azar.
Si el 𝛘2 es mayor que el 𝛘2(k-1)(1-α), SE RECHAZA H0, ya que se obtuvo un resultado poco esperado o probable si es que ella fuera cierta, y se concluye que las variables están asociadas significativamente25.
El rechazo de la independencia entre las variables, implica aceptar que las diferencias entre los Oi y Ei son grandes como para aceptar solo influencia aleatoria, por lo que no deben ser adjudicadas al azar. Todo con un nivel de riesgo prefijado de antemano.
Guía de Aspectos Conceptuales, página 141 (no puedo creer que llegue vivo):
En la Encuesta Permanente de Hogares (EPH), se obtiene información sobre 250 (n=250) hogares de una zona del Gran Buenos Aires, clasificados con respecto al Nivel de Estudios alcanzado por su Jefe (NE), y el Monto Total Mensual de los Ingresos del Hogar (NI) expresado en $. Con esa información se prepara la siguiente tabla (deberías también poder descargarla acá):
urlfile_3 = "https://raw.githubusercontent.com/oblitterator/estadistica_untref/main/nivel_estudios_ingresos.csv"
tabla_ne_ni = read.csv(url(urlfile_3)) #leo el .csv
tabla_ne_ni
## nivel_estudios ni_menor_500 ni500_1000 ni_1000_2000 ni_mayor2000
## 1 alto 5 10 15 30
## 2 medio 15 25 25 15
## 3 bajo 20 45 40 5
A partir de esta información, ¿es posible interpretar que ambas variables son independientes, haciéndolo con un nivel de confianza del 90 % (1-⍺ = 0,9) ?
Para realizar esto voy a hacer una operación con matrices que me costó un poco entender primero desde lo teórico.
alpha = 1-0.9
matrix_ne_ni = data.matrix(tabla_ne_ni) #convierto el df a matriz
dim(matrix_ne_ni) #calculo las dimensiones y salteo la primera columna
## [1] 3 5
matrix_ne_ni = matrix_ne_ni[1:3,2:5]
n = sum(rowSums(matrix_ne_ni)) #colapso todo a la primer columna y después sumo todos los valores
#--------------------------------------------------------------#
#aca tire una magia, arme dos matrices para poder multiplicar con los marginales. Vectoricé primero las dimensiones de la matriz inicial y lo que hago es pasarle, a las matrices que quiero construi,r para el numero de columnas de mi nueva matriz de uno la posición de las filas de mi vector de row [1] y lo mismo con la de columns [2]
filas_mat_original = c((dim(matrix_ne_ni)))[1] #armo vector solo con el numero de filas original
col_mat_original = c((dim(matrix_ne_ni)))[2] #idem columnas
suma_columnas = rbind(c(colSums((matrix_ne_ni[1:3,])))) #suma de columnas (marginales inferiores)
matrix_sum_col = repmat(suma_columnas,n=filas_mat_original,m=1) #con esto replico mi vector y lo convierto en una matrix de igual tamaño q la original pero con los valores de la sumatoria de las columnas para cada fila
suma_filas = cbind(c(rowSums(matrix_ne_ni[,1:4]))) #suma de filas
matrix_sum_fil = repmat(suma_filas,n=1,m=col_mat_original) #idem
#--------------------------------------------------------------#
#y ahora simplemente multiplico una por la otra y divido por el total ya calculado de observaciones, para obtener las frecuencias conjuntas
matrix_freq_conjuntas = matrix_sum_col*matrix_sum_fil/n
#lo que queda ahora es sumarlas para encontrar mi valor de chi cuadrado empirico, a comparar con el chi cuadrado teórico para una muestra de 3*4 categorías, con un alpha de 0,1
chi_muestral = sum((matrix_ne_ni-matrix_freq_conjuntas)^2/matrix_freq_conjuntas) #formula para calcular la diferencia entre observado y esperado, al cuadrado, sobre la frecuencuia
chi_critico = qchisq(alpha,
df = ((filas_mat_original-1)*(col_mat_original-1)), lower.tail = FALSE)
if (chi_muestral<chi_critico) {
print(paste('El valor del chi estadístico de prueba (', round(chi_muestral,2),') no supera el valor chi crítico(', round(chi_critico,2),') calculado para un nivel de significacion alpha =', alpha,', por lo que la Hipótesis Nula no debe ser rechazada'))
} else {
print(paste('El valor del chi estadístico de prueba (', round(chi_muestral,2),') supera el valor chi crítico(', round(chi_critico,2),') calculado para un nivel de significacion alpha =', alpha,', por lo que la Hipótesis Nula debe ser rechazada'))
}
## [1] "El valor del chi estadístico de prueba ( 51.85 ) supera el valor chi crítico( 10.64 ) calculado para un nivel de significacion alpha = 0.1 , por lo que la Hipótesis Nula debe ser rechazada"
De esta forma, se concluye con que existe asociación entre el Nivel de Estudios alcanzado por el Jefe de los hogares, y el Monto Total de Ingresos de los mismos.
En el ejemplo desarrollado, se aprecia que las variables pueden ser de cualquier tipo (una de ellas – NE – es cualitativa ordinal, mientras que la otra – NI – es cuantitativa continua), pudiéndose determinar con la prueba de independencia, que existe asociación entre ambas. Lo que en este caso no se logra (como sería en el caso de dos variables cuantitativas con el Coeficiente de Correlación), es una medida de la asociación.
Moore, XXXX.↩︎
El número muestras, sin reposición, no es caprichoso. Surge del numero combinatorio “4 tomado de a 2”, que es 6.↩︎
Moore, XXXX, p. 298↩︎
Moore, XXXX, 306↩︎
Para algunos problemas de este tipo a veces puede recurrirse a un Teorema o Regla del cálculo de probabilidades: la Desigualdad de Tchebycheff, que no será abordada en este curso.↩︎
En elTCL se toma grande como n tendiendo a infinito.↩︎
Moore, XXXX, p. 311↩︎
Lo que está haciendo, en realidad, es utilizar las propiedades matemáticas de la sumatoria para sacar la k de la misma.↩︎
Donde Q=“no P” ó “1-p”↩︎
Ver lo presentado en el Capítulo III. de este apunte sobre Estimadores.↩︎
En realidad, tal como lo expresa Azorín en su libro “Curso de Muestreo y Aplicaciones” (XXXX), los que son aleatorios son los métodos o procedimientos para obtener las muestras, y no las muestras propiamente dichas.↩︎
Otros autores plantean en las Alternativas Unilaterales, que la Hipótesis Nula debe cubrir la igualdad y uno de los dos lados de la distribución.↩︎
También, como se verá más adelante, se pude llegar a dar el uso de la t de Student.↩︎
Algunos autores, en lugar de trabajar con las unidades de la variable de cada problema, proponen estandarizar siempre la variable media muestral y transformarla en el z score de la Normal Estándar (o la t de la t de Student), con lo cual se compararía el x̄ estandarizado (z score) con el valor zc. Si resulta ( x - 0 ) / x > z c se rechazaría H 0 (en este caso de Test Unilateral derecha), y sino no se rechaza. La decisión es la misma cualquiera sea la forma de trabajar↩︎
Esto también es conocido como “Potencia de una prueba de hipótesis”, es decir, la posibilidad de rechazar una hipótesis nula falsa. Una prueba de hipótesis puede tener diferentes valores de potencia, dependiendo de los valores particulares del parámetro poblacional elegidos como alternativas a la hipótesis nula (Triola, p. 369: 2018). Esto sin embargo, no entra dentro de este curso.↩︎
También, como se verá más adelante, se pude llegar a dar el uso de la t de Student.↩︎
Una forma más precisa de definirla, es decir que existe asociación entre dos variables cuando la distribución condicional de una variable difiere de algún modo entre las diversas categorías de la segunda variable. Otra más teórica, expresa que existe asociación cuando la presencia de una variable modifica la probabilidad de presencia de la otra.↩︎
En realidad la metodología que se desarrolla en este punto, es de utilidad para determinar asociación entre todo tipo de variables, no solo las de tipo cualitativas o de atributos.↩︎
Todo lo que viene a continuación es sacado de Aguirre (2005).↩︎
Triola, p. 547: 2018.↩︎
Esto está muy relacionado con lo que se verá más adelante con la Prueba de Bondad de Ajuste -que por motivos que exceden a este canal, aparece recién dentro del capítulo de test de hipótesis no paramétricas (Capítulo VIII de esta guía)-. Está íntimamente relacionado con Tablas de Contingencia ya que lo que nos permite es poder medir si el comportamiento de una variable categórica sigue la forma de una normal en base a su frecuencia observada y su frecuencia esperada. Es en base a esto que podemos realizar la prueba de independencia (o no) entre dos variables, que nos permite abordar la asociación que es el apartado de esta sección.↩︎
Existen otros coeficientes de correlación, diseñados para medir la fuerza de la relación entre dos variables que se vinculan de otras forma (curvas, oscilantes, etc.).↩︎
En alguna bibliografía las “f” son reemplazadas por “n”, siendo nij: frecuencia conjunta de los resultados xi e yj↩︎
En todas los casos en que se utiliza el Chi Cuadrado para realizar comprobaciones no Paramétricas, el esquema de
pensamiento y análisis es el mismo: comparación de las frecuencias observadas y esperadas. La diferencia está dada
en el origen de esos datos y en la forma que toman las hipótesis que se plantean.↩︎
Dentro del tema Prueba de Hipótesis (Paramétrica o no), el término “significativo” es de suma relevancia, entendiéndose por tal que: “la información disponible, permite asumir con el nivel de confianza determinado, que las conclusiones respecto a las hipótesis planteadas son estadísticamente ciertas” (se rechace o no H0).↩︎