1 La asignatura

En los últimos años, los métodos de análisis de datos categóricos han experimentado un notable desarrollo, impulsados en gran medida por la creciente cantidad de estudios que agrupan sus observaciones en categorías. Este tipo de datos es común en diversas disciplinas como la sociología, medicina, biología, educación y economía, donde se organizan en tablas de contingencia que resumen relaciones entre variables cualitativas.

Las tablas de contingencia, de dos o más entradas, ofrecen una forma efectiva de representar datos categóricos y son ampliamente utilizadas para describir asociaciones entre diferentes variables. Para su análisis, existen técnicas estadísticas tanto básicas como avanzadas que permiten obtener conclusiones significativas. Entre ellas, encontramos métodos simples como la comparación de proporciones y pruebas chi-cuadrado, hasta enfoques más complejos como los modelos loglineales y la regresión logística.

A medida que se avanza en la comprensión de estos métodos, se abre la puerta a un análisis más flexible y poderoso, que permite abordar problemas de mayor complejidad. Los estudiantes que dominen estas herramientas no solo estarán mejor preparados para interpretar y analizar datos categóricos, sino que también serán capaces de aplicar estos conocimientos en diversas áreas profesionales, mejorando la precisión y eficacia de sus análisis.

El principal objetivo de esta asignatura es brindar a los estudiantes un entendimiento profundo sobre el análisis de datos categóricos. A lo largo del curso, aprenderán a utilizar una variedad de técnicas estadísticas, que les permitirán no solo analizar datos agrupados en categorías, sino también aumentar la flexibilidad y el poder analítico en escenarios que requieren una mayor complejidad conceptual. Estas habilidades serán fundamentales para mejorar su capacidad de abordar y resolver problemas en su futura vida profesional, especialmente en áreas donde los datos categóricos son predominantes.

2 Objetivos

Al finalizar el curso los participantes estarán capacitados para:
1. Desarrollar un enfoque crítico para analizar tablas de contingencia. 2. Examinar las ideas y métodos básicos de los modelos lineales generalizados a ser a plicados en el estudio de datos en categorías. 3. Aplicar las técnicas en problemas originados en diferentes campos. 4. Desarrollar habilidades para analizar datos discretos utilizando programas estadísticos.

3 Los contenidos

Introducción al Análisis de Datos Categóricos 1.1. Visión general del análisis de datos categóricos, conceptos principales y su importancia en distintas áreas, como la investigación social, biomedicina o economía. 1.2. Tipos de datos, definiciones, diferencias y ejemplos. 1.3. Enfoques para el análisis de datos en categorías.
Tablas de Contingencia de Doble Entrada 2.1. Estructura de las tablas. 2.2. Comparación de proporciones. 2.3. Cociente de ventajas. 2.4. Tests Chi-cuadrado. 2.5. Pruebas exactas para pequeñas muestras.
Tablas de Contingencia de Tres Entradas 3.1. Asociación parcial. 3.2. Métodos de Cochran-Mantel-Haenszel.
Modelos para Datos en Categorías 4.1. Bosquejo de los modelos lineales generalizados. 4.2. Regresión logística. 4.3. Modelo logit para categorías múltiples. 4.4. Modelos loglineales.

4 El profesor: Lic. Diego Meza MSc.

Figure 4.1: Prof. Diego Meza

En este enlace mi Currículum

5 Introducción

Este documento ha sido elaborado como material de apoyo para el curso de Inferencia Estadística II. En el son incorporados varios ejemplos resueltos con el software estadístico \(R\) y relacionados a los conceptos estudiados en la materia. En cada sección se incluyen los códigos necesarios para realizar las simulaciones que permiten verificar las propiedades y teoremas que son abordados en el curso. Para que puedas replicarlos basta con que tengas instalado el programa ya sea en la versión simple o la incorporada en la versión R-studio, copia los códigos y ejecútalos en un script en tu escritorio. Adicionalmente se incluyen una serie de estudios de casos para que puedas aplicar las teorías en la solución de problemas reales y así asimilar corréctamente los contenidos del curso. Es imprescindible que como egresado de la carrera de Estadísticas tengas manejo de al menos una herramienta para el análisis estadístico, y R es una excelente opción que tienes y es totalmente gratuito.

6 Unidad 0: El programa R-project

R es un programa estadístico de libre acceso con funcionalidades imprescindibles para la programación y análisis estadístico.

6.1 Descargar e instalar el programa R-project y R-studio

6.1.1 R-project

Enlace para descargar el programa R-project

6.1.2 R-studio

Enlace para descargar el programa R-studio

6.1.3 Enlaces interesantes

A continuación te dejamos algunos enlaces interesantes para aprender a usar R como herramienta para el análisis estadístico

Instalar R por primera vez

R para principiantes

Una introducción a R

6.2 Primeros pasos con R

Puede resultar de mucha utilidad trabajar y guardar los comandos usados en un “script” de R. El script es básicamente un documento de texto donde uno puede ir escribiendo todos los comandos a ejecutar. Considerando el hecho de que si se antepone a una línea de comando el signo #, este no será ejecutado y el programa lo considerará como un comentario.

Figure 6.1: Script en R

6.3 R como calculadora

Puedes usar el programa R como una calculadora, basta con conocer cuáles son los signos y comandos a utilizar para realizar las opereaciones. Copia los comandos en tu script de R y ejecútalos para ver los resultados.

#suma
2+2

## [1] 4

#multiplicación
2*2

## [1] 4

#división
2/2

## [1] 1

#potencia
4^2

## [1] 16

#raíz cuadrada
sqrt(16)

## [1] 4

6.4 Abrir una base y resumir

R ya incorpora una serie de bases de datos que te pueden resultar de utilidad para empezar a explorar las posibilidades de análisis estadístico que te ofrece este programa.

Como ejemplo vamos a explorara la base de datos llamada “cars”

#cargar la base
data(cars)
#visualizar los encabezados
head(cars)

##   speed dist
## 1     4    2
## 2     4   10
## 3     7    4
## 4     7   22
## 5     8   16
## 6     9   10

#resumir con algunas estadísticas las variables de la base 
summary(cars)

##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

6.5 Incluir gráficas

Puedes agregar fácilmente gráficos a tu análisis. Por ejemplo:

data(pressure)
head(pressure)

##   temperature pressure
## 1           0   0.0002
## 2          20   0.0012
## 3          40   0.0060
## 4          60   0.0300
## 5          80   0.0900
## 6         100   0.2700

plot(pressure)

Figure 6.2: Plot Pressure

boxplot(pressure)

Figure 6.3: Boxplot

6.6 Cargar datos

edad<-c(11,12,15,20,41)
edad

## [1] 11 12 15 20 41

altura=c(50,65,120,156,182)
altura

## [1]  50  65 120 156 182

datos=data.frame(edad,altura)
datos

##   edad altura
## 1   11     50
## 2   12     65
## 3   15    120
## 4   20    156
## 5   41    182

plot(datos,type="b")

6.7 Aprender a usar la ayuda del R

Una de las cosas más importantes a la hora de trabajar con R es aprender a usar la ayuda. Para obtener la ayuda sobre alguna función o comando de R basta con escribir el comando help() y dentro del paréntesis incluir el nombre de la función o comando

7 Unidad 1: Introducción al Análisis de Datos Categóricos

En esta sección veremos como podemos utilizar R para estudiar los fundamentos del análisis de los datos en caegorías, nos apoyaremos principalmente en la realización de simulaciones para verificar las propiedades, teoremas y supuestos que conforman la teoría de la y las propiedades de los datos en categorías.

7.1 Visión General del Análisis de Datos Categóricos

El análisis de datos categóricos es una rama de la estadística que se enfoca en el estudio y la interpretación de datos que se clasifican en categorías discretas. A diferencia de los datos continuos, que pueden tomar cualquier valor numérico dentro de un rango, los datos categóricos son aquellos que se agrupan en categorías o niveles mutuamente excluyentes. Estos datos pueden ser nominales (sin un orden intrínseco) o ordinales (con un orden lógico), y su análisis involucra métodos que permiten comprender las relaciones entre las categorías y cómo estas se distribuyen.

7.2 Conceptos Principales

7.2.1 Datos Nominales:

Se refieren a variables categóricas en las que los valores representan diferentes categorías sin un orden específico. Por ejemplo, el género (masculino, femenino), el estado civil (soltero, casado) o el tipo de sangre (A, B, AB, O) son variables nominales.

7.2.2 Datos Ordinales:

Son variables categóricas que tienen un orden natural, pero la distancia entre los valores no es necesariamente significativa. Un ejemplo sería el nivel de satisfacción en una encuesta (bajo, medio, alto) o los niveles de educación (primaria, secundaria, terciaria).

7.2.3 Tablas de Contingencia:

Estas tablas se utilizan para organizar los datos categóricos y mostrar las frecuencias (conteos) de las observaciones distribuidas entre diferentes categorías de una o más variables. Las tablas de doble entrada (o tablas 2x2) son comunes en análisis de asociación entre dos variables categóricas, mientras que las tablas de tres entradas permiten analizar la interacción entre tres variables.

7.2.4 Proporciones y Cociente de Ventajas (Odds Ratio):

El análisis de proporciones y el cociente de ventajas son métodos que permiten medir y comparar la probabilidad de ocurrencia de un evento dentro de una categoría en relación con otra. Estas medidas son fundamentales en estudios donde se desea comparar riesgos o probabilidades.

7.2.5 Pruebas Estadísticas:

Entre las herramientas más comunes para analizar datos categóricos se encuentran las pruebas chi-cuadrado para la independencia de variables, y las pruebas exactas para pequeñas muestras. Estas pruebas permiten evaluar si existe una asociación significativa entre las variables categóricas en estudio.

7.3 Importancia en Diferentes Áreas

El análisis de datos categóricos es crucial en muchas áreas de la investigación, ya que permite explorar relaciones entre variables cualitativas. Algunos ejemplos de su aplicación en diferentes campos incluyen:

Investigación Social: En estudios de encuestas y sondeos de opinión, los datos categóricos se utilizan para analizar preferencias, actitudes y comportamientos. Por ejemplo, una investigación podría clasificar a los encuestados según su nivel educativo y comparar su apoyo a una política pública.

Biomedicina: En ensayos clínicos y estudios epidemiológicos, el análisis de datos categóricos es fundamental para evaluar la relación entre variables como el tipo de tratamiento (medicamento A vs. medicamento B) y los resultados de los pacientes (curación, mejoría o empeoramiento). Los métodos como el cociente de ventajas (odds ratio) permiten analizar la probabilidad relativa de ciertos desenlaces en diferentes grupos de pacientes.

Economía: En el campo económico, los datos categóricos se utilizan para clasificar individuos o empresas en grupos según sus características, como el tamaño de la empresa (pequeña, mediana o grande) o el nivel de ingreso de un individuo. Este tipo de análisis es esencial para entender patrones y comportamientos del mercado, como la distribución de ingresos o el comportamiento de compra según el nivel socioeconómico.

Relevancia del Análisis El análisis de datos categóricos no solo permite comprender mejor las relaciones entre variables cualitativas, sino que también ofrece una base sólida para la toma de decisiones basada en evidencia. En áreas como la salud, la educación y la política pública, las decisiones clave a menudo dependen de la comprensión precisa de cómo ciertos factores categóricos están relacionados entre sí. Los métodos que se desarrollan en esta disciplina brindan un marco robusto para interpretar adecuadamente la información, lo que permite formular mejores estrategias y recomendaciones en diversas áreas profesionales.

Además, el avance en las herramientas estadísticas ha facilitado la aplicación de técnicas de análisis categórico en software especializado como R, SAS, SPSS o Stata. Estas herramientas permiten la automatización y la visualización de resultados complejos, facilitando el trabajo tanto de investigadores como de analistas de datos.

7.4 Simulación de variables aleatorias

Para simular los valores de una variable aleatoria R nos provee una amplia gama de comandos, entre ellos veremos algunos como los siguientes:

7.4.1 Sequencias

#X es el conjunto de los números del 1 al 5
x <- seq (1, 5)
x

## [1] 1 2 3 4 5

#X es un conjunto formado por la secuencia de números desde el -6 hasta el valor 6 con saltos de valor 0,1
# help(seq)
x <- seq ( -6, 6,by=0.1)
x

##   [1] -6.0 -5.9 -5.8 -5.7 -5.6 -5.5 -5.4 -5.3 -5.2 -5.1 -5.0 -4.9 -4.8 -4.7 -4.6
##  [16] -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1
##  [31] -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6
##  [46] -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1
##  [61]  0.0  0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4
##  [76]  1.5  1.6  1.7  1.8  1.9  2.0  2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9
##  [91]  3.0  3.1  3.2  3.3  3.4  3.5  3.6  3.7  3.8  3.9  4.0  4.1  4.2  4.3  4.4
## [106]  4.5  4.6  4.7  4.8  4.9  5.0  5.1  5.2  5.3  5.4  5.5  5.6  5.7  5.8  5.9
## [121]  6.0

#X es un conjunto formado por la secuencia de 100 números desde el -6 hasta el valor 6 redondeado con tres valores decimales
x <- round(seq ( -6, 6, len=100 ),3)
x

##   [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
##  [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
##  [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
##  [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
##  [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
##  [51]  0.061  0.182  0.303  0.424  0.545  0.667  0.788  0.909  1.030  1.152
##  [61]  1.273  1.394  1.515  1.636  1.758  1.879  2.000  2.121  2.242  2.364
##  [71]  2.485  2.606  2.727  2.848  2.970  3.091  3.212  3.333  3.455  3.576
##  [81]  3.697  3.818  3.939  4.061  4.182  4.303  4.424  4.545  4.667  4.788
##  [91]  4.909  5.030  5.152  5.273  5.394  5.515  5.636  5.758  5.879  6.000

7.4.2 Muestras aleatorio simple con R

# Muestra aleatoria extraida CON reposición de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=T)
muestra1

## [1]  9  6  1  9 10

# Muestra aleatoria extraida SIN reposición de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=F)
muestra1

## [1]  8  5  6 10  9

# 10 Muestras aleatorias de tamaño 3 obtenidas con reposición de la población P
muestras1<-sapply(1:10, function(x){(sample(P,3,rep=T))})
muestras1

##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    1    3    1    4    8    4    1    3    3    10
## [2,]   10   10    7    1   10    9    3    7    5     2
## [3,]    4    8    9    1    9    1    4    9    7     8

# 10 Muestras aleatorias de tamaño 3 obtenidas sin reposición de la población P
muestras2<-sapply(1:10, function(x){(sample(P,3,rep=F))})
muestras2

##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    2    7    4    8    6    9    8    8   10     3
## [2,]   10    1    3    3    4    3    2    5    3     8
## [3,]    3    8   10    4    7    1    3    6    7     9

Estudio de caso

Una empresa tiene una nómina de 2850 empleados y desea aplicar una encuesta sobre el clima laboral. Para ello desean seleccionar una muestra aleatoria del 10% de los empleados. La empresa dispone de una enumeración del 1 al 2850 asociado a cada número de cédula de identidad. a) Seleccione la muestra usando un comando de R.

empleados=seq(1,2850,by=1)

head(empleados)

## [1] 1 2 3 4 5 6

tail(empleados)

## [1] 2845 2846 2847 2848 2849 2850

muestra_empleados=sample(empleados,285,replace=F)
muestra_empleados

##   [1]  180 1951  561 2042   99   38  553  612 1027 1487 2444  611 2808 1314 2096
##  [16] 2224 2019 1655 1547  258 1104 1926  560  651  851 1254  740 2075 2764  742
##  [31]  569  161 2805  384 2188 1830 2425 2437 1773 1808 2295 2841 1296   66 1698
##  [46] 2794 2474 2277 2607 1693 2477 1787 2458 1947 1881 2715  878 2724 1075 2376
##  [61] 1784 1777  345  626 1739 1720 1098 1428  129 2062   21  593 2818 1177 1288
##  [76]  305 1410  132  163  603 2013  983  457  117 2426  701  767  419    2 1580
##  [91] 2686   85 1674 2385 2823 1212  387  846 2653  137 2705  503  797 1436 1758
## [106]  923 1917 1545  979 2646 2505 2456 1665  582 1310  311 2220 1443  487 1896
## [121] 2471 2172 2236 2254 2331  155  973 1397 1411  962  617 2369 2637 2040 2225
## [136]  782 1929 2227  283 2746  597    6 1803 1856  872 1495 2411 1520  433  919
## [151] 2235 1981  759  631 2497 2191 1903 2047 1661 2007 1378  315 1766 1092  613
## [166] 2516 1731    3  418 1337 1997 1402 1602 1593 2530 1671 1853 1370 1068  534
## [181] 1234 2846 2776 1225 2578 1532  173 1807  908 2030 2545  507  399 1673 1913
## [196] 2800 2447 1020 2582  956  459  638 1352 2022 1480 2828  792  482 1399 1948
## [211] 1928 1898 1815 1599 1745  555 1939 2249 2651 1002 1386 1933 2137 1221 1791
## [226]   68 2120 1262  285 2139  336  194 1534 2389  480 1363 1622  634 1809 1800
## [241] 2086 2773  200 2734 1889  911 1423 1819 2213 2027 1199  250 1047 1333 1122
## [256] 2159 1277 1351   41 2656 2278 1973 1895 1845 1144 2521  754 2659  339 1220
## [271]  641 2324 2563  885 1183 2009 1409 2238 2565  909 1633 2077 1924 1057 2658

7.4.3 Variable aleatoria con distribución uniforme

mu10=sample(runif(100,0,1),50,rep=T)
mu10

##  [1] 0.73569350 0.65532735 0.46153729 0.03879831 0.76779402 0.41841803
##  [7] 0.12445536 0.12445536 0.21039161 0.80348721 0.26978861 0.95802788
## [13] 0.32256039 0.97859512 0.22372972 0.59613250 0.74143176 0.08548095
## [19] 0.74904449 0.41841803 0.78236753 0.26328213 0.52573814 0.95802788
## [25] 0.55797364 0.25085669 0.24656941 0.63370562 0.47049759 0.74143176
## [31] 0.52573814 0.24258420 0.74904449 0.08555545 0.72193280 0.25085669
## [37] 0.73569350 0.43939334 0.56279645 0.82994800 0.53277681 0.75661775
## [43] 0.52573814 0.61746306 0.24293930 0.41841803 0.65532735 0.09647745
## [49] 0.12445536 0.18983395

hist(mu10)

mu1000=sample(runif(100,0,1),1000,rep=T)
head(mu1000)

## [1] 0.6580752 0.8622119 0.1639407 0.4910017 0.8633126 0.4190555

tail(mu1000)

## [1] 0.57913991 0.67831852 0.53968494 0.95377871 0.91610798 0.08504015

hist(mu1000)

7.4.4 Variable aleatoria con distribución binomial

** Estudio de caso **

Simular una población de 100 personas donde la variable de interés es el sexo y se sabe que el 80% son mujeres.

sexo=rbinom(100,1,0.8)
sexo

##   [1] 1 1 1 1 0 1 1 0 1 0 0 1 0 1 1 0 0 1 0 0 1 1 1 1 1 1 1 1 1 0 1 1 0 1 0 1 1
##  [38] 1 1 1 1 1 1 1 1 1 0 1 0 1 1 0 1 1 1 1 0 0 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1
##  [75] 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 0 1 1 0 0 0 1 0 1

sexo=factor(sexo, levels = c(0,1),labels = c("Hombre", "Mujer"))
sexo

##   [1] Mujer  Mujer  Mujer  Mujer  Hombre Mujer  Mujer  Hombre Mujer  Hombre
##  [11] Hombre Mujer  Hombre Mujer  Mujer  Hombre Hombre Mujer  Hombre Hombre
##  [21] Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Hombre
##  [31] Mujer  Mujer  Hombre Mujer  Hombre Mujer  Mujer  Mujer  Mujer  Mujer 
##  [41] Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Hombre Mujer  Hombre Mujer 
##  [51] Mujer  Hombre Mujer  Mujer  Mujer  Mujer  Hombre Hombre Mujer  Mujer 
##  [61] Hombre Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Hombre Mujer 
##  [71] Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer 
##  [81] Mujer  Hombre Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Hombre Mujer 
##  [91] Mujer  Hombre Mujer  Mujer  Hombre Hombre Hombre Mujer  Hombre Mujer 
## Levels: Hombre Mujer

plot(sexo)

p=1/6
# La probabilidad de tener x aciertos en 6 lanzamientos
dado=rbinom(10000,6,p)
head(dado)

## [1] 2 3 0 0 0 1

tail(dado)

## [1] 0 1 1 1 1 0

hist(dado)

7.4.5 Variable aleatoria con distribución poisson

7.4.6 Variable aleatoria con distribución normal

#f1 es la función de densidad para cada valor posible de X, si esta sigue una distribución normal de media 0 y varianza 1
f1=dnorm ( x,0, 1 )
f1

##   [1] 6.075883e-09 1.246602e-08 2.520507e-08 5.050535e-08 9.915803e-08
##   [6] 1.918491e-07 3.657912e-07 6.873030e-07 1.279056e-06 2.333645e-06
##  [11] 4.195867e-06 7.434472e-06 1.304050e-05 2.243639e-05 3.804111e-05
##  [16] 6.356163e-05 1.046594e-04 1.704959e-04 2.726012e-04 4.295197e-04
##  [21] 6.669293e-04 1.020512e-03 1.543994e-03 2.294109e-03 3.359111e-03
##  [26] 4.847033e-03 6.912039e-03 9.684748e-03 1.337248e-02 1.819604e-02
##  [31] 2.439965e-02 3.231510e-02 4.207679e-02 5.399097e-02 6.827176e-02
##  [36] 8.507513e-02 1.046445e-01 1.266217e-01 1.509878e-01 1.774258e-01
##  [41] 2.054627e-01 2.347138e-01 2.639280e-01 2.924649e-01 3.193770e-01
##  [46] 3.438839e-01 3.646466e-01 3.810430e-01 3.923894e-01 3.982007e-01
##  [51] 3.982007e-01 3.923894e-01 3.810430e-01 3.646466e-01 3.438839e-01
##  [56] 3.193770e-01 2.924649e-01 2.639280e-01 2.347138e-01 2.054627e-01
##  [61] 1.774258e-01 1.509878e-01 1.266217e-01 1.046445e-01 8.507513e-02
##  [66] 6.827176e-02 5.399097e-02 4.207679e-02 3.231510e-02 2.439965e-02
##  [71] 1.819604e-02 1.337248e-02 9.684748e-03 6.912039e-03 4.847033e-03
##  [76] 3.359111e-03 2.294109e-03 1.543994e-03 1.020512e-03 6.669293e-04
##  [81] 4.295197e-04 2.726012e-04 1.704959e-04 1.046594e-04 6.356163e-05
##  [86] 3.804111e-05 2.243639e-05 1.304050e-05 7.434472e-06 4.195867e-06
##  [91] 2.333645e-06 1.279056e-06 6.873030e-07 3.657912e-07 1.918491e-07
##  [96] 9.915803e-08 5.050535e-08 2.520507e-08 1.246602e-08 6.075883e-09

# Gráfica de la función f1
barplot(f1)

Figure 7.1: Barplot f1

** Contraste entre varias curvas normales con diferentes parámetros de media y desvío estándar **

x <- round(seq ( -6, 6, len=100 ),3)
y <- cbind ( round(f1,3), round(dnorm ( x, -2, 1 ),3), round(dnorm (x, 0, 2 ),3), round(dnorm ( x, 0, .5),3), round(dnorm ( x, 2, .3 ),3),round(dnorm ( x, -.5, 3 ),3) )
valores=data.frame(x,y)
head(valores)

##        x X1    X2    X3 X4 X5    X6
## 1 -6.000  0 0.000 0.002  0  0 0.025
## 2 -5.879  0 0.000 0.003  0  0 0.027
## 3 -5.758  0 0.000 0.003  0  0 0.029
## 4 -5.636  0 0.001 0.004  0  0 0.031
## 5 -5.515  0 0.001 0.004  0  0 0.033
## 6 -5.394  0 0.001 0.005  0  0 0.035

matplot ( x, y, type="l", col=c(1,2,3,4,5,6), las = 1 )
legend ( -6, 1.3, expression(paste(mu==0," ; ", sigma==1),
                             paste(mu==-2," ; ", sigma==1),
                             paste(mu==0," ; ", sigma==2),
                             paste(mu==0," ; ", sigma==0.5),
                             paste(mu==2," ; ", sigma==0.3),
                             paste(mu==-0.5," ; ", sigma==3)),
         lty = 1:6, cex = 0.7, col=c(1,2,3,4,5,6))

Figure 7.2: matplot dnomr

library(ggplot2)

7.4.6.1 Cálculo de probabilidades con la distribución normal

# la probabilidad de que una variable aleatoria normal estándar tenga un valor menor a 1.5
pbb=pnorm(1.5,mean=0,sd=1)
pbb

## [1] 0.9331928

# la probabilidad de que una variable aleatoria normal de media 20 y desvío estándar 2 tenga un valor mayor a 18 y menor 21
area=pnorm(21,20,2)-pnorm(18,20,2)
area

## [1] 0.5328072

** La tabla de la distribución normal **

q=round(seq(-4,4,length=100),3)
q

##   [1] -4.000 -3.919 -3.838 -3.758 -3.677 -3.596 -3.515 -3.434 -3.354 -3.273
##  [11] -3.192 -3.111 -3.030 -2.949 -2.869 -2.788 -2.707 -2.626 -2.545 -2.465
##  [21] -2.384 -2.303 -2.222 -2.141 -2.061 -1.980 -1.899 -1.818 -1.737 -1.657
##  [31] -1.576 -1.495 -1.414 -1.333 -1.253 -1.172 -1.091 -1.010 -0.929 -0.848
##  [41] -0.768 -0.687 -0.606 -0.525 -0.444 -0.364 -0.283 -0.202 -0.121 -0.040
##  [51]  0.040  0.121  0.202  0.283  0.364  0.444  0.525  0.606  0.687  0.768
##  [61]  0.848  0.929  1.010  1.091  1.172  1.253  1.333  1.414  1.495  1.576
##  [71]  1.657  1.737  1.818  1.899  1.980  2.061  2.141  2.222  2.303  2.384
##  [81]  2.465  2.545  2.626  2.707  2.788  2.869  2.949  3.030  3.111  3.192
##  [91]  3.273  3.354  3.434  3.515  3.596  3.677  3.758  3.838  3.919  4.000

pbb1=round(pnorm(q,0,1),3)
pbb1

##   [1] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.001 0.001
##  [13] 0.001 0.002 0.002 0.003 0.003 0.004 0.005 0.007 0.009 0.011 0.013 0.016
##  [25] 0.020 0.024 0.029 0.035 0.041 0.049 0.058 0.067 0.079 0.091 0.105 0.121
##  [37] 0.138 0.156 0.176 0.198 0.221 0.246 0.272 0.300 0.329 0.358 0.389 0.420
##  [49] 0.452 0.484 0.516 0.548 0.580 0.611 0.642 0.671 0.700 0.728 0.754 0.779
##  [61] 0.802 0.824 0.844 0.862 0.879 0.895 0.909 0.921 0.933 0.942 0.951 0.959
##  [73] 0.965 0.971 0.976 0.980 0.984 0.987 0.989 0.991 0.993 0.995 0.996 0.997
##  [85] 0.997 0.998 0.998 0.999 0.999 0.999 0.999 1.000 1.000 1.000 1.000 1.000
##  [97] 1.000 1.000 1.000 1.000

plot(pbb1)

#Funcion de densidad
dens1=dnorm(q,0,1)
dens1

##   [1] 0.0001338302 0.0001844340 0.0002525098 0.0003421640 0.0004623895
##   [6] 0.0006207721 0.0008279556 0.0010970653 0.0014393027 0.0018824088
##  [11] 0.0024458305 0.0031571075 0.0040485822 0.0051578315 0.0065093281
##  [16] 0.0081853400 0.0102255782 0.0126908181 0.0156473918 0.0191194138
##  [21] 0.0232682262 0.0281321274 0.0337903327 0.0403211541 0.0477011853
##  [26] 0.0561831419 0.0657405705 0.0764207874 0.0882551672 0.1010880830
##  [31] 0.1152298404 0.1304909983 0.1468069922 0.1640829751 0.1819646151
##  [36] 0.2007428520 0.2200107141 0.2395510977 0.2591212881 0.2784573054
##  [41] 0.2970512687 0.3150817868 0.3320211746 0.3475832643 0.3614951936
##  [46] 0.3733695746 0.3832824734 0.3908855264 0.3960324870 0.3986232542
##  [51] 0.3986232542 0.3960324870 0.3908855264 0.3832824734 0.3733695746
##  [56] 0.3614951936 0.3475832643 0.3320211746 0.3150817868 0.2970512687
##  [61] 0.2784573054 0.2591212881 0.2395510977 0.2200107141 0.2007428520
##  [66] 0.1819646151 0.1640829751 0.1468069922 0.1304909983 0.1152298404
##  [71] 0.1010880830 0.0882551672 0.0764207874 0.0657405705 0.0561831419
##  [76] 0.0477011853 0.0403211541 0.0337903327 0.0281321274 0.0232682262
##  [81] 0.0191194138 0.0156473918 0.0126908181 0.0102255782 0.0081853400
##  [86] 0.0065093281 0.0051578315 0.0040485822 0.0031571075 0.0024458305
##  [91] 0.0018824088 0.0014393027 0.0010970653 0.0008279556 0.0006207721
##  [96] 0.0004623895 0.0003421640 0.0002525098 0.0001844340 0.0001338302

tablaZ=data.frame(q,pbb1,dens1)
tablaZ

##          q  pbb1        dens1
## 1   -4.000 0.000 0.0001338302
## 2   -3.919 0.000 0.0001844340
## 3   -3.838 0.000 0.0002525098
## 4   -3.758 0.000 0.0003421640
## 5   -3.677 0.000 0.0004623895
## 6   -3.596 0.000 0.0006207721
## 7   -3.515 0.000 0.0008279556
## 8   -3.434 0.000 0.0010970653
## 9   -3.354 0.000 0.0014393027
## 10  -3.273 0.001 0.0018824088
## 11  -3.192 0.001 0.0024458305
## 12  -3.111 0.001 0.0031571075
## 13  -3.030 0.001 0.0040485822
## 14  -2.949 0.002 0.0051578315
## 15  -2.869 0.002 0.0065093281
## 16  -2.788 0.003 0.0081853400
## 17  -2.707 0.003 0.0102255782
## 18  -2.626 0.004 0.0126908181
## 19  -2.545 0.005 0.0156473918
## 20  -2.465 0.007 0.0191194138
## 21  -2.384 0.009 0.0232682262
## 22  -2.303 0.011 0.0281321274
## 23  -2.222 0.013 0.0337903327
## 24  -2.141 0.016 0.0403211541
## 25  -2.061 0.020 0.0477011853
## 26  -1.980 0.024 0.0561831419
## 27  -1.899 0.029 0.0657405705
## 28  -1.818 0.035 0.0764207874
## 29  -1.737 0.041 0.0882551672
## 30  -1.657 0.049 0.1010880830
## 31  -1.576 0.058 0.1152298404
## 32  -1.495 0.067 0.1304909983
## 33  -1.414 0.079 0.1468069922
## 34  -1.333 0.091 0.1640829751
## 35  -1.253 0.105 0.1819646151
## 36  -1.172 0.121 0.2007428520
## 37  -1.091 0.138 0.2200107141
## 38  -1.010 0.156 0.2395510977
## 39  -0.929 0.176 0.2591212881
## 40  -0.848 0.198 0.2784573054
## 41  -0.768 0.221 0.2970512687
## 42  -0.687 0.246 0.3150817868
## 43  -0.606 0.272 0.3320211746
## 44  -0.525 0.300 0.3475832643
## 45  -0.444 0.329 0.3614951936
## 46  -0.364 0.358 0.3733695746
## 47  -0.283 0.389 0.3832824734
## 48  -0.202 0.420 0.3908855264
## 49  -0.121 0.452 0.3960324870
## 50  -0.040 0.484 0.3986232542
## 51   0.040 0.516 0.3986232542
## 52   0.121 0.548 0.3960324870
## 53   0.202 0.580 0.3908855264
## 54   0.283 0.611 0.3832824734
## 55   0.364 0.642 0.3733695746
## 56   0.444 0.671 0.3614951936
## 57   0.525 0.700 0.3475832643
## 58   0.606 0.728 0.3320211746
## 59   0.687 0.754 0.3150817868
## 60   0.768 0.779 0.2970512687
## 61   0.848 0.802 0.2784573054
## 62   0.929 0.824 0.2591212881
## 63   1.010 0.844 0.2395510977
## 64   1.091 0.862 0.2200107141
## 65   1.172 0.879 0.2007428520
## 66   1.253 0.895 0.1819646151
## 67   1.333 0.909 0.1640829751
## 68   1.414 0.921 0.1468069922
## 69   1.495 0.933 0.1304909983
## 70   1.576 0.942 0.1152298404
## 71   1.657 0.951 0.1010880830
## 72   1.737 0.959 0.0882551672
## 73   1.818 0.965 0.0764207874
## 74   1.899 0.971 0.0657405705
## 75   1.980 0.976 0.0561831419
## 76   2.061 0.980 0.0477011853
## 77   2.141 0.984 0.0403211541
## 78   2.222 0.987 0.0337903327
## 79   2.303 0.989 0.0281321274
## 80   2.384 0.991 0.0232682262
## 81   2.465 0.993 0.0191194138
## 82   2.545 0.995 0.0156473918
## 83   2.626 0.996 0.0126908181
## 84   2.707 0.997 0.0102255782
## 85   2.788 0.997 0.0081853400
## 86   2.869 0.998 0.0065093281
## 87   2.949 0.998 0.0051578315
## 88   3.030 0.999 0.0040485822
## 89   3.111 0.999 0.0031571075
## 90   3.192 0.999 0.0024458305
## 91   3.273 0.999 0.0018824088
## 92   3.354 1.000 0.0014393027
## 93   3.434 1.000 0.0010970653
## 94   3.515 1.000 0.0008279556
## 95   3.596 1.000 0.0006207721
## 96   3.677 1.000 0.0004623895
## 97   3.758 1.000 0.0003421640
## 98   3.838 1.000 0.0002525098
## 99   3.919 1.000 0.0001844340
## 100  4.000 1.000 0.0001338302

curvagauss=plot(data.frame(q,dens1))

7.4.7 Variable aleatoria con distribución exponencial

¿si en la empresa 80% son mujeres, será representativa la muestra aleatoria simple?

sexo=rbinom(2850,1,0.8)
head(sexo)

## [1] 1 0 1 1 0 1

tail(sexo)

## [1] 1 1 0 1 0 1

summary(sexo)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  1.0000  1.0000  0.8077  1.0000  1.0000

sexo=factor(sexo, levels = c(0,1),labels = c("Hombre", "Mujer"))
plot(sexo)

7.5 Muestreo e Inferencia Estadística

7.6 Distribuciones muestrales

7.6.1 Teorema central del límite

Sean \(X1, X2,...,Xn\) \(n\) variables aleatorias IID con una distribución de probabilidad no especificada y que tienen una media \(\mu\) y una varianza \(\sigma^2\) finita. El promedio muestral \(\bar{X} =(X1+X2+...+Xn)/n\) tiene una distribución con media y varianza \(\sigma^2/n\) que tiende hacia una distribución normal conforme n tiende a \(\infty\). En otras palabras, la variable aleatoria \((\bar{X}-\mu)/(\sigma/\sqrt{n})\) tiene como límite una distribución normal estándar

La siguiente simulación te muestra como funciona el teorema central del límite. En primer lugar, simula 300 muestra de tamaño 5 de una variable aleatoria con distribución uniforme de parámetros a=0 y b=1.

u5<-sapply(1:300, function(x){mean(sample(runif(10000),5,rep=F))})
round(u5, 3)

##   [1] 0.654 0.518 0.474 0.408 0.292 0.387 0.483 0.497 0.313 0.425 0.698 0.528
##  [13] 0.650 0.590 0.573 0.578 0.691 0.746 0.487 0.463 0.448 0.616 0.655 0.509
##  [25] 0.487 0.594 0.662 0.463 0.513 0.364 0.414 0.605 0.326 0.470 0.451 0.509
##  [37] 0.562 0.362 0.473 0.678 0.557 0.561 0.574 0.316 0.714 0.381 0.637 0.515
##  [49] 0.616 0.526 0.474 0.583 0.590 0.478 0.421 0.515 0.367 0.461 0.382 0.512
##  [61] 0.449 0.476 0.358 0.446 0.586 0.268 0.583 0.427 0.507 0.592 0.451 0.383
##  [73] 0.664 0.562 0.697 0.365 0.586 0.642 0.344 0.488 0.313 0.459 0.482 0.327
##  [85] 0.736 0.615 0.502 0.372 0.631 0.764 0.374 0.577 0.501 0.530 0.408 0.704
##  [97] 0.682 0.400 0.484 0.482 0.502 0.314 0.459 0.499 0.493 0.394 0.468 0.468
## [109] 0.371 0.594 0.402 0.317 0.513 0.537 0.352 0.469 0.565 0.485 0.547 0.568
## [121] 0.359 0.444 0.566 0.446 0.297 0.552 0.698 0.336 0.505 0.570 0.615 0.496
## [133] 0.578 0.538 0.301 0.642 0.595 0.356 0.610 0.457 0.607 0.498 0.401 0.592
## [145] 0.659 0.454 0.471 0.647 0.517 0.601 0.440 0.396 0.799 0.627 0.317 0.516
## [157] 0.404 0.484 0.639 0.313 0.343 0.568 0.671 0.584 0.495 0.176 0.519 0.418
## [169] 0.334 0.618 0.635 0.307 0.469 0.456 0.444 0.527 0.694 0.339 0.567 0.223
## [181] 0.536 0.667 0.267 0.369 0.624 0.590 0.569 0.447 0.584 0.622 0.492 0.669
## [193] 0.587 0.654 0.417 0.551 0.490 0.538 0.334 0.491 0.434 0.591 0.698 0.567
## [205] 0.465 0.691 0.485 0.647 0.596 0.656 0.698 0.449 0.404 0.476 0.417 0.696
## [217] 0.239 0.463 0.626 0.439 0.714 0.656 0.570 0.461 0.540 0.333 0.489 0.610
## [229] 0.658 0.654 0.521 0.402 0.495 0.450 0.472 0.238 0.604 0.463 0.311 0.415
## [241] 0.570 0.471 0.372 0.515 0.291 0.446 0.705 0.613 0.702 0.558 0.370 0.336
## [253] 0.767 0.454 0.511 0.229 0.393 0.639 0.296 0.414 0.424 0.294 0.520 0.509
## [265] 0.334 0.574 0.674 0.375 0.612 0.515 0.597 0.560 0.474 0.383 0.445 0.619
## [277] 0.781 0.563 0.916 0.397 0.568 0.474 0.555 0.356 0.449 0.470 0.640 0.408
## [289] 0.513 0.292 0.459 0.446 0.511 0.520 0.671 0.357 0.387 0.524 0.576 0.276

En primer lugar, simula 300 muestra de tamaño 100 de una variable aleatoria con distribución uniforme de parámetros a=0 y b=1.

u100<-sapply(1:300, function(x){mean(sample(runif(10000),100,rep=F))})
round(u100, 3)

##   [1] 0.507 0.512 0.489 0.553 0.483 0.539 0.492 0.470 0.497 0.447 0.573 0.467
##  [13] 0.504 0.499 0.444 0.542 0.543 0.462 0.523 0.471 0.494 0.530 0.471 0.471
##  [25] 0.552 0.535 0.517 0.524 0.473 0.489 0.491 0.501 0.455 0.457 0.517 0.452
##  [37] 0.480 0.474 0.562 0.471 0.512 0.484 0.501 0.475 0.460 0.483 0.451 0.485
##  [49] 0.486 0.454 0.486 0.511 0.480 0.488 0.462 0.487 0.520 0.512 0.494 0.489
##  [61] 0.484 0.528 0.471 0.510 0.506 0.471 0.494 0.499 0.481 0.483 0.531 0.452
##  [73] 0.521 0.481 0.536 0.480 0.493 0.466 0.494 0.444 0.478 0.516 0.503 0.450
##  [85] 0.480 0.538 0.545 0.495 0.491 0.512 0.494 0.553 0.485 0.474 0.473 0.425
##  [97] 0.491 0.482 0.509 0.487 0.509 0.497 0.483 0.512 0.450 0.478 0.495 0.564
## [109] 0.549 0.529 0.457 0.515 0.509 0.444 0.550 0.479 0.462 0.523 0.510 0.510
## [121] 0.431 0.448 0.516 0.488 0.528 0.470 0.485 0.510 0.549 0.444 0.506 0.484
## [133] 0.486 0.462 0.488 0.493 0.502 0.508 0.497 0.499 0.502 0.524 0.530 0.515
## [145] 0.436 0.527 0.485 0.515 0.492 0.460 0.461 0.521 0.482 0.495 0.506 0.497
## [157] 0.501 0.549 0.483 0.512 0.501 0.524 0.516 0.517 0.431 0.522 0.523 0.508
## [169] 0.494 0.491 0.479 0.528 0.445 0.485 0.512 0.470 0.502 0.487 0.519 0.545
## [181] 0.506 0.523 0.519 0.527 0.491 0.515 0.497 0.477 0.549 0.513 0.504 0.454
## [193] 0.434 0.452 0.464 0.539 0.524 0.453 0.518 0.498 0.519 0.499 0.527 0.517
## [205] 0.495 0.498 0.506 0.484 0.516 0.480 0.544 0.520 0.558 0.471 0.503 0.499
## [217] 0.516 0.528 0.493 0.535 0.497 0.540 0.526 0.508 0.463 0.516 0.500 0.488
## [229] 0.480 0.465 0.518 0.509 0.514 0.538 0.530 0.480 0.545 0.488 0.503 0.455
## [241] 0.503 0.498 0.497 0.540 0.469 0.428 0.448 0.468 0.523 0.495 0.478 0.478
## [253] 0.461 0.535 0.481 0.525 0.513 0.490 0.499 0.503 0.507 0.462 0.525 0.489
## [265] 0.505 0.505 0.491 0.491 0.491 0.567 0.490 0.463 0.482 0.524 0.535 0.474
## [277] 0.508 0.448 0.527 0.482 0.485 0.462 0.542 0.529 0.456 0.527 0.523 0.549
## [289] 0.488 0.456 0.527 0.566 0.545 0.525 0.540 0.548 0.460 0.535 0.496 0.502

Grafíca ambos resultados con dos histogramas para compararlos.

par(mfrow=c(1,2))
hist(u5,col = "lightblue", breaks=20, freq = TRUE, xlim=c(0,1))
hist(u100,col = "blue", breaks=20, freq = TRUE, xlim=c(0,1))

Calcula los valores estandarizados para cada media y grafica un histograma para verificar que la distribución de las medias muestrales estandarizadas es efectivamente normal.

#media y varianza de la distribución uniforme con parámetros a=0 y b=1
n=100
a=0
b=1
munif=(a+b)/2
munif

## [1] 0.5

varunif=(b-a)^2/12
varunif

## [1] 0.08333333

u100z=(u100-munif)/(sqrt(varunif)/sqrt(n))
hist(u100z,col = "green", breaks=10, freq = F, xlim=c(-4,4))
lines(seq(-4, 4, by=.1), dnorm(seq(-4, 4, by=.1),0, 1), col="blue")

Realiza la mísma simulación con una variable aleatoria con distribución Poisson de parámetro igual a 2.

p5<-sapply(1:300, function(x){mean(sample(rpois(10000,2),5,rep=F))})
p5

##   [1] 2.0 2.4 1.8 3.0 1.6 2.2 1.6 1.8 2.2 2.2 2.0 1.6 2.2 2.2 2.2 2.6 3.0 2.2
##  [19] 2.2 2.8 2.6 2.6 1.0 2.6 0.4 2.2 1.4 2.4 1.8 1.8 2.6 2.2 1.8 1.8 2.2 1.8
##  [37] 1.0 1.4 1.8 2.2 2.6 2.6 2.0 2.0 3.2 1.4 2.6 1.2 2.4 1.8 2.4 2.0 2.4 2.8
##  [55] 1.2 1.6 2.2 2.0 1.8 1.2 1.8 1.6 3.8 2.4 2.6 1.2 1.2 3.4 1.6 1.2 2.0 1.6
##  [73] 2.8 1.0 1.2 2.2 3.4 3.2 2.2 1.6 0.8 2.0 1.2 2.4 1.2 1.6 1.4 1.2 1.4 2.4
##  [91] 1.8 2.4 2.0 2.2 1.6 2.4 2.4 1.2 1.6 2.6 2.6 2.4 1.2 1.8 1.4 3.0 2.4 1.8
## [109] 1.4 3.0 2.4 2.4 1.6 3.6 3.0 1.4 1.6 1.4 1.4 1.4 1.8 3.8 2.0 2.4 2.8 1.8
## [127] 1.6 1.4 1.6 2.8 1.8 2.0 0.8 2.2 2.4 2.6 1.8 2.2 2.8 2.4 2.0 2.2 0.8 1.4
## [145] 1.4 2.6 2.2 3.8 2.0 2.0 2.2 2.4 2.8 1.8 1.8 1.6 0.6 1.0 1.4 2.2 1.6 2.6
## [163] 1.8 1.8 2.6 3.2 2.4 0.8 1.0 1.2 1.2 2.8 2.0 1.8 1.4 3.6 1.4 1.2 1.2 1.6
## [181] 3.4 2.6 1.6 0.8 2.6 1.8 2.4 2.0 2.8 2.0 2.2 3.0 1.0 2.0 3.0 2.2 3.0 1.8
## [199] 3.2 2.2 2.8 2.8 2.6 2.0 1.8 1.4 1.2 1.6 2.8 1.0 2.4 2.4 3.2 1.8 1.8 2.6
## [217] 2.2 0.8 1.8 3.2 1.6 1.0 2.2 3.8 2.8 1.6 3.4 1.0 1.4 2.0 1.6 1.8 2.0 1.8
## [235] 2.4 2.4 2.2 2.6 1.4 2.2 2.6 2.0 1.0 1.2 1.6 2.6 3.4 3.0 2.2 2.4 0.8 3.4
## [253] 1.2 1.8 2.2 3.8 2.0 2.4 2.8 2.8 2.2 2.0 1.8 1.2 1.4 1.2 2.8 2.8 2.6 1.8
## [271] 1.8 2.6 2.6 2.0 2.4 1.4 1.8 2.2 1.2 2.6 0.8 2.2 1.6 2.4 2.0 1.6 1.4 2.4
## [289] 2.0 1.2 2.2 2.8 2.0 1.0 2.6 2.2 2.8 2.0 1.8 1.4

p100<-sapply(1:300, function(x){mean(sample(rpois(10000,2),100,rep=F))})
p100

##   [1] 2.04 2.07 1.98 2.17 2.14 2.02 1.88 1.97 1.87 2.05 1.87 1.88 1.92 1.98 1.79
##  [16] 1.86 2.10 2.01 2.22 2.11 1.87 1.88 1.95 1.95 2.18 1.78 2.08 1.79 2.01 2.29
##  [31] 2.06 2.07 1.76 2.16 2.28 2.08 1.72 2.16 2.12 2.02 1.74 1.90 1.91 1.98 1.83
##  [46] 1.58 2.04 1.95 2.06 2.00 2.19 2.01 1.74 2.07 2.11 1.89 2.01 2.10 2.06 1.82
##  [61] 1.89 2.20 1.94 2.08 1.78 1.81 1.77 2.23 2.05 2.31 1.99 2.01 2.09 1.88 2.17
##  [76] 2.02 1.86 2.14 1.86 2.03 2.12 2.31 2.22 1.95 1.88 1.82 1.77 1.93 1.91 2.05
##  [91] 1.96 2.30 2.18 2.12 1.87 2.18 2.27 1.78 1.88 2.07 2.13 2.13 2.08 1.85 2.19
## [106] 2.10 1.98 2.15 1.88 2.15 1.95 2.05 2.04 2.22 1.80 2.27 1.98 2.16 1.90 2.21
## [121] 1.93 2.19 1.82 1.96 2.38 2.16 2.12 2.28 1.80 1.96 1.67 2.33 2.27 1.77 2.12
## [136] 1.81 1.82 1.82 1.86 2.32 1.99 1.90 2.18 1.90 2.16 2.19 1.98 1.96 1.79 1.87
## [151] 2.06 1.98 2.08 2.15 1.90 2.07 1.76 1.73 2.02 1.98 2.01 1.97 2.07 2.09 1.71
## [166] 1.88 2.01 2.05 1.87 2.20 2.05 2.04 1.87 2.07 1.92 1.96 2.15 2.07 2.08 1.97
## [181] 2.10 1.97 2.32 2.22 1.85 2.11 1.86 2.06 2.20 1.70 2.02 1.77 1.76 1.93 2.16
## [196] 2.01 1.94 1.93 1.96 1.94 1.91 1.95 1.88 1.93 1.88 1.95 1.95 2.10 2.00 1.96
## [211] 2.04 2.09 1.97 1.79 1.80 2.03 1.86 1.82 2.25 1.98 2.01 1.86 1.74 1.86 2.03
## [226] 2.08 1.99 1.83 2.26 2.07 1.83 2.10 2.16 1.97 2.31 2.03 2.14 2.00 2.15 1.94
## [241] 2.18 1.89 1.74 2.09 2.22 1.91 1.99 2.09 2.12 1.95 2.09 2.06 2.14 1.97 2.08
## [256] 2.01 2.13 2.02 2.18 1.95 1.84 2.06 2.04 2.05 2.10 2.00 2.03 1.88 1.99 1.88
## [271] 1.87 2.00 1.76 1.93 1.86 2.06 1.89 2.04 2.10 1.86 2.09 1.89 2.11 2.22 2.07
## [286] 2.25 2.02 2.12 2.04 1.89 1.93 2.01 1.95 2.02 2.05 2.16 2.30 1.94 2.07 1.79

par(mfrow=c(1,2))
hist(p5,col = "lightgreen", breaks=20, freq = TRUE, xlim=c(0,6))
hist(p100,col = "green", breaks=20, freq = TRUE, xlim=c(0,6))

Calcula los valores estandarizados para cada media y grafica un histograma para verificar que la distribución es efectivamente normal estandar.

p100z=(p100-2)/(sqrt(2)/sqrt(100))
hist(p100z,col = "green", breaks=10, freq = F, xlim=c(-4,4))
lines(seq(-4, 4, by=.1), dnorm(seq(-4, 4, by=.1),0, 1), col="blue")

7.6.2 Distribución muestral de la media

7.6.2.1 Varianza Poblacional conocida

\[\overline{X} \sim Nor \left( \mu, \frac{\sigma^2}{n}\right)\] Ejemplo

Para una población con distribución normal con media igual a 4.5 y varianza igual a 2. Se realiza un muestreo aleatorio simple de tamaño 35. ¿Cuál es la probabilidad de que la media muestral sea al menos igual a 5?

\(P(\overline{X}\geq 5)=P\left( Z \geq \dfrac{5-4.5}{\sqrt{2}/\sqrt{35}} \right)=0.0182\)

mu = 4.5
sigma = 2
n = 35
sigma_mu = sigma/n
pnorm(5, mean = mu, sd = sqrt(sigma_mu), lower.tail = F)

## [1] 0.01823492

# o también
pnorm((5-4.5)/(sqrt(2/35)),lower.tail = F) #Normal estándar

## [1] 0.01823492

#Gráfico
library(RcmdrMisc)
x1 <- seq(3.5, 5.5, length.out=1000)  
  plotDistr(x1, dnorm(x1, mean=mu, sd=sqrt(sigma_mu)), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(5, 5.5)), legend.pos=F, bty="n")

7.6.2.2 Varianza Poblacional desconocida

\[\frac{\overline{X}-\mu}{\hat{S}/\sqrt{n}} \sim t_{n-1}\] Ejemplo

Supongamos el ejemplo anterior pero donde la varianza poblacional es desconocida. Sin embargo, se conoce la varianza muestral \(\hat{s}\) que es igual a 2.25.

\(P(\overline{X}\geq 5)=P\left( T \geq \dfrac{5-4.5}{\sqrt{2.25}/\sqrt{35}} \right)=0.0284\)

mu = 4.5
s2 = 2.25
n = 35
s2_mu = s2/n
pt((5-mu)/sqrt(s2_mu), df = 34,lower.tail = F)

## [1] 0.02839295

#Gráfico

x2 <- seq(-3.5, 3.5, length.out=1000)  
  plotDistr(x2, dt(x2, df = 34), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(1.97, 3.5)), legend=F, bty="n")

Estudio de caso Probabilidades t student vs la normal

q<-c(seq(from=-4, to=+4, by=0.1))
q

##  [1] -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 -2.7 -2.6
## [16] -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1
## [31] -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1  0.0  0.1  0.2  0.3  0.4
## [46]  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4  1.5  1.6  1.7  1.8  1.9
## [61]  2.0  2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9  3.0  3.1  3.2  3.3  3.4
## [76]  3.5  3.6  3.7  3.8  3.9  4.0

gl<-5
pstu<-pt(q,gl)
pstu

##  [1] 0.005161708 0.005704646 0.006314241 0.006999703 0.007771628 0.008642216
##  [7] 0.009625522 0.010737750 0.011997588 0.013426592 0.015049624 0.016895352
## [13] 0.018996812 0.021392032 0.024124727 0.027245050 0.030810396 0.034886235
## [19] 0.039546949 0.044876625 0.050969739 0.057931652 0.065878792 0.074938393
## [25] 0.085247616 0.096951840 0.110201940 0.125150317 0.141945528 0.160725410
## [31] 0.181608734 0.204685600 0.230007033 0.257574474 0.287330144 0.319149436
## [37] 0.352836557 0.388124521 0.424680257 0.462115071 0.500000000 0.537884929
## [43] 0.575319743 0.611875479 0.647163443 0.680850564 0.712669856 0.742425526
## [49] 0.769992967 0.795314400 0.818391266 0.839274590 0.858054472 0.874849683
## [55] 0.889798060 0.903048160 0.914752384 0.925061607 0.934121208 0.942068348
## [61] 0.949030261 0.955123375 0.960453051 0.965113765 0.969189604 0.972754950
## [67] 0.975875273 0.978607968 0.981003188 0.983104648 0.984950376 0.986573408
## [73] 0.988002412 0.989262250 0.990374478 0.991357784 0.992228372 0.993000297
## [79] 0.993685759 0.994295354 0.994838292

pnorm<-pnorm(q)
pnorm

##  [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
##  [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01

datos=data.frame(pstu,pnorm)

matplot (q,datos, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal),paste(student)), cex = 0.7,lty = 1:2)

con muestras de tamaño 15

gl<-15
pstu15<-pt(q,gl)
pstu15

##  [1] 0.0005796584 0.0007106144 0.0008716145 0.0010695443 0.0013128305
##  [6] 0.0016117655 0.0019788916 0.0024294533 0.0029819242 0.0036586153
## [11] 0.0044863687 0.0054973399 0.0067298632 0.0082293928 0.0100495006
## [16] 0.0122529016 0.0149124647 0.0181121487 0.0219477876 0.0265276281
## [21] 0.0319725036 0.0384155129 0.0460010591 0.0548831055 0.0652225098
## [26] 0.0771833302 0.0909280407 0.1066116606 0.1243748937 0.1443364788
## [31] 0.1665850680 0.1911710668 0.2180989696 0.2473207913 0.2787312176
## [36] 0.3121650568 0.3473974679 0.3841472673 0.4220833885 0.4608343100
## [41] 0.5000000000 0.5391656900 0.5779166115 0.6158527327 0.6526025321
## [46] 0.6878349432 0.7212687824 0.7526792087 0.7819010304 0.8088289332
## [51] 0.8334149320 0.8556635212 0.8756251063 0.8933883394 0.9090719593
## [56] 0.9228166698 0.9347774902 0.9451168945 0.9539989409 0.9615844871
## [61] 0.9680274964 0.9734723719 0.9780522124 0.9818878513 0.9850875353
## [66] 0.9877470984 0.9899504994 0.9917706072 0.9932701368 0.9945026601
## [71] 0.9955136313 0.9963413847 0.9970180758 0.9975705467 0.9980211084
## [76] 0.9983882345 0.9986871695 0.9989304557 0.9991283855 0.9992893856
## [81] 0.9994203416

pnorm15<-pnorm(q)
pnorm15

##  [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
##  [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01

datos15=data.frame(pstu15,pnorm15)

matplot (q,datos15, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal15),paste(student15)), cex = 0.7,lty = 1:2)

con muestras de tamaño 30

gl<-30

pstu30<-pt(q,gl)
pstu30

##  [1] 0.0001909228 0.0002511250 0.0003297791 0.0004322999 0.0005655892
##  [6] 0.0007384037 0.0009617981 0.0012496537 0.0016193009 0.0020922424
## [11] 0.0026949820 0.0034599551 0.0044265547 0.0056422333 0.0071636508
## [16] 0.0090578245 0.0114032185 0.0142906936 0.0178242200 0.0221212356
## [21] 0.0273125225 0.0335414620 0.0409625343 0.0497389378 0.0600392338
## [26] 0.0720329646 0.0858852546 0.1017504793 0.1197651754 0.1400404590
## [31] 0.1626543077 0.1876441434 0.2150002049 0.2446602217 0.2765058798
## [36] 0.3103615024 0.3459952583 0.3831230526 0.4214150785 0.4605048059
## [41] 0.5000000000 0.5394951941 0.5785849215 0.6168769474 0.6540047417
## [46] 0.6896384976 0.7234941202 0.7553397783 0.7849997951 0.8123558566
## [51] 0.8373456923 0.8599595410 0.8802348246 0.8982495207 0.9141147454
## [56] 0.9279670354 0.9399607662 0.9502610622 0.9590374657 0.9664585380
## [61] 0.9726874775 0.9778787644 0.9821757800 0.9857093064 0.9885967815
## [66] 0.9909421755 0.9928363492 0.9943577667 0.9955734453 0.9965400449
## [71] 0.9973050180 0.9979077576 0.9983806991 0.9987503463 0.9990382019
## [76] 0.9992615963 0.9994344108 0.9995677001 0.9996702209 0.9997488750
## [81] 0.9998090772

pnorm30<-pnorm(q)
pnorm30

##  [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
##  [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01

datos30=data.frame(pstu30,pnorm30)

matplot (q,datos30, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal),paste(student)), cex = 0.7,lty = 1:2)

7.6.3 Distribución muestral de la diferencia de medias

\[\overline{X}_1-\overline{X}_2 \sim Nor\left(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}\right)\] Ejemplo

Las distribuciones de ciertas mediciones tienen distribuciones normales. Se cuentan con dos poblaciones con los siguientes valores: \(\mu_1=25\), \(\sigma_1=5\), \(\mu_2=26\) y \(\sigma_2=6\). Si se extraen muestras aleatorias de tamaños \(n_1=n_2=100\), ¿cuál es la probabilidad de que la media muestral \(\overline{x}_1\) supere a la otra media en al menos 1 unidad?

\(P(\overline{x}_1 \ge \overline{x}_2+1)=P(\overline{x}_1-\overline{x}_2 \ge 1)=P \left(Z \ge \dfrac{1-(25-26)}{\sqrt{\frac{5^2}{100}+\frac{6^2}{100}}} \right)\approx 0.005\)

mu_1 = 25
mu_2 = 26
sigma_1 = 5
sigma_2 = 6
n_1 = 100
n_2 = 100
sigma_dmu = sqrt((sigma_1^2)/n_1+(sigma_2^2)/n_2)
pnorm(1, mean = mu_1-mu_2, sd = sigma_dmu, lower.tail = F)

## [1] 0.005222511

#Gráfico
library(RcmdrMisc)
x1 <- seq(-4, 2, length.out=1000)  
  plotDistr(x1, dnorm(x1, mean=mu_1-mu_2, sd=sigma_dmu), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions =  list(c(1,2)), legend=F, bty="n")

7.6.4 Distribución muestral de proporciones

\[\hat{p} \sim Nor\left(p,\frac{pq}{n}\right)\] Ejemplo

En la asignatura de Estadística I, históricamente se sabe que el porcentaje de alumnos que aprueban es del 75%. En un cierto año, se tomó una muestra aleatoria de 35 estudiantes de la asignatura. Calcula la probabilidad de que el porcetaje de aprobados sea entre 70 y 80%.

\(P(0.70 \le \hat{p} \le 0.80)=P\left( \dfrac{0.70-0.75}{\sqrt{\frac{0.75(0.25)}{35}}} \le Z \le \dfrac{0.80-0.75}{\sqrt{\frac{0.75(0.25)}{35}}} \right)=0.5055\)

p = 0.75
n = 35
Z1 = (0.70-0.75)/sqrt(0.75*0.25/35)
Z2 = (0.80-0.75)/sqrt(0.75*0.25/35)
Probabilidad = pnorm(Z2)-pnorm(Z1)
Probabilidad

## [1] 0.5054753

#Gráfico
x1 <- seq(-3.5, 3.5, length.out=1000)  
  plotDistr(x1, dnorm(x1), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(Z1, Z2)), legend=F, bty="n")

7.6.5 Distribución muestral para la diferencia de proporciones

\[\hat{p}_1-\hat{p}_2 \sim Nor\left(p_1-p_2,\frac{p_1q_1}{n_1}+\frac{p_2q_2}{n_2}\right)\] Ejemplo

Sea \(p_1=0.5\), \(p_2=0.45\), \(n_1=60\) y \(n_2=50\). Calcula \(P(|\hat{p}_2-\hat{p}_1| \ge 0.1)\).

\(P(|\hat{p}_2-\hat{p}_1| \ge 0.1)=P \left( \dfrac{-0.1-(0.45-0.5)}{\sqrt{\frac{0.5(0.5)}{60}+\frac{0.45(0.55)}{50}}} > Z > \dfrac{0.1-(0.45-0.5)}{\sqrt{\frac{0.5(0.5)}{60}+\frac{0.45(0.55)}{50}}} \right)=0.3412\)

p1 = 0.5
p2 = 0.45
n1 = 60
n2 = 50
Z1 = (-0.1-(0.45-0.5))/sqrt(0.5*0.5/60+0.45*0.55/60)
Z2 = (0.1-(0.45-0.5))/sqrt(0.5*0.5/60+0.45*0.55/60)
Probabilidad = pnorm(Z1) + pnorm(Z2, lower.tail = F)
Probabilidad

## [1] 0.3412186

#Gráfico
x1 <- seq(-4, 4, length.out=1000)  
  plotDistr(x1, dnorm(x1), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(-4, Z1),c(Z2,4)), legend=F, bty="n")

7.6.6 Distribución muestral de la varianza

\[\frac{(n-1)\hat{S}^2}{\sigma^2} \sim \chi^2_{n-1}\] Ejemplo

En una población normal con varianza igual a 4. Calcula la probabilidad de que en una muestra de tamaño 20 se obtenga una varianza muestra inferior a 3.5.

\(P(\hat{s}^2<3.5)=P \left(\chi^2 < \dfrac{(20-1)3.5}{4} \right)=0.3847\)

sigma2 = 4
n = 20
s2 = 3.5
X2 = (n-1)*s2/sigma2
pchisq(X2, df = n-1)

## [1] 0.3847433

#Gráfico
x <- seq(0, 45, length.out=1000)  
  plotDistr(x, dchisq(x, df=19), cdf=FALSE, xlab="x", ylab="Densidad", main="",
            regions=list(c(0, (19*3.5)/4)), legend=F, bty = "n", las = 1)

7.6.7 Distribución muestral del cociente de varianzas

\[\frac{\hat{S}_1^2/\sigma_1^2}{\hat{S}_2^2/\sigma^2_2} \sim F_{n_1-1,n_2-1}\] Ejemplo

Sunponga dos variables aleatorias provenientes de dos poblaciones normales: \(X_1 \sim Nor(\mu_1,\sigma_1^2)\) y \(X_2 \sim Nor(\mu_2,\sigma_2^2)\). Se sabe que las varianzas poblacionales son desconocidas pero iguales. Si al seleccionar muestras aleatorios de tamaño 10 de cada población, ¿cuál es la probabilidad de que la varianza muestral de la primera sea menor a la otra?

\(P(\hat{s}_1<\hat{s}_2)=P\left( \dfrac{\hat{s}_1}{\hat{s}_2} <1 \right)=P(F<1)=0.5\)

n1 = 10
n2 = 10
pf(1, df1=n1-1, df2=n2-1)

## [1] 0.5

#Gráfico
x <- seq(0, 7, length.out=1000)  
plotDistr(x, df(x, df1=n1-1, df2=n2-1), cdf=FALSE, xlab="x", ylab="Densidad",
          main="", regions=list(c(0, 1)), legend=F, bty = "n", las = 1)

7.7 Propiedades de los Estimadores Puntuales

7.7.1 Insesgadez

Un estimador \(\hat{\theta}\) es insesgado si su valor esperado coincide con el verdadero valor del parámetro poblacional \(\theta\). Es decir, si

\[E(\hat{\theta})=\theta\]

7.7.2 Eficiencia o de varianza mínima

Un estimador \(\hat{\theta}_i\) es más eficiente que otro estimador \(\hat{\theta}_j\), para \(i \neq j\), si la varianza de \(\hat{\theta}_i\) es más pequeña que la de \(\hat{\theta}_j\), para todo \(j\). Es decir

\[Var(\hat{\theta}_i)<Var(\hat{\theta}_j)\]

7.7.3 Consistencia

Un estimador es consistente si se cumplen las siguientes dos propiedades:

\[\lim_{n \rightarrow \infty}E(\hat{\theta})=\theta \ \ \ \ \ y \ \ \ \ \ \lim_{n \rightarrow \infty}Var(\hat{\theta})=0\]

7.7.4 Suficiencia

Un estimador (estadístico) \(t=T(X_1,X_2,...,X_n )\) es suficiente para \(\theta\) si y solo si la función de probabilidad conjunta o de densidad de probabilidad conjunta \(f(x;\theta)\) puede descomponerse de la siguiente manera:

\[f(x_1,x_2,...,x_n;\theta)=h(T(x_1,x_2,…,x_n );\theta) g(x_1,x_2,...,x_n )\] siendo \(h(T(x_1,x_2,...,x_n );\theta)=f(t;\theta)\) es una función que solo depende del parámetro \(\theta\) por medio del estadístico \(T(x_1,x_2,...,x_n )\) y que la función \(g(x_1,x_2,...,x_n )\) no le contiene al parámetro (Teorema de Factorización de Fisher-Neyman).

7.7.5 Invarianza

Un estimador \(\hat{\theta}\) del parámetro \(\theta\) es invariante si se satisface

\[g(\hat{\theta})=g(\theta)\] siempre y cuando \(g\) sea una función inyectiva.

7.8 Sesgo de la varianza muestral

#simulación para verificar el sesgo de la varianza muestral
#Simular los resultados de una muestra aleatoria de tamaño n de una variable con distribución normal estandar
#Sn

# Definimos la función desviación típica con sesgo
Sigma <- function(x) {
  n <- length(x)
  desvi <- sqrt(sum((x-mean(x))^2) / n)
  return(desvi)
} 

y <- c(12, 25, 32, 15, 26)
Sigma(y)

## [1] 7.402702

n<-30
a<-sapply(1:100,function(d){round((sum(Sigma(sample(rnorm(100000,0,1),n,rep=T)))),1)})
a

##   [1] 1.1 0.8 0.9 0.9 1.2 1.3 0.9 1.1 0.9 0.9 1.0 1.3 1.1 1.0 1.1 0.8 0.9 0.9
##  [19] 1.0 0.7 1.0 0.8 1.0 0.9 0.8 0.8 1.0 1.0 1.0 1.0 1.0 1.0 1.1 0.9 1.1 1.0
##  [37] 1.1 0.8 1.2 0.8 1.0 1.0 0.6 1.0 0.9 1.0 0.8 0.9 1.2 0.9 1.0 0.9 1.1 0.9
##  [55] 0.8 0.8 0.8 1.0 0.9 1.0 1.0 0.9 1.0 0.9 1.1 1.1 1.0 0.9 0.9 0.8 0.9 0.8
##  [73] 1.0 1.1 0.9 1.1 0.9 1.0 1.1 1.1 1.0 0.6 1.1 0.8 1.0 0.8 0.9 1.0 1.1 1.2
##  [91] 1.1 1.1 0.9 0.9 1.0 1.0 1.0 0.9 0.9 1.1

          table(a)

## a
## 0.6 0.7 0.8 0.9   1 1.1 1.2 1.3 
##   2   1  15  27  30  19   4   2

barplot(table(a))

#Sn-1
# Definimos la función desviación típica sin sesgo
Sigmains <- function(x) {
  n <- length(x)
  desvi <- sqrt(sum((x-mean(x))^2) / (n-1))
  return(desvi)
} 

y <- c(12, 25, 32, 15, 26)
Sigmains(y)

## [1] 8.276473

n<-30
b<-sapply(1:100,function(e){round((sum(Sigmains(sample(rnorm(100000,0,1),n,rep=T)))),1)})
b

##   [1] 1.1 1.0 1.0 0.9 0.9 0.9 0.9 1.1 0.9 1.1 1.0 0.9 1.0 1.0 1.1 1.1 1.1 0.9
##  [19] 0.9 0.9 1.1 0.9 1.2 1.0 1.1 1.0 0.9 0.9 1.1 1.0 0.9 1.0 1.1 1.0 1.2 1.0
##  [37] 0.9 1.0 1.2 0.8 1.1 1.0 0.8 0.9 0.8 0.9 0.9 1.1 0.7 1.0 1.1 1.0 0.7 1.3
##  [55] 1.2 0.8 0.9 0.9 1.0 0.9 1.0 0.9 1.0 0.9 0.9 1.0 0.9 0.9 1.0 1.2 1.2 0.8
##  [73] 0.8 1.2 0.9 1.1 1.0 1.0 1.0 0.8 1.0 0.9 1.0 0.6 1.2 0.9 1.1 1.1 1.3 0.9
##  [91] 1.2 1.1 1.2 0.9 1.0 0.9 1.0 1.0 1.0 0.8

table(b)

## b
## 0.6 0.7 0.8 0.9   1 1.1 1.2 1.3 
##   1   2   8  31  29  17  10   2

barplot(table(b))

hist(a)

hist(b)

#Compara los resultados con un grafico de caja y bigotes
boxplot(a,b,names=c("S_n","S_n-1"),ylab="Desviaciones")
abline(h = 1)

7.9 Intervalos de confianza

La siguiente simulación te ayudará a entender el significado de los intérvalos de confianza.

En primer lugar tienes la simulación de una muestra compuesta por 15 valores de una variable aleatoria con distribución Poisson

lamda=10
dato<-rexp(15,1/lamda)
dato

##  [1] 12.4164298  1.6927943 17.1886173 28.2429235  5.9586670  0.6330959
##  [7] 44.4728487  6.9241273  2.7050865  0.6028640  9.1654539 13.4240856
## [13] 19.5955880  8.0804881  2.5339918

Dibuja el resultado con un histograma

hist(dato)

En segundo lugar, genera 100 muestras de tamaño 15 para la misma variable aleatoria

datos <- replicate(100, rexp(15,1/lamda))
datos

##             [,1]        [,2]       [,3]       [,4]       [,5]      [,6]
##  [1,] 10.4971917  6.21158359  3.1998020  6.3458975  4.9800411 12.249820
##  [2,] 14.3114682  0.02091236  0.2434262 11.0116610  3.6840652 27.792021
##  [3,]  1.3428877  9.57342251  5.3333157  3.0773544  5.1695085 13.783552
##  [4,]  0.9690231  9.60865055  4.6867271  0.1888625  2.1502421 12.073532
##  [5,]  0.3239891  5.37062741  5.1841849  9.3117517  1.1288128 29.459710
##  [6,]  6.7479393 11.09777229  2.9970361 12.6068325 16.2910003 11.385130
##  [7,] 15.5260383  2.47187804  5.1082121  1.1048766 14.0313268  6.093641
##  [8,]  0.7156983  0.38891105 13.9021572  3.5962161 10.1008910  4.620232
##  [9,]  3.9179884  3.56596863  2.6329159  1.9322579  2.1797931  4.416411
## [10,] 10.7192237  3.65535598 13.3200753  7.1239811  0.9775315 16.066630
## [11,] 22.2267753 13.21213263  8.3072481  9.3050170  5.7995458 16.848324
## [12,]  0.2416364 16.09049849  9.3146632 16.0976251 22.2019820  3.333933
## [13,]  2.4240350  0.32378362 14.7597222  1.1093131  3.0543806  8.114508
## [14,]  5.4463320  0.23221964 20.2840376  0.2566072 13.2530039 14.782019
## [15,]  6.5107262  7.69945171  3.4652399  6.4692863  4.2739366 10.862992
##             [,7]      [,8]      [,9]      [,10]     [,11]      [,12]
##  [1,] 21.0023561  7.598731 12.990719  3.9543535  7.584011 21.1449627
##  [2,] 37.8374987 36.439755 21.655487  5.8408194  4.403351  1.7557202
##  [3,] 43.6469832  5.858649 20.538310  2.0243982  2.776572  8.8647094
##  [4,] 32.0457233  2.694832  3.275288  1.1901658 31.926617  6.5481160
##  [5,]  0.8723139  1.275641  6.600541  4.8778593 13.252516 22.4767531
##  [6,]  7.2343174 11.951540  3.908569  7.1129401  4.883326 23.8090496
##  [7,]  9.7995779  2.425060 13.819694  2.6103054  6.843370  2.4360311
##  [8,]  2.6496597 36.427028 12.841218  4.8389817  6.181446  2.1109723
##  [9,]  7.0959423 13.974534  4.604085  0.5699354 25.510011  0.2384687
## [10,]  9.5427162 14.010581 18.177225 14.0288904 28.052380 15.4059281
## [11,]  6.9131715 14.425957 27.717294 22.7218999 23.590364 30.6856875
## [12,]  7.9431156  8.482833 13.056815  6.0284377  2.127227 15.1495110
## [13,] 11.1325889  7.305497 14.710097 13.4978676 27.231646 42.2310566
## [14,] 19.2181275  1.878370 35.725274  7.6093176 32.408782  8.9043181
## [15,] 11.2215232  5.311240 29.647369  2.7030378  2.372162  2.5879429
##             [,13]      [,14]      [,15]      [,16]      [,17]      [,18]
##  [1,] 24.72218012  8.0908715  5.0687416  1.8442586  9.3649136  0.1005254
##  [2,]  4.98673224  1.0232996  1.4314734 22.8926549 20.8165218 29.5259966
##  [3,]  1.94237564  6.4849417  2.2963943  4.1737725 15.5561719 20.0968646
##  [4,]  3.30896414 32.0058903  2.0140562  2.0090834 10.0163110  7.5236052
##  [5,]  1.11585873 31.0072844 58.0580912  7.3244086  3.7566781  1.9774822
##  [6,]  3.52945546  3.0035285  0.3202130 16.7456332  6.9659940  8.3427328
##  [7,]  2.55286450  4.4910378  9.0323694  0.1470943  6.6326590  6.4262332
##  [8,] 10.95629007  5.2978874  0.6730320  5.5461791 10.8817449  2.4893688
##  [9,]  6.49363724  4.5618701  0.1004674 11.5532307  0.1656236 19.4799271
## [10,]  0.61692365 14.1393360  6.3091249  1.5356248 31.3058636  4.7626226
## [11,] 16.00913789  7.2750671 10.9592268 11.9593556 10.3940828  3.7015001
## [12,]  0.04577668  0.9784284  3.3711410  3.9460137 12.6897981 22.3448914
## [13,]  2.39931969 21.9703004  3.6297981  1.6128522  2.8370696  3.1777384
## [14,] 12.23411087  0.6203169  6.0061950 11.4994722 20.2124781 10.7865682
## [15,] 12.73107007  2.1552037 29.0095855  2.4305114 10.2699885  2.8831216
##             [,19]      [,20]      [,21]      [,22]      [,23]      [,24]
##  [1,]  4.46979906 10.7357442  4.7197549  0.8672400 17.6800159  2.2312039
##  [2,] 10.65776857 18.6527957  4.1613587 27.7524705 14.2223173 18.1031751
##  [3,]  6.99404343 14.4097103 21.3184250  3.9962319 16.7751548 12.7051732
##  [4,]  3.85070101  0.2615369  3.6581965  5.7041241  5.0639847  0.6050969
##  [5,]  0.05514119 17.5098336 32.4518877  0.1859586  6.1370103 11.9189671
##  [6,]  9.71136933  4.2400797  0.5101927 51.0592651 14.6180432  4.2412143
##  [7,] 14.58668640  2.5023765 11.0265335  2.5633028  6.3682836 15.9438559
##  [8,]  0.51811990  3.5010797  6.8203230 14.1279833 17.4166696  0.1618374
##  [9,]  2.22959913  0.3568450  5.8692883  7.9447000  0.1974565 18.9984679
## [10,] 12.21722271 18.4434359  4.5860520  9.3568105 54.6729402 12.9575101
## [11,] 11.06347302  0.3366033  2.4151962  0.7442094  0.8000307  1.5039418
## [12,]  4.56398206 27.3301844  6.0575411  6.5129295  2.5612935  6.4078025
## [13,]  6.04838077  7.8965193 15.5145726 11.0140218  6.2441304  9.7777933
## [14,]  8.73463454 11.7730164  3.9951777  2.9850008  1.5916327 13.2308345
## [15,]  9.33433316 33.8178270 24.9140914  2.4208747 31.8140023 25.3772374
##           [,25]     [,26]     [,27]      [,28]     [,29]     [,30]       [,31]
##  [1,]  3.364638 15.666351  7.345010 43.2207845 13.875794 24.719302  5.55112484
##  [2,] 27.971134  4.472485 16.898086 14.3736504 12.129698  8.996697 18.85849060
##  [3,] 23.049526  6.356728 11.562987  0.4671991  4.490363  3.459934  3.92871996
##  [4,]  9.936701 31.163589 32.970326  3.2584532  7.298929  4.606946 11.69022884
##  [5,] 14.911189  4.554531  6.592214  1.3037645 21.931304  0.992320  4.98795253
##  [6,]  1.078031 12.777024  2.100257 22.3222437  2.568325  6.624417  4.54082818
##  [7,]  5.490719 13.562429 10.880446  1.8267255  8.566488 11.191052 14.01833761
##  [8,]  2.786982 10.403700 14.357023  8.8677818  1.243846  8.936482  8.49378166
##  [9,]  7.126264  3.773953  4.751540 16.4318557 17.275176  6.921713  4.76007292
## [10,] 12.557545  9.320386 14.524122  2.8320926  3.278508 32.169419  5.65148454
## [11,]  3.317141  7.324143  4.131018  9.8830607 32.906919 20.170065 19.05788872
## [12,] 13.859819 16.346648  0.935330 22.0733802  9.531792  5.941722  4.83106088
## [13,]  5.744638  4.855477 15.961283 26.8894778  8.086616 14.178396  8.36655233
## [14,] 27.846402  9.140231  4.343851 12.2289027  8.683243  6.175090  0.01741801
## [15,]  3.910819  8.582323 27.048635  9.9493713 16.496685  3.584285  7.68158620
##            [,32]       [,33]      [,34]      [,35]      [,36]      [,37]
##  [1,] 17.5645114  8.20025559  2.3486189  6.0620868  4.2380280 36.0199223
##  [2,]  4.4967175  2.08961706 21.0603590  9.0418480  8.3466210 18.3610976
##  [3,]  3.3590716  2.43294337  2.5481794  3.5797147  0.1166777 13.2044808
##  [4,]  0.4973846  0.04186544  6.7878186 19.1109334  5.3052064  1.1254572
##  [5,]  6.7164586  1.01699165 12.7536216  8.0303754 10.7990033  5.8384185
##  [6,] 18.2685722  1.37005867  3.7085352  4.5825540 12.5081450  6.0847385
##  [7,]  8.5516353  2.45679542  3.8330221  0.4668901 11.8621974  2.6546377
##  [8,]  2.9738680 34.45576832  8.9069811 13.3953703 12.6562329  0.7789232
##  [9,] 11.9019244  1.94841096 17.9181696  5.8423051 10.0715879  7.0510606
## [10,] 25.8308892 13.73158674  3.7833330  3.3962065 32.8701924  0.7219043
## [11,]  6.8512504  1.10576344 36.5101931 22.0945175 10.3881220  4.8489908
## [12,] 28.8387457  2.48852704 13.1282554 47.4570580 25.4357157 12.8375742
## [13,]  4.2049882 15.30566186  1.1270409  4.4502004  3.9647541  3.4692791
## [14,] 10.0229075 23.09431733  0.8118707 33.9648746  0.2458922 10.2523153
## [15,] 14.7380599  2.85517214 10.2692927 19.1968646  0.6840739  0.8791810
##            [,38]     [,39]     [,40]      [,41]     [,42]     [,43]       [,44]
##  [1,] 44.1597303  2.523904 27.375223 10.4119581  7.764334  9.710352  7.51104960
##  [2,]  3.9450390  4.984029  8.378100  0.4735983  9.045570 14.915207  3.85765431
##  [3,]  4.9482417 21.741461  6.831458  3.4287620  8.245014  7.051404  5.94401385
##  [4,]  1.0542593 29.532847 14.935279  7.1630658  6.214037  6.392571  3.05485147
##  [5,]  0.8425028  5.489597  2.349739 20.7838527 34.337915 14.286272  2.25531803
##  [6,] 10.6748556 22.298042  6.794665  0.2226347  3.096587  2.058574  6.56057945
##  [7,] 30.8009312  2.353718 13.291598  9.7045083  2.853922  6.995653  6.00786971
##  [8,]  7.6925033  3.619393 26.196461 13.6820854  2.895498 10.531875  8.50845371
##  [9,]  6.1239283 41.008698  3.304071  1.9396106  2.786313 13.856743  5.70950253
## [10,]  7.4858525 13.506568  6.505877 19.0472983 11.790638 14.999823 36.92846736
## [11,] 14.6625764 14.027507 10.589955  2.3796139  5.159140 16.604206 16.22068808
## [12,]  2.6250454  7.736474  2.217510  3.4064239 16.055850  5.324232  2.94314188
## [13,]  7.2191381 12.629414  8.922160 13.5743736  1.010729  4.586637  6.97989818
## [14,] 11.7410312  1.724645  6.997691 19.7683466  3.418639 22.325120  0.05596277
## [15,]  7.1178448 12.111975  7.409184  9.3943004 15.020855 23.179974  3.11717425
##            [,45]     [,46]     [,47]       [,48]      [,49]     [,50]
##  [1,]  0.8144035 12.400604  3.281015 11.40533999 12.3063453  1.064373
##  [2,]  2.7924855  9.486491  2.839680  0.05216675  0.7054235 43.935870
##  [3,] 18.7948082  2.837097  3.324037  7.50109475  7.4168814  3.490418
##  [4,]  1.5583735  5.186926 17.438414  3.18376807  8.7331461  4.015734
##  [5,]  2.0741534 27.003461 12.599464  4.25265271  8.6827988  1.861448
##  [6,] 10.4065964  8.525620  9.612359 14.51683364  2.6405110  1.447083
##  [7,]  5.4691318  3.096172  8.484330  1.64740256 14.5754953 19.092900
##  [8,] 18.3463700  3.923723  4.000576 16.80480787  2.4182156  8.782740
##  [9,] 14.3300007  6.157653 28.696780  6.12134991  2.9938182  5.287408
## [10,]  7.2739085  4.677557  9.220934  6.24526076  6.0532838 23.673624
## [11,]  8.4573567  1.034742  2.631574  3.92022374  3.5882902 11.119979
## [12,] 19.6130939 22.436916 19.460337 10.14112976 12.1927570  0.184789
## [13,]  0.8638706  6.168751 26.103732  1.06076430  9.8721527  2.076266
## [14,]  8.5930715  6.419143  8.068857 11.97888927 24.5898584  8.204170
## [15,] 42.9828559 58.451143  4.159699 59.93391141 42.7239477  7.853184
##            [,51]      [,52]       [,53]      [,54]      [,55]      [,56]
##  [1,]  2.1689044 13.1584187  3.67539045  1.1054543  0.1492446 12.0934592
##  [2,]  2.6333890 19.7757164  4.32315937 30.8311275  0.6022290 18.1095723
##  [3,]  7.1064695 11.0988537 21.89350520  3.6857229  7.6681298  5.1684317
##  [4,] 27.9440665  7.7867040 16.46237329  0.3577400 15.3215272  5.4014437
##  [5,]  1.0796756  4.1701971  2.93326989 10.6398204  1.0821818  3.8143909
##  [6,]  9.0391891  5.2772303  0.05016914  0.2779657  6.3284191  4.3632533
##  [7,] 11.6420154 13.4931322 30.19031311 22.1844661  5.6022078  0.2678445
##  [8,] 19.4317205 15.8163634 13.65438016  0.3069610  0.6713260 16.1483442
##  [9,]  3.1031309  6.4350010  5.71136590 11.9861443  1.3090359  6.7928318
## [10,] 10.8317146  1.2379184  7.70694956  0.3533124 29.6140929 14.2510965
## [11,] 12.0062413  0.7789673  0.66093640  8.6488776  3.7555175 24.6361445
## [12,]  5.7766774  0.4985625  0.42988780 17.3662723  6.8013845  6.2754182
## [13,]  1.2102709 10.7006854  1.46028880  0.9565181 12.6100743 12.4361320
## [14,]  0.2599294  0.5980219 12.46011866  9.0520605  6.5758050 16.9391272
## [15,]  4.3476428  2.4382482  5.11694844 15.8770026 22.7932735  7.1037425
##             [,57]      [,58]      [,59]      [,60]      [,61]      [,62]
##  [1,] 23.10496595  4.4457950 30.5466137 13.3710411  0.1254617 56.2348078
##  [2,] 23.88228653  2.3922636  1.0442277  8.9456830 23.1500886 10.9112644
##  [3,]  8.13610389 20.3844609  0.7137164  5.4559810 17.2856110  9.5966704
##  [4,]  0.40500168  9.6253444  7.3223573  8.0330414  0.5752749  3.2461234
##  [5,]  6.25595214 13.5030909  2.4692442  1.0663241  0.1625229 13.2646339
##  [6,]  2.83656204  7.8144260 19.6384092  8.1412259 28.2680653 23.4132394
##  [7,] 28.43432209  0.4428434  7.5818350  3.2637223  9.8475203 17.1344387
##  [8,] 28.05061273 11.2288420  1.6985828  1.9040158  4.2140893  8.3907500
##  [9,]  3.04732975 13.3994412 17.4127406  0.1763032  5.2213179 11.6988242
## [10,]  0.04425231 23.1214556 15.2278294  4.7377542  0.9306628  9.7992277
## [11,]  3.15601291 18.8008633  1.4061302 21.2213400  4.9660236  7.3648359
## [12,] 54.60111545  1.2690760  9.5317075 24.5781811  4.4712429 21.1971330
## [13,]  9.37962690 49.4513182 27.8722209  8.4271314  4.1024096  0.2861376
## [14,]  4.82053199  0.9694771  8.9304593  4.9513920  4.0256226 10.6924719
## [15,] 21.35786796  4.0386153  0.2454842 21.3679610 12.5329199 11.7774835
##           [,63]     [,64]     [,65]      [,66]      [,67]      [,68]      [,69]
##  [1,] 13.078486 16.225073  8.526617  2.3676535  1.4222129 24.2818088  3.0843857
##  [2,] 20.738592 14.646102  9.507824 14.7326454  5.5636658  7.6623405 13.4531606
##  [3,] 23.973183  4.098630 16.106857  2.7178038  7.7625701  6.7750067  2.1473110
##  [4,]  3.183035  2.394608  7.558448 25.9534673  0.2386029  9.5679556  0.9719887
##  [5,]  6.548367 34.811429  2.542778  5.6572284  6.6398170  0.6533226  8.2709284
##  [6,] 19.919219  7.574820  6.278073  2.2066938  3.1273346 15.9815524  2.0098187
##  [7,] 10.648528  5.048629  2.829034 25.4919317 21.9519624  7.0626450  8.1866142
##  [8,]  4.058650 17.927070  5.655851 18.5842429  3.0939664  2.8585178  5.6432510
##  [9,]  8.004444  3.768055  2.763365  3.6505928 29.4054131  4.2471212  0.6123166
## [10,]  5.826483  1.540496 12.509839  5.0201556  8.0355568  9.7891517  5.4754477
## [11,] 15.950800  1.779509 11.628227  1.7867582 15.0556881  5.2321600  6.9569877
## [12,] 11.524099  1.858895 25.394335  1.1597053  1.2667728  5.1156310  4.1150643
## [13,] 11.985803  2.735455  7.790197  5.2125967  6.0966033 12.1168828 12.2285400
## [14,] 32.845265  9.899537  7.878678  0.2457089  2.8099099  1.3669534 13.5614848
## [15,] 17.166092  6.303675 16.776624 10.1420270 23.4812148  0.1730909  9.9951490
##            [,70]      [,71]      [,72]       [,73]      [,74]     [,75]
##  [1,]  0.2413853 11.5136376  2.4438696  1.75406984  1.5653370  3.992515
##  [2,]  4.7421990  0.1749163 15.2127446  7.67379494  6.4533126  4.333856
##  [3,]  9.4213524  1.0554732  6.5721803  7.11312353  4.5126235  5.307548
##  [4,]  8.0828347  7.9166177  1.3798666  2.41050663  0.3344041  6.810350
##  [5,] 13.2291941 20.2691975 38.5667895  5.39899705 13.1459512 10.181761
##  [6,]  6.4887272 22.3885424  9.5529374  0.04883177 18.0158523  2.321757
##  [7,] 27.0153441  1.0726140  5.6132571  6.95070301  3.3151504  3.833836
##  [8,]  1.5493465  9.0316085 43.1481896 37.16085421  0.1554201  4.869175
##  [9,]  0.6131068 10.8514487  5.4323788  4.46149260 14.5666744 37.383018
## [10,] 16.9099799  4.6491021  8.7306715  1.74661209  3.3503748 12.044686
## [11,] 11.7967422 15.8312342  9.9894336  4.50009658  3.0494599  4.654455
## [12,] 22.1259113 59.5891155 14.0070933  1.34083949  6.0861600 10.006672
## [13,] 32.9965757  4.0940507  0.6876161  7.43721020  2.0548074 10.296010
## [14,]  0.8356916  2.7930915 17.6753489  9.21482895 11.5919729  5.161003
## [15,]  3.4531027  2.7007580  4.4427395 25.78607516 15.4627870 11.781177
##             [,76]     [,77]      [,78]      [,79]     [,80]      [,81]
##  [1,]  4.15177140 10.147175  0.2791463  4.3690729  4.163516  0.3163196
##  [2,]  2.36917106 13.636777 31.1112365  4.1434804  3.088697  1.7291388
##  [3,]  0.13068571 43.123012 15.8413778 11.3545165  1.769678 16.0199045
##  [4,]  0.23160712 14.855647  1.0310036  1.9845590 11.081689 18.6521839
##  [5,]  3.87860580  5.870501 12.3832145  1.9044261 67.264242  4.1738408
##  [6,] 41.37652239  3.640842 14.8686562 12.3312119  4.831847  2.4016260
##  [7,]  3.74463416  1.802352 13.1166276  8.0832547  2.685296  1.8494765
##  [8,]  1.50631208 44.863628  8.3732898  6.6449219  6.768987  7.9322090
##  [9,]  9.40792739  7.163594  5.8635995  8.0501781  3.759360 19.6026140
## [10,] 22.81178450  8.211274  1.0686522  1.8454143  1.996841  8.3054938
## [11,]  0.05635465 15.702166  1.8003773  0.3239295  9.450277 10.1749930
## [12,]  3.46032611 15.325799  3.8241642  1.5499639  6.827996 15.4661915
## [13,]  5.10771263 13.324861 15.6447629  1.7913977 17.992637  5.5954611
## [14,]  4.04507997 10.193758 11.9174136  8.4095748  5.332324 11.7174458
## [15,] 10.62051792 12.534268 28.5428842 10.2903547  1.302792  1.5361318
##             [,82]      [,83]     [,84]     [,85]      [,86]      [,87]
##  [1,] 16.23401792 11.9477495 19.992461 12.547154  0.5451801 22.9682380
##  [2,] 31.07522428  7.7477561  7.558257  8.347838  7.5377219  4.1564255
##  [3,] 32.71450341  2.2559211 11.714412 13.345101  0.8890547 16.6036323
##  [4,]  2.06194506  1.2863985 20.531015 12.558406  7.3900306  8.2385352
##  [5,]  7.48155745  0.6970668  4.099388  4.807642  9.5061341 14.6785920
##  [6,] 19.91722444  9.3363716 14.326910 49.187059 21.1628780 12.8785192
##  [7,] 23.48692465  4.6978654  4.009597 20.200019 10.3412904  7.8718667
##  [8,]  1.62858201  6.3048255 12.501714  5.427174  1.2880692  3.7163458
##  [9,]  7.62211024 13.6328566  8.155694 10.927350  6.8923287 18.7900572
## [10,]  4.67981067 35.1187916  8.441739  4.270733 17.2498470  0.7849428
## [11,]  6.34372226  3.3047138  2.843644 18.035695  1.9631849 49.6817969
## [12,] 28.53787422 16.0027181 16.604196 30.263477  2.4173688  1.6594268
## [13,]  0.00159447  5.5857442 16.901821  9.637071  2.8746655 11.9747478
## [14,] 11.96331460 34.0594587 11.961906 40.698689 20.6933115 26.2796683
## [15,] 17.62337534  1.4928530 14.147128 11.499576 12.9485709  0.6757862
##           [,88]     [,89]     [,90]      [,91]      [,92]     [,93]      [,94]
##  [1,]  9.388006  3.362659 22.131013  1.0463814  2.1079861  1.902680  3.2381735
##  [2,] 15.137263 14.300685  2.392870  4.3689090  4.1859148  6.560884  2.2012915
##  [3,]  3.976228  3.267496  7.596234  0.5321409  2.0160967  8.599047  0.4585958
##  [4,]  9.418486  2.554805  0.287974  3.8958720  2.5427785 19.018519  6.1279903
##  [5,] 12.613079  1.065739  2.221040  9.3577949  2.0834747  4.949863  7.7645877
##  [6,] 22.375436 23.870997 12.143798  0.4896368  0.4458266  1.853069  1.9545269
##  [7,] 42.066085 15.818426  1.052346  2.0612637 66.4986710  3.698673 37.7257889
##  [8,] 11.596156  9.089871  1.800302  3.4909951  1.2838066 32.418965  4.8153161
##  [9,] 12.901746  1.761527  1.240603  6.8018295 18.1297757 12.199985  4.8305442
## [10,]  7.124901  3.938215  4.436572  1.3214795  2.1910455  2.107999  4.0036469
## [11,] 11.433291 20.696733 20.224643 11.9537846 17.9256921  5.962393  4.5934212
## [12,] 11.660677  5.674038 21.042242 14.2137560 17.9974883  5.652323 38.6396212
## [13,] 21.413941  1.215779  8.088880  7.5905484  1.7280969  7.606935  0.3026618
## [14,]  1.449734  2.581107  5.083298  2.3392078  7.9079129  9.502975  1.2857212
## [15,]  5.718436  4.608307  4.657635 34.1964503 16.5614476  2.065134 17.1778587
##             [,95]      [,96]      [,97]      [,98]      [,99]     [,100]
##  [1,]  5.84417281 23.0708967  3.0587029  2.5966030  8.3868260  2.3107208
##  [2,]  6.13947392  2.0259673  3.7288946 26.9190851  9.9476544  2.3071270
##  [3,]  9.40915558  4.3316774  4.0684682  3.3911710  2.5245075 11.3941608
##  [4,]  4.86353696  0.8823542  3.2147394  0.5305585  0.5670806  6.9402597
##  [5,] 29.02050571  6.1742041  6.0680289 11.7759948  4.0685793  4.5168025
##  [6,] 10.15209375 14.1919844 15.7953780  4.3986274 17.7306020 17.1799333
##  [7,] 15.24825555 16.6194620  2.2876062  6.9349992  5.0591832  5.7667096
##  [8,]  3.95067145  6.4463813 11.7385393 11.7196007  1.0179117  4.2945980
##  [9,] 14.50713668 11.9153101  0.7292471 19.8653235  8.0970645  3.6646561
## [10,]  2.50870574  6.9762449 14.6376700  4.6042236  1.0486341 13.5332761
## [11,]  4.58817793 21.7608582  3.0541514 14.5236219  2.2200422  1.3361261
## [12,]  0.03529698  5.5252910 15.1605120  2.8566453  8.5830644  0.5266432
## [13,]  0.81814080  3.1241401 26.5971198  1.4193678  6.3651016  1.8343715
## [14,]  6.89240179  0.5158902  7.3840013  2.0861386  8.7124348  6.4974658
## [15,]  5.09472138  4.4792588  5.3193019  8.6434825  3.1349990 29.3661607

Construye los intervalos de confianza asociados a cada una de las 100 medias obtenidas para cada muestra, con un nivel de confianza del 95%.

tint <- matrix(NA, nrow = 100, ncol = 2)

for (i in 1:100) {
    temp <- t.test(datos[, i], conf.level = 0.95)
    tint[i, ] <- temp$conf.int
}

tint

##              [,1]      [,2]
##   [1,]  3.1252245 10.464236
##   [2,]  3.1385946  8.797828
##   [3,]  4.3761888 10.655646
##   [4,]  3.2412590  8.697080
##   [5,]  3.7369112 10.833230
##   [6,]  8.5164663 17.067861
##   [7,]  8.0171904 22.403558
##   [8,]  5.1757028 17.498997
##   [9,] 10.5528559 21.349542
##  [10,]  3.3457991  9.935429
##  [11,]  8.0186725 21.200498
##  [12,]  6.7635135 20.483050
##  [13,]  3.0183986 10.800894
##  [14,]  3.7158291 15.364873
##  [15,]  0.7457682 17.691553
##  [16,]  3.3566316 10.672721
##  [17,]  7.0412951 15.874158
##  [18,]  4.6035688 14.545655
##  [19,]  4.5855696  9.419131
##  [20,]  5.7592804 17.143065
##  [21,]  4.6483941 15.087418
##  [22,]  2.3900153 17.241334
##  [23,]  5.1047140 21.050348
##  [24,]  6.0623148 14.492900
##  [25,]  5.8438806 15.882992
##  [26,]  6.6787306 14.427936
##  [27,]  6.5824792 16.671138
##  [28,]  6.5383967 19.585436
##  [29,]  6.5869761 15.861515
##  [30,]  5.7281332 15.427579
##  [31,]  5.1165950 11.208142
##  [32,]  6.2772417 15.698356
##  [33,]  1.9604229 13.052075
##  [34,]  4.3450664 15.054306
##  [35,]  6.1198405 20.636399
##  [36,]  4.9407531 14.991574
##  [37,]  3.1093502 13.441047
##  [38,]  4.2210602 17.258070
##  [39,]  6.7233604 19.315076
##  [40,]  5.9135328 14.366330
##  [41,]  5.0806406 12.970084
##  [42,]  3.9612346 13.331438
##  [43,]  8.0117563 15.030730
##  [44,]  2.7851523 12.635464
##  [45,]  4.6826162 16.966781
##  [46,]  3.6692282 20.038238
##  [47,]  5.9204937 15.402411
##  [48,]  2.5302035 18.638543
##  [49,]  4.6710009 16.594722
##  [50,]  3.0103767 15.934955
##  [51,]  3.6504608 12.160344
##  [52,]  4.1280416 10.973828
##  [53,]  3.5520032 13.345204
##  [54,]  3.7059403 14.111319
##  [55,]  3.2547556 12.863171
##  [56,]  6.5233878 13.983443
##  [57,]  6.0933508 22.908322
##  [58,]  5.0325973 19.085711
##  [59,]  4.5874068 15.631468
##  [60,]  4.7601521 13.325328
##  [61,]  3.1875074 12.796337
##  [62,]  7.1136903 21.554049
##  [63,]  9.1496293 18.243843
##  [64,]  3.6938739 13.721057
##  [65,]  6.1551970 13.011036
##  [66,]  3.4909246 13.166304
##  [67,]  4.0217146 14.105124
##  [68,]  4.0036680 11.047551
##  [69,]  4.0026861  8.892307
##  [70,]  5.0046436 16.262222
##  [71,]  3.2925347 19.898320
##  [72,]  5.2175877 19.243094
##  [73,]  2.6258848 13.773853
##  [74,]  3.5878113 10.233560
##  [75,]  4.1530033 13.577373
##  [76,]  1.4374551 13.615747
##  [77,]  7.6985375 21.687549
##  [78,]  5.7871335 16.301721
##  [79,]  3.3196888  7.757145
##  [80,]  0.7700671 19.005423
##  [81,]  4.6958539 12.033884
##  [82,]  7.9524291 20.230475
##  [83,]  4.1859437 16.276868
##  [84,]  8.4570160 14.714968
##  [85,]  9.4160956 24.150969
##  [86,]  4.3360000 12.157285
##  [87,]  6.2801472 20.514330
##  [88,]  7.7963178 18.640144
##  [89,]  3.4485022 11.725682
##  [90,]  3.3792349 11.874025
##  [91,]  2.1171858 11.704154
##  [92,]  1.5525053 20.261630
##  [93,]  3.7806268 12.765966
##  [94,]  2.0710529 15.944913
##  [95,]  3.9008091 11.975517
##  [96,]  4.4961083 12.575881
##  [97,]  4.2245771 12.154404
##  [98,]  3.9490631 12.352996
##  [99,]  3.2885772  8.373247
## [100,]  3.1566681 11.705867

Asigna los nombres a las columnas de la matrix.

colnames(tint) <- c("lim.inf", "lim.sup")
tint <- data.frame(tint)

Genera un índice para identificar cuál de los intervalos construidos contienen al parámetro poblacional, y cuál de ellos no lo contiene.

indx <- (tint$lim.inf <= lamda) & (tint$lim.sup >= lamda)
indx

##   [1]  TRUE FALSE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE FALSE FALSE  TRUE  TRUE
##  [13]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [25]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [37]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [49]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [61]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE
##  [73]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [85]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [97]  TRUE  TRUE FALSE  TRUE

sum(indx)

## [1] 92

Dibuja los resultados para identificar visualmente como la mayoría de los intérvalos resultantes contienen al valor del parámetro poblacional.

plot(range(tint), c(0,1 + 100), type = "n", xlab = "Medias muestrales", ylab = "Muestra")
for (i in 1:100) {lines(tint[i, ], rep(i, 2), lwd = 1)
}
abline(v = 10, lwd = 2, lty = 2)

Finalmente, agrega a la tabla de resultados los valores del índice.

tint <- data.frame(tint,indx)
tint

##        lim.inf   lim.sup  indx
## 1    3.1252245 10.464236  TRUE
## 2    3.1385946  8.797828 FALSE
## 3    4.3761888 10.655646  TRUE
## 4    3.2412590  8.697080 FALSE
## 5    3.7369112 10.833230  TRUE
## 6    8.5164663 17.067861  TRUE
## 7    8.0171904 22.403558  TRUE
## 8    5.1757028 17.498997  TRUE
## 9   10.5528559 21.349542 FALSE
## 10   3.3457991  9.935429 FALSE
## 11   8.0186725 21.200498  TRUE
## 12   6.7635135 20.483050  TRUE
## 13   3.0183986 10.800894  TRUE
## 14   3.7158291 15.364873  TRUE
## 15   0.7457682 17.691553  TRUE
## 16   3.3566316 10.672721  TRUE
## 17   7.0412951 15.874158  TRUE
## 18   4.6035688 14.545655  TRUE
## 19   4.5855696  9.419131 FALSE
## 20   5.7592804 17.143065  TRUE
## 21   4.6483941 15.087418  TRUE
## 22   2.3900153 17.241334  TRUE
## 23   5.1047140 21.050348  TRUE
## 24   6.0623148 14.492900  TRUE
## 25   5.8438806 15.882992  TRUE
## 26   6.6787306 14.427936  TRUE
## 27   6.5824792 16.671138  TRUE
## 28   6.5383967 19.585436  TRUE
## 29   6.5869761 15.861515  TRUE
## 30   5.7281332 15.427579  TRUE
## 31   5.1165950 11.208142  TRUE
## 32   6.2772417 15.698356  TRUE
## 33   1.9604229 13.052075  TRUE
## 34   4.3450664 15.054306  TRUE
## 35   6.1198405 20.636399  TRUE
## 36   4.9407531 14.991574  TRUE
## 37   3.1093502 13.441047  TRUE
## 38   4.2210602 17.258070  TRUE
## 39   6.7233604 19.315076  TRUE
## 40   5.9135328 14.366330  TRUE
## 41   5.0806406 12.970084  TRUE
## 42   3.9612346 13.331438  TRUE
## 43   8.0117563 15.030730  TRUE
## 44   2.7851523 12.635464  TRUE
## 45   4.6826162 16.966781  TRUE
## 46   3.6692282 20.038238  TRUE
## 47   5.9204937 15.402411  TRUE
## 48   2.5302035 18.638543  TRUE
## 49   4.6710009 16.594722  TRUE
## 50   3.0103767 15.934955  TRUE
## 51   3.6504608 12.160344  TRUE
## 52   4.1280416 10.973828  TRUE
## 53   3.5520032 13.345204  TRUE
## 54   3.7059403 14.111319  TRUE
## 55   3.2547556 12.863171  TRUE
## 56   6.5233878 13.983443  TRUE
## 57   6.0933508 22.908322  TRUE
## 58   5.0325973 19.085711  TRUE
## 59   4.5874068 15.631468  TRUE
## 60   4.7601521 13.325328  TRUE
## 61   3.1875074 12.796337  TRUE
## 62   7.1136903 21.554049  TRUE
## 63   9.1496293 18.243843  TRUE
## 64   3.6938739 13.721057  TRUE
## 65   6.1551970 13.011036  TRUE
## 66   3.4909246 13.166304  TRUE
## 67   4.0217146 14.105124  TRUE
## 68   4.0036680 11.047551  TRUE
## 69   4.0026861  8.892307 FALSE
## 70   5.0046436 16.262222  TRUE
## 71   3.2925347 19.898320  TRUE
## 72   5.2175877 19.243094  TRUE
## 73   2.6258848 13.773853  TRUE
## 74   3.5878113 10.233560  TRUE
## 75   4.1530033 13.577373  TRUE
## 76   1.4374551 13.615747  TRUE
## 77   7.6985375 21.687549  TRUE
## 78   5.7871335 16.301721  TRUE
## 79   3.3196888  7.757145 FALSE
## 80   0.7700671 19.005423  TRUE
## 81   4.6958539 12.033884  TRUE
## 82   7.9524291 20.230475  TRUE
## 83   4.1859437 16.276868  TRUE
## 84   8.4570160 14.714968  TRUE
## 85   9.4160956 24.150969  TRUE
## 86   4.3360000 12.157285  TRUE
## 87   6.2801472 20.514330  TRUE
## 88   7.7963178 18.640144  TRUE
## 89   3.4485022 11.725682  TRUE
## 90   3.3792349 11.874025  TRUE
## 91   2.1171858 11.704154  TRUE
## 92   1.5525053 20.261630  TRUE
## 93   3.7806268 12.765966  TRUE
## 94   2.0710529 15.944913  TRUE
## 95   3.9008091 11.975517  TRUE
## 96   4.4961083 12.575881  TRUE
## 97   4.2245771 12.154404  TRUE
## 98   3.9490631 12.352996  TRUE
## 99   3.2885772  8.373247 FALSE
## 100  3.1566681 11.705867  TRUE

Estudios de caso 1

Germán, que realizó sus prácticas en la empresa de transportes LAMP S.A., se enfrentó con la siguiente situación. Su tutor en la empresa, le dio un informe técnico en el que hace seis meses, de una muestra aleatoria de 64 colectivos que prestan servicio en la ciudad de Asunción, se obtuvo el intervalo [ 3,8011 ; 4,3989 ] como estimación de la verdadera media del número de pasajeros por kilómetro, al nivel de confianza del 95%. La primera consigna para Germán fue que construyera, con los datos obtenidos en la muestra de 64 colectivos, un nuevo intervalo, tal que, el error máximo de la estimación fuera de 0,15 pasajeros por kilómetro

El intervalo que debe construir es de menor precisión que el construido hace seis meses?

n1=64
linf1=3.8011
lsup1=4.3989

NC1=0.95
alfa1=1-NC1

z1=qnorm(1-alfa1/2)
z1

## [1] 1.959964

media1=(linf1+lsup1)/2
media1

## [1] 4.1

El error asociado al intervalo del 1er estudio

error1=lsup1-media1
error1

## [1] 0.2989

sigma1=(error1*sqrt(n1))/z1
sigma1

## [1] 1.220022

El intervalo que debe construir es de mayor precisión porque se reduce el error

error2=0.15

if(error2>error1) print("IC2 con menor precision") else print("IC2 con mayor precisión")

## [1] "IC2 con mayor precisión"

El error estandar de la media muestral se modificará?

eem1=error1/z1
eem1

## [1] 0.1525028

eem2=error2/z1
eem2

## [1] 0.07653202

if (eem1==eem2) print("Permanece") else print("Se modifica")

## [1] "Se modifica"

Es posible construir el nuevo IC con la informaci?n disponible disminuyendo el NC?

n2=64
NC2=0.90
alfa2=1-NC2
z2=qnorm(1-alfa2/2)
z2

## [1] 1.644854

la misma información muestral implica la misma media muestral

media2=media1

linf2=media2-error2
linf2

## [1] 3.95

lsup2=media2+error2  
lsup2

## [1] 4.25

Germán recibió luego la indicación de construir un nuevo intervalo de confianza, al nivel del 99%, tal que el error máximo de la estimación no excediera de 0,2. Para obtenerlo, Germán debe informar que se debe incrementar el tamaño muestral de 64 a 254 casos?

NC3=0.99
alfa3=1-NC2
z3=qnorm(1-alfa2/2)
z3

## [1] 1.644854

error3=0.2
sigma3=sigma1
n3=(z3)^2*sigma3/error3^2
n3

## [1] 82.52059

Estudios de caso

Una compañía de seguros desea estudiar los hábitos respecto al riesgo de los residentes de Asunción. Se selecciona una muestra aleatoria de 40 participantes y se les pide que mantengan un registro detallado de las actividades riesgosas que realizan durante la semana. Se determinó que el número promedio de actividades riesgosas realizadas (suponiendo que dicen la verdad) es 15,3 horas y que presenta una desviación estándar muestral de 3,8 actividades.

Obtenga el IC al 98% de confianza para la media

mean=15.3
sd=3.8
n1=40
NC1=0.98
alfa1=1-NC1
alfa1

## [1] 0.02

z1=qnorm(1-alfa1/2, mean = 0, sd = 1)
z1

## [1] 2.326348

liminf1=mean-z1*sd/sqrt(n1)
liminf1

## [1] 13.90225

limsup1=mean+z1*sd/sqrt(n1)
limsup1

## [1] 16.69775

Caso 1.2

de=3.8
NC2=0.98
alfa2=1-NC2
alfa2

## [1] 0.02

e=1
z2=qnorm(1-alfa2/2,0,1)
z2

## [1] 2.326348

n2=((de*z2)/e)^2
n2

## [1] 78.14776

Caso 1.3

liminf2=mean-z2*sd/sqrt(n2)
liminf2

## [1] 14.3

limsup2=mean+z2*sd/sqrt(n2)
limsup2

## [1] 16.3

7.10 Pruebas de hipótesis

7.10.1 Diferencia de medias con muestras de poblaciones normales con varianzas desconocidas

#mu1-mu2=delta
delta=-2
alfa=0.01

nivel1=c(14,12,15,15,11,16,17,12,14,13,18,13,18,15,16,11)
nivel1

##  [1] 14 12 15 15 11 16 17 12 14 13 18 13 18 15 16 11

nivel2=c(20,22,18,18,19,15,18,15,22,18,19,15,21,22,18,16)
nivel2

##  [1] 20 22 18 18 19 15 18 15 22 18 19 15 21 22 18 16

plot (nivel1)

Solución

n1=16
n2=16
gl=n1+n2-2

xbar1=mean(nivel1)
xbar1

## [1] 14.375

xbar2=mean(nivel2)
xbar2

## [1] 18.5

xbardif=xbar1-xbar2
xbardif

## [1] -4.125

S1=sd(nivel1)
S1

## [1] 2.276694

S2=sd(nivel2)
S2

## [1] 2.44949

REGLA: Rechazar H0 si tcalc<tcrit

Sp=sqrt(((n1-1)/(n1+n2-2))*S1^2+((n2-1)/(n1+n2-2))*S2^2)
Sp

## [1] 2.364671

tcrit=qt(alfa,gl)
tcrit

## [1] -2.457262

tcal=((xbar1-xbar2)-(delta))/(Sp*sqrt(1/n1+1/n2))
tcal

## [1] -2.541753

ENFOQUE CON PVALOR

Pvalor=pt(tcal,gl)
Pvalor

## [1] 0.008216869

CON FUNCIÓN DE R-PROJECT

t.test(nivel1,nivel2,mu=-2,alternative = c("less"), conf.level =1-alfa)

## 
##  Welch Two Sample t-test
## 
## data:  nivel1 and nivel2
## t = -2.5418, df = 29.841, p-value = 0.008232
## alternative hypothesis: true difference in means is less than -2
## 99 percent confidence interval:
##       -Inf -2.070023
## sample estimates:
## mean of x mean of y 
##    14.375    18.500

Estudio de caso

Alejandra es una alumna egresada de la carrera de Estadística en la FACEN que realizó su pasantía en una empresa conservera que tiene sede en Asunción y varias filiales en el país. Cuando Alejandra llegó a la empresa su tutor estaba realizando un estudio para tomar la decisión de producir una nueva marca extra condimentada de salsa de tomates. El departamento de investigación de mercado de la empresa realizó una encuesta telefónica nacional de 1.000 hogares y encontró que la salsa de tomates extra condimentada sería comprada por 330 de ellos. Hace dos años, un estudio mucho más extenso mostraba que el 25% de los hogares en ese entonces habrían comprado el producto. Su tutor le preguntó si opinaba que el interés por comprar la nueva marca había crecido significativamente.

Al nivel de significancia del 2%, debe concluir que actualmente existe un mayor interés en el sabor de la salsa de tomates extra condimentad?

H0: p = 0,25 H1: p > 0,25

n=1000
PH0=0.25
NC=0.98
alfa=1-NC
zcrit=qnorm(1-alfa)
zcrit

## [1] 2.053749

Pest=330/1000
zcal=(Pest-PH0)/sqrt((PH0*(1-PH0))/n)
zcal

## [1] 5.842374

Pvalor=1-pbinom(330,1000,0.25,log = FALSE)
Pvalor

## [1] 5.82433e-09

binom.test(x=330,n=1000,p=0.25,alternative="greater",conf.level = 0.98)

## 
##  Exact binomial test
## 
## data:  330 and 1000
## number of successes = 330, number of trials = 1000, p-value = 8.708e-09
## alternative hypothesis: true probability of success is greater than 0.25
## 98 percent confidence interval:
##  0.299546 1.000000
## sample estimates:
## probability of success 
##                   0.33

Debe rechazar la H0, y Debe concluir que actualmente existe un mayor interes

Una vez tomada la decisión de no rechazar la vigencia del estudio extenso de hace dos años, la probabilidad de cometer un error de tipo I es igual a cero?

Error de tipo I

xcrit=qbinom((1-0.02),1000,0.25)
xcrit

## [1] 278

alfa=1-pbinom(xcrit,1000,0.25)
alfa

## [1] 0.01958826

Con los datos disponibles, no se puede calcular la potencia de la prueba?

Error de tipo II: Asumida una H1 alternativa P=0.30

beta=pbinom(xcrit,1000,0.30)
beta

## [1] 0.06818224

Estudio de caso

De acuerdo con los resultados de la encuesta a egresados de la FACEN del año 2005, un estudiante de tecnología de producción puede esperar un salario promedio igual al egresar que los estudiantes de la carrera de estadística. Marcos, un estudiante del último año de la carrera de estadística, decide verificar si dicha hipótesis se mantenía luego de 10 años. Para ello relevó datos de dos muestras aleatorias de egresados de ambas carreras del año 2015 para realizar una prueba de hipótesis. Los datos recabados sobre los salarios percibidos (en millones de Gs. en la actualidad) y los resultados de la prueba fueron los siguientes:

tecnol <-c(5,4.1,3,2.5,2.6,2.1,2.0,5,7,2,2.1,2.3,2.6,3.5)
estad <-c(5.1,5.2,2.0,3.0,4,6,2,8,8.1,10,2.0)

De acuerdo con los resultados, Marcos puede rechazar la hipótesis nula de que un egresado de la carrera de tecnología puede esperar un ingreso igual que un egresado de la carrera de estadística?
Dado el intervalo de confianza obtenido por Marcos, es correcto decir que la probabilidad de que el verdadero valor de la diferencia de ingresos medios esté entre -0,2134 y 3,7433 es de 95%?
El Pvalor obtenido por Marcos significa que existe un 7,652% de probabilidad de obtener una diferencia de medias mayor que +1,764935?

mean(estad)

## [1] 5.036364

mean(tecnol)

## [1] 3.271429

test <- t.test(estad,tecnol,mu = 0,alternative="greater", conf.level = 0.95)
test

## 
##  Welch Two Sample t-test
## 
## data:  estad and tecnol
## t = 1.9068, df = 14.529, p-value = 0.03826
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  0.1388691       Inf
## sample estimates:
## mean of x mean of y 
##  5.036364  3.271429

difmean=mean(estad)-mean(tecnol)
difmean

## [1] 1.764935

7.11 Pruebas de bondad de ajuste

Pruebas de bondad de ajuste

Curso: Análisis de datos en categorias usando R

Aplicaciones con el programa estadístico R-project

Prof. Diego Meza

Marzo de 2021