En los últimos años, los métodos de análisis de datos categóricos han experimentado un notable desarrollo, impulsados en gran medida por la creciente cantidad de estudios que agrupan sus observaciones en categorías. Este tipo de datos es común en diversas disciplinas como la sociología, medicina, biología, educación y economía, donde se organizan en tablas de contingencia que resumen relaciones entre variables cualitativas.
Las tablas de contingencia, de dos o más entradas, ofrecen una forma efectiva de representar datos categóricos y son ampliamente utilizadas para describir asociaciones entre diferentes variables. Para su análisis, existen técnicas estadísticas tanto básicas como avanzadas que permiten obtener conclusiones significativas. Entre ellas, encontramos métodos simples como la comparación de proporciones y pruebas chi-cuadrado, hasta enfoques más complejos como los modelos loglineales y la regresión logística.
A medida que se avanza en la comprensión de estos métodos, se abre la puerta a un análisis más flexible y poderoso, que permite abordar problemas de mayor complejidad. Los estudiantes que dominen estas herramientas no solo estarán mejor preparados para interpretar y analizar datos categóricos, sino que también serán capaces de aplicar estos conocimientos en diversas áreas profesionales, mejorando la precisión y eficacia de sus análisis.
El principal objetivo de esta asignatura es brindar a los estudiantes un entendimiento profundo sobre el análisis de datos categóricos. A lo largo del curso, aprenderán a utilizar una variedad de técnicas estadísticas, que les permitirán no solo analizar datos agrupados en categorías, sino también aumentar la flexibilidad y el poder analítico en escenarios que requieren una mayor complejidad conceptual. Estas habilidades serán fundamentales para mejorar su capacidad de abordar y resolver problemas en su futura vida profesional, especialmente en áreas donde los datos categóricos son predominantes.
Al finalizar el curso los participantes estarán capacitados para:
1. Desarrollar un enfoque crítico para analizar tablas de contingencia.
2. Examinar las ideas y métodos básicos de los modelos lineales generalizados a ser a plicados en el estudio de datos en categorías.
3. Aplicar las técnicas en problemas originados en diferentes campos.
4. Desarrollar habilidades para analizar datos discretos utilizando programas estadísticos.
Introducción al Análisis de Datos Categóricos 1.1. Visión general del análisis de datos categóricos, conceptos principales y su importancia en distintas áreas, como la investigación social, biomedicina o economía. 1.2. Tipos de datos, definiciones, diferencias y ejemplos. 1.3. Enfoques para el análisis de datos en categorías.
Tablas de Contingencia de Doble Entrada 2.1. Estructura de las tablas. 2.2. Comparación de proporciones. 2.3. Cociente de ventajas. 2.4. Tests Chi-cuadrado. 2.5. Pruebas exactas para pequeñas muestras.
Tablas de Contingencia de Tres Entradas 3.1. Asociación parcial. 3.2. Métodos de Cochran-Mantel-Haenszel.
Modelos para Datos en Categorías 4.1. Bosquejo de los modelos lineales generalizados. 4.2. Regresión logística. 4.3. Modelo logit para categorías múltiples. 4.4. Modelos loglineales.
Este documento ha sido elaborado como material de apoyo para el curso de Inferencia Estadística II. En el son incorporados varios ejemplos resueltos con el software estadístico \(R\) y relacionados a los conceptos estudiados en la materia. En cada sección se incluyen los códigos necesarios para realizar las simulaciones que permiten verificar las propiedades y teoremas que son abordados en el curso. Para que puedas replicarlos basta con que tengas instalado el programa ya sea en la versión simple o la incorporada en la versión R-studio, copia los códigos y ejecútalos en un script en tu escritorio. Adicionalmente se incluyen una serie de estudios de casos para que puedas aplicar las teorías en la solución de problemas reales y así asimilar corréctamente los contenidos del curso. Es imprescindible que como egresado de la carrera de Estadísticas tengas manejo de al menos una herramienta para el análisis estadístico, y R es una excelente opción que tienes y es totalmente gratuito.
R es un programa estadístico de libre acceso con funcionalidades imprescindibles para la programación y análisis estadístico.
A continuación te dejamos algunos enlaces interesantes para aprender a usar R como herramienta para el análisis estadístico
Puede resultar de mucha utilidad trabajar y guardar los comandos usados en un “script” de R. El script es básicamente un documento de texto donde uno puede ir escribiendo todos los comandos a ejecutar. Considerando el hecho de que si se antepone a una línea de comando el signo #, este no será ejecutado y el programa lo considerará como un comentario.
Figure 6.1: Script en R
Puedes usar el programa R como una calculadora, basta con conocer cuáles son los signos y comandos a utilizar para realizar las opereaciones. Copia los comandos en tu script de R y ejecútalos para ver los resultados.
#suma
2+2
## [1] 4
#multiplicación
2*2
## [1] 4
#división
2/2
## [1] 1
#potencia
4^2
## [1] 16
#raíz cuadrada
sqrt(16)
## [1] 4
R ya incorpora una serie de bases de datos que te pueden resultar de utilidad para empezar a explorar las posibilidades de análisis estadístico que te ofrece este programa.
Como ejemplo vamos a explorara la base de datos llamada “cars”
#cargar la base
data(cars)
#visualizar los encabezados
head(cars)
## speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 4 7 22
## 5 8 16
## 6 9 10
#resumir con algunas estadísticas las variables de la base
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
Puedes agregar fácilmente gráficos a tu análisis. Por ejemplo:
data(pressure)
head(pressure)
## temperature pressure
## 1 0 0.0002
## 2 20 0.0012
## 3 40 0.0060
## 4 60 0.0300
## 5 80 0.0900
## 6 100 0.2700
plot(pressure)
Figure 6.2: Plot Pressure
boxplot(pressure)
Figure 6.3: Boxplot
edad<-c(11,12,15,20,41)
edad
## [1] 11 12 15 20 41
altura=c(50,65,120,156,182)
altura
## [1] 50 65 120 156 182
datos=data.frame(edad,altura)
datos
## edad altura
## 1 11 50
## 2 12 65
## 3 15 120
## 4 20 156
## 5 41 182
plot(datos,type="b")
Una de las cosas más importantes a la hora de trabajar con R es aprender a usar la ayuda. Para obtener la ayuda sobre alguna función o comando de R basta con escribir el comando help() y dentro del paréntesis incluir el nombre de la función o comando
En esta sección veremos como podemos utilizar R para estudiar los fundamentos del análisis de los datos en caegorías, nos apoyaremos principalmente en la realización de simulaciones para verificar las propiedades, teoremas y supuestos que conforman la teoría de la y las propiedades de los datos en categorías.
El análisis de datos categóricos es una rama de la estadística que se enfoca en el estudio y la interpretación de datos que se clasifican en categorías discretas. A diferencia de los datos continuos, que pueden tomar cualquier valor numérico dentro de un rango, los datos categóricos son aquellos que se agrupan en categorías o niveles mutuamente excluyentes. Estos datos pueden ser nominales (sin un orden intrínseco) o ordinales (con un orden lógico), y su análisis involucra métodos que permiten comprender las relaciones entre las categorías y cómo estas se distribuyen.
Se refieren a variables categóricas en las que los valores representan diferentes categorías sin un orden específico. Por ejemplo, el género (masculino, femenino), el estado civil (soltero, casado) o el tipo de sangre (A, B, AB, O) son variables nominales.
Son variables categóricas que tienen un orden natural, pero la distancia entre los valores no es necesariamente significativa. Un ejemplo sería el nivel de satisfacción en una encuesta (bajo, medio, alto) o los niveles de educación (primaria, secundaria, terciaria).
Estas tablas se utilizan para organizar los datos categóricos y mostrar las frecuencias (conteos) de las observaciones distribuidas entre diferentes categorías de una o más variables. Las tablas de doble entrada (o tablas 2x2) son comunes en análisis de asociación entre dos variables categóricas, mientras que las tablas de tres entradas permiten analizar la interacción entre tres variables.
El análisis de proporciones y el cociente de ventajas son métodos que permiten medir y comparar la probabilidad de ocurrencia de un evento dentro de una categoría en relación con otra. Estas medidas son fundamentales en estudios donde se desea comparar riesgos o probabilidades.
Entre las herramientas más comunes para analizar datos categóricos se encuentran las pruebas chi-cuadrado para la independencia de variables, y las pruebas exactas para pequeñas muestras. Estas pruebas permiten evaluar si existe una asociación significativa entre las variables categóricas en estudio.
El análisis de datos categóricos es crucial en muchas áreas de la investigación, ya que permite explorar relaciones entre variables cualitativas. Algunos ejemplos de su aplicación en diferentes campos incluyen:
Investigación Social: En estudios de encuestas y sondeos de opinión, los datos categóricos se utilizan para analizar preferencias, actitudes y comportamientos. Por ejemplo, una investigación podría clasificar a los encuestados según su nivel educativo y comparar su apoyo a una política pública.
Biomedicina: En ensayos clínicos y estudios epidemiológicos, el análisis de datos categóricos es fundamental para evaluar la relación entre variables como el tipo de tratamiento (medicamento A vs. medicamento B) y los resultados de los pacientes (curación, mejoría o empeoramiento). Los métodos como el cociente de ventajas (odds ratio) permiten analizar la probabilidad relativa de ciertos desenlaces en diferentes grupos de pacientes.
Economía: En el campo económico, los datos categóricos se utilizan para clasificar individuos o empresas en grupos según sus características, como el tamaño de la empresa (pequeña, mediana o grande) o el nivel de ingreso de un individuo. Este tipo de análisis es esencial para entender patrones y comportamientos del mercado, como la distribución de ingresos o el comportamiento de compra según el nivel socioeconómico.
Relevancia del Análisis El análisis de datos categóricos no solo permite comprender mejor las relaciones entre variables cualitativas, sino que también ofrece una base sólida para la toma de decisiones basada en evidencia. En áreas como la salud, la educación y la política pública, las decisiones clave a menudo dependen de la comprensión precisa de cómo ciertos factores categóricos están relacionados entre sí. Los métodos que se desarrollan en esta disciplina brindan un marco robusto para interpretar adecuadamente la información, lo que permite formular mejores estrategias y recomendaciones en diversas áreas profesionales.
Además, el avance en las herramientas estadísticas ha facilitado la aplicación de técnicas de análisis categórico en software especializado como R, SAS, SPSS o Stata. Estas herramientas permiten la automatización y la visualización de resultados complejos, facilitando el trabajo tanto de investigadores como de analistas de datos.
Para simular los valores de una variable aleatoria R nos provee una amplia gama de comandos, entre ellos veremos algunos como los siguientes:
#X es el conjunto de los números del 1 al 5
x <- seq (1, 5)
x
## [1] 1 2 3 4 5
#X es un conjunto formado por la secuencia de números desde el -6 hasta el valor 6 con saltos de valor 0,1
# help(seq)
x <- seq ( -6, 6,by=0.1)
x
## [1] -6.0 -5.9 -5.8 -5.7 -5.6 -5.5 -5.4 -5.3 -5.2 -5.1 -5.0 -4.9 -4.8 -4.7 -4.6
## [16] -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1
## [31] -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6
## [46] -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1
## [61] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4
## [76] 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
## [91] 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.1 4.2 4.3 4.4
## [106] 4.5 4.6 4.7 4.8 4.9 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9
## [121] 6.0
#X es un conjunto formado por la secuencia de 100 números desde el -6 hasta el valor 6 redondeado con tres valores decimales
x <- round(seq ( -6, 6, len=100 ),3)
x
## [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
## [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
## [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
## [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
## [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
## [51] 0.061 0.182 0.303 0.424 0.545 0.667 0.788 0.909 1.030 1.152
## [61] 1.273 1.394 1.515 1.636 1.758 1.879 2.000 2.121 2.242 2.364
## [71] 2.485 2.606 2.727 2.848 2.970 3.091 3.212 3.333 3.455 3.576
## [81] 3.697 3.818 3.939 4.061 4.182 4.303 4.424 4.545 4.667 4.788
## [91] 4.909 5.030 5.152 5.273 5.394 5.515 5.636 5.758 5.879 6.000
# Muestra aleatoria extraida CON reposición de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=T)
muestra1
## [1] 9 6 1 9 10
# Muestra aleatoria extraida SIN reposición de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=F)
muestra1
## [1] 8 5 6 10 9
# 10 Muestras aleatorias de tamaño 3 obtenidas con reposición de la población P
muestras1<-sapply(1:10, function(x){(sample(P,3,rep=T))})
muestras1
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,] 1 3 1 4 8 4 1 3 3 10
## [2,] 10 10 7 1 10 9 3 7 5 2
## [3,] 4 8 9 1 9 1 4 9 7 8
# 10 Muestras aleatorias de tamaño 3 obtenidas sin reposición de la población P
muestras2<-sapply(1:10, function(x){(sample(P,3,rep=F))})
muestras2
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,] 2 7 4 8 6 9 8 8 10 3
## [2,] 10 1 3 3 4 3 2 5 3 8
## [3,] 3 8 10 4 7 1 3 6 7 9
Estudio de caso
Una empresa tiene una nómina de 2850 empleados y desea aplicar una encuesta sobre el clima laboral. Para ello desean seleccionar una muestra aleatoria del 10% de los empleados. La empresa dispone de una enumeración del 1 al 2850 asociado a cada número de cédula de identidad. a) Seleccione la muestra usando un comando de R.
empleados=seq(1,2850,by=1)
head(empleados)
## [1] 1 2 3 4 5 6
tail(empleados)
## [1] 2845 2846 2847 2848 2849 2850
muestra_empleados=sample(empleados,285,replace=F)
muestra_empleados
## [1] 180 1951 561 2042 99 38 553 612 1027 1487 2444 611 2808 1314 2096
## [16] 2224 2019 1655 1547 258 1104 1926 560 651 851 1254 740 2075 2764 742
## [31] 569 161 2805 384 2188 1830 2425 2437 1773 1808 2295 2841 1296 66 1698
## [46] 2794 2474 2277 2607 1693 2477 1787 2458 1947 1881 2715 878 2724 1075 2376
## [61] 1784 1777 345 626 1739 1720 1098 1428 129 2062 21 593 2818 1177 1288
## [76] 305 1410 132 163 603 2013 983 457 117 2426 701 767 419 2 1580
## [91] 2686 85 1674 2385 2823 1212 387 846 2653 137 2705 503 797 1436 1758
## [106] 923 1917 1545 979 2646 2505 2456 1665 582 1310 311 2220 1443 487 1896
## [121] 2471 2172 2236 2254 2331 155 973 1397 1411 962 617 2369 2637 2040 2225
## [136] 782 1929 2227 283 2746 597 6 1803 1856 872 1495 2411 1520 433 919
## [151] 2235 1981 759 631 2497 2191 1903 2047 1661 2007 1378 315 1766 1092 613
## [166] 2516 1731 3 418 1337 1997 1402 1602 1593 2530 1671 1853 1370 1068 534
## [181] 1234 2846 2776 1225 2578 1532 173 1807 908 2030 2545 507 399 1673 1913
## [196] 2800 2447 1020 2582 956 459 638 1352 2022 1480 2828 792 482 1399 1948
## [211] 1928 1898 1815 1599 1745 555 1939 2249 2651 1002 1386 1933 2137 1221 1791
## [226] 68 2120 1262 285 2139 336 194 1534 2389 480 1363 1622 634 1809 1800
## [241] 2086 2773 200 2734 1889 911 1423 1819 2213 2027 1199 250 1047 1333 1122
## [256] 2159 1277 1351 41 2656 2278 1973 1895 1845 1144 2521 754 2659 339 1220
## [271] 641 2324 2563 885 1183 2009 1409 2238 2565 909 1633 2077 1924 1057 2658
mu10=sample(runif(100,0,1),50,rep=T)
mu10
## [1] 0.73569350 0.65532735 0.46153729 0.03879831 0.76779402 0.41841803
## [7] 0.12445536 0.12445536 0.21039161 0.80348721 0.26978861 0.95802788
## [13] 0.32256039 0.97859512 0.22372972 0.59613250 0.74143176 0.08548095
## [19] 0.74904449 0.41841803 0.78236753 0.26328213 0.52573814 0.95802788
## [25] 0.55797364 0.25085669 0.24656941 0.63370562 0.47049759 0.74143176
## [31] 0.52573814 0.24258420 0.74904449 0.08555545 0.72193280 0.25085669
## [37] 0.73569350 0.43939334 0.56279645 0.82994800 0.53277681 0.75661775
## [43] 0.52573814 0.61746306 0.24293930 0.41841803 0.65532735 0.09647745
## [49] 0.12445536 0.18983395
hist(mu10)
mu1000=sample(runif(100,0,1),1000,rep=T)
head(mu1000)
## [1] 0.6580752 0.8622119 0.1639407 0.4910017 0.8633126 0.4190555
tail(mu1000)
## [1] 0.57913991 0.67831852 0.53968494 0.95377871 0.91610798 0.08504015
hist(mu1000)
** Estudio de caso **
Simular una población de 100 personas donde la variable de interés es el sexo y se sabe que el 80% son mujeres.
sexo=rbinom(100,1,0.8)
sexo
## [1] 1 1 1 1 0 1 1 0 1 0 0 1 0 1 1 0 0 1 0 0 1 1 1 1 1 1 1 1 1 0 1 1 0 1 0 1 1
## [38] 1 1 1 1 1 1 1 1 1 0 1 0 1 1 0 1 1 1 1 0 0 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1
## [75] 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 0 1 1 0 0 0 1 0 1
sexo=factor(sexo, levels = c(0,1),labels = c("Hombre", "Mujer"))
sexo
## [1] Mujer Mujer Mujer Mujer Hombre Mujer Mujer Hombre Mujer Hombre
## [11] Hombre Mujer Hombre Mujer Mujer Hombre Hombre Mujer Hombre Hombre
## [21] Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer Hombre
## [31] Mujer Mujer Hombre Mujer Hombre Mujer Mujer Mujer Mujer Mujer
## [41] Mujer Mujer Mujer Mujer Mujer Mujer Hombre Mujer Hombre Mujer
## [51] Mujer Hombre Mujer Mujer Mujer Mujer Hombre Hombre Mujer Mujer
## [61] Hombre Mujer Mujer Mujer Mujer Mujer Mujer Mujer Hombre Mujer
## [71] Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer Mujer
## [81] Mujer Hombre Mujer Mujer Mujer Mujer Mujer Mujer Hombre Mujer
## [91] Mujer Hombre Mujer Mujer Hombre Hombre Hombre Mujer Hombre Mujer
## Levels: Hombre Mujer
plot(sexo)
p=1/6
# La probabilidad de tener x aciertos en 6 lanzamientos
dado=rbinom(10000,6,p)
head(dado)
## [1] 2 3 0 0 0 1
tail(dado)
## [1] 0 1 1 1 1 0
hist(dado)
#f1 es la función de densidad para cada valor posible de X, si esta sigue una distribución normal de media 0 y varianza 1
f1=dnorm ( x,0, 1 )
f1
## [1] 6.075883e-09 1.246602e-08 2.520507e-08 5.050535e-08 9.915803e-08
## [6] 1.918491e-07 3.657912e-07 6.873030e-07 1.279056e-06 2.333645e-06
## [11] 4.195867e-06 7.434472e-06 1.304050e-05 2.243639e-05 3.804111e-05
## [16] 6.356163e-05 1.046594e-04 1.704959e-04 2.726012e-04 4.295197e-04
## [21] 6.669293e-04 1.020512e-03 1.543994e-03 2.294109e-03 3.359111e-03
## [26] 4.847033e-03 6.912039e-03 9.684748e-03 1.337248e-02 1.819604e-02
## [31] 2.439965e-02 3.231510e-02 4.207679e-02 5.399097e-02 6.827176e-02
## [36] 8.507513e-02 1.046445e-01 1.266217e-01 1.509878e-01 1.774258e-01
## [41] 2.054627e-01 2.347138e-01 2.639280e-01 2.924649e-01 3.193770e-01
## [46] 3.438839e-01 3.646466e-01 3.810430e-01 3.923894e-01 3.982007e-01
## [51] 3.982007e-01 3.923894e-01 3.810430e-01 3.646466e-01 3.438839e-01
## [56] 3.193770e-01 2.924649e-01 2.639280e-01 2.347138e-01 2.054627e-01
## [61] 1.774258e-01 1.509878e-01 1.266217e-01 1.046445e-01 8.507513e-02
## [66] 6.827176e-02 5.399097e-02 4.207679e-02 3.231510e-02 2.439965e-02
## [71] 1.819604e-02 1.337248e-02 9.684748e-03 6.912039e-03 4.847033e-03
## [76] 3.359111e-03 2.294109e-03 1.543994e-03 1.020512e-03 6.669293e-04
## [81] 4.295197e-04 2.726012e-04 1.704959e-04 1.046594e-04 6.356163e-05
## [86] 3.804111e-05 2.243639e-05 1.304050e-05 7.434472e-06 4.195867e-06
## [91] 2.333645e-06 1.279056e-06 6.873030e-07 3.657912e-07 1.918491e-07
## [96] 9.915803e-08 5.050535e-08 2.520507e-08 1.246602e-08 6.075883e-09
# Gráfica de la función f1
barplot(f1)
Figure 7.1: Barplot f1
** Contraste entre varias curvas normales con diferentes parámetros de media y desvío estándar **
x <- round(seq ( -6, 6, len=100 ),3)
y <- cbind ( round(f1,3), round(dnorm ( x, -2, 1 ),3), round(dnorm (x, 0, 2 ),3), round(dnorm ( x, 0, .5),3), round(dnorm ( x, 2, .3 ),3),round(dnorm ( x, -.5, 3 ),3) )
valores=data.frame(x,y)
head(valores)
## x X1 X2 X3 X4 X5 X6
## 1 -6.000 0 0.000 0.002 0 0 0.025
## 2 -5.879 0 0.000 0.003 0 0 0.027
## 3 -5.758 0 0.000 0.003 0 0 0.029
## 4 -5.636 0 0.001 0.004 0 0 0.031
## 5 -5.515 0 0.001 0.004 0 0 0.033
## 6 -5.394 0 0.001 0.005 0 0 0.035
matplot ( x, y, type="l", col=c(1,2,3,4,5,6), las = 1 )
legend ( -6, 1.3, expression(paste(mu==0," ; ", sigma==1),
paste(mu==-2," ; ", sigma==1),
paste(mu==0," ; ", sigma==2),
paste(mu==0," ; ", sigma==0.5),
paste(mu==2," ; ", sigma==0.3),
paste(mu==-0.5," ; ", sigma==3)),
lty = 1:6, cex = 0.7, col=c(1,2,3,4,5,6))
Figure 7.2: matplot dnomr
library(ggplot2)
# la probabilidad de que una variable aleatoria normal estándar tenga un valor menor a 1.5
pbb=pnorm(1.5,mean=0,sd=1)
pbb
## [1] 0.9331928
# la probabilidad de que una variable aleatoria normal de media 20 y desvío estándar 2 tenga un valor mayor a 18 y menor 21
area=pnorm(21,20,2)-pnorm(18,20,2)
area
## [1] 0.5328072
** La tabla de la distribución normal **
q=round(seq(-4,4,length=100),3)
q
## [1] -4.000 -3.919 -3.838 -3.758 -3.677 -3.596 -3.515 -3.434 -3.354 -3.273
## [11] -3.192 -3.111 -3.030 -2.949 -2.869 -2.788 -2.707 -2.626 -2.545 -2.465
## [21] -2.384 -2.303 -2.222 -2.141 -2.061 -1.980 -1.899 -1.818 -1.737 -1.657
## [31] -1.576 -1.495 -1.414 -1.333 -1.253 -1.172 -1.091 -1.010 -0.929 -0.848
## [41] -0.768 -0.687 -0.606 -0.525 -0.444 -0.364 -0.283 -0.202 -0.121 -0.040
## [51] 0.040 0.121 0.202 0.283 0.364 0.444 0.525 0.606 0.687 0.768
## [61] 0.848 0.929 1.010 1.091 1.172 1.253 1.333 1.414 1.495 1.576
## [71] 1.657 1.737 1.818 1.899 1.980 2.061 2.141 2.222 2.303 2.384
## [81] 2.465 2.545 2.626 2.707 2.788 2.869 2.949 3.030 3.111 3.192
## [91] 3.273 3.354 3.434 3.515 3.596 3.677 3.758 3.838 3.919 4.000
pbb1=round(pnorm(q,0,1),3)
pbb1
## [1] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.001 0.001
## [13] 0.001 0.002 0.002 0.003 0.003 0.004 0.005 0.007 0.009 0.011 0.013 0.016
## [25] 0.020 0.024 0.029 0.035 0.041 0.049 0.058 0.067 0.079 0.091 0.105 0.121
## [37] 0.138 0.156 0.176 0.198 0.221 0.246 0.272 0.300 0.329 0.358 0.389 0.420
## [49] 0.452 0.484 0.516 0.548 0.580 0.611 0.642 0.671 0.700 0.728 0.754 0.779
## [61] 0.802 0.824 0.844 0.862 0.879 0.895 0.909 0.921 0.933 0.942 0.951 0.959
## [73] 0.965 0.971 0.976 0.980 0.984 0.987 0.989 0.991 0.993 0.995 0.996 0.997
## [85] 0.997 0.998 0.998 0.999 0.999 0.999 0.999 1.000 1.000 1.000 1.000 1.000
## [97] 1.000 1.000 1.000 1.000
plot(pbb1)
#Funcion de densidad
dens1=dnorm(q,0,1)
dens1
## [1] 0.0001338302 0.0001844340 0.0002525098 0.0003421640 0.0004623895
## [6] 0.0006207721 0.0008279556 0.0010970653 0.0014393027 0.0018824088
## [11] 0.0024458305 0.0031571075 0.0040485822 0.0051578315 0.0065093281
## [16] 0.0081853400 0.0102255782 0.0126908181 0.0156473918 0.0191194138
## [21] 0.0232682262 0.0281321274 0.0337903327 0.0403211541 0.0477011853
## [26] 0.0561831419 0.0657405705 0.0764207874 0.0882551672 0.1010880830
## [31] 0.1152298404 0.1304909983 0.1468069922 0.1640829751 0.1819646151
## [36] 0.2007428520 0.2200107141 0.2395510977 0.2591212881 0.2784573054
## [41] 0.2970512687 0.3150817868 0.3320211746 0.3475832643 0.3614951936
## [46] 0.3733695746 0.3832824734 0.3908855264 0.3960324870 0.3986232542
## [51] 0.3986232542 0.3960324870 0.3908855264 0.3832824734 0.3733695746
## [56] 0.3614951936 0.3475832643 0.3320211746 0.3150817868 0.2970512687
## [61] 0.2784573054 0.2591212881 0.2395510977 0.2200107141 0.2007428520
## [66] 0.1819646151 0.1640829751 0.1468069922 0.1304909983 0.1152298404
## [71] 0.1010880830 0.0882551672 0.0764207874 0.0657405705 0.0561831419
## [76] 0.0477011853 0.0403211541 0.0337903327 0.0281321274 0.0232682262
## [81] 0.0191194138 0.0156473918 0.0126908181 0.0102255782 0.0081853400
## [86] 0.0065093281 0.0051578315 0.0040485822 0.0031571075 0.0024458305
## [91] 0.0018824088 0.0014393027 0.0010970653 0.0008279556 0.0006207721
## [96] 0.0004623895 0.0003421640 0.0002525098 0.0001844340 0.0001338302
tablaZ=data.frame(q,pbb1,dens1)
tablaZ
## q pbb1 dens1
## 1 -4.000 0.000 0.0001338302
## 2 -3.919 0.000 0.0001844340
## 3 -3.838 0.000 0.0002525098
## 4 -3.758 0.000 0.0003421640
## 5 -3.677 0.000 0.0004623895
## 6 -3.596 0.000 0.0006207721
## 7 -3.515 0.000 0.0008279556
## 8 -3.434 0.000 0.0010970653
## 9 -3.354 0.000 0.0014393027
## 10 -3.273 0.001 0.0018824088
## 11 -3.192 0.001 0.0024458305
## 12 -3.111 0.001 0.0031571075
## 13 -3.030 0.001 0.0040485822
## 14 -2.949 0.002 0.0051578315
## 15 -2.869 0.002 0.0065093281
## 16 -2.788 0.003 0.0081853400
## 17 -2.707 0.003 0.0102255782
## 18 -2.626 0.004 0.0126908181
## 19 -2.545 0.005 0.0156473918
## 20 -2.465 0.007 0.0191194138
## 21 -2.384 0.009 0.0232682262
## 22 -2.303 0.011 0.0281321274
## 23 -2.222 0.013 0.0337903327
## 24 -2.141 0.016 0.0403211541
## 25 -2.061 0.020 0.0477011853
## 26 -1.980 0.024 0.0561831419
## 27 -1.899 0.029 0.0657405705
## 28 -1.818 0.035 0.0764207874
## 29 -1.737 0.041 0.0882551672
## 30 -1.657 0.049 0.1010880830
## 31 -1.576 0.058 0.1152298404
## 32 -1.495 0.067 0.1304909983
## 33 -1.414 0.079 0.1468069922
## 34 -1.333 0.091 0.1640829751
## 35 -1.253 0.105 0.1819646151
## 36 -1.172 0.121 0.2007428520
## 37 -1.091 0.138 0.2200107141
## 38 -1.010 0.156 0.2395510977
## 39 -0.929 0.176 0.2591212881
## 40 -0.848 0.198 0.2784573054
## 41 -0.768 0.221 0.2970512687
## 42 -0.687 0.246 0.3150817868
## 43 -0.606 0.272 0.3320211746
## 44 -0.525 0.300 0.3475832643
## 45 -0.444 0.329 0.3614951936
## 46 -0.364 0.358 0.3733695746
## 47 -0.283 0.389 0.3832824734
## 48 -0.202 0.420 0.3908855264
## 49 -0.121 0.452 0.3960324870
## 50 -0.040 0.484 0.3986232542
## 51 0.040 0.516 0.3986232542
## 52 0.121 0.548 0.3960324870
## 53 0.202 0.580 0.3908855264
## 54 0.283 0.611 0.3832824734
## 55 0.364 0.642 0.3733695746
## 56 0.444 0.671 0.3614951936
## 57 0.525 0.700 0.3475832643
## 58 0.606 0.728 0.3320211746
## 59 0.687 0.754 0.3150817868
## 60 0.768 0.779 0.2970512687
## 61 0.848 0.802 0.2784573054
## 62 0.929 0.824 0.2591212881
## 63 1.010 0.844 0.2395510977
## 64 1.091 0.862 0.2200107141
## 65 1.172 0.879 0.2007428520
## 66 1.253 0.895 0.1819646151
## 67 1.333 0.909 0.1640829751
## 68 1.414 0.921 0.1468069922
## 69 1.495 0.933 0.1304909983
## 70 1.576 0.942 0.1152298404
## 71 1.657 0.951 0.1010880830
## 72 1.737 0.959 0.0882551672
## 73 1.818 0.965 0.0764207874
## 74 1.899 0.971 0.0657405705
## 75 1.980 0.976 0.0561831419
## 76 2.061 0.980 0.0477011853
## 77 2.141 0.984 0.0403211541
## 78 2.222 0.987 0.0337903327
## 79 2.303 0.989 0.0281321274
## 80 2.384 0.991 0.0232682262
## 81 2.465 0.993 0.0191194138
## 82 2.545 0.995 0.0156473918
## 83 2.626 0.996 0.0126908181
## 84 2.707 0.997 0.0102255782
## 85 2.788 0.997 0.0081853400
## 86 2.869 0.998 0.0065093281
## 87 2.949 0.998 0.0051578315
## 88 3.030 0.999 0.0040485822
## 89 3.111 0.999 0.0031571075
## 90 3.192 0.999 0.0024458305
## 91 3.273 0.999 0.0018824088
## 92 3.354 1.000 0.0014393027
## 93 3.434 1.000 0.0010970653
## 94 3.515 1.000 0.0008279556
## 95 3.596 1.000 0.0006207721
## 96 3.677 1.000 0.0004623895
## 97 3.758 1.000 0.0003421640
## 98 3.838 1.000 0.0002525098
## 99 3.919 1.000 0.0001844340
## 100 4.000 1.000 0.0001338302
curvagauss=plot(data.frame(q,dens1))
sexo=rbinom(2850,1,0.8)
head(sexo)
## [1] 1 0 1 1 0 1
tail(sexo)
## [1] 1 1 0 1 0 1
summary(sexo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 1.0000 1.0000 0.8077 1.0000 1.0000
sexo=factor(sexo, levels = c(0,1),labels = c("Hombre", "Mujer"))
plot(sexo)
Sean \(X1, X2,...,Xn\) \(n\) variables aleatorias IID con una distribución de probabilidad no especificada y que tienen una media \(\mu\) y una varianza \(\sigma^2\) finita. El promedio muestral \(\bar{X} =(X1+X2+...+Xn)/n\) tiene una distribución con media y varianza \(\sigma^2/n\) que tiende hacia una distribución normal conforme n tiende a \(\infty\). En otras palabras, la variable aleatoria \((\bar{X}-\mu)/(\sigma/\sqrt{n})\) tiene como límite una distribución normal estándar
La siguiente simulación te muestra como funciona el teorema central del límite. En primer lugar, simula 300 muestra de tamaño 5 de una variable aleatoria con distribución uniforme de parámetros a=0 y b=1.
u5<-sapply(1:300, function(x){mean(sample(runif(10000),5,rep=F))})
round(u5, 3)
## [1] 0.654 0.518 0.474 0.408 0.292 0.387 0.483 0.497 0.313 0.425 0.698 0.528
## [13] 0.650 0.590 0.573 0.578 0.691 0.746 0.487 0.463 0.448 0.616 0.655 0.509
## [25] 0.487 0.594 0.662 0.463 0.513 0.364 0.414 0.605 0.326 0.470 0.451 0.509
## [37] 0.562 0.362 0.473 0.678 0.557 0.561 0.574 0.316 0.714 0.381 0.637 0.515
## [49] 0.616 0.526 0.474 0.583 0.590 0.478 0.421 0.515 0.367 0.461 0.382 0.512
## [61] 0.449 0.476 0.358 0.446 0.586 0.268 0.583 0.427 0.507 0.592 0.451 0.383
## [73] 0.664 0.562 0.697 0.365 0.586 0.642 0.344 0.488 0.313 0.459 0.482 0.327
## [85] 0.736 0.615 0.502 0.372 0.631 0.764 0.374 0.577 0.501 0.530 0.408 0.704
## [97] 0.682 0.400 0.484 0.482 0.502 0.314 0.459 0.499 0.493 0.394 0.468 0.468
## [109] 0.371 0.594 0.402 0.317 0.513 0.537 0.352 0.469 0.565 0.485 0.547 0.568
## [121] 0.359 0.444 0.566 0.446 0.297 0.552 0.698 0.336 0.505 0.570 0.615 0.496
## [133] 0.578 0.538 0.301 0.642 0.595 0.356 0.610 0.457 0.607 0.498 0.401 0.592
## [145] 0.659 0.454 0.471 0.647 0.517 0.601 0.440 0.396 0.799 0.627 0.317 0.516
## [157] 0.404 0.484 0.639 0.313 0.343 0.568 0.671 0.584 0.495 0.176 0.519 0.418
## [169] 0.334 0.618 0.635 0.307 0.469 0.456 0.444 0.527 0.694 0.339 0.567 0.223
## [181] 0.536 0.667 0.267 0.369 0.624 0.590 0.569 0.447 0.584 0.622 0.492 0.669
## [193] 0.587 0.654 0.417 0.551 0.490 0.538 0.334 0.491 0.434 0.591 0.698 0.567
## [205] 0.465 0.691 0.485 0.647 0.596 0.656 0.698 0.449 0.404 0.476 0.417 0.696
## [217] 0.239 0.463 0.626 0.439 0.714 0.656 0.570 0.461 0.540 0.333 0.489 0.610
## [229] 0.658 0.654 0.521 0.402 0.495 0.450 0.472 0.238 0.604 0.463 0.311 0.415
## [241] 0.570 0.471 0.372 0.515 0.291 0.446 0.705 0.613 0.702 0.558 0.370 0.336
## [253] 0.767 0.454 0.511 0.229 0.393 0.639 0.296 0.414 0.424 0.294 0.520 0.509
## [265] 0.334 0.574 0.674 0.375 0.612 0.515 0.597 0.560 0.474 0.383 0.445 0.619
## [277] 0.781 0.563 0.916 0.397 0.568 0.474 0.555 0.356 0.449 0.470 0.640 0.408
## [289] 0.513 0.292 0.459 0.446 0.511 0.520 0.671 0.357 0.387 0.524 0.576 0.276
En primer lugar, simula 300 muestra de tamaño 100 de una variable aleatoria con distribución uniforme de parámetros a=0 y b=1.
u100<-sapply(1:300, function(x){mean(sample(runif(10000),100,rep=F))})
round(u100, 3)
## [1] 0.507 0.512 0.489 0.553 0.483 0.539 0.492 0.470 0.497 0.447 0.573 0.467
## [13] 0.504 0.499 0.444 0.542 0.543 0.462 0.523 0.471 0.494 0.530 0.471 0.471
## [25] 0.552 0.535 0.517 0.524 0.473 0.489 0.491 0.501 0.455 0.457 0.517 0.452
## [37] 0.480 0.474 0.562 0.471 0.512 0.484 0.501 0.475 0.460 0.483 0.451 0.485
## [49] 0.486 0.454 0.486 0.511 0.480 0.488 0.462 0.487 0.520 0.512 0.494 0.489
## [61] 0.484 0.528 0.471 0.510 0.506 0.471 0.494 0.499 0.481 0.483 0.531 0.452
## [73] 0.521 0.481 0.536 0.480 0.493 0.466 0.494 0.444 0.478 0.516 0.503 0.450
## [85] 0.480 0.538 0.545 0.495 0.491 0.512 0.494 0.553 0.485 0.474 0.473 0.425
## [97] 0.491 0.482 0.509 0.487 0.509 0.497 0.483 0.512 0.450 0.478 0.495 0.564
## [109] 0.549 0.529 0.457 0.515 0.509 0.444 0.550 0.479 0.462 0.523 0.510 0.510
## [121] 0.431 0.448 0.516 0.488 0.528 0.470 0.485 0.510 0.549 0.444 0.506 0.484
## [133] 0.486 0.462 0.488 0.493 0.502 0.508 0.497 0.499 0.502 0.524 0.530 0.515
## [145] 0.436 0.527 0.485 0.515 0.492 0.460 0.461 0.521 0.482 0.495 0.506 0.497
## [157] 0.501 0.549 0.483 0.512 0.501 0.524 0.516 0.517 0.431 0.522 0.523 0.508
## [169] 0.494 0.491 0.479 0.528 0.445 0.485 0.512 0.470 0.502 0.487 0.519 0.545
## [181] 0.506 0.523 0.519 0.527 0.491 0.515 0.497 0.477 0.549 0.513 0.504 0.454
## [193] 0.434 0.452 0.464 0.539 0.524 0.453 0.518 0.498 0.519 0.499 0.527 0.517
## [205] 0.495 0.498 0.506 0.484 0.516 0.480 0.544 0.520 0.558 0.471 0.503 0.499
## [217] 0.516 0.528 0.493 0.535 0.497 0.540 0.526 0.508 0.463 0.516 0.500 0.488
## [229] 0.480 0.465 0.518 0.509 0.514 0.538 0.530 0.480 0.545 0.488 0.503 0.455
## [241] 0.503 0.498 0.497 0.540 0.469 0.428 0.448 0.468 0.523 0.495 0.478 0.478
## [253] 0.461 0.535 0.481 0.525 0.513 0.490 0.499 0.503 0.507 0.462 0.525 0.489
## [265] 0.505 0.505 0.491 0.491 0.491 0.567 0.490 0.463 0.482 0.524 0.535 0.474
## [277] 0.508 0.448 0.527 0.482 0.485 0.462 0.542 0.529 0.456 0.527 0.523 0.549
## [289] 0.488 0.456 0.527 0.566 0.545 0.525 0.540 0.548 0.460 0.535 0.496 0.502
Grafíca ambos resultados con dos histogramas para compararlos.
par(mfrow=c(1,2))
hist(u5,col = "lightblue", breaks=20, freq = TRUE, xlim=c(0,1))
hist(u100,col = "blue", breaks=20, freq = TRUE, xlim=c(0,1))
Calcula los valores estandarizados para cada media y grafica un histograma para verificar que la distribución de las medias muestrales estandarizadas es efectivamente normal.
#media y varianza de la distribución uniforme con parámetros a=0 y b=1
n=100
a=0
b=1
munif=(a+b)/2
munif
## [1] 0.5
varunif=(b-a)^2/12
varunif
## [1] 0.08333333
u100z=(u100-munif)/(sqrt(varunif)/sqrt(n))
hist(u100z,col = "green", breaks=10, freq = F, xlim=c(-4,4))
lines(seq(-4, 4, by=.1), dnorm(seq(-4, 4, by=.1),0, 1), col="blue")
Realiza la mísma simulación con una variable aleatoria con distribución Poisson de parámetro igual a 2.
p5<-sapply(1:300, function(x){mean(sample(rpois(10000,2),5,rep=F))})
p5
## [1] 2.0 2.4 1.8 3.0 1.6 2.2 1.6 1.8 2.2 2.2 2.0 1.6 2.2 2.2 2.2 2.6 3.0 2.2
## [19] 2.2 2.8 2.6 2.6 1.0 2.6 0.4 2.2 1.4 2.4 1.8 1.8 2.6 2.2 1.8 1.8 2.2 1.8
## [37] 1.0 1.4 1.8 2.2 2.6 2.6 2.0 2.0 3.2 1.4 2.6 1.2 2.4 1.8 2.4 2.0 2.4 2.8
## [55] 1.2 1.6 2.2 2.0 1.8 1.2 1.8 1.6 3.8 2.4 2.6 1.2 1.2 3.4 1.6 1.2 2.0 1.6
## [73] 2.8 1.0 1.2 2.2 3.4 3.2 2.2 1.6 0.8 2.0 1.2 2.4 1.2 1.6 1.4 1.2 1.4 2.4
## [91] 1.8 2.4 2.0 2.2 1.6 2.4 2.4 1.2 1.6 2.6 2.6 2.4 1.2 1.8 1.4 3.0 2.4 1.8
## [109] 1.4 3.0 2.4 2.4 1.6 3.6 3.0 1.4 1.6 1.4 1.4 1.4 1.8 3.8 2.0 2.4 2.8 1.8
## [127] 1.6 1.4 1.6 2.8 1.8 2.0 0.8 2.2 2.4 2.6 1.8 2.2 2.8 2.4 2.0 2.2 0.8 1.4
## [145] 1.4 2.6 2.2 3.8 2.0 2.0 2.2 2.4 2.8 1.8 1.8 1.6 0.6 1.0 1.4 2.2 1.6 2.6
## [163] 1.8 1.8 2.6 3.2 2.4 0.8 1.0 1.2 1.2 2.8 2.0 1.8 1.4 3.6 1.4 1.2 1.2 1.6
## [181] 3.4 2.6 1.6 0.8 2.6 1.8 2.4 2.0 2.8 2.0 2.2 3.0 1.0 2.0 3.0 2.2 3.0 1.8
## [199] 3.2 2.2 2.8 2.8 2.6 2.0 1.8 1.4 1.2 1.6 2.8 1.0 2.4 2.4 3.2 1.8 1.8 2.6
## [217] 2.2 0.8 1.8 3.2 1.6 1.0 2.2 3.8 2.8 1.6 3.4 1.0 1.4 2.0 1.6 1.8 2.0 1.8
## [235] 2.4 2.4 2.2 2.6 1.4 2.2 2.6 2.0 1.0 1.2 1.6 2.6 3.4 3.0 2.2 2.4 0.8 3.4
## [253] 1.2 1.8 2.2 3.8 2.0 2.4 2.8 2.8 2.2 2.0 1.8 1.2 1.4 1.2 2.8 2.8 2.6 1.8
## [271] 1.8 2.6 2.6 2.0 2.4 1.4 1.8 2.2 1.2 2.6 0.8 2.2 1.6 2.4 2.0 1.6 1.4 2.4
## [289] 2.0 1.2 2.2 2.8 2.0 1.0 2.6 2.2 2.8 2.0 1.8 1.4
p100<-sapply(1:300, function(x){mean(sample(rpois(10000,2),100,rep=F))})
p100
## [1] 2.04 2.07 1.98 2.17 2.14 2.02 1.88 1.97 1.87 2.05 1.87 1.88 1.92 1.98 1.79
## [16] 1.86 2.10 2.01 2.22 2.11 1.87 1.88 1.95 1.95 2.18 1.78 2.08 1.79 2.01 2.29
## [31] 2.06 2.07 1.76 2.16 2.28 2.08 1.72 2.16 2.12 2.02 1.74 1.90 1.91 1.98 1.83
## [46] 1.58 2.04 1.95 2.06 2.00 2.19 2.01 1.74 2.07 2.11 1.89 2.01 2.10 2.06 1.82
## [61] 1.89 2.20 1.94 2.08 1.78 1.81 1.77 2.23 2.05 2.31 1.99 2.01 2.09 1.88 2.17
## [76] 2.02 1.86 2.14 1.86 2.03 2.12 2.31 2.22 1.95 1.88 1.82 1.77 1.93 1.91 2.05
## [91] 1.96 2.30 2.18 2.12 1.87 2.18 2.27 1.78 1.88 2.07 2.13 2.13 2.08 1.85 2.19
## [106] 2.10 1.98 2.15 1.88 2.15 1.95 2.05 2.04 2.22 1.80 2.27 1.98 2.16 1.90 2.21
## [121] 1.93 2.19 1.82 1.96 2.38 2.16 2.12 2.28 1.80 1.96 1.67 2.33 2.27 1.77 2.12
## [136] 1.81 1.82 1.82 1.86 2.32 1.99 1.90 2.18 1.90 2.16 2.19 1.98 1.96 1.79 1.87
## [151] 2.06 1.98 2.08 2.15 1.90 2.07 1.76 1.73 2.02 1.98 2.01 1.97 2.07 2.09 1.71
## [166] 1.88 2.01 2.05 1.87 2.20 2.05 2.04 1.87 2.07 1.92 1.96 2.15 2.07 2.08 1.97
## [181] 2.10 1.97 2.32 2.22 1.85 2.11 1.86 2.06 2.20 1.70 2.02 1.77 1.76 1.93 2.16
## [196] 2.01 1.94 1.93 1.96 1.94 1.91 1.95 1.88 1.93 1.88 1.95 1.95 2.10 2.00 1.96
## [211] 2.04 2.09 1.97 1.79 1.80 2.03 1.86 1.82 2.25 1.98 2.01 1.86 1.74 1.86 2.03
## [226] 2.08 1.99 1.83 2.26 2.07 1.83 2.10 2.16 1.97 2.31 2.03 2.14 2.00 2.15 1.94
## [241] 2.18 1.89 1.74 2.09 2.22 1.91 1.99 2.09 2.12 1.95 2.09 2.06 2.14 1.97 2.08
## [256] 2.01 2.13 2.02 2.18 1.95 1.84 2.06 2.04 2.05 2.10 2.00 2.03 1.88 1.99 1.88
## [271] 1.87 2.00 1.76 1.93 1.86 2.06 1.89 2.04 2.10 1.86 2.09 1.89 2.11 2.22 2.07
## [286] 2.25 2.02 2.12 2.04 1.89 1.93 2.01 1.95 2.02 2.05 2.16 2.30 1.94 2.07 1.79
par(mfrow=c(1,2))
hist(p5,col = "lightgreen", breaks=20, freq = TRUE, xlim=c(0,6))
hist(p100,col = "green", breaks=20, freq = TRUE, xlim=c(0,6))
Calcula los valores estandarizados para cada media y grafica un histograma para verificar que la distribución es efectivamente normal estandar.
p100z=(p100-2)/(sqrt(2)/sqrt(100))
hist(p100z,col = "green", breaks=10, freq = F, xlim=c(-4,4))
lines(seq(-4, 4, by=.1), dnorm(seq(-4, 4, by=.1),0, 1), col="blue")
\[\overline{X} \sim Nor \left( \mu, \frac{\sigma^2}{n}\right)\] Ejemplo
Para una población con distribución normal con media igual a 4.5 y varianza igual a 2. Se realiza un muestreo aleatorio simple de tamaño 35. ¿Cuál es la probabilidad de que la media muestral sea al menos igual a 5?
mu = 4.5
sigma = 2
n = 35
sigma_mu = sigma/n
pnorm(5, mean = mu, sd = sqrt(sigma_mu), lower.tail = F)
## [1] 0.01823492
# o también
pnorm((5-4.5)/(sqrt(2/35)),lower.tail = F) #Normal estándar
## [1] 0.01823492
#Gráfico
library(RcmdrMisc)
x1 <- seq(3.5, 5.5, length.out=1000)
plotDistr(x1, dnorm(x1, mean=mu, sd=sqrt(sigma_mu)), cdf=FALSE, xlab="x", ylab="Densidad",
main="", regions=list(c(5, 5.5)), legend.pos=F, bty="n")
\[\frac{\overline{X}-\mu}{\hat{S}/\sqrt{n}} \sim t_{n-1}\] Ejemplo
Supongamos el ejemplo anterior pero donde la varianza poblacional es desconocida. Sin embargo, se conoce la varianza muestral \(\hat{s}\) que es igual a 2.25.
mu = 4.5
s2 = 2.25
n = 35
s2_mu = s2/n
pt((5-mu)/sqrt(s2_mu), df = 34,lower.tail = F)
## [1] 0.02839295
#Gráfico
x2 <- seq(-3.5, 3.5, length.out=1000)
plotDistr(x2, dt(x2, df = 34), cdf=FALSE, xlab="x", ylab="Densidad",
main="", regions=list(c(1.97, 3.5)), legend=F, bty="n")
Estudio de caso Probabilidades t student vs la normal
q<-c(seq(from=-4, to=+4, by=0.1))
q
## [1] -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 -2.7 -2.6
## [16] -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1
## [31] -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4
## [46] 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9
## [61] 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4
## [76] 3.5 3.6 3.7 3.8 3.9 4.0
gl<-5
pstu<-pt(q,gl)
pstu
## [1] 0.005161708 0.005704646 0.006314241 0.006999703 0.007771628 0.008642216
## [7] 0.009625522 0.010737750 0.011997588 0.013426592 0.015049624 0.016895352
## [13] 0.018996812 0.021392032 0.024124727 0.027245050 0.030810396 0.034886235
## [19] 0.039546949 0.044876625 0.050969739 0.057931652 0.065878792 0.074938393
## [25] 0.085247616 0.096951840 0.110201940 0.125150317 0.141945528 0.160725410
## [31] 0.181608734 0.204685600 0.230007033 0.257574474 0.287330144 0.319149436
## [37] 0.352836557 0.388124521 0.424680257 0.462115071 0.500000000 0.537884929
## [43] 0.575319743 0.611875479 0.647163443 0.680850564 0.712669856 0.742425526
## [49] 0.769992967 0.795314400 0.818391266 0.839274590 0.858054472 0.874849683
## [55] 0.889798060 0.903048160 0.914752384 0.925061607 0.934121208 0.942068348
## [61] 0.949030261 0.955123375 0.960453051 0.965113765 0.969189604 0.972754950
## [67] 0.975875273 0.978607968 0.981003188 0.983104648 0.984950376 0.986573408
## [73] 0.988002412 0.989262250 0.990374478 0.991357784 0.992228372 0.993000297
## [79] 0.993685759 0.994295354 0.994838292
pnorm<-pnorm(q)
pnorm
## [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
## [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01
datos=data.frame(pstu,pnorm)
matplot (q,datos, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal),paste(student)), cex = 0.7,lty = 1:2)
con muestras de tamaño 15
gl<-15
pstu15<-pt(q,gl)
pstu15
## [1] 0.0005796584 0.0007106144 0.0008716145 0.0010695443 0.0013128305
## [6] 0.0016117655 0.0019788916 0.0024294533 0.0029819242 0.0036586153
## [11] 0.0044863687 0.0054973399 0.0067298632 0.0082293928 0.0100495006
## [16] 0.0122529016 0.0149124647 0.0181121487 0.0219477876 0.0265276281
## [21] 0.0319725036 0.0384155129 0.0460010591 0.0548831055 0.0652225098
## [26] 0.0771833302 0.0909280407 0.1066116606 0.1243748937 0.1443364788
## [31] 0.1665850680 0.1911710668 0.2180989696 0.2473207913 0.2787312176
## [36] 0.3121650568 0.3473974679 0.3841472673 0.4220833885 0.4608343100
## [41] 0.5000000000 0.5391656900 0.5779166115 0.6158527327 0.6526025321
## [46] 0.6878349432 0.7212687824 0.7526792087 0.7819010304 0.8088289332
## [51] 0.8334149320 0.8556635212 0.8756251063 0.8933883394 0.9090719593
## [56] 0.9228166698 0.9347774902 0.9451168945 0.9539989409 0.9615844871
## [61] 0.9680274964 0.9734723719 0.9780522124 0.9818878513 0.9850875353
## [66] 0.9877470984 0.9899504994 0.9917706072 0.9932701368 0.9945026601
## [71] 0.9955136313 0.9963413847 0.9970180758 0.9975705467 0.9980211084
## [76] 0.9983882345 0.9986871695 0.9989304557 0.9991283855 0.9992893856
## [81] 0.9994203416
pnorm15<-pnorm(q)
pnorm15
## [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
## [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01
datos15=data.frame(pstu15,pnorm15)
matplot (q,datos15, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal15),paste(student15)), cex = 0.7,lty = 1:2)
con muestras de tamaño 30
gl<-30
pstu30<-pt(q,gl)
pstu30
## [1] 0.0001909228 0.0002511250 0.0003297791 0.0004322999 0.0005655892
## [6] 0.0007384037 0.0009617981 0.0012496537 0.0016193009 0.0020922424
## [11] 0.0026949820 0.0034599551 0.0044265547 0.0056422333 0.0071636508
## [16] 0.0090578245 0.0114032185 0.0142906936 0.0178242200 0.0221212356
## [21] 0.0273125225 0.0335414620 0.0409625343 0.0497389378 0.0600392338
## [26] 0.0720329646 0.0858852546 0.1017504793 0.1197651754 0.1400404590
## [31] 0.1626543077 0.1876441434 0.2150002049 0.2446602217 0.2765058798
## [36] 0.3103615024 0.3459952583 0.3831230526 0.4214150785 0.4605048059
## [41] 0.5000000000 0.5394951941 0.5785849215 0.6168769474 0.6540047417
## [46] 0.6896384976 0.7234941202 0.7553397783 0.7849997951 0.8123558566
## [51] 0.8373456923 0.8599595410 0.8802348246 0.8982495207 0.9141147454
## [56] 0.9279670354 0.9399607662 0.9502610622 0.9590374657 0.9664585380
## [61] 0.9726874775 0.9778787644 0.9821757800 0.9857093064 0.9885967815
## [66] 0.9909421755 0.9928363492 0.9943577667 0.9955734453 0.9965400449
## [71] 0.9973050180 0.9979077576 0.9983806991 0.9987503463 0.9990382019
## [76] 0.9992615963 0.9994344108 0.9995677001 0.9996702209 0.9997488750
## [81] 0.9998090772
pnorm30<-pnorm(q)
pnorm30
## [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
## [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01
datos30=data.frame(pstu30,pnorm30)
matplot (q,datos30, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal),paste(student)), cex = 0.7,lty = 1:2)
\[\overline{X}_1-\overline{X}_2 \sim Nor\left(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}\right)\] Ejemplo
Las distribuciones de ciertas mediciones tienen distribuciones normales. Se cuentan con dos poblaciones con los siguientes valores: \(\mu_1=25\), \(\sigma_1=5\), \(\mu_2=26\) y \(\sigma_2=6\). Si se extraen muestras aleatorias de tamaños \(n_1=n_2=100\), ¿cuál es la probabilidad de que la media muestral \(\overline{x}_1\) supere a la otra media en al menos 1 unidad?
mu_1 = 25
mu_2 = 26
sigma_1 = 5
sigma_2 = 6
n_1 = 100
n_2 = 100
sigma_dmu = sqrt((sigma_1^2)/n_1+(sigma_2^2)/n_2)
pnorm(1, mean = mu_1-mu_2, sd = sigma_dmu, lower.tail = F)
## [1] 0.005222511
#Gráfico
library(RcmdrMisc)
x1 <- seq(-4, 2, length.out=1000)
plotDistr(x1, dnorm(x1, mean=mu_1-mu_2, sd=sigma_dmu), cdf=FALSE, xlab="x", ylab="Densidad",
main="", regions = list(c(1,2)), legend=F, bty="n")
\[\hat{p} \sim Nor\left(p,\frac{pq}{n}\right)\] Ejemplo
En la asignatura de Estadística I, históricamente se sabe que el porcentaje de alumnos que aprueban es del 75%. En un cierto año, se tomó una muestra aleatoria de 35 estudiantes de la asignatura. Calcula la probabilidad de que el porcetaje de aprobados sea entre 70 y 80%.
p = 0.75
n = 35
Z1 = (0.70-0.75)/sqrt(0.75*0.25/35)
Z2 = (0.80-0.75)/sqrt(0.75*0.25/35)
Probabilidad = pnorm(Z2)-pnorm(Z1)
Probabilidad
## [1] 0.5054753
#Gráfico
x1 <- seq(-3.5, 3.5, length.out=1000)
plotDistr(x1, dnorm(x1), cdf=FALSE, xlab="x", ylab="Densidad",
main="", regions=list(c(Z1, Z2)), legend=F, bty="n")
\[\hat{p}_1-\hat{p}_2 \sim Nor\left(p_1-p_2,\frac{p_1q_1}{n_1}+\frac{p_2q_2}{n_2}\right)\] Ejemplo
Sea \(p_1=0.5\), \(p_2=0.45\), \(n_1=60\) y \(n_2=50\). Calcula \(P(|\hat{p}_2-\hat{p}_1| \ge 0.1)\).
p1 = 0.5
p2 = 0.45
n1 = 60
n2 = 50
Z1 = (-0.1-(0.45-0.5))/sqrt(0.5*0.5/60+0.45*0.55/60)
Z2 = (0.1-(0.45-0.5))/sqrt(0.5*0.5/60+0.45*0.55/60)
Probabilidad = pnorm(Z1) + pnorm(Z2, lower.tail = F)
Probabilidad
## [1] 0.3412186
#Gráfico
x1 <- seq(-4, 4, length.out=1000)
plotDistr(x1, dnorm(x1), cdf=FALSE, xlab="x", ylab="Densidad",
main="", regions=list(c(-4, Z1),c(Z2,4)), legend=F, bty="n")
\[\frac{(n-1)\hat{S}^2}{\sigma^2} \sim \chi^2_{n-1}\] Ejemplo
En una población normal con varianza igual a 4. Calcula la probabilidad de que en una muestra de tamaño 20 se obtenga una varianza muestra inferior a 3.5.
sigma2 = 4
n = 20
s2 = 3.5
X2 = (n-1)*s2/sigma2
pchisq(X2, df = n-1)
## [1] 0.3847433
#Gráfico
x <- seq(0, 45, length.out=1000)
plotDistr(x, dchisq(x, df=19), cdf=FALSE, xlab="x", ylab="Densidad", main="",
regions=list(c(0, (19*3.5)/4)), legend=F, bty = "n", las = 1)
\[\frac{\hat{S}_1^2/\sigma_1^2}{\hat{S}_2^2/\sigma^2_2} \sim F_{n_1-1,n_2-1}\] Ejemplo
Sunponga dos variables aleatorias provenientes de dos poblaciones normales: \(X_1 \sim Nor(\mu_1,\sigma_1^2)\) y \(X_2 \sim Nor(\mu_2,\sigma_2^2)\). Se sabe que las varianzas poblacionales son desconocidas pero iguales. Si al seleccionar muestras aleatorios de tamaño 10 de cada población, ¿cuál es la probabilidad de que la varianza muestral de la primera sea menor a la otra?
n1 = 10
n2 = 10
pf(1, df1=n1-1, df2=n2-1)
## [1] 0.5
#Gráfico
x <- seq(0, 7, length.out=1000)
plotDistr(x, df(x, df1=n1-1, df2=n2-1), cdf=FALSE, xlab="x", ylab="Densidad",
main="", regions=list(c(0, 1)), legend=F, bty = "n", las = 1)
Un estimador \(\hat{\theta}\) es insesgado si su valor esperado coincide con el verdadero valor del parámetro poblacional \(\theta\). Es decir, si
\[E(\hat{\theta})=\theta\]
Un estimador \(\hat{\theta}_i\) es más eficiente que otro estimador \(\hat{\theta}_j\), para \(i \neq j\), si la varianza de \(\hat{\theta}_i\) es más pequeña que la de \(\hat{\theta}_j\), para todo \(j\). Es decir
\[Var(\hat{\theta}_i)<Var(\hat{\theta}_j)\]
Un estimador es consistente si se cumplen las siguientes dos propiedades:
\[\lim_{n \rightarrow \infty}E(\hat{\theta})=\theta \ \ \ \ \ y \ \ \ \ \ \lim_{n \rightarrow \infty}Var(\hat{\theta})=0\]
Un estimador (estadístico) \(t=T(X_1,X_2,...,X_n )\) es suficiente para \(\theta\) si y solo si la función de probabilidad conjunta o de densidad de probabilidad conjunta \(f(x;\theta)\) puede descomponerse de la siguiente manera:
\[f(x_1,x_2,...,x_n;\theta)=h(T(x_1,x_2,…,x_n );\theta) g(x_1,x_2,...,x_n )\] siendo \(h(T(x_1,x_2,...,x_n );\theta)=f(t;\theta)\) es una función que solo depende del parámetro \(\theta\) por medio del estadístico \(T(x_1,x_2,...,x_n )\) y que la función \(g(x_1,x_2,...,x_n )\) no le contiene al parámetro (Teorema de Factorización de Fisher-Neyman).
Un estimador \(\hat{\theta}\) del parámetro \(\theta\) es invariante si se satisface
\[g(\hat{\theta})=g(\theta)\] siempre y cuando \(g\) sea una función inyectiva.
#simulación para verificar el sesgo de la varianza muestral
#Simular los resultados de una muestra aleatoria de tamaño n de una variable con distribución normal estandar
#Sn
# Definimos la función desviación típica con sesgo
Sigma <- function(x) {
n <- length(x)
desvi <- sqrt(sum((x-mean(x))^2) / n)
return(desvi)
}
y <- c(12, 25, 32, 15, 26)
Sigma(y)
## [1] 7.402702
n<-30
a<-sapply(1:100,function(d){round((sum(Sigma(sample(rnorm(100000,0,1),n,rep=T)))),1)})
a
## [1] 1.1 0.8 0.9 0.9 1.2 1.3 0.9 1.1 0.9 0.9 1.0 1.3 1.1 1.0 1.1 0.8 0.9 0.9
## [19] 1.0 0.7 1.0 0.8 1.0 0.9 0.8 0.8 1.0 1.0 1.0 1.0 1.0 1.0 1.1 0.9 1.1 1.0
## [37] 1.1 0.8 1.2 0.8 1.0 1.0 0.6 1.0 0.9 1.0 0.8 0.9 1.2 0.9 1.0 0.9 1.1 0.9
## [55] 0.8 0.8 0.8 1.0 0.9 1.0 1.0 0.9 1.0 0.9 1.1 1.1 1.0 0.9 0.9 0.8 0.9 0.8
## [73] 1.0 1.1 0.9 1.1 0.9 1.0 1.1 1.1 1.0 0.6 1.1 0.8 1.0 0.8 0.9 1.0 1.1 1.2
## [91] 1.1 1.1 0.9 0.9 1.0 1.0 1.0 0.9 0.9 1.1
table(a)
## a
## 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3
## 2 1 15 27 30 19 4 2
barplot(table(a))
#Sn-1
# Definimos la función desviación típica sin sesgo
Sigmains <- function(x) {
n <- length(x)
desvi <- sqrt(sum((x-mean(x))^2) / (n-1))
return(desvi)
}
y <- c(12, 25, 32, 15, 26)
Sigmains(y)
## [1] 8.276473
n<-30
b<-sapply(1:100,function(e){round((sum(Sigmains(sample(rnorm(100000,0,1),n,rep=T)))),1)})
b
## [1] 1.1 1.0 1.0 0.9 0.9 0.9 0.9 1.1 0.9 1.1 1.0 0.9 1.0 1.0 1.1 1.1 1.1 0.9
## [19] 0.9 0.9 1.1 0.9 1.2 1.0 1.1 1.0 0.9 0.9 1.1 1.0 0.9 1.0 1.1 1.0 1.2 1.0
## [37] 0.9 1.0 1.2 0.8 1.1 1.0 0.8 0.9 0.8 0.9 0.9 1.1 0.7 1.0 1.1 1.0 0.7 1.3
## [55] 1.2 0.8 0.9 0.9 1.0 0.9 1.0 0.9 1.0 0.9 0.9 1.0 0.9 0.9 1.0 1.2 1.2 0.8
## [73] 0.8 1.2 0.9 1.1 1.0 1.0 1.0 0.8 1.0 0.9 1.0 0.6 1.2 0.9 1.1 1.1 1.3 0.9
## [91] 1.2 1.1 1.2 0.9 1.0 0.9 1.0 1.0 1.0 0.8
table(b)
## b
## 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3
## 1 2 8 31 29 17 10 2
barplot(table(b))
hist(a)
hist(b)
#Compara los resultados con un grafico de caja y bigotes
boxplot(a,b,names=c("S_n","S_n-1"),ylab="Desviaciones")
abline(h = 1)
La siguiente simulación te ayudará a entender el significado de los intérvalos de confianza.
En primer lugar tienes la simulación de una muestra compuesta por 15 valores de una variable aleatoria con distribución Poisson
lamda=10
dato<-rexp(15,1/lamda)
dato
## [1] 12.4164298 1.6927943 17.1886173 28.2429235 5.9586670 0.6330959
## [7] 44.4728487 6.9241273 2.7050865 0.6028640 9.1654539 13.4240856
## [13] 19.5955880 8.0804881 2.5339918
Dibuja el resultado con un histograma
hist(dato)
En segundo lugar, genera 100 muestras de tamaño 15 para la misma variable aleatoria
datos <- replicate(100, rexp(15,1/lamda))
datos
## [,1] [,2] [,3] [,4] [,5] [,6]
## [1,] 10.4971917 6.21158359 3.1998020 6.3458975 4.9800411 12.249820
## [2,] 14.3114682 0.02091236 0.2434262 11.0116610 3.6840652 27.792021
## [3,] 1.3428877 9.57342251 5.3333157 3.0773544 5.1695085 13.783552
## [4,] 0.9690231 9.60865055 4.6867271 0.1888625 2.1502421 12.073532
## [5,] 0.3239891 5.37062741 5.1841849 9.3117517 1.1288128 29.459710
## [6,] 6.7479393 11.09777229 2.9970361 12.6068325 16.2910003 11.385130
## [7,] 15.5260383 2.47187804 5.1082121 1.1048766 14.0313268 6.093641
## [8,] 0.7156983 0.38891105 13.9021572 3.5962161 10.1008910 4.620232
## [9,] 3.9179884 3.56596863 2.6329159 1.9322579 2.1797931 4.416411
## [10,] 10.7192237 3.65535598 13.3200753 7.1239811 0.9775315 16.066630
## [11,] 22.2267753 13.21213263 8.3072481 9.3050170 5.7995458 16.848324
## [12,] 0.2416364 16.09049849 9.3146632 16.0976251 22.2019820 3.333933
## [13,] 2.4240350 0.32378362 14.7597222 1.1093131 3.0543806 8.114508
## [14,] 5.4463320 0.23221964 20.2840376 0.2566072 13.2530039 14.782019
## [15,] 6.5107262 7.69945171 3.4652399 6.4692863 4.2739366 10.862992
## [,7] [,8] [,9] [,10] [,11] [,12]
## [1,] 21.0023561 7.598731 12.990719 3.9543535 7.584011 21.1449627
## [2,] 37.8374987 36.439755 21.655487 5.8408194 4.403351 1.7557202
## [3,] 43.6469832 5.858649 20.538310 2.0243982 2.776572 8.8647094
## [4,] 32.0457233 2.694832 3.275288 1.1901658 31.926617 6.5481160
## [5,] 0.8723139 1.275641 6.600541 4.8778593 13.252516 22.4767531
## [6,] 7.2343174 11.951540 3.908569 7.1129401 4.883326 23.8090496
## [7,] 9.7995779 2.425060 13.819694 2.6103054 6.843370 2.4360311
## [8,] 2.6496597 36.427028 12.841218 4.8389817 6.181446 2.1109723
## [9,] 7.0959423 13.974534 4.604085 0.5699354 25.510011 0.2384687
## [10,] 9.5427162 14.010581 18.177225 14.0288904 28.052380 15.4059281
## [11,] 6.9131715 14.425957 27.717294 22.7218999 23.590364 30.6856875
## [12,] 7.9431156 8.482833 13.056815 6.0284377 2.127227 15.1495110
## [13,] 11.1325889 7.305497 14.710097 13.4978676 27.231646 42.2310566
## [14,] 19.2181275 1.878370 35.725274 7.6093176 32.408782 8.9043181
## [15,] 11.2215232 5.311240 29.647369 2.7030378 2.372162 2.5879429
## [,13] [,14] [,15] [,16] [,17] [,18]
## [1,] 24.72218012 8.0908715 5.0687416 1.8442586 9.3649136 0.1005254
## [2,] 4.98673224 1.0232996 1.4314734 22.8926549 20.8165218 29.5259966
## [3,] 1.94237564 6.4849417 2.2963943 4.1737725 15.5561719 20.0968646
## [4,] 3.30896414 32.0058903 2.0140562 2.0090834 10.0163110 7.5236052
## [5,] 1.11585873 31.0072844 58.0580912 7.3244086 3.7566781 1.9774822
## [6,] 3.52945546 3.0035285 0.3202130 16.7456332 6.9659940 8.3427328
## [7,] 2.55286450 4.4910378 9.0323694 0.1470943 6.6326590 6.4262332
## [8,] 10.95629007 5.2978874 0.6730320 5.5461791 10.8817449 2.4893688
## [9,] 6.49363724 4.5618701 0.1004674 11.5532307 0.1656236 19.4799271
## [10,] 0.61692365 14.1393360 6.3091249 1.5356248 31.3058636 4.7626226
## [11,] 16.00913789 7.2750671 10.9592268 11.9593556 10.3940828 3.7015001
## [12,] 0.04577668 0.9784284 3.3711410 3.9460137 12.6897981 22.3448914
## [13,] 2.39931969 21.9703004 3.6297981 1.6128522 2.8370696 3.1777384
## [14,] 12.23411087 0.6203169 6.0061950 11.4994722 20.2124781 10.7865682
## [15,] 12.73107007 2.1552037 29.0095855 2.4305114 10.2699885 2.8831216
## [,19] [,20] [,21] [,22] [,23] [,24]
## [1,] 4.46979906 10.7357442 4.7197549 0.8672400 17.6800159 2.2312039
## [2,] 10.65776857 18.6527957 4.1613587 27.7524705 14.2223173 18.1031751
## [3,] 6.99404343 14.4097103 21.3184250 3.9962319 16.7751548 12.7051732
## [4,] 3.85070101 0.2615369 3.6581965 5.7041241 5.0639847 0.6050969
## [5,] 0.05514119 17.5098336 32.4518877 0.1859586 6.1370103 11.9189671
## [6,] 9.71136933 4.2400797 0.5101927 51.0592651 14.6180432 4.2412143
## [7,] 14.58668640 2.5023765 11.0265335 2.5633028 6.3682836 15.9438559
## [8,] 0.51811990 3.5010797 6.8203230 14.1279833 17.4166696 0.1618374
## [9,] 2.22959913 0.3568450 5.8692883 7.9447000 0.1974565 18.9984679
## [10,] 12.21722271 18.4434359 4.5860520 9.3568105 54.6729402 12.9575101
## [11,] 11.06347302 0.3366033 2.4151962 0.7442094 0.8000307 1.5039418
## [12,] 4.56398206 27.3301844 6.0575411 6.5129295 2.5612935 6.4078025
## [13,] 6.04838077 7.8965193 15.5145726 11.0140218 6.2441304 9.7777933
## [14,] 8.73463454 11.7730164 3.9951777 2.9850008 1.5916327 13.2308345
## [15,] 9.33433316 33.8178270 24.9140914 2.4208747 31.8140023 25.3772374
## [,25] [,26] [,27] [,28] [,29] [,30] [,31]
## [1,] 3.364638 15.666351 7.345010 43.2207845 13.875794 24.719302 5.55112484
## [2,] 27.971134 4.472485 16.898086 14.3736504 12.129698 8.996697 18.85849060
## [3,] 23.049526 6.356728 11.562987 0.4671991 4.490363 3.459934 3.92871996
## [4,] 9.936701 31.163589 32.970326 3.2584532 7.298929 4.606946 11.69022884
## [5,] 14.911189 4.554531 6.592214 1.3037645 21.931304 0.992320 4.98795253
## [6,] 1.078031 12.777024 2.100257 22.3222437 2.568325 6.624417 4.54082818
## [7,] 5.490719 13.562429 10.880446 1.8267255 8.566488 11.191052 14.01833761
## [8,] 2.786982 10.403700 14.357023 8.8677818 1.243846 8.936482 8.49378166
## [9,] 7.126264 3.773953 4.751540 16.4318557 17.275176 6.921713 4.76007292
## [10,] 12.557545 9.320386 14.524122 2.8320926 3.278508 32.169419 5.65148454
## [11,] 3.317141 7.324143 4.131018 9.8830607 32.906919 20.170065 19.05788872
## [12,] 13.859819 16.346648 0.935330 22.0733802 9.531792 5.941722 4.83106088
## [13,] 5.744638 4.855477 15.961283 26.8894778 8.086616 14.178396 8.36655233
## [14,] 27.846402 9.140231 4.343851 12.2289027 8.683243 6.175090 0.01741801
## [15,] 3.910819 8.582323 27.048635 9.9493713 16.496685 3.584285 7.68158620
## [,32] [,33] [,34] [,35] [,36] [,37]
## [1,] 17.5645114 8.20025559 2.3486189 6.0620868 4.2380280 36.0199223
## [2,] 4.4967175 2.08961706 21.0603590 9.0418480 8.3466210 18.3610976
## [3,] 3.3590716 2.43294337 2.5481794 3.5797147 0.1166777 13.2044808
## [4,] 0.4973846 0.04186544 6.7878186 19.1109334 5.3052064 1.1254572
## [5,] 6.7164586 1.01699165 12.7536216 8.0303754 10.7990033 5.8384185
## [6,] 18.2685722 1.37005867 3.7085352 4.5825540 12.5081450 6.0847385
## [7,] 8.5516353 2.45679542 3.8330221 0.4668901 11.8621974 2.6546377
## [8,] 2.9738680 34.45576832 8.9069811 13.3953703 12.6562329 0.7789232
## [9,] 11.9019244 1.94841096 17.9181696 5.8423051 10.0715879 7.0510606
## [10,] 25.8308892 13.73158674 3.7833330 3.3962065 32.8701924 0.7219043
## [11,] 6.8512504 1.10576344 36.5101931 22.0945175 10.3881220 4.8489908
## [12,] 28.8387457 2.48852704 13.1282554 47.4570580 25.4357157 12.8375742
## [13,] 4.2049882 15.30566186 1.1270409 4.4502004 3.9647541 3.4692791
## [14,] 10.0229075 23.09431733 0.8118707 33.9648746 0.2458922 10.2523153
## [15,] 14.7380599 2.85517214 10.2692927 19.1968646 0.6840739 0.8791810
## [,38] [,39] [,40] [,41] [,42] [,43] [,44]
## [1,] 44.1597303 2.523904 27.375223 10.4119581 7.764334 9.710352 7.51104960
## [2,] 3.9450390 4.984029 8.378100 0.4735983 9.045570 14.915207 3.85765431
## [3,] 4.9482417 21.741461 6.831458 3.4287620 8.245014 7.051404 5.94401385
## [4,] 1.0542593 29.532847 14.935279 7.1630658 6.214037 6.392571 3.05485147
## [5,] 0.8425028 5.489597 2.349739 20.7838527 34.337915 14.286272 2.25531803
## [6,] 10.6748556 22.298042 6.794665 0.2226347 3.096587 2.058574 6.56057945
## [7,] 30.8009312 2.353718 13.291598 9.7045083 2.853922 6.995653 6.00786971
## [8,] 7.6925033 3.619393 26.196461 13.6820854 2.895498 10.531875 8.50845371
## [9,] 6.1239283 41.008698 3.304071 1.9396106 2.786313 13.856743 5.70950253
## [10,] 7.4858525 13.506568 6.505877 19.0472983 11.790638 14.999823 36.92846736
## [11,] 14.6625764 14.027507 10.589955 2.3796139 5.159140 16.604206 16.22068808
## [12,] 2.6250454 7.736474 2.217510 3.4064239 16.055850 5.324232 2.94314188
## [13,] 7.2191381 12.629414 8.922160 13.5743736 1.010729 4.586637 6.97989818
## [14,] 11.7410312 1.724645 6.997691 19.7683466 3.418639 22.325120 0.05596277
## [15,] 7.1178448 12.111975 7.409184 9.3943004 15.020855 23.179974 3.11717425
## [,45] [,46] [,47] [,48] [,49] [,50]
## [1,] 0.8144035 12.400604 3.281015 11.40533999 12.3063453 1.064373
## [2,] 2.7924855 9.486491 2.839680 0.05216675 0.7054235 43.935870
## [3,] 18.7948082 2.837097 3.324037 7.50109475 7.4168814 3.490418
## [4,] 1.5583735 5.186926 17.438414 3.18376807 8.7331461 4.015734
## [5,] 2.0741534 27.003461 12.599464 4.25265271 8.6827988 1.861448
## [6,] 10.4065964 8.525620 9.612359 14.51683364 2.6405110 1.447083
## [7,] 5.4691318 3.096172 8.484330 1.64740256 14.5754953 19.092900
## [8,] 18.3463700 3.923723 4.000576 16.80480787 2.4182156 8.782740
## [9,] 14.3300007 6.157653 28.696780 6.12134991 2.9938182 5.287408
## [10,] 7.2739085 4.677557 9.220934 6.24526076 6.0532838 23.673624
## [11,] 8.4573567 1.034742 2.631574 3.92022374 3.5882902 11.119979
## [12,] 19.6130939 22.436916 19.460337 10.14112976 12.1927570 0.184789
## [13,] 0.8638706 6.168751 26.103732 1.06076430 9.8721527 2.076266
## [14,] 8.5930715 6.419143 8.068857 11.97888927 24.5898584 8.204170
## [15,] 42.9828559 58.451143 4.159699 59.93391141 42.7239477 7.853184
## [,51] [,52] [,53] [,54] [,55] [,56]
## [1,] 2.1689044 13.1584187 3.67539045 1.1054543 0.1492446 12.0934592
## [2,] 2.6333890 19.7757164 4.32315937 30.8311275 0.6022290 18.1095723
## [3,] 7.1064695 11.0988537 21.89350520 3.6857229 7.6681298 5.1684317
## [4,] 27.9440665 7.7867040 16.46237329 0.3577400 15.3215272 5.4014437
## [5,] 1.0796756 4.1701971 2.93326989 10.6398204 1.0821818 3.8143909
## [6,] 9.0391891 5.2772303 0.05016914 0.2779657 6.3284191 4.3632533
## [7,] 11.6420154 13.4931322 30.19031311 22.1844661 5.6022078 0.2678445
## [8,] 19.4317205 15.8163634 13.65438016 0.3069610 0.6713260 16.1483442
## [9,] 3.1031309 6.4350010 5.71136590 11.9861443 1.3090359 6.7928318
## [10,] 10.8317146 1.2379184 7.70694956 0.3533124 29.6140929 14.2510965
## [11,] 12.0062413 0.7789673 0.66093640 8.6488776 3.7555175 24.6361445
## [12,] 5.7766774 0.4985625 0.42988780 17.3662723 6.8013845 6.2754182
## [13,] 1.2102709 10.7006854 1.46028880 0.9565181 12.6100743 12.4361320
## [14,] 0.2599294 0.5980219 12.46011866 9.0520605 6.5758050 16.9391272
## [15,] 4.3476428 2.4382482 5.11694844 15.8770026 22.7932735 7.1037425
## [,57] [,58] [,59] [,60] [,61] [,62]
## [1,] 23.10496595 4.4457950 30.5466137 13.3710411 0.1254617 56.2348078
## [2,] 23.88228653 2.3922636 1.0442277 8.9456830 23.1500886 10.9112644
## [3,] 8.13610389 20.3844609 0.7137164 5.4559810 17.2856110 9.5966704
## [4,] 0.40500168 9.6253444 7.3223573 8.0330414 0.5752749 3.2461234
## [5,] 6.25595214 13.5030909 2.4692442 1.0663241 0.1625229 13.2646339
## [6,] 2.83656204 7.8144260 19.6384092 8.1412259 28.2680653 23.4132394
## [7,] 28.43432209 0.4428434 7.5818350 3.2637223 9.8475203 17.1344387
## [8,] 28.05061273 11.2288420 1.6985828 1.9040158 4.2140893 8.3907500
## [9,] 3.04732975 13.3994412 17.4127406 0.1763032 5.2213179 11.6988242
## [10,] 0.04425231 23.1214556 15.2278294 4.7377542 0.9306628 9.7992277
## [11,] 3.15601291 18.8008633 1.4061302 21.2213400 4.9660236 7.3648359
## [12,] 54.60111545 1.2690760 9.5317075 24.5781811 4.4712429 21.1971330
## [13,] 9.37962690 49.4513182 27.8722209 8.4271314 4.1024096 0.2861376
## [14,] 4.82053199 0.9694771 8.9304593 4.9513920 4.0256226 10.6924719
## [15,] 21.35786796 4.0386153 0.2454842 21.3679610 12.5329199 11.7774835
## [,63] [,64] [,65] [,66] [,67] [,68] [,69]
## [1,] 13.078486 16.225073 8.526617 2.3676535 1.4222129 24.2818088 3.0843857
## [2,] 20.738592 14.646102 9.507824 14.7326454 5.5636658 7.6623405 13.4531606
## [3,] 23.973183 4.098630 16.106857 2.7178038 7.7625701 6.7750067 2.1473110
## [4,] 3.183035 2.394608 7.558448 25.9534673 0.2386029 9.5679556 0.9719887
## [5,] 6.548367 34.811429 2.542778 5.6572284 6.6398170 0.6533226 8.2709284
## [6,] 19.919219 7.574820 6.278073 2.2066938 3.1273346 15.9815524 2.0098187
## [7,] 10.648528 5.048629 2.829034 25.4919317 21.9519624 7.0626450 8.1866142
## [8,] 4.058650 17.927070 5.655851 18.5842429 3.0939664 2.8585178 5.6432510
## [9,] 8.004444 3.768055 2.763365 3.6505928 29.4054131 4.2471212 0.6123166
## [10,] 5.826483 1.540496 12.509839 5.0201556 8.0355568 9.7891517 5.4754477
## [11,] 15.950800 1.779509 11.628227 1.7867582 15.0556881 5.2321600 6.9569877
## [12,] 11.524099 1.858895 25.394335 1.1597053 1.2667728 5.1156310 4.1150643
## [13,] 11.985803 2.735455 7.790197 5.2125967 6.0966033 12.1168828 12.2285400
## [14,] 32.845265 9.899537 7.878678 0.2457089 2.8099099 1.3669534 13.5614848
## [15,] 17.166092 6.303675 16.776624 10.1420270 23.4812148 0.1730909 9.9951490
## [,70] [,71] [,72] [,73] [,74] [,75]
## [1,] 0.2413853 11.5136376 2.4438696 1.75406984 1.5653370 3.992515
## [2,] 4.7421990 0.1749163 15.2127446 7.67379494 6.4533126 4.333856
## [3,] 9.4213524 1.0554732 6.5721803 7.11312353 4.5126235 5.307548
## [4,] 8.0828347 7.9166177 1.3798666 2.41050663 0.3344041 6.810350
## [5,] 13.2291941 20.2691975 38.5667895 5.39899705 13.1459512 10.181761
## [6,] 6.4887272 22.3885424 9.5529374 0.04883177 18.0158523 2.321757
## [7,] 27.0153441 1.0726140 5.6132571 6.95070301 3.3151504 3.833836
## [8,] 1.5493465 9.0316085 43.1481896 37.16085421 0.1554201 4.869175
## [9,] 0.6131068 10.8514487 5.4323788 4.46149260 14.5666744 37.383018
## [10,] 16.9099799 4.6491021 8.7306715 1.74661209 3.3503748 12.044686
## [11,] 11.7967422 15.8312342 9.9894336 4.50009658 3.0494599 4.654455
## [12,] 22.1259113 59.5891155 14.0070933 1.34083949 6.0861600 10.006672
## [13,] 32.9965757 4.0940507 0.6876161 7.43721020 2.0548074 10.296010
## [14,] 0.8356916 2.7930915 17.6753489 9.21482895 11.5919729 5.161003
## [15,] 3.4531027 2.7007580 4.4427395 25.78607516 15.4627870 11.781177
## [,76] [,77] [,78] [,79] [,80] [,81]
## [1,] 4.15177140 10.147175 0.2791463 4.3690729 4.163516 0.3163196
## [2,] 2.36917106 13.636777 31.1112365 4.1434804 3.088697 1.7291388
## [3,] 0.13068571 43.123012 15.8413778 11.3545165 1.769678 16.0199045
## [4,] 0.23160712 14.855647 1.0310036 1.9845590 11.081689 18.6521839
## [5,] 3.87860580 5.870501 12.3832145 1.9044261 67.264242 4.1738408
## [6,] 41.37652239 3.640842 14.8686562 12.3312119 4.831847 2.4016260
## [7,] 3.74463416 1.802352 13.1166276 8.0832547 2.685296 1.8494765
## [8,] 1.50631208 44.863628 8.3732898 6.6449219 6.768987 7.9322090
## [9,] 9.40792739 7.163594 5.8635995 8.0501781 3.759360 19.6026140
## [10,] 22.81178450 8.211274 1.0686522 1.8454143 1.996841 8.3054938
## [11,] 0.05635465 15.702166 1.8003773 0.3239295 9.450277 10.1749930
## [12,] 3.46032611 15.325799 3.8241642 1.5499639 6.827996 15.4661915
## [13,] 5.10771263 13.324861 15.6447629 1.7913977 17.992637 5.5954611
## [14,] 4.04507997 10.193758 11.9174136 8.4095748 5.332324 11.7174458
## [15,] 10.62051792 12.534268 28.5428842 10.2903547 1.302792 1.5361318
## [,82] [,83] [,84] [,85] [,86] [,87]
## [1,] 16.23401792 11.9477495 19.992461 12.547154 0.5451801 22.9682380
## [2,] 31.07522428 7.7477561 7.558257 8.347838 7.5377219 4.1564255
## [3,] 32.71450341 2.2559211 11.714412 13.345101 0.8890547 16.6036323
## [4,] 2.06194506 1.2863985 20.531015 12.558406 7.3900306 8.2385352
## [5,] 7.48155745 0.6970668 4.099388 4.807642 9.5061341 14.6785920
## [6,] 19.91722444 9.3363716 14.326910 49.187059 21.1628780 12.8785192
## [7,] 23.48692465 4.6978654 4.009597 20.200019 10.3412904 7.8718667
## [8,] 1.62858201 6.3048255 12.501714 5.427174 1.2880692 3.7163458
## [9,] 7.62211024 13.6328566 8.155694 10.927350 6.8923287 18.7900572
## [10,] 4.67981067 35.1187916 8.441739 4.270733 17.2498470 0.7849428
## [11,] 6.34372226 3.3047138 2.843644 18.035695 1.9631849 49.6817969
## [12,] 28.53787422 16.0027181 16.604196 30.263477 2.4173688 1.6594268
## [13,] 0.00159447 5.5857442 16.901821 9.637071 2.8746655 11.9747478
## [14,] 11.96331460 34.0594587 11.961906 40.698689 20.6933115 26.2796683
## [15,] 17.62337534 1.4928530 14.147128 11.499576 12.9485709 0.6757862
## [,88] [,89] [,90] [,91] [,92] [,93] [,94]
## [1,] 9.388006 3.362659 22.131013 1.0463814 2.1079861 1.902680 3.2381735
## [2,] 15.137263 14.300685 2.392870 4.3689090 4.1859148 6.560884 2.2012915
## [3,] 3.976228 3.267496 7.596234 0.5321409 2.0160967 8.599047 0.4585958
## [4,] 9.418486 2.554805 0.287974 3.8958720 2.5427785 19.018519 6.1279903
## [5,] 12.613079 1.065739 2.221040 9.3577949 2.0834747 4.949863 7.7645877
## [6,] 22.375436 23.870997 12.143798 0.4896368 0.4458266 1.853069 1.9545269
## [7,] 42.066085 15.818426 1.052346 2.0612637 66.4986710 3.698673 37.7257889
## [8,] 11.596156 9.089871 1.800302 3.4909951 1.2838066 32.418965 4.8153161
## [9,] 12.901746 1.761527 1.240603 6.8018295 18.1297757 12.199985 4.8305442
## [10,] 7.124901 3.938215 4.436572 1.3214795 2.1910455 2.107999 4.0036469
## [11,] 11.433291 20.696733 20.224643 11.9537846 17.9256921 5.962393 4.5934212
## [12,] 11.660677 5.674038 21.042242 14.2137560 17.9974883 5.652323 38.6396212
## [13,] 21.413941 1.215779 8.088880 7.5905484 1.7280969 7.606935 0.3026618
## [14,] 1.449734 2.581107 5.083298 2.3392078 7.9079129 9.502975 1.2857212
## [15,] 5.718436 4.608307 4.657635 34.1964503 16.5614476 2.065134 17.1778587
## [,95] [,96] [,97] [,98] [,99] [,100]
## [1,] 5.84417281 23.0708967 3.0587029 2.5966030 8.3868260 2.3107208
## [2,] 6.13947392 2.0259673 3.7288946 26.9190851 9.9476544 2.3071270
## [3,] 9.40915558 4.3316774 4.0684682 3.3911710 2.5245075 11.3941608
## [4,] 4.86353696 0.8823542 3.2147394 0.5305585 0.5670806 6.9402597
## [5,] 29.02050571 6.1742041 6.0680289 11.7759948 4.0685793 4.5168025
## [6,] 10.15209375 14.1919844 15.7953780 4.3986274 17.7306020 17.1799333
## [7,] 15.24825555 16.6194620 2.2876062 6.9349992 5.0591832 5.7667096
## [8,] 3.95067145 6.4463813 11.7385393 11.7196007 1.0179117 4.2945980
## [9,] 14.50713668 11.9153101 0.7292471 19.8653235 8.0970645 3.6646561
## [10,] 2.50870574 6.9762449 14.6376700 4.6042236 1.0486341 13.5332761
## [11,] 4.58817793 21.7608582 3.0541514 14.5236219 2.2200422 1.3361261
## [12,] 0.03529698 5.5252910 15.1605120 2.8566453 8.5830644 0.5266432
## [13,] 0.81814080 3.1241401 26.5971198 1.4193678 6.3651016 1.8343715
## [14,] 6.89240179 0.5158902 7.3840013 2.0861386 8.7124348 6.4974658
## [15,] 5.09472138 4.4792588 5.3193019 8.6434825 3.1349990 29.3661607
Construye los intervalos de confianza asociados a cada una de las 100 medias obtenidas para cada muestra, con un nivel de confianza del 95%.
tint <- matrix(NA, nrow = 100, ncol = 2)
for (i in 1:100) {
temp <- t.test(datos[, i], conf.level = 0.95)
tint[i, ] <- temp$conf.int
}
tint
## [,1] [,2]
## [1,] 3.1252245 10.464236
## [2,] 3.1385946 8.797828
## [3,] 4.3761888 10.655646
## [4,] 3.2412590 8.697080
## [5,] 3.7369112 10.833230
## [6,] 8.5164663 17.067861
## [7,] 8.0171904 22.403558
## [8,] 5.1757028 17.498997
## [9,] 10.5528559 21.349542
## [10,] 3.3457991 9.935429
## [11,] 8.0186725 21.200498
## [12,] 6.7635135 20.483050
## [13,] 3.0183986 10.800894
## [14,] 3.7158291 15.364873
## [15,] 0.7457682 17.691553
## [16,] 3.3566316 10.672721
## [17,] 7.0412951 15.874158
## [18,] 4.6035688 14.545655
## [19,] 4.5855696 9.419131
## [20,] 5.7592804 17.143065
## [21,] 4.6483941 15.087418
## [22,] 2.3900153 17.241334
## [23,] 5.1047140 21.050348
## [24,] 6.0623148 14.492900
## [25,] 5.8438806 15.882992
## [26,] 6.6787306 14.427936
## [27,] 6.5824792 16.671138
## [28,] 6.5383967 19.585436
## [29,] 6.5869761 15.861515
## [30,] 5.7281332 15.427579
## [31,] 5.1165950 11.208142
## [32,] 6.2772417 15.698356
## [33,] 1.9604229 13.052075
## [34,] 4.3450664 15.054306
## [35,] 6.1198405 20.636399
## [36,] 4.9407531 14.991574
## [37,] 3.1093502 13.441047
## [38,] 4.2210602 17.258070
## [39,] 6.7233604 19.315076
## [40,] 5.9135328 14.366330
## [41,] 5.0806406 12.970084
## [42,] 3.9612346 13.331438
## [43,] 8.0117563 15.030730
## [44,] 2.7851523 12.635464
## [45,] 4.6826162 16.966781
## [46,] 3.6692282 20.038238
## [47,] 5.9204937 15.402411
## [48,] 2.5302035 18.638543
## [49,] 4.6710009 16.594722
## [50,] 3.0103767 15.934955
## [51,] 3.6504608 12.160344
## [52,] 4.1280416 10.973828
## [53,] 3.5520032 13.345204
## [54,] 3.7059403 14.111319
## [55,] 3.2547556 12.863171
## [56,] 6.5233878 13.983443
## [57,] 6.0933508 22.908322
## [58,] 5.0325973 19.085711
## [59,] 4.5874068 15.631468
## [60,] 4.7601521 13.325328
## [61,] 3.1875074 12.796337
## [62,] 7.1136903 21.554049
## [63,] 9.1496293 18.243843
## [64,] 3.6938739 13.721057
## [65,] 6.1551970 13.011036
## [66,] 3.4909246 13.166304
## [67,] 4.0217146 14.105124
## [68,] 4.0036680 11.047551
## [69,] 4.0026861 8.892307
## [70,] 5.0046436 16.262222
## [71,] 3.2925347 19.898320
## [72,] 5.2175877 19.243094
## [73,] 2.6258848 13.773853
## [74,] 3.5878113 10.233560
## [75,] 4.1530033 13.577373
## [76,] 1.4374551 13.615747
## [77,] 7.6985375 21.687549
## [78,] 5.7871335 16.301721
## [79,] 3.3196888 7.757145
## [80,] 0.7700671 19.005423
## [81,] 4.6958539 12.033884
## [82,] 7.9524291 20.230475
## [83,] 4.1859437 16.276868
## [84,] 8.4570160 14.714968
## [85,] 9.4160956 24.150969
## [86,] 4.3360000 12.157285
## [87,] 6.2801472 20.514330
## [88,] 7.7963178 18.640144
## [89,] 3.4485022 11.725682
## [90,] 3.3792349 11.874025
## [91,] 2.1171858 11.704154
## [92,] 1.5525053 20.261630
## [93,] 3.7806268 12.765966
## [94,] 2.0710529 15.944913
## [95,] 3.9008091 11.975517
## [96,] 4.4961083 12.575881
## [97,] 4.2245771 12.154404
## [98,] 3.9490631 12.352996
## [99,] 3.2885772 8.373247
## [100,] 3.1566681 11.705867
Asigna los nombres a las columnas de la matrix.
colnames(tint) <- c("lim.inf", "lim.sup")
tint <- data.frame(tint)
Genera un índice para identificar cuál de los intervalos construidos contienen al parámetro poblacional, y cuál de ellos no lo contiene.
indx <- (tint$lim.inf <= lamda) & (tint$lim.sup >= lamda)
indx
## [1] TRUE FALSE TRUE FALSE TRUE TRUE TRUE TRUE FALSE FALSE TRUE TRUE
## [13] TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE
## [25] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
## [37] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
## [49] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
## [61] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE
## [73] TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE
## [85] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
## [97] TRUE TRUE FALSE TRUE
sum(indx)
## [1] 92
Dibuja los resultados para identificar visualmente como la mayoría de los intérvalos resultantes contienen al valor del parámetro poblacional.
plot(range(tint), c(0,1 + 100), type = "n", xlab = "Medias muestrales", ylab = "Muestra")
for (i in 1:100) {lines(tint[i, ], rep(i, 2), lwd = 1)
}
abline(v = 10, lwd = 2, lty = 2)
Finalmente, agrega a la tabla de resultados los valores del índice.
tint <- data.frame(tint,indx)
tint
## lim.inf lim.sup indx
## 1 3.1252245 10.464236 TRUE
## 2 3.1385946 8.797828 FALSE
## 3 4.3761888 10.655646 TRUE
## 4 3.2412590 8.697080 FALSE
## 5 3.7369112 10.833230 TRUE
## 6 8.5164663 17.067861 TRUE
## 7 8.0171904 22.403558 TRUE
## 8 5.1757028 17.498997 TRUE
## 9 10.5528559 21.349542 FALSE
## 10 3.3457991 9.935429 FALSE
## 11 8.0186725 21.200498 TRUE
## 12 6.7635135 20.483050 TRUE
## 13 3.0183986 10.800894 TRUE
## 14 3.7158291 15.364873 TRUE
## 15 0.7457682 17.691553 TRUE
## 16 3.3566316 10.672721 TRUE
## 17 7.0412951 15.874158 TRUE
## 18 4.6035688 14.545655 TRUE
## 19 4.5855696 9.419131 FALSE
## 20 5.7592804 17.143065 TRUE
## 21 4.6483941 15.087418 TRUE
## 22 2.3900153 17.241334 TRUE
## 23 5.1047140 21.050348 TRUE
## 24 6.0623148 14.492900 TRUE
## 25 5.8438806 15.882992 TRUE
## 26 6.6787306 14.427936 TRUE
## 27 6.5824792 16.671138 TRUE
## 28 6.5383967 19.585436 TRUE
## 29 6.5869761 15.861515 TRUE
## 30 5.7281332 15.427579 TRUE
## 31 5.1165950 11.208142 TRUE
## 32 6.2772417 15.698356 TRUE
## 33 1.9604229 13.052075 TRUE
## 34 4.3450664 15.054306 TRUE
## 35 6.1198405 20.636399 TRUE
## 36 4.9407531 14.991574 TRUE
## 37 3.1093502 13.441047 TRUE
## 38 4.2210602 17.258070 TRUE
## 39 6.7233604 19.315076 TRUE
## 40 5.9135328 14.366330 TRUE
## 41 5.0806406 12.970084 TRUE
## 42 3.9612346 13.331438 TRUE
## 43 8.0117563 15.030730 TRUE
## 44 2.7851523 12.635464 TRUE
## 45 4.6826162 16.966781 TRUE
## 46 3.6692282 20.038238 TRUE
## 47 5.9204937 15.402411 TRUE
## 48 2.5302035 18.638543 TRUE
## 49 4.6710009 16.594722 TRUE
## 50 3.0103767 15.934955 TRUE
## 51 3.6504608 12.160344 TRUE
## 52 4.1280416 10.973828 TRUE
## 53 3.5520032 13.345204 TRUE
## 54 3.7059403 14.111319 TRUE
## 55 3.2547556 12.863171 TRUE
## 56 6.5233878 13.983443 TRUE
## 57 6.0933508 22.908322 TRUE
## 58 5.0325973 19.085711 TRUE
## 59 4.5874068 15.631468 TRUE
## 60 4.7601521 13.325328 TRUE
## 61 3.1875074 12.796337 TRUE
## 62 7.1136903 21.554049 TRUE
## 63 9.1496293 18.243843 TRUE
## 64 3.6938739 13.721057 TRUE
## 65 6.1551970 13.011036 TRUE
## 66 3.4909246 13.166304 TRUE
## 67 4.0217146 14.105124 TRUE
## 68 4.0036680 11.047551 TRUE
## 69 4.0026861 8.892307 FALSE
## 70 5.0046436 16.262222 TRUE
## 71 3.2925347 19.898320 TRUE
## 72 5.2175877 19.243094 TRUE
## 73 2.6258848 13.773853 TRUE
## 74 3.5878113 10.233560 TRUE
## 75 4.1530033 13.577373 TRUE
## 76 1.4374551 13.615747 TRUE
## 77 7.6985375 21.687549 TRUE
## 78 5.7871335 16.301721 TRUE
## 79 3.3196888 7.757145 FALSE
## 80 0.7700671 19.005423 TRUE
## 81 4.6958539 12.033884 TRUE
## 82 7.9524291 20.230475 TRUE
## 83 4.1859437 16.276868 TRUE
## 84 8.4570160 14.714968 TRUE
## 85 9.4160956 24.150969 TRUE
## 86 4.3360000 12.157285 TRUE
## 87 6.2801472 20.514330 TRUE
## 88 7.7963178 18.640144 TRUE
## 89 3.4485022 11.725682 TRUE
## 90 3.3792349 11.874025 TRUE
## 91 2.1171858 11.704154 TRUE
## 92 1.5525053 20.261630 TRUE
## 93 3.7806268 12.765966 TRUE
## 94 2.0710529 15.944913 TRUE
## 95 3.9008091 11.975517 TRUE
## 96 4.4961083 12.575881 TRUE
## 97 4.2245771 12.154404 TRUE
## 98 3.9490631 12.352996 TRUE
## 99 3.2885772 8.373247 FALSE
## 100 3.1566681 11.705867 TRUE
Estudios de caso 1
Germán, que realizó sus prácticas en la empresa de transportes LAMP S.A., se enfrentó con la siguiente situación. Su tutor en la empresa, le dio un informe técnico en el que hace seis meses, de una muestra aleatoria de 64 colectivos que prestan servicio en la ciudad de Asunción, se obtuvo el intervalo [ 3,8011 ; 4,3989 ] como estimación de la verdadera media del número de pasajeros por kilómetro, al nivel de confianza del 95%. La primera consigna para Germán fue que construyera, con los datos obtenidos en la muestra de 64 colectivos, un nuevo intervalo, tal que, el error máximo de la estimación fuera de 0,15 pasajeros por kilómetro
n1=64
linf1=3.8011
lsup1=4.3989
NC1=0.95
alfa1=1-NC1
z1=qnorm(1-alfa1/2)
z1
## [1] 1.959964
media1=(linf1+lsup1)/2
media1
## [1] 4.1
El error asociado al intervalo del 1er estudio
error1=lsup1-media1
error1
## [1] 0.2989
sigma1=(error1*sqrt(n1))/z1
sigma1
## [1] 1.220022
El intervalo que debe construir es de mayor precisión porque se reduce el error
error2=0.15
if(error2>error1) print("IC2 con menor precision") else print("IC2 con mayor precisión")
## [1] "IC2 con mayor precisión"
eem1=error1/z1
eem1
## [1] 0.1525028
eem2=error2/z1
eem2
## [1] 0.07653202
if (eem1==eem2) print("Permanece") else print("Se modifica")
## [1] "Se modifica"
n2=64
NC2=0.90
alfa2=1-NC2
z2=qnorm(1-alfa2/2)
z2
## [1] 1.644854
la misma información muestral implica la misma media muestral
media2=media1
linf2=media2-error2
linf2
## [1] 3.95
lsup2=media2+error2
lsup2
## [1] 4.25
NC3=0.99
alfa3=1-NC2
z3=qnorm(1-alfa2/2)
z3
## [1] 1.644854
error3=0.2
sigma3=sigma1
n3=(z3)^2*sigma3/error3^2
n3
## [1] 82.52059
Estudios de caso
Una compañía de seguros desea estudiar los hábitos respecto al riesgo de los residentes de Asunción. Se selecciona una muestra aleatoria de 40 participantes y se les pide que mantengan un registro detallado de las actividades riesgosas que realizan durante la semana. Se determinó que el número promedio de actividades riesgosas realizadas (suponiendo que dicen la verdad) es 15,3 horas y que presenta una desviación estándar muestral de 3,8 actividades.
Obtenga el IC al 98% de confianza para la media
mean=15.3
sd=3.8
n1=40
NC1=0.98
alfa1=1-NC1
alfa1
## [1] 0.02
z1=qnorm(1-alfa1/2, mean = 0, sd = 1)
z1
## [1] 2.326348
liminf1=mean-z1*sd/sqrt(n1)
liminf1
## [1] 13.90225
limsup1=mean+z1*sd/sqrt(n1)
limsup1
## [1] 16.69775
Caso 1.2
de=3.8
NC2=0.98
alfa2=1-NC2
alfa2
## [1] 0.02
e=1
z2=qnorm(1-alfa2/2,0,1)
z2
## [1] 2.326348
n2=((de*z2)/e)^2
n2
## [1] 78.14776
Caso 1.3
liminf2=mean-z2*sd/sqrt(n2)
liminf2
## [1] 14.3
limsup2=mean+z2*sd/sqrt(n2)
limsup2
## [1] 16.3
#mu1-mu2=delta
delta=-2
alfa=0.01
nivel1=c(14,12,15,15,11,16,17,12,14,13,18,13,18,15,16,11)
nivel1
## [1] 14 12 15 15 11 16 17 12 14 13 18 13 18 15 16 11
nivel2=c(20,22,18,18,19,15,18,15,22,18,19,15,21,22,18,16)
nivel2
## [1] 20 22 18 18 19 15 18 15 22 18 19 15 21 22 18 16
plot (nivel1)
Solución
n1=16
n2=16
gl=n1+n2-2
xbar1=mean(nivel1)
xbar1
## [1] 14.375
xbar2=mean(nivel2)
xbar2
## [1] 18.5
xbardif=xbar1-xbar2
xbardif
## [1] -4.125
S1=sd(nivel1)
S1
## [1] 2.276694
S2=sd(nivel2)
S2
## [1] 2.44949
REGLA: Rechazar H0 si tcalc<tcrit
Sp=sqrt(((n1-1)/(n1+n2-2))*S1^2+((n2-1)/(n1+n2-2))*S2^2)
Sp
## [1] 2.364671
tcrit=qt(alfa,gl)
tcrit
## [1] -2.457262
tcal=((xbar1-xbar2)-(delta))/(Sp*sqrt(1/n1+1/n2))
tcal
## [1] -2.541753
ENFOQUE CON PVALOR
Pvalor=pt(tcal,gl)
Pvalor
## [1] 0.008216869
CON FUNCIÓN DE R-PROJECT
t.test(nivel1,nivel2,mu=-2,alternative = c("less"), conf.level =1-alfa)
##
## Welch Two Sample t-test
##
## data: nivel1 and nivel2
## t = -2.5418, df = 29.841, p-value = 0.008232
## alternative hypothesis: true difference in means is less than -2
## 99 percent confidence interval:
## -Inf -2.070023
## sample estimates:
## mean of x mean of y
## 14.375 18.500
Alejandra es una alumna egresada de la carrera de Estadística en la FACEN que realizó su pasantía en una empresa conservera que tiene sede en Asunción y varias filiales en el país. Cuando Alejandra llegó a la empresa su tutor estaba realizando un estudio para tomar la decisión de producir una nueva marca extra condimentada de salsa de tomates. El departamento de investigación de mercado de la empresa realizó una encuesta telefónica nacional de 1.000 hogares y encontró que la salsa de tomates extra condimentada sería comprada por 330 de ellos. Hace dos años, un estudio mucho más extenso mostraba que el 25% de los hogares en ese entonces habrían comprado el producto. Su tutor le preguntó si opinaba que el interés por comprar la nueva marca había crecido significativamente.
H0: p = 0,25 H1: p > 0,25
n=1000
PH0=0.25
NC=0.98
alfa=1-NC
zcrit=qnorm(1-alfa)
zcrit
## [1] 2.053749
Pest=330/1000
zcal=(Pest-PH0)/sqrt((PH0*(1-PH0))/n)
zcal
## [1] 5.842374
Pvalor=1-pbinom(330,1000,0.25,log = FALSE)
Pvalor
## [1] 5.82433e-09
binom.test(x=330,n=1000,p=0.25,alternative="greater",conf.level = 0.98)
##
## Exact binomial test
##
## data: 330 and 1000
## number of successes = 330, number of trials = 1000, p-value = 8.708e-09
## alternative hypothesis: true probability of success is greater than 0.25
## 98 percent confidence interval:
## 0.299546 1.000000
## sample estimates:
## probability of success
## 0.33
Debe rechazar la H0, y Debe concluir que actualmente existe un mayor interes
Error de tipo I
xcrit=qbinom((1-0.02),1000,0.25)
xcrit
## [1] 278
alfa=1-pbinom(xcrit,1000,0.25)
alfa
## [1] 0.01958826
Error de tipo II: Asumida una H1 alternativa P=0.30
beta=pbinom(xcrit,1000,0.30)
beta
## [1] 0.06818224
De acuerdo con los resultados de la encuesta a egresados de la FACEN del año 2005, un estudiante de tecnología de producción puede esperar un salario promedio igual al egresar que los estudiantes de la carrera de estadística. Marcos, un estudiante del último año de la carrera de estadística, decide verificar si dicha hipótesis se mantenía luego de 10 años. Para ello relevó datos de dos muestras aleatorias de egresados de ambas carreras del año 2015 para realizar una prueba de hipótesis. Los datos recabados sobre los salarios percibidos (en millones de Gs. en la actualidad) y los resultados de la prueba fueron los siguientes:
tecnol <-c(5,4.1,3,2.5,2.6,2.1,2.0,5,7,2,2.1,2.3,2.6,3.5)
estad <-c(5.1,5.2,2.0,3.0,4,6,2,8,8.1,10,2.0)
De acuerdo con los resultados, Marcos puede rechazar la hipótesis nula de que un egresado de la carrera de tecnología puede esperar un ingreso igual que un egresado de la carrera de estadística?
Dado el intervalo de confianza obtenido por Marcos, es correcto decir que la probabilidad de que el verdadero valor de la diferencia de ingresos medios esté entre -0,2134 y 3,7433 es de 95%?
El Pvalor obtenido por Marcos significa que existe un 7,652% de probabilidad de obtener una diferencia de medias mayor que +1,764935?
mean(estad)
## [1] 5.036364
mean(tecnol)
## [1] 3.271429
test <- t.test(estad,tecnol,mu = 0,alternative="greater", conf.level = 0.95)
test
##
## Welch Two Sample t-test
##
## data: estad and tecnol
## t = 1.9068, df = 14.529, p-value = 0.03826
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 0.1388691 Inf
## sample estimates:
## mean of x mean of y
## 5.036364 3.271429
difmean=mean(estad)-mean(tecnol)
difmean
## [1] 1.764935