Curso de Inferencia Estadística II

Aplicaciones con el programa estadístico R-project

1 Los profesores

1.1 Diego Meza

Soy Licenciado en Ciencias Matemática Estadística por la Facultad de Ciencias Exactas y Naturales de la Universidad Nacional de Asunción, mismo lugar donde realicé el curso de Maestría en Matemática Estadística. Actualmente me dedico a enseñar estadísticas en la universidad, pero mi principal ocupación es la función pública donde tengo la responsabilidad de dirigir un departamento donde nos dedicamos a gestionar datos, especialmente de registros administrativos para la elaboración de proyecciones demográficas, económicas y actuariales que sirven para la toma de decisiones gerenciales. Esto apoyado principalmente en el manejo de una excelente herramienta como es el software R. (‘Statistical software for data science | stata,’ n.d.)

Prof. Diego Meza

En este enlace mi Currículum

1.2 Juan Mereles

Licenciado en Ciencias Mención Matemática Estadística, egresado de la Facultad de Ciencias Exactas y Naturales (FACEN). Magister en Elaboración, Gestión y Evaluación de Proyectos de Investigación Científica.

Se desempeña principalmente como docente universitario y como coordinador de investigación en el área de Educación a Distancia.

Prof. Juan Mereles

En este enlace mi Currículum

2 Introducción

Este documento ha sido elaborado como material de apoyo para el curso de Inferencia Estadística II. En el son incorporados varios ejemplos resueltos con el software estadístico $R$ y relacionados a los conceptos estudiados en la materia. En cada sección se incluyen los códigos necesarios para realizar las simulaciones que permiten verificar las propiedades y teoremas que son abordados en el curso. Para que puedas replicarlos basta con que tengas instalado el programa ya sea en la versión simple o la incorporada en la versión R-studio, copia los códigos y ejecútalos en un script en tu escritorio. Adicionalmente se incluyen una serie de estudios de casos para que puedas aplicar las teorías en la solución de problemas reales y así asimilar corréctamente los contenidos del curso. Es imprescindible que como egresado de la carrera de Estadísticas tengas manejo de al menos una herramienta para el análisis estadístico, y R Allaire et al. (2022) s una excelente opción que tienes y es totalmente gratuito.

R es un programa estadístico de libre acceso con funcionalidades imprescindibles para la programación y análisis estadístico.

3 Descargar e instalar el programa R-project y R-studio

3.1 R-project

Enlace para descargar el programa R-project

3.2 R-studio

Enlace para descargar el programa R-studio

Instalar R por primera vez

R para principiantes

Una introducción a R

3.3 Enlaces de interés

A continuación te dejamos algunos enlaces interesantes para aprender a usar R como herramienta para el análisis estadístico

3.4 Primeros pasos con R

Puede resultar de mucha utilidad trabajar y guardar los comandos usados en un “script” de R. El script es básicamente un documento de texto donde uno puede ir escribiendo todos los comandos a ejecutar. Considerando el hecho de que si se antepone a una línea de comando el signo #, este no será ejecutado y el programa lo considerará como un comentario.

Script en R

3.4.1 Librerías

# install.packages("hrbrthemes")
# install.packages("viridis")
# install.packages("dplyr")
# install.packages("data.table")
# install.packages("bookdown")
# install.packages("agricolae")
# install.packages("fastmap")
# install.packages("grDevices")
# install.packages("png")
# install.packages("sandwich")
# install.packages("reticulate")
# install.packages("tidyverse")
# install.packages("crosstable")
# install.packages("prettydoc")
# install.packages("rmdformats")
# install.packages("DescTools")
# install.packages("kableExtra")
# install.packages("expss")
# install.packages('descr')

library("hrbrthemes")
library("ggplot2")
library("dplyr")
library("viridis")
library("forcats")
library("bookdown")
library("hrbrthemes")
library("agricolae") 
library("fastmap")
library("grDevices")
library("png")
library("sandwich")
library("reticulate")
library("tidyverse")
library("crosstable")
library("prettydoc")
library("rmdformats")
library("DescTools") 
library("grid")
library("kableExtra")
library("expss")
library("data.table")
library("agricolae")  
library("descr")

3.4.2 Ayuda del R

Una de las cosas más importantes a la hora de trabajar con R es aprender a usar la ayuda. Para obtener la ayuda sobre alguna función o comando de R basta con escribir el comando help() y dentro del paréntesis incluir el nombre de la función o comando

help("seq")

La ayuda de R

3.4.3 R como calculadora

Puedes usar el programa R como una calculadora, basta con conocer cuáles son los signos y comandos a utilizar para realizar las opereaciones. Copia los comandos en tu script de R y ejecútalos para ver los resultados.

#suma
2+2

## [1] 4

#multiplicación
2*2

## [1] 4

#división
2/2

## [1] 1

#potencia
4^2

## [1] 16

#raíz cuadrada
sqrt(16)

## [1] 4

3.4.4 Carga de datos

Un primer paso para usar R en el estudio de la Estadística se relaciona con el proceso de cargar datos, que luego puedan ser analizados. Considera las variables “Edad del estudiante” y su “Altura”, carga los datos para luego realizar algunas operaciones estadísticas con ellos.

#cargamos una variable cuantitativa discreta
edad<-c(11,12,12,15,12,41)
edad

## [1] 11 12 12 15 12 41

#cargamos una variable cuantitativa contínua
altura=c(50,65,120,156,60,182)
altura

## [1]  50  65 120 156  60 182

#cargamos una variable cualitativa nominal
sexo=as.factor(c("Hombre","Mujer","Mujer","Hombre","Mujer","Mujer"))
sexo

## [1] Hombre Mujer  Mujer  Hombre Mujer  Mujer 
## Levels: Hombre Mujer

#cargamos una variable cualitativa ordinal
niveleducativo=as.factor(c("Sin instrucción","Educ. Básica","Educ.Básica","Unviversitaria","Unviversitaria","Educ. Básica"))
niveleducativo

## [1] Sin instrucción Educ. Básica    Educ.Básica     Unviversitaria 
## [5] Unviversitaria  Educ. Básica   
## Levels: Educ. Básica Educ.Básica Sin instrucción Unviversitaria

3.4.5 Data frame

#para indicar a R que los datos cargados están relacionados
datos=data.frame(edad,altura,sexo,niveleducativo)
datos

##   edad altura   sexo  niveleducativo
## 1   11     50 Hombre Sin instrucción
## 2   12     65  Mujer    Educ. Básica
## 3   12    120  Mujer     Educ.Básica
## 4   15    156 Hombre  Unviversitaria
## 5   12     60  Mujer  Unviversitaria
## 6   41    182  Mujer    Educ. Básica

3.4.6 Tablas de frecuencia

Usando la función table()

# Tablas de frecuencias para sexo
tab_sexo <- table(sexo)
tab_sexo

## sexo
## Hombre  Mujer 
##      2      4

# Tablas de frecuencias para edad
tab_edad <- table(edad)
tab_edad

## edad
## 11 12 15 41 
##  1  3  1  1

# Tablas de frecuencias de doble entrada
tab_sexo_edad <- table(sexo,edad)
tab_sexo_edad

##         edad
## sexo     11 12 15 41
##   Hombre  1  0  1  0
##   Mujer   0  3  0  1

# Proporción por sexo y edades
tab_sexo_edad <- table(sexo,edad)
prop.table(tab_sexo_edad, margin = 1)

##         edad
## sexo       11   12   15   41
##   Hombre 0.50 0.00 0.50 0.00
##   Mujer  0.00 0.75 0.00 0.25

# la función summary
summary(datos)

##       edad           altura           sexo           niveleducativo
##  Min.   :11.00   Min.   : 50.00   Hombre:2   Educ. Básica   :2     
##  1st Qu.:12.00   1st Qu.: 61.25   Mujer :4   Educ.Básica    :1     
##  Median :12.00   Median : 92.50              Sin instrucción:1     
##  Mean   :17.17   Mean   :105.50              Unviversitaria :2     
##  3rd Qu.:14.25   3rd Qu.:147.00                                    
##  Max.   :41.00   Max.   :182.00

#Usando la función table.freq()
tab_Edad <- hist(edad, plot=FALSE)
tab_Edad2=table.freq(tab_Edad); tab_Edad2

##   Lower Upper Main Frequency Percentage CF   CPF
## 1    10    20   15         5       83.3  5  83.3
## 2    20    30   25         0        0.0  5  83.3
## 3    30    40   35         0        0.0  5  83.3
## 4    40    50   45         1       16.7  6 100.0

3.5 Representaciones graficas

3.5.1 Graficas circulares o de sectores

Algunas gráficas estadísticas con los datos cargados

# una gráfica para sexo
pie(table(sexo),labels = c("Hombres","Mujeres"), main="Pie Chart",edges = 200)

3.5.2 Gráficos de barras

# una gráfica de barras
barplot(tab_edad)

# Histograma de las edades
hist(edad)

3.5.3 Histogramas de frecuencias y de porcentajes

# Histograma de las edades
hist(edad)

3.6 Generación de sequencias

#X es el conjunto de los números del 1 al 5
x <- seq (1, 5)
x

## [1] 1 2 3 4 5

#X es un conjunto formado por la secuencia de números desde el -6 hasta el valor 6 con saltos de valor 0,1
# help(seq)
x <- seq ( -6, 6,by=0.1)
x

##   [1] -6.0 -5.9 -5.8 -5.7 -5.6 -5.5 -5.4 -5.3 -5.2 -5.1 -5.0 -4.9 -4.8 -4.7 -4.6
##  [16] -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1
##  [31] -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6
##  [46] -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1
##  [61]  0.0  0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4
##  [76]  1.5  1.6  1.7  1.8  1.9  2.0  2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9
##  [91]  3.0  3.1  3.2  3.3  3.4  3.5  3.6  3.7  3.8  3.9  4.0  4.1  4.2  4.3  4.4
## [106]  4.5  4.6  4.7  4.8  4.9  5.0  5.1  5.2  5.3  5.4  5.5  5.6  5.7  5.8  5.9
## [121]  6.0

#X es un conjunto formado por la secuencia de 100 números desde el -6 hasta el valor 6 redondeado con tres valores decimales
x <- round(seq ( -6, 6, len=100 ),3)
x

##   [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
##  [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
##  [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
##  [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
##  [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
##  [51]  0.061  0.182  0.303  0.424  0.545  0.667  0.788  0.909  1.030  1.152
##  [61]  1.273  1.394  1.515  1.636  1.758  1.879  2.000  2.121  2.242  2.364
##  [71]  2.485  2.606  2.727  2.848  2.970  3.091  3.212  3.333  3.455  3.576
##  [81]  3.697  3.818  3.939  4.061  4.182  4.303  4.424  4.545  4.667  4.788
##  [91]  4.909  5.030  5.152  5.273  5.394  5.515  5.636  5.758  5.879  6.000

3.7 Abrir una base y resumir

R ya incorpora una serie de bases de datos que te pueden resultar de utilidad para empezar a explorar las posibilidades de análisis estadístico que te ofrece este programa.

Como ejemplo vamos a explorara la base de datos llamada cars.

#cargar la base
data(cars)
#visualizar los encabezados
head(cars)

##   speed dist
## 1     4    2
## 2     4   10
## 3     7    4
## 4     7   22
## 5     8   16
## 6     9   10

#resumir con algunas estadísticas las variables de la base 
summary(cars)

##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

3.8 Funciones con R

En R existen funciones ya establecidas y de uso muy común como el que te permite calcular el valor promedio (mean()), o el que te permite calcular la varianza (var()), pero tambien es posible crear tus propias funciones, basta con usar el comando “function”, como se muestra en los ejemplos siguientes:

#una función de las variables o argumentos x,y,z que multiplica sus valores

z=function(x,y,z){
x*y*z
}

# aplicamos la función creada sobre algunos datos

a=z(2,5,10)
a

## [1] 100

#función que reproduce el valor de la varianza de un conjunto de datos d

d=c(1,2,3)

vari=function(x){
sum((x-mean(x))^2)/(length(x))
}

vari(d)

## [1] 0.6666667

4 Aplicaciones de R para el estudio de la Estadística Inferencial

A partir de esta sección veremos como podemos utilizar R para estudiar los fundamentos de la Inferencia Estadística, nos apoyaremos principalmente en la realización de simulaciones para verificar las propiedades, teoremas y supuestos que conforman la teoría de la inferencia estadística.

4.1 Muestras aleatorio simple con R

# Muestra aleatoria extraída CON REPOSICIÓN de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=T)
muestra1

## [1] 8 3 3 5 4

# Muestra aleatoria extraida SIN reposición de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=F)
muestra1

## [1] 3 8 1 2 7

# 10 Muestras aleatorias de tamaño 3 obtenidas con reposición de la población P
muestras1<-sapply(1:10, function(x){(sample(P,3,rep=T))})
muestras1

##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    6    3    4   10    1    7    9   10    2     9
## [2,]    2    5   10    1    5    2    6   10    9     2
## [3,]    9    7    3   10    5    3    8    3    7     6

# 10 Muestras aleatorias de tamaño 3 obtenidas sin reposición de la población P
muestras2<-sapply(1:10, function(x){(sample(P,3,rep=F))})
muestras2

##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    4    4    1    9    5    7    5    4    8     2
## [2,]    2   10    6    7    4    8    8    7    3     6
## [3,]    6    1    8    1    9   10    9    2   10     8

Data=seq(1000,2000,1)
Data

##    [1] 1000 1001 1002 1003 1004 1005 1006 1007 1008 1009 1010 1011 1012 1013
##   [15] 1014 1015 1016 1017 1018 1019 1020 1021 1022 1023 1024 1025 1026 1027
##   [29] 1028 1029 1030 1031 1032 1033 1034 1035 1036 1037 1038 1039 1040 1041
##   [43] 1042 1043 1044 1045 1046 1047 1048 1049 1050 1051 1052 1053 1054 1055
##   [57] 1056 1057 1058 1059 1060 1061 1062 1063 1064 1065 1066 1067 1068 1069
##   [71] 1070 1071 1072 1073 1074 1075 1076 1077 1078 1079 1080 1081 1082 1083
##   [85] 1084 1085 1086 1087 1088 1089 1090 1091 1092 1093 1094 1095 1096 1097
##   [99] 1098 1099 1100 1101 1102 1103 1104 1105 1106 1107 1108 1109 1110 1111
##  [113] 1112 1113 1114 1115 1116 1117 1118 1119 1120 1121 1122 1123 1124 1125
##  [127] 1126 1127 1128 1129 1130 1131 1132 1133 1134 1135 1136 1137 1138 1139
##  [141] 1140 1141 1142 1143 1144 1145 1146 1147 1148 1149 1150 1151 1152 1153
##  [155] 1154 1155 1156 1157 1158 1159 1160 1161 1162 1163 1164 1165 1166 1167
##  [169] 1168 1169 1170 1171 1172 1173 1174 1175 1176 1177 1178 1179 1180 1181
##  [183] 1182 1183 1184 1185 1186 1187 1188 1189 1190 1191 1192 1193 1194 1195
##  [197] 1196 1197 1198 1199 1200 1201 1202 1203 1204 1205 1206 1207 1208 1209
##  [211] 1210 1211 1212 1213 1214 1215 1216 1217 1218 1219 1220 1221 1222 1223
##  [225] 1224 1225 1226 1227 1228 1229 1230 1231 1232 1233 1234 1235 1236 1237
##  [239] 1238 1239 1240 1241 1242 1243 1244 1245 1246 1247 1248 1249 1250 1251
##  [253] 1252 1253 1254 1255 1256 1257 1258 1259 1260 1261 1262 1263 1264 1265
##  [267] 1266 1267 1268 1269 1270 1271 1272 1273 1274 1275 1276 1277 1278 1279
##  [281] 1280 1281 1282 1283 1284 1285 1286 1287 1288 1289 1290 1291 1292 1293
##  [295] 1294 1295 1296 1297 1298 1299 1300 1301 1302 1303 1304 1305 1306 1307
##  [309] 1308 1309 1310 1311 1312 1313 1314 1315 1316 1317 1318 1319 1320 1321
##  [323] 1322 1323 1324 1325 1326 1327 1328 1329 1330 1331 1332 1333 1334 1335
##  [337] 1336 1337 1338 1339 1340 1341 1342 1343 1344 1345 1346 1347 1348 1349
##  [351] 1350 1351 1352 1353 1354 1355 1356 1357 1358 1359 1360 1361 1362 1363
##  [365] 1364 1365 1366 1367 1368 1369 1370 1371 1372 1373 1374 1375 1376 1377
##  [379] 1378 1379 1380 1381 1382 1383 1384 1385 1386 1387 1388 1389 1390 1391
##  [393] 1392 1393 1394 1395 1396 1397 1398 1399 1400 1401 1402 1403 1404 1405
##  [407] 1406 1407 1408 1409 1410 1411 1412 1413 1414 1415 1416 1417 1418 1419
##  [421] 1420 1421 1422 1423 1424 1425 1426 1427 1428 1429 1430 1431 1432 1433
##  [435] 1434 1435 1436 1437 1438 1439 1440 1441 1442 1443 1444 1445 1446 1447
##  [449] 1448 1449 1450 1451 1452 1453 1454 1455 1456 1457 1458 1459 1460 1461
##  [463] 1462 1463 1464 1465 1466 1467 1468 1469 1470 1471 1472 1473 1474 1475
##  [477] 1476 1477 1478 1479 1480 1481 1482 1483 1484 1485 1486 1487 1488 1489
##  [491] 1490 1491 1492 1493 1494 1495 1496 1497 1498 1499 1500 1501 1502 1503
##  [505] 1504 1505 1506 1507 1508 1509 1510 1511 1512 1513 1514 1515 1516 1517
##  [519] 1518 1519 1520 1521 1522 1523 1524 1525 1526 1527 1528 1529 1530 1531
##  [533] 1532 1533 1534 1535 1536 1537 1538 1539 1540 1541 1542 1543 1544 1545
##  [547] 1546 1547 1548 1549 1550 1551 1552 1553 1554 1555 1556 1557 1558 1559
##  [561] 1560 1561 1562 1563 1564 1565 1566 1567 1568 1569 1570 1571 1572 1573
##  [575] 1574 1575 1576 1577 1578 1579 1580 1581 1582 1583 1584 1585 1586 1587
##  [589] 1588 1589 1590 1591 1592 1593 1594 1595 1596 1597 1598 1599 1600 1601
##  [603] 1602 1603 1604 1605 1606 1607 1608 1609 1610 1611 1612 1613 1614 1615
##  [617] 1616 1617 1618 1619 1620 1621 1622 1623 1624 1625 1626 1627 1628 1629
##  [631] 1630 1631 1632 1633 1634 1635 1636 1637 1638 1639 1640 1641 1642 1643
##  [645] 1644 1645 1646 1647 1648 1649 1650 1651 1652 1653 1654 1655 1656 1657
##  [659] 1658 1659 1660 1661 1662 1663 1664 1665 1666 1667 1668 1669 1670 1671
##  [673] 1672 1673 1674 1675 1676 1677 1678 1679 1680 1681 1682 1683 1684 1685
##  [687] 1686 1687 1688 1689 1690 1691 1692 1693 1694 1695 1696 1697 1698 1699
##  [701] 1700 1701 1702 1703 1704 1705 1706 1707 1708 1709 1710 1711 1712 1713
##  [715] 1714 1715 1716 1717 1718 1719 1720 1721 1722 1723 1724 1725 1726 1727
##  [729] 1728 1729 1730 1731 1732 1733 1734 1735 1736 1737 1738 1739 1740 1741
##  [743] 1742 1743 1744 1745 1746 1747 1748 1749 1750 1751 1752 1753 1754 1755
##  [757] 1756 1757 1758 1759 1760 1761 1762 1763 1764 1765 1766 1767 1768 1769
##  [771] 1770 1771 1772 1773 1774 1775 1776 1777 1778 1779 1780 1781 1782 1783
##  [785] 1784 1785 1786 1787 1788 1789 1790 1791 1792 1793 1794 1795 1796 1797
##  [799] 1798 1799 1800 1801 1802 1803 1804 1805 1806 1807 1808 1809 1810 1811
##  [813] 1812 1813 1814 1815 1816 1817 1818 1819 1820 1821 1822 1823 1824 1825
##  [827] 1826 1827 1828 1829 1830 1831 1832 1833 1834 1835 1836 1837 1838 1839
##  [841] 1840 1841 1842 1843 1844 1845 1846 1847 1848 1849 1850 1851 1852 1853
##  [855] 1854 1855 1856 1857 1858 1859 1860 1861 1862 1863 1864 1865 1866 1867
##  [869] 1868 1869 1870 1871 1872 1873 1874 1875 1876 1877 1878 1879 1880 1881
##  [883] 1882 1883 1884 1885 1886 1887 1888 1889 1890 1891 1892 1893 1894 1895
##  [897] 1896 1897 1898 1899 1900 1901 1902 1903 1904 1905 1906 1907 1908 1909
##  [911] 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923
##  [925] 1924 1925 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937
##  [939] 1938 1939 1940 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950 1951
##  [953] 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965
##  [967] 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979
##  [981] 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
##  [995] 1994 1995 1996 1997 1998 1999 2000

set.seed(333)
n <- 1000
s_size <- round(.1*n,0)

#la muestra 
psuedoData <- Data[sample(x=1:n,size=s_size)]
psuedoData

##   [1] 1909 1424 1310 1577 1294 1315 1001 1645 1066 1555 1214 1358 1039 1574 1160
##  [16] 1342 1842 1345 1414 1325 1348 1589 1227 1133 1122 1440 1917 1976 1271 1837
##  [31] 1290 1112 1457 1379 1116 1537 1265 1527 1835 1368 1764 1332 1969 1776 1501
##  [46] 1308 1159 1620 1362 1680 1981 1104 1658 1183 1203 1519 1939 1797 1974 1556
##  [61] 1418 1256 1423 1622 1709 1665 1407 1057 1276 1883 1873 1980 1044 1902 1390
##  [76] 1174 1412 1572 1386 1389 1815 1481 1033 1613 1660 1300 1469 1766 1932 1772
##  [91] 1528 1139 1311 1856 1644 1189 1865 1087 1872 1930

Seleccione la muestra usando un comando de R.

empleados=seq(1,2850,by=1)

head(empleados)

## [1] 1 2 3 4 5 6

tail(empleados)

## [1] 2845 2846 2847 2848 2849 2850

muestra_empleados=sample(empleados,285,replace=F)
muestra_empleados

##   [1] 2066 2845 1039 2559  488 2767 1801 2384  380 2445 2723   86 1348 1520 2056
##  [16]  602 2582  247 1415 2299 2142 1191 1104 1960 1645 2635 1347 1511  834  244
##  [31]  920 1238 1640 2452 2493  573  255  899 1649  969 1957  788  807 2376  329
##  [46] 1871 1749 1061 2675 1006  278 1220 1862  517 2291 2808 2259 1373 1722 1630
##  [61]   32  354  618  451 2430 1451 1758 2363  581 2685  909 1513   56 2751  873
##  [76] 1501 1316 1214 1308 2686  513  185 1618 2754 2829  645  253 2272 1837 1157
##  [91]  117 2469  350 1403 2149 2156 1835  201  361 2131 2137 2356 1697  216  464
## [106] 2530 1273 2337 1914  418 2215 1710 2308   47  578 2014 2544 1432   39   59
## [121]  610 2117  565 2480 2534 1208 1779  566 1784  717 2528 1654 2191 2157  802
## [136]  636  538 2736 1154  970 2244 2134  110 2442  429 1217  737  215 1174 1487
## [151] 2494 2604 2795 1248   24 1865 1921 1773 2708 1599 2622   43 2755  949 1941
## [166]  765 1441  775 1712 1975 2498 2213 2643  358 1361 1358 1703 1890  432  812
## [181] 1256 2152 1222 2348 1920 1496 2540 1946  391  511 1685  473 2047 1569 2764
## [196] 1806 1309 2609  627  629  516 2511 1167 2616  989 2774  673 2642  116  894
## [211] 1673  499  956 1097 1326 2346  208 2467 2095    5  863 2166 2072 2278  601
## [226] 2267 1030 1476 1576  274 2520 1453  962 1428 2703  409 1059  533 1003 2592
## [241] 2491 2378 2342   50  148 1746 2413  341 2432 2461 2489  186 2307  808 2009
## [256]  296  750 1437 1714  149 1628  348 2365  442 1334 2637 1910 2709  676  319
## [271]  701  568 1025 1660 1675 2735 1016 1536 2785 2817  406  315 2164 1286 2618

¿si en la empresa 80% son mujeres, será representativa la muestra aleatoria simple?

sexo=rbinom(2850,1,0.8)
head(sexo)

## [1] 0 1 1 1 1 1

tail(sexo)

## [1] 1 1 0 1 1 1

summary(sexo)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  1.0000  1.0000  0.7965  1.0000  1.0000

sexo=factor(sexo, levels = c(0,1),labels = c("Hombre", "Mujer"))
plot(sexo)

4.2 Variable aleatoria con distribución discreta

A discrete random variable $X$ takes on values $x_i$ with probability $p_i$, $i=1, \ldots, m$, where $\sum_{i=1}^{m} p_i = 1$.

Example 1: Roll a fair die and let $X$ be the value that appears. Then $X$ takes on the values $1$ through $6$, each with probability $1/6$.

Example 2: You are told that there is a hundred dollar bill behind one of three doors and there is nothing behind the other two. Choose one of the doors and let $X$ be the amount of money that you find behind your door. Then $X$ takes on the value $100$ with probability $1/3$ and $0$ with probability $2/3$.

Now suppose that after choosing a door, but before opening it, you are told one of the other doors that does not contain the money. That is, suppose the hundred dollars is behind door number one. If you guessed one, then you are told either that it is not behind door number two or that it is not behind door number three. If you guessed two, you are told that it is not behind door number three, and if you guessed three then you are told that it is not behind door number two. You may now change your guess to the remaining door — the one that you did not choose the first time and that you were not told did not contain the hundred dollars. Let $Y$ be the amount of money that you find if you change your guess. Then $Y$ takes on the value $100$ with probability $2/3$ and $0$ with probability $1/3$. Do you see why?

The expected value of a discrete random variable $X$ is defined as

$E(X)\equiv \langle X \rangle = \sum_{i=1}^m p_i x_i .$

This is also sometimes called the mean of the random variable $X$ and denoted as $\mu$.

In Example 1 above,

$E(X) = \frac{1}{6} \cdot 1 + \frac{1}{6} \cdot 2 + \frac{1}{6} \cdot 3 +\frac{1}{6} \cdot 4 + \frac{1}{6} \cdot 5 + \frac{1}{6} \cdot 6 =\frac{7}{2} .$

In Example 2 above,

$E(X) = \frac{1}{3} \cdot 100 + \frac{2}{3} \cdot 0 = 33 \frac{1}{3} .$ $E(Y) = \frac{2}{3} \cdot 100 + \frac{1}{3} \cdot 0 = 66 \frac{2}{3} .$

If $X$ is a discrete random variable and $g$ is any function, then $g(X)$ is a discrete random variable and

$ E(g(X)) = _{i=1}^{m} p_i g( x_i )$

Example: $g(X) = a X + b$, $a$ and $b$ constants.

\[\begin{eqnarray*} E(g(X)) & = & \sum_{i=1}^{m} p_i ( a x_i + b ) \\ & = & a \sum_{i=1}^{m} p_i x_i ~+~ b~~~ \mbox{(since } \sum_{i=1}^{m} p_i = 1 ) \\ & = & a \cdot E(X) + b . \end{eqnarray*}\]

Example: $g(X) = X^2$. Then $E(g(X)) = \sum_{i=1}^{m} p_i x_i^2$.

In Example 1 above,

$E( X^2 ) = \frac{1}{6} \cdot 1^2 + \frac{1}{6} \cdot 2^2 +\frac{1}{6} \cdot 3^2 + \frac{1}{6} \cdot 4^2 +\frac{1}{6} \cdot 5^2 + \frac{1}{6} \cdot 6^2 = \frac{91}{6} .$

Let $\mu = E(X)$ denote the expected value of $X$. The expected value of the $square of the difference$ between $X$ and $\mu$ is

\[\begin{eqnarray*} E( ( X - \mu )^2 ) & = & \sum_{i=1}^{m} p_i ( x_i - \mu )^2 \\ & = & \sum_{i=1}^{m} p_i ( x_i^2 - 2 \mu x_i + \mu^2 ) \\ & = & \sum_{i=1}^{m} p_i x_i^2 - 2 \mu \sum_{i=1}^{m} p_i x_i + \mu^2 \\ & = & E( X^2 ) - \mu^2 \\ & = & E( X^2 ) - (E(X) )^2 . \end{eqnarray*}\]

The quantity $E( X^2 ) - ( E(X) )^2$ is called the $variance$ of the random variable $X$ and is denoted var($X$). The square root of the variance, $\sigma \equiv \sqrt{ \mbox{var}(X)}$ is called the standard deviation. In Example 1 above,

$\mbox{var}(X) = \frac{91}{6} - \left( \frac{7}{2} \right)^2 = \frac{35}{12} .$

Let $X$ and $Y$ be two random variables and let $c_1$ and $c_2$ be constants. Then

\[\begin{eqnarray*} \mbox{var}( c_1 X + c_2 Y ) & = & E( ( c_1 X + c_2 Y )^2 ) ~-~ ( E( c_1 X + c_2 Y ) )^2 \\ & = & E( c_1^2 X^2 + 2 c_1 c_2 XY + c_2^2 Y^2 ) ~-~ ( c_1 E(X) + c_2 E(Y) )^2 \\ & = & c_1^2 E( X^2 ) + 2 c_1 c_2 E(XY) + c_2^2 E( Y^2 ) ~- \\ & & [ c_1^2 ( E(X) )^2 + 2 c_1 c_2 E(X) E(Y) + c_2^2 ( E(Y) )^2 ] \\ & = & c_1^2 \mbox{var}(X) + c_2^2 \mbox{var}(Y) + 2 c_1 c_2 ( E(XY) - E(X)E(Y) ) . \end{eqnarray*}\]

The $covariance$ of $X$ and $Y$, denoted cov($X,Y$), is the quantity $E(XY) - E(X)E(Y)$.

Two random variables $X$ and $Y$ are said to be $independent$ if the value of one does not depend on that of the other; that is, if the probability that $X = x_i$ is the same regardless of the value of $Y$ and the probability that $Y = y_j$ is the same regardless of the value of $X$. Equivalently, the probability that $X = x_i$ and $Y = y_j$ is the $product$ of the probability that $X = x_i$ and the probability that $Y = y_j$.

Example: Toss two fair coins. There are four equally probable outcomes: HH, HT, TH, TT. Let $X$ equal $1$ if first coin is heads, $0$ if first coin is tails. Let $Y$ equal $1$ if second coin is heads, $0$ if second coin is tails. Then $X$ and $Y$ are independent because, for example,

$\mbox{Prob}( X=1 \mbox{ and } Y=0 ) = \frac{1}{4} = \frac{1}{2} \cdot \frac{1}{2} = \mbox{Prob}( X=1 ) \cdot \mbox{Prob}( Y=0 ) ,$

and similarly, for all other possible values,

$\mbox{Prob}( X= x_i \mbox{ and } Y= y_j ) = \mbox{Prob}( X= x_i ) \cdot\mbox{Prob}( Y= y_j )$.

In contrast, if we define $Y$ to be $0$ if outcome is $TT$ and $1$ otherwise, then $X$ and $Y$ are not independent because

$\mbox{Prob}(X=1 \mbox{ and }Y=0) = 0$, yet $\mbox{Prob}(X=1) = 1/2$

and $\mbox{Prob}(Y=0) = 1/4$.

If $X$ and $Y$ are independent random variables, then cov($X,Y)=0$, and $\mbox{var}( c_1 X + c_2 Y ) = c_1^2 \mbox{var}(X) + c_2^2 \mbox{var}(Y) .$

4.2.1 Distribución Bernoulli

Definiciòn

Una variable aleatoria discreta $X$ tiene distribución de Bernoulli de parámetro $p$ si su función de probabilidad es

\[ \begin{equation} f(x;p) = \left\{ \begin{array}{cc} p & \mathrm{si\ } x=1 \\ 1-p & \mathrm{si\ } x=0 \\ \end{array} \right. \end{equation} \]

\[ P(X = 1) = p, P(X = 0) = 1-p \] \[ p^x(1-p)^{1-x} \]

\[ E(X) = \mu_X = p \]

\[ Var(X) = \sigma^2_X = p(1-p) \]

4.2.2 Distribución binomial

Definición

Una variable aleatoria discreta $X$ tiene una distribución binomial de parámetro $p$ si su función de probabilidad es

\[P(X = k) = \left\{ \begin{array}{cl} \displaystyle{\binom{n}{k}} p^k (1-p)^{n-k} & \text{si } x=0,1,...,n \\ 0 & \text{en cualquier otro caso} \end{array} \right.\]

donde

\[ \binom{n}{k} = \frac{n!}{k!(n - k)!} = {n}C_{k} = C_{k}^n \]

where A is the permutation

\[\frac{A_n^k}{k!} = \binom{n}{k}\] donde: \[A_n^k = \frac{n!}{(n-k)!}\] are the different ordered arrangements of a k-element subset of an n-set

Triángulo de Pascal

\[\binom{n}{k} = \binom{n-1}{k-1} +\binom{n-1}{k}\]

Estudio de caso

Simular una población de 100 personas donde la variable de interés es el sexo y se sabe que el 80% son mujeres.

sexo=rbinom(100,1,0.8)
sexo

##   [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 0 1 1
##  [38] 1 1 1 0 1 1 0 1 1 1 1 0 1 1 0 0 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1
##  [75] 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 0

sexo=factor(sexo, levels = c(0,1),labels = c("Hombre", "Mujer"))
sexo

##   [1] Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer 
##  [11] Mujer  Mujer  Mujer  Mujer  Hombre Mujer  Mujer  Mujer  Mujer  Mujer 
##  [21] Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Hombre
##  [31] Mujer  Hombre Mujer  Mujer  Hombre Mujer  Mujer  Mujer  Mujer  Mujer 
##  [41] Hombre Mujer  Mujer  Hombre Mujer  Mujer  Mujer  Mujer  Hombre Mujer 
##  [51] Mujer  Hombre Hombre Hombre Mujer  Mujer  Hombre Mujer  Mujer  Mujer 
##  [61] Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer 
##  [71] Mujer  Hombre Mujer  Mujer  Hombre Mujer  Mujer  Hombre Mujer  Mujer 
##  [81] Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer  Mujer 
##  [91] Mujer  Mujer  Mujer  Mujer  Mujer  Hombre Mujer  Mujer  Hombre Hombre
## Levels: Hombre Mujer

plot(sexo)

p=1/6
# La probabilidad de tener x aciertos en 6 lanzamientos
dado=rbinom(10000,6,p)
head(dado)

## [1] 0 0 2 0 0 1

tail(dado)

## [1] 0 0 1 2 3 0

hist(dado)

Estudio de caso

Simula la distribución de la cantidad de caras que salen al lanzar dos monedas. Suponga que se repite el experimento 30 veces.

sample(0:2,10,rep=T)

##  [1] 0 2 2 0 0 0 1 0 0 2

t<-sapply(1:30, function(x){sum(sample(0:2,1,rep=T))})
t

##  [1] 0 0 2 0 2 0 2 0 0 0 0 0 0 1 0 0 0 1 0 1 0 0 2 2 1 0 1 1 2 0

table(t)

## t
##  0  1  2 
## 18  6  6

barplot(table(t))

¿Es posible sacar alguna conclusión al respecto de la distribución?

Repite el experimento 300 veces

t<-sapply(1:300, function(x){sum(sample(0:5,1,rep=T))})
t

##   [1] 5 3 3 5 1 2 0 0 1 5 3 2 3 1 5 1 0 4 1 0 3 1 4 5 3 3 3 4 4 2 3 0 4 2 0 0 5
##  [38] 3 3 5 1 0 2 3 0 0 1 0 4 1 2 1 0 0 2 0 5 0 4 5 4 2 0 1 0 2 4 5 2 5 2 5 2 3
##  [75] 4 0 0 3 3 2 2 1 1 1 5 5 0 2 4 5 0 4 1 1 1 5 1 4 1 2 2 4 1 5 5 3 4 5 2 5 1
## [112] 3 2 5 5 4 5 0 3 5 0 0 2 3 4 5 5 1 3 2 1 4 5 5 1 2 5 5 3 3 2 1 4 1 5 3 1 1
## [149] 0 2 1 1 0 4 1 4 5 1 1 2 3 2 5 4 4 4 3 0 5 0 4 5 5 0 3 5 0 3 3 4 4 4 0 4 1
## [186] 1 0 2 4 1 4 0 1 2 2 2 1 0 5 2 2 5 2 1 3 3 2 5 2 4 1 3 0 3 4 5 4 2 4 2 2 5
## [223] 1 2 1 0 5 5 0 3 2 5 1 2 0 2 1 2 0 3 0 1 3 1 0 3 1 4 0 3 4 0 4 4 4 2 2 1 2
## [260] 4 0 4 4 0 0 3 3 5 3 0 5 4 4 2 1 4 4 1 1 1 1 0 0 4 2 1 5 1 2 4 0 5 1 0 4 1
## [297] 2 5 5 1

table(t)

## t
##  0  1  2  3  4  5 
## 51 58 50 40 50 51

barplot(table(t))

Estudio de caso

Simula la distribució de la suma de los números que salen al lanzar dos dados

sample(1:6,4,rep=T)

## [1] 5 3 6 1

sum(sample(1:6,4,rep=T))

## [1] 14

para 100 ensayos

t<-sapply(1:100, function(x){sum(sample(1:6,4,rep=T))})
t

##   [1] 16 15 10 11 14 13 11 16 19 14 13 10  9 10 13 13 12 17  9 15 11 16 13  8 15
##  [26] 11 16 17 12 18 10 14 12 19 13 15 10 18 15 10 17 11 14 11 19 10  9 16 12  8
##  [51]  7 12 13 22 16  9 11 15 12 10 14 15 10 12 19 17  9 14 12 14 11 13 18 10 12
##  [76] 14 14 12 13 11 13 22 10 13 16 13 12 15  8 14 12 13 15 20 17 15 19 15 14 21

table(t)

## t
##  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 
##  1  3  5 11  9 12 13 11 11  7  5  3  5  1  1  2

barplot(table(t))

para 1000 ensayos

u<-sapply(1:1000, function(x){sum(sample(1:6,4,rep=T))})
barplot(table(u))

para 100.000 ensayos

v<-sapply(1:10000, function(x){sum(sample(1:6,4,rep=T))})
barplot(table(v))

¿Es posible sacar alguna conclusión al respecto de la distribución de la suma obtenida en las caras?

Estudio de caso

Simula la distribució de la suma de los números que salen al lanzar cuatro dados 10.000 de veces. Identifique la suma más probable.

v<-sapply(1:10000, function(x){sum(sample(1:6,4,rep=T))})
barplot(table(v))

4.2.3 Variable aleatoria con distribución poisson

Una variable aleatoria $X$ se dice que es de Poisson de parámetro $\lambda>0$ si su función de probabilidad está definida como

\[ P(X=x) = \begin{cases} \dfrac{e^{-\lambda}\lambda^x}{x!} & \text{si } x=0,1,2,... \\ 0 & \text{en cualquier otro caso} \end{cases} \]

En la distribución la media y la varianza coinciden, es decir, $E(X)=Var(X)=\lambda$.

4.3 Variable aleatoria con distribución contínua

If a random variable $X$ can take on any of a continuum of values, say, any value between $0$ and $1$, then we cannot define it by listing values $x_i$ and giving the probability $p_i$ that $X= x_i$; for any single value $x_i$, $\mbox{Prob}(X = x_i )$ is zero! Instead we can define the cumulative distribution function:

$F(x) \equiv \mbox{Prob}(X < x ) ,$

or the probability density function (pdf):

$\rho (x)\,dx \equiv \mbox{Prob}( X \in [ x, x+\,dx ] ) = F(x+\,dx ) - F(x) .$

Letting $dx \rightarrow 0$, we find

$\rho (x) = F'(x) ,~~~F(x) = \int_{- \infty}^{x} \rho (t)\,dt .$

(For a more formal mathematical derivation, take a course in probability or measure theory. This will suffice for our purposes.)

The expected value of a continuous random variable $X$ is then defined by

$E(X) = \int_{- \infty}^{\infty} x \rho (x)\,dx .$

Note that by definition, $\int_{- \infty}^{\infty} \rho (x)\,dx = 1$. The expected value of $X^2$ is

$E( X^2 ) = \int_{- \infty}^{\infty} x^2 \rho (x)\,dx ,$

and the variance is again defined as $E( X^2 ) - (E(X) )^2$.

Example: Uniform Distribution in $[0,1]$.

\[F(x) = \left\{ \begin{array}{cl} 0 & \mbox{if } x < 0 \\ x & \mbox{if } 0 \leq x \leq 1 \\ 1 & \mbox{if } x > 1 \end{array} \right. ,~~~ \rho (x) = \left\{ \begin{array}{cl} 0 & \mbox{if } x < 0 \\ 1 & \mbox{if } 0 \leq x \leq 1 \\ 0 & \mbox{if } x > 1 \end{array} \right.\]

$E(X) = \int_{- \infty}^{\infty} x \rho (x)\,dx = \int_{0}^{1} x\,dx = \frac{1}{2} ,$

$\mbox{var}(X) = \int_{0}^{1} x^2\,dx - \left( \frac{1}{2} \right)^2 =\frac{1}{3} - \frac{1}{4} = \frac{1}{12} .$

Example: Normal (Gaussian) Distribution, Mean $\mu$, Variance $\sigma^2$.

$\rho (x) = \frac{1}{\sigma \sqrt{2 \pi}}~\exp \left( - \frac{(x - \mu )^2}{2 \sigma^2} \right) ,$

$F(x) = \frac{1}{\sigma \sqrt{2 \pi}}~\int_{- \infty}^{x} \exp \left( -\frac{(t - \mu )^2}{2 \sigma^2} \right) \,dt$

4.3.1 Pseudorandom Number Generators

4.3.2 Distribución uniforme

\[X_i \stackrel{iid}{\sim} U[0, 1]\]

mu10=sample(runif(100,0,1),50,rep=T)
mu10

##  [1] 0.144634831 0.805856121 0.490030302 0.060207580 0.890073922 0.451722343
##  [7] 0.019849212 0.464314196 0.258541825 0.864267797 0.907955596 0.766630250
## [13] 0.718821334 0.342934703 0.906356126 0.873705012 0.403890211 0.005605501
## [19] 0.273836776 0.005108057 0.490030302 0.535928883 0.458694353 0.082327513
## [25] 0.807212172 0.116256322 0.430403067 0.049477275 0.716838389 0.448308979
## [31] 0.761004041 0.868262308 0.805856121 0.716838389 0.809174900 0.533570437
## [37] 0.631565865 0.089800581 0.869347741 0.882304534 0.383405325 0.019849212
## [43] 0.805515476 0.338556307 0.653796538 0.111965035 0.430403067 0.448308979
## [49] 0.906356126 0.906356126

hist(mu10)

mu1000=sample(runif(100,0,1),1000,rep=T)
head(mu1000)

## [1] 0.1213838 0.1828582 0.2166039 0.3116694 0.6475385 0.1213838

tail(mu1000)

## [1] 0.7248528 0.5037491 0.9287404 0.8100480 0.5901328 0.2308900

hist(mu1000)

4.3.3 Variable aleatoria con distribución exponencial

Una variable aleatoria $X$ se dice que tiene una distribución exponencial de parámetro $\lambda>0$ si su función de densidad de probabilidad es

\[ f(x) = \begin{cases} \lambda e^{-\lambda x} & \text{si } x>0\\ 0 & \text{si } x\le 0 \end{cases} \]

La media y la varianza de una variable exponencial son respectivamente $E(X)=\dfrac{1}{\lambda}$ y $Var(X)=\dfrac{1}{\lambda^2}$.

Ejemplo: Sea una variable $X$ que mide el tiempo de duración de un cierto tipo de artefacto eléctrico. Se sabe que esta variable tiene una distribución exponencial de parámetro $\lambda=5$. Su función de densidad de probabilidad es entonces

\[ f(x) = \begin{cases} 5 e^{-5 x} & \text{si } x>0\\ 0 & \text{si } x\le 0 \end{cases} \]

y su gráfica es

x <- seq(0, 2, length.out = 1000)
RcmdrMisc::plotDistr(x, dexp(x, rate = 5), ylab="f(x)",
                     main = expression(paste("Distribución exponencial de parámetro ",lambda==5)), las=1)

## Registered S3 methods overwritten by 'Hmisc':
##   method                 from 
##   [.labelled             expss
##   print.labelled         expss
##   as.data.frame.labelled expss

set.seed(333)
n<-10000
lambda<-10
x<- -log(runif(n,0,1))/lambda
hist(x)

4.3.4 Variable aleatoria con distribución normal

Una variable aleatoria $X$ tiene una distribución normal de parámetros $\mu$ y $\sigma$ si su función de densidad de probabilidad es

\[ f(x; \mu, \sigma) = \dfrac{1}{\sigma\sqrt{2\pi}}\exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)\ \ \text{ si }\ \ x \in \mathbb{R} \]

donde $E(X)=\mu$ y $Var(X)=\sigma^2$.

Contraste entre varias curvas normales con diferentes parámetros de media y desvío estándar

Veamos algunos perfiles de la distribución normal para ciertos valores de $\mu$ y $\sigma$.

x <- round(seq(-6, 6, len=100),3)
x

##   [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
##  [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
##  [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
##  [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
##  [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
##  [51]  0.061  0.182  0.303  0.424  0.545  0.667  0.788  0.909  1.030  1.152
##  [61]  1.273  1.394  1.515  1.636  1.758  1.879  2.000  2.121  2.242  2.364
##  [71]  2.485  2.606  2.727  2.848  2.970  3.091  3.212  3.333  3.455  3.576
##  [81]  3.697  3.818  3.939  4.061  4.182  4.303  4.424  4.545  4.667  4.788
##  [91]  4.909  5.030  5.152  5.273  5.394  5.515  5.636  5.758  5.879  6.000

#f1 es la función de densidad para cada valor posible de X, si esta sigue una distribución normal de media 0 y varianza 1
f1=dnorm(x, 0, 1)
f1

##   [1] 6.075883e-09 1.246602e-08 2.520507e-08 5.050535e-08 9.915803e-08
##   [6] 1.918491e-07 3.657912e-07 6.873030e-07 1.279056e-06 2.333645e-06
##  [11] 4.195867e-06 7.434472e-06 1.304050e-05 2.243639e-05 3.804111e-05
##  [16] 6.356163e-05 1.046594e-04 1.704959e-04 2.726012e-04 4.295197e-04
##  [21] 6.669293e-04 1.020512e-03 1.543994e-03 2.294109e-03 3.359111e-03
##  [26] 4.847033e-03 6.912039e-03 9.684748e-03 1.337248e-02 1.819604e-02
##  [31] 2.439965e-02 3.231510e-02 4.207679e-02 5.399097e-02 6.827176e-02
##  [36] 8.507513e-02 1.046445e-01 1.266217e-01 1.509878e-01 1.774258e-01
##  [41] 2.054627e-01 2.347138e-01 2.639280e-01 2.924649e-01 3.193770e-01
##  [46] 3.438839e-01 3.646466e-01 3.810430e-01 3.923894e-01 3.982007e-01
##  [51] 3.982007e-01 3.923894e-01 3.810430e-01 3.646466e-01 3.438839e-01
##  [56] 3.193770e-01 2.924649e-01 2.639280e-01 2.347138e-01 2.054627e-01
##  [61] 1.774258e-01 1.509878e-01 1.266217e-01 1.046445e-01 8.507513e-02
##  [66] 6.827176e-02 5.399097e-02 4.207679e-02 3.231510e-02 2.439965e-02
##  [71] 1.819604e-02 1.337248e-02 9.684748e-03 6.912039e-03 4.847033e-03
##  [76] 3.359111e-03 2.294109e-03 1.543994e-03 1.020512e-03 6.669293e-04
##  [81] 4.295197e-04 2.726012e-04 1.704959e-04 1.046594e-04 6.356163e-05
##  [86] 3.804111e-05 2.243639e-05 1.304050e-05 7.434472e-06 4.195867e-06
##  [91] 2.333645e-06 1.279056e-06 6.873030e-07 3.657912e-07 1.918491e-07
##  [96] 9.915803e-08 5.050535e-08 2.520507e-08 1.246602e-08 6.075883e-09

y <- cbind(round(f1,3), round(dnorm(x, -2, 1), 3),
           round(dnorm(x, 0, 2), 3), round(dnorm( x, 0, .5),3),
           round(dnorm(x, 2, .3), 3), round(dnorm(x, -.5, 3 ),3))
valores=data.frame(x,y)
head(valores)

##        x X1    X2    X3 X4 X5    X6
## 1 -6.000  0 0.000 0.002  0  0 0.025
## 2 -5.879  0 0.000 0.003  0  0 0.027
## 3 -5.758  0 0.000 0.003  0  0 0.029
## 4 -5.636  0 0.001 0.004  0  0 0.031
## 5 -5.515  0 0.001 0.004  0  0 0.033
## 6 -5.394  0 0.001 0.005  0  0 0.035

matplot(x, y, type="l", col=c(1,2,3,4,5,6), las = 1, ylab = "f(x)")
legend(-6, 1.3, expression(paste(mu==0," ; ", sigma==1),
                           paste(mu==-2," ; ", sigma==1),
                           paste(mu==0," ; ", sigma==2),
                           paste(mu==0," ; ", sigma==0.5),
                           paste(mu==2," ; ", sigma==0.3),
                           paste(mu==-0.5," ; ", sigma==3)),
       lty = 1:6, cex = 0.7, col=c(1,2,3,4,5,6))

matplot dnomr

4.3.4.1 Cálculo de probabilidades con la distribución normal

# la probabilidad de que una variable aleatoria normal estándar tenga un valor menor a 1.5
pbb=pnorm(1.5,mean=0,sd=1)
pbb

## [1] 0.9331928

x <- seq(-3.5, 3.5, length.out = 1000)
RcmdrMisc::plotDistr(x,dnorm(x,0,1), 
                     regions = list(c(-3.5,1.5)), 
                     legend = F, bty = "n", las = 1,
                     xlab="x", ylab="f(x)")

# la probabilidad de que una variable aleatoria normal de media 20 y desvío estándar 2 tenga un valor mayor a 18 y menor 21
area=pnorm(21,20,2)-pnorm(18,20,2)
area

## [1] 0.5328072

x <- seq(13, 27, length.out = 1000)
RcmdrMisc::plotDistr(x,dnorm(x,20,2), 
                     regions = list(c(18, 21)),
                     legend = F, bty = "n", las = 1,
                     xlab="x", ylab="f(x)")

Si aplicamos barplot() al objeto f1 tenemos un histograma cuya apariencia en la siguiente:

# Gráfica de la función f1
barplot(f1, las=1)

Barplot f1

La tabla de la distribución normal

q=round(seq(-4,4,length=100),3)
q

##   [1] -4.000 -3.919 -3.838 -3.758 -3.677 -3.596 -3.515 -3.434 -3.354 -3.273
##  [11] -3.192 -3.111 -3.030 -2.949 -2.869 -2.788 -2.707 -2.626 -2.545 -2.465
##  [21] -2.384 -2.303 -2.222 -2.141 -2.061 -1.980 -1.899 -1.818 -1.737 -1.657
##  [31] -1.576 -1.495 -1.414 -1.333 -1.253 -1.172 -1.091 -1.010 -0.929 -0.848
##  [41] -0.768 -0.687 -0.606 -0.525 -0.444 -0.364 -0.283 -0.202 -0.121 -0.040
##  [51]  0.040  0.121  0.202  0.283  0.364  0.444  0.525  0.606  0.687  0.768
##  [61]  0.848  0.929  1.010  1.091  1.172  1.253  1.333  1.414  1.495  1.576
##  [71]  1.657  1.737  1.818  1.899  1.980  2.061  2.141  2.222  2.303  2.384
##  [81]  2.465  2.545  2.626  2.707  2.788  2.869  2.949  3.030  3.111  3.192
##  [91]  3.273  3.354  3.434  3.515  3.596  3.677  3.758  3.838  3.919  4.000

pbb1=round(pnorm(q,0,1),3)
pbb1

##   [1] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.001 0.001
##  [13] 0.001 0.002 0.002 0.003 0.003 0.004 0.005 0.007 0.009 0.011 0.013 0.016
##  [25] 0.020 0.024 0.029 0.035 0.041 0.049 0.058 0.067 0.079 0.091 0.105 0.121
##  [37] 0.138 0.156 0.176 0.198 0.221 0.246 0.272 0.300 0.329 0.358 0.389 0.420
##  [49] 0.452 0.484 0.516 0.548 0.580 0.611 0.642 0.671 0.700 0.728 0.754 0.779
##  [61] 0.802 0.824 0.844 0.862 0.879 0.895 0.909 0.921 0.933 0.942 0.951 0.959
##  [73] 0.965 0.971 0.976 0.980 0.984 0.987 0.989 0.991 0.993 0.995 0.996 0.997
##  [85] 0.997 0.998 0.998 0.999 0.999 0.999 0.999 1.000 1.000 1.000 1.000 1.000
##  [97] 1.000 1.000 1.000 1.000

plot(pbb1, las=1)

#Funcion de densidad
dens1=dnorm(q,0,1)
dens1

##   [1] 0.0001338302 0.0001844340 0.0002525098 0.0003421640 0.0004623895
##   [6] 0.0006207721 0.0008279556 0.0010970653 0.0014393027 0.0018824088
##  [11] 0.0024458305 0.0031571075 0.0040485822 0.0051578315 0.0065093281
##  [16] 0.0081853400 0.0102255782 0.0126908181 0.0156473918 0.0191194138
##  [21] 0.0232682262 0.0281321274 0.0337903327 0.0403211541 0.0477011853
##  [26] 0.0561831419 0.0657405705 0.0764207874 0.0882551672 0.1010880830
##  [31] 0.1152298404 0.1304909983 0.1468069922 0.1640829751 0.1819646151
##  [36] 0.2007428520 0.2200107141 0.2395510977 0.2591212881 0.2784573054
##  [41] 0.2970512687 0.3150817868 0.3320211746 0.3475832643 0.3614951936
##  [46] 0.3733695746 0.3832824734 0.3908855264 0.3960324870 0.3986232542
##  [51] 0.3986232542 0.3960324870 0.3908855264 0.3832824734 0.3733695746
##  [56] 0.3614951936 0.3475832643 0.3320211746 0.3150817868 0.2970512687
##  [61] 0.2784573054 0.2591212881 0.2395510977 0.2200107141 0.2007428520
##  [66] 0.1819646151 0.1640829751 0.1468069922 0.1304909983 0.1152298404
##  [71] 0.1010880830 0.0882551672 0.0764207874 0.0657405705 0.0561831419
##  [76] 0.0477011853 0.0403211541 0.0337903327 0.0281321274 0.0232682262
##  [81] 0.0191194138 0.0156473918 0.0126908181 0.0102255782 0.0081853400
##  [86] 0.0065093281 0.0051578315 0.0040485822 0.0031571075 0.0024458305
##  [91] 0.0018824088 0.0014393027 0.0010970653 0.0008279556 0.0006207721
##  [96] 0.0004623895 0.0003421640 0.0002525098 0.0001844340 0.0001338302

tablaZ=data.frame(q,pbb1,dens1)
tablaZ

##          q  pbb1        dens1
## 1   -4.000 0.000 0.0001338302
## 2   -3.919 0.000 0.0001844340
## 3   -3.838 0.000 0.0002525098
## 4   -3.758 0.000 0.0003421640
## 5   -3.677 0.000 0.0004623895
## 6   -3.596 0.000 0.0006207721
## 7   -3.515 0.000 0.0008279556
## 8   -3.434 0.000 0.0010970653
## 9   -3.354 0.000 0.0014393027
## 10  -3.273 0.001 0.0018824088
## 11  -3.192 0.001 0.0024458305
## 12  -3.111 0.001 0.0031571075
## 13  -3.030 0.001 0.0040485822
## 14  -2.949 0.002 0.0051578315
## 15  -2.869 0.002 0.0065093281
## 16  -2.788 0.003 0.0081853400
## 17  -2.707 0.003 0.0102255782
## 18  -2.626 0.004 0.0126908181
## 19  -2.545 0.005 0.0156473918
## 20  -2.465 0.007 0.0191194138
## 21  -2.384 0.009 0.0232682262
## 22  -2.303 0.011 0.0281321274
## 23  -2.222 0.013 0.0337903327
## 24  -2.141 0.016 0.0403211541
## 25  -2.061 0.020 0.0477011853
## 26  -1.980 0.024 0.0561831419
## 27  -1.899 0.029 0.0657405705
## 28  -1.818 0.035 0.0764207874
## 29  -1.737 0.041 0.0882551672
## 30  -1.657 0.049 0.1010880830
## 31  -1.576 0.058 0.1152298404
## 32  -1.495 0.067 0.1304909983
## 33  -1.414 0.079 0.1468069922
## 34  -1.333 0.091 0.1640829751
## 35  -1.253 0.105 0.1819646151
## 36  -1.172 0.121 0.2007428520
## 37  -1.091 0.138 0.2200107141
## 38  -1.010 0.156 0.2395510977
## 39  -0.929 0.176 0.2591212881
## 40  -0.848 0.198 0.2784573054
## 41  -0.768 0.221 0.2970512687
## 42  -0.687 0.246 0.3150817868
## 43  -0.606 0.272 0.3320211746
## 44  -0.525 0.300 0.3475832643
## 45  -0.444 0.329 0.3614951936
## 46  -0.364 0.358 0.3733695746
## 47  -0.283 0.389 0.3832824734
## 48  -0.202 0.420 0.3908855264
## 49  -0.121 0.452 0.3960324870
## 50  -0.040 0.484 0.3986232542
## 51   0.040 0.516 0.3986232542
## 52   0.121 0.548 0.3960324870
## 53   0.202 0.580 0.3908855264
## 54   0.283 0.611 0.3832824734
## 55   0.364 0.642 0.3733695746
## 56   0.444 0.671 0.3614951936
## 57   0.525 0.700 0.3475832643
## 58   0.606 0.728 0.3320211746
## 59   0.687 0.754 0.3150817868
## 60   0.768 0.779 0.2970512687
## 61   0.848 0.802 0.2784573054
## 62   0.929 0.824 0.2591212881
## 63   1.010 0.844 0.2395510977
## 64   1.091 0.862 0.2200107141
## 65   1.172 0.879 0.2007428520
## 66   1.253 0.895 0.1819646151
## 67   1.333 0.909 0.1640829751
## 68   1.414 0.921 0.1468069922
## 69   1.495 0.933 0.1304909983
## 70   1.576 0.942 0.1152298404
## 71   1.657 0.951 0.1010880830
## 72   1.737 0.959 0.0882551672
## 73   1.818 0.965 0.0764207874
## 74   1.899 0.971 0.0657405705
## 75   1.980 0.976 0.0561831419
## 76   2.061 0.980 0.0477011853
## 77   2.141 0.984 0.0403211541
## 78   2.222 0.987 0.0337903327
## 79   2.303 0.989 0.0281321274
## 80   2.384 0.991 0.0232682262
## 81   2.465 0.993 0.0191194138
## 82   2.545 0.995 0.0156473918
## 83   2.626 0.996 0.0126908181
## 84   2.707 0.997 0.0102255782
## 85   2.788 0.997 0.0081853400
## 86   2.869 0.998 0.0065093281
## 87   2.949 0.998 0.0051578315
## 88   3.030 0.999 0.0040485822
## 89   3.111 0.999 0.0031571075
## 90   3.192 0.999 0.0024458305
## 91   3.273 0.999 0.0018824088
## 92   3.354 1.000 0.0014393027
## 93   3.434 1.000 0.0010970653
## 94   3.515 1.000 0.0008279556
## 95   3.596 1.000 0.0006207721
## 96   3.677 1.000 0.0004623895
## 97   3.758 1.000 0.0003421640
## 98   3.838 1.000 0.0002525098
## 99   3.919 1.000 0.0001844340
## 100  4.000 1.000 0.0001338302

curvagauss=plot(data.frame(q,dens1))

4.4 Muestreo e Inferencia Estadística

Muestra aleatoria

Es una porción o un subconjunto de la población que es obtenido por un mecanismo de selección probabilística. De una manera más formal, una muestra aleatoria es una colección de $n$ variables aleatorias ($X_1, X_2,...,X_n$) independientes e idénticamente distribuidas. Esto implica que la función de probabilidad o de densidad de probabilidad conjunta se puede escribir como

\[f(x_1, x_2, ..., x_n) = f(x_1)f(x_2)\cdots f(x_n)\]

Proceso inferencial

Razones para obtener una muestra

En muchas situaciones el análisis exhaustivo de la población es difícil o es imposible de realizarlo. Esto puede deberse a:

a- El alto costo a que se incurre si se realiza una recolección de datos de todos los elementos o individuos que forman parte de la población.

b- La accesibilidad a cada uno de los elementos de la población puede verse obstaculizada por las regiones o momentos donde se quiera realizar la investigación.

c- En algunas ocasiones, las investigaciones disponen de un tiempo relativamente corto para poder recabar los datos de cada uno de los individuos, entre otras.

Es por todo esto que se recurre al muestreo. Si obtenemos una muestra no necesitamos de tanta inversión económica como en un censo ya que solo se toma una parte de la población. Además, podemos realizar procedimientos en donde se tenga una muestra representativa de la población sin la necesidad de acceder a lugares difíciles ni destruir la naturaleza del estudio.

4.5 Distribuciones muestrales

4.5.1 Teorema central del límite

Sean $X_1, X_2,...,X_n$ $n$ variables aleatorias IID con una distribución de probabilidad no especificada y que tienen una media $\mu$ y una varianza $\sigma^2$ finita. El promedio muestral $\bar{X} =(X_1+X_2+...+X_n)/n$ tiene una distribución con media $\mu$ y varianza $\sigma^2/n$ que tiende hacia una distribución normal conforme $n$ tiende a $\infty$. En otras palabras, la variable aleatoria $(\bar{X}-\mu)/(\sigma/\sqrt{n})$ tiene como límite una distribución normal estándar

La siguiente simulación te muestra como funciona el teorema central del límite.

En primer lugar, simula 300 muestra de tamaño 5 de una variable aleatoria con distribución uniforme de parámetros $a=0$ y $b=1$.

u5<-sapply(1:300, function(x){mean(sample(runif(10000),5,rep=F))})
round(u5, 3)

##   [1] 0.491 0.690 0.610 0.516 0.739 0.615 0.696 0.575 0.562 0.616 0.469 0.300
##  [13] 0.673 0.292 0.602 0.278 0.385 0.345 0.378 0.660 0.598 0.600 0.362 0.436
##  [25] 0.521 0.600 0.565 0.392 0.704 0.324 0.667 0.558 0.436 0.723 0.338 0.516
##  [37] 0.642 0.402 0.531 0.572 0.622 0.467 0.602 0.530 0.463 0.233 0.492 0.488
##  [49] 0.637 0.348 0.558 0.754 0.385 0.577 0.637 0.513 0.476 0.499 0.567 0.710
##  [61] 0.694 0.709 0.678 0.427 0.556 0.139 0.516 0.659 0.492 0.603 0.662 0.388
##  [73] 0.559 0.580 0.519 0.520 0.529 0.415 0.510 0.518 0.409 0.411 0.498 0.375
##  [85] 0.623 0.441 0.595 0.426 0.548 0.517 0.530 0.617 0.636 0.356 0.596 0.540
##  [97] 0.699 0.512 0.428 0.493 0.737 0.488 0.410 0.476 0.539 0.567 0.449 0.622
## [109] 0.643 0.596 0.639 0.305 0.606 0.584 0.421 0.588 0.412 0.481 0.573 0.409
## [121] 0.564 0.592 0.276 0.445 0.569 0.557 0.565 0.444 0.487 0.611 0.511 0.500
## [133] 0.499 0.640 0.681 0.355 0.290 0.451 0.576 0.426 0.518 0.622 0.601 0.400
## [145] 0.677 0.652 0.387 0.560 0.627 0.697 0.319 0.513 0.573 0.668 0.439 0.584
## [157] 0.644 0.497 0.297 0.504 0.424 0.347 0.490 0.414 0.513 0.656 0.395 0.369
## [169] 0.439 0.605 0.693 0.501 0.433 0.816 0.223 0.262 0.619 0.475 0.571 0.604
## [181] 0.642 0.285 0.379 0.573 0.391 0.511 0.391 0.357 0.144 0.661 0.625 0.352
## [193] 0.516 0.554 0.632 0.684 0.390 0.344 0.594 0.571 0.319 0.436 0.561 0.559
## [205] 0.490 0.504 0.382 0.505 0.595 0.701 0.525 0.480 0.638 0.431 0.651 0.592
## [217] 0.425 0.428 0.400 0.510 0.545 0.625 0.473 0.533 0.584 0.364 0.600 0.455
## [229] 0.513 0.458 0.518 0.610 0.289 0.451 0.472 0.543 0.471 0.434 0.602 0.550
## [241] 0.755 0.574 0.566 0.347 0.561 0.493 0.558 0.282 0.566 0.323 0.351 0.495
## [253] 0.556 0.578 0.418 0.591 0.641 0.239 0.700 0.585 0.553 0.512 0.897 0.534
## [265] 0.431 0.560 0.368 0.444 0.564 0.709 0.594 0.655 0.500 0.444 0.397 0.555
## [277] 0.789 0.592 0.536 0.497 0.525 0.585 0.628 0.566 0.341 0.566 0.462 0.528
## [289] 0.514 0.303 0.629 0.583 0.539 0.553 0.309 0.434 0.544 0.480 0.456 0.473

En primer lugar, simula 300 muestra de tamaño 100 de una variable aleatoria con distribución uniforme de parámetros a=0 y b=1.

u100<-sapply(1:300, function(x){mean(sample(runif(10000),100,rep=F))})
round(u100, 3)

##   [1] 0.546 0.572 0.580 0.509 0.487 0.475 0.485 0.484 0.481 0.480 0.527 0.525
##  [13] 0.490 0.488 0.491 0.459 0.491 0.456 0.480 0.504 0.452 0.476 0.460 0.494
##  [25] 0.475 0.564 0.521 0.498 0.473 0.509 0.475 0.513 0.448 0.433 0.512 0.473
##  [37] 0.510 0.527 0.524 0.471 0.525 0.505 0.469 0.469 0.527 0.510 0.517 0.499
##  [49] 0.521 0.466 0.462 0.516 0.493 0.490 0.490 0.513 0.463 0.505 0.498 0.487
##  [61] 0.530 0.548 0.557 0.476 0.500 0.501 0.500 0.512 0.476 0.527 0.540 0.485
##  [73] 0.497 0.478 0.498 0.547 0.504 0.478 0.487 0.538 0.493 0.516 0.510 0.530
##  [85] 0.521 0.448 0.476 0.516 0.528 0.540 0.483 0.529 0.516 0.466 0.520 0.463
##  [97] 0.466 0.488 0.471 0.449 0.507 0.491 0.456 0.426 0.501 0.508 0.484 0.533
## [109] 0.505 0.464 0.487 0.469 0.523 0.452 0.533 0.537 0.478 0.488 0.554 0.482
## [121] 0.467 0.542 0.523 0.511 0.457 0.450 0.482 0.530 0.485 0.488 0.523 0.512
## [133] 0.523 0.498 0.514 0.520 0.496 0.500 0.547 0.465 0.553 0.447 0.489 0.493
## [145] 0.553 0.464 0.484 0.581 0.502 0.583 0.454 0.498 0.490 0.510 0.550 0.509
## [157] 0.490 0.533 0.487 0.486 0.533 0.509 0.441 0.455 0.474 0.472 0.554 0.447
## [169] 0.477 0.513 0.535 0.516 0.512 0.476 0.488 0.463 0.467 0.535 0.532 0.535
## [181] 0.447 0.497 0.540 0.486 0.498 0.464 0.475 0.457 0.471 0.529 0.494 0.453
## [193] 0.484 0.579 0.473 0.493 0.513 0.533 0.528 0.518 0.513 0.553 0.504 0.477
## [205] 0.531 0.460 0.528 0.474 0.535 0.504 0.475 0.507 0.487 0.477 0.517 0.487
## [217] 0.534 0.528 0.473 0.482 0.528 0.490 0.535 0.444 0.546 0.489 0.463 0.473
## [229] 0.484 0.460 0.460 0.482 0.500 0.489 0.476 0.511 0.455 0.515 0.502 0.509
## [241] 0.513 0.520 0.473 0.465 0.457 0.525 0.445 0.448 0.527 0.506 0.467 0.485
## [253] 0.501 0.504 0.491 0.537 0.502 0.548 0.454 0.477 0.519 0.534 0.478 0.506
## [265] 0.510 0.514 0.504 0.534 0.489 0.504 0.461 0.494 0.534 0.484 0.498 0.488
## [277] 0.531 0.502 0.524 0.456 0.482 0.525 0.488 0.471 0.472 0.491 0.477 0.508
## [289] 0.511 0.439 0.483 0.442 0.516 0.483 0.498 0.543 0.492 0.422 0.531 0.446

Grafíca ambos resultados con dos histogramas para compararlos.

par(mfrow=c(1,2))
hist(u5,col = "lightblue", breaks=20, freq = TRUE, xlim=c(0,1))
hist(u100,col = "blue", breaks=20, freq = TRUE, xlim=c(0,1))

Calcula los valores estandarizados para cada media y grafica un histograma para verificar que la distribución de las medias muestrales estandarizadas es efectivamente normal.

#media y varianza de la distribución uniforme con parámetros a=0 y b=1
n=100
a=0
b=1
munif=(a+b)/2
munif

## [1] 0.5

varunif=(b-a)^2/12
varunif

## [1] 0.08333333

u100z=(u100-munif)/(sqrt(varunif)/sqrt(n))
hist(u100z,col = "green", breaks=10, freq = F, xlim=c(-4,4))
lines(seq(-4, 4, by=.1), dnorm(seq(-4, 4, by=.1),0, 1), col="blue")

Realiza la mísma simulación con una variable aleatoria con distribución Poisson de parámetro igual a 2.

p5<-sapply(1:300, function(x){mean(sample(rpois(10000,2),5,rep=F))})
p5

##   [1] 2.0 2.6 1.2 1.6 2.4 1.8 2.2 3.0 1.4 4.0 1.0 2.0 3.8 1.8 3.2 2.0 2.6 1.4
##  [19] 3.2 1.2 2.6 1.4 2.0 1.2 1.6 2.0 1.2 1.4 2.0 2.4 2.6 1.6 2.4 1.4 1.8 2.4
##  [37] 1.2 1.6 3.2 2.2 2.2 1.4 2.4 2.0 1.4 2.6 4.0 1.4 2.6 2.2 2.4 2.8 3.0 1.6
##  [55] 1.8 1.0 2.8 2.0 1.4 1.6 1.4 1.6 1.2 1.6 2.0 1.8 1.2 1.6 2.0 2.2 3.0 2.6
##  [73] 2.2 1.8 1.6 2.0 1.8 1.6 2.2 1.8 1.2 1.6 2.0 2.4 1.8 3.2 2.0 2.2 2.0 2.8
##  [91] 3.4 1.8 2.4 2.2 2.0 1.2 1.6 1.0 1.0 2.4 1.0 1.8 2.0 2.0 2.4 1.0 1.8 2.2
## [109] 2.8 2.8 2.2 2.6 2.2 2.0 1.8 0.4 1.8 1.4 2.0 2.8 2.2 1.2 2.4 1.8 2.2 1.2
## [127] 3.0 3.6 2.4 1.2 2.2 2.0 1.8 2.0 1.6 2.2 1.8 3.0 2.4 2.4 1.8 2.8 1.0 3.2
## [145] 3.0 1.8 2.0 1.8 0.6 2.6 2.2 1.6 2.4 2.6 1.4 2.2 1.4 2.6 2.0 1.6 2.0 2.0
## [163] 1.6 2.8 2.2 2.0 1.6 1.4 2.2 1.8 2.6 1.0 2.4 1.2 2.4 2.2 2.6 1.6 2.2 2.0
## [181] 3.2 2.2 2.4 1.2 2.2 3.0 2.2 2.4 2.4 2.0 1.2 2.0 1.4 1.0 1.6 1.8 1.2 2.0
## [199] 1.6 2.6 2.4 2.6 2.4 2.2 1.0 2.4 2.4 1.4 1.8 1.2 2.0 1.6 3.2 1.2 2.2 1.4
## [217] 2.8 1.0 2.0 3.6 1.0 2.2 2.6 1.6 1.2 2.2 2.2 2.0 1.6 2.0 2.6 2.0 1.8 1.2
## [235] 2.8 1.4 2.4 1.4 2.0 2.0 2.6 1.0 3.0 1.2 0.8 2.8 1.8 1.6 1.2 2.0 2.2 0.4
## [253] 1.6 1.8 1.6 1.6 1.6 1.4 1.6 1.8 2.8 3.8 3.4 3.4 3.8 1.8 1.6 1.0 1.8 1.8
## [271] 1.8 2.6 2.0 2.2 2.8 2.0 1.4 1.6 2.2 1.4 1.2 2.0 1.4 1.6 1.8 2.2 1.8 2.2
## [289] 2.2 1.0 2.0 2.8 1.8 2.6 1.6 0.8 2.4 2.2 1.6 1.4

p100<-sapply(1:300, function(x){mean(sample(rpois(10000,2),100,rep=F))})
p100

##   [1] 1.85 1.86 1.97 2.17 1.85 1.89 2.02 1.91 1.69 2.06 2.04 1.86 2.00 1.69 2.09
##  [16] 1.93 2.13 2.01 1.96 2.11 2.15 1.70 1.83 1.93 1.91 2.02 2.00 1.83 1.91 1.90
##  [31] 1.97 1.85 2.07 2.20 2.07 2.15 1.96 2.00 2.10 2.11 2.22 2.30 2.18 2.31 2.21
##  [46] 1.99 2.05 1.95 1.76 2.07 2.12 1.89 1.95 1.86 1.97 2.03 2.09 2.01 1.98 1.94
##  [61] 2.05 2.10 2.12 1.80 2.03 2.02 1.93 1.99 2.05 2.11 2.08 2.17 1.79 1.73 2.00
##  [76] 1.89 1.90 1.95 2.08 1.94 2.06 1.99 2.06 1.96 1.97 1.96 2.04 1.69 2.20 1.99
##  [91] 1.97 2.16 1.96 2.01 1.85 1.95 1.91 1.82 2.13 1.96 1.94 2.02 2.09 2.08 1.91
## [106] 2.15 1.98 2.11 2.19 2.11 2.01 1.95 1.73 2.01 2.00 2.01 2.06 1.87 1.95 1.87
## [121] 2.08 2.25 1.99 1.99 1.82 2.06 2.03 1.96 1.99 2.13 2.33 2.09 2.16 2.00 2.16
## [136] 2.16 1.96 2.03 1.91 1.84 1.91 1.90 2.19 2.08 2.11 1.92 2.00 1.97 2.20 2.07
## [151] 1.78 2.22 2.06 1.98 2.22 1.92 2.05 1.90 1.96 1.96 2.11 1.84 1.84 2.04 2.03
## [166] 2.05 1.92 2.18 1.77 1.85 1.84 1.74 1.94 2.03 2.05 1.96 2.15 2.00 1.79 1.86
## [181] 2.18 2.04 1.82 2.04 1.95 1.74 2.23 1.89 2.01 2.01 2.03 2.03 1.96 1.82 2.02
## [196] 1.84 2.18 1.99 1.87 2.00 2.08 1.87 2.17 2.03 1.93 1.96 1.78 1.99 2.26 1.81
## [211] 2.14 1.85 1.83 1.76 2.02 2.17 2.31 2.10 1.99 2.22 2.17 1.95 2.04 1.67 1.84
## [226] 2.10 1.98 2.15 2.08 2.11 1.94 1.90 2.22 1.93 1.77 1.94 1.97 1.98 2.01 2.06
## [241] 1.75 2.19 1.86 2.10 2.04 1.92 1.98 1.86 2.16 1.95 2.02 2.20 1.78 1.96 2.19
## [256] 2.02 1.93 1.81 1.87 2.08 2.00 1.83 1.98 1.84 2.00 2.04 2.13 1.99 1.94 1.95
## [271] 2.05 1.85 2.08 2.04 1.92 1.94 2.01 2.09 2.05 2.09 1.95 1.95 1.70 1.96 2.16
## [286] 2.02 1.98 1.89 1.88 1.73 1.90 2.03 2.17 2.06 2.19 1.97 1.94 1.98 1.88 2.23

par(mfrow=c(1,2))
hist(p5,col = "lightgreen", breaks=20, freq = TRUE, xlim=c(0,6))
hist(p100,col = "green", breaks=20, freq = TRUE, xlim=c(0,6))

Calcula los valores estandarizados para cada media y gráfica un histograma para verificar que la distribución es efectivamente normal estándar.

p100z=(p100-2)/(sqrt(2)/sqrt(100))
hist(p100z,col = "green", breaks=10, freq = F, xlim=c(-4,4))
lines(seq(-4, 4, by=.1), dnorm(seq(-4, 4, by=.1),0, 1), col="blue")

4.5.2 Distribución muestral de la media

4.5.2.1 Varianza Poblacional conocida

\[\overline{X} \sim Nor \left( \mu, \frac{\sigma^2}{n}\right)\] > Estudio de caso

Para una población con distribución normal con media igual a 4.5 y varianza igual a 2. Se realiza un muestreo aleatorio simple de tamaño 35. ¿Cuál es la probabilidad de que la media muestral sea al menos igual a 5?

$P(\overline{X}\geq 5)=P\left( Z \geq \dfrac{5-4.5}{\sqrt{2}/\sqrt{35}} \right)=0.0182$

mu = 4.5
sigma = 2
n = 35
sigma_mu = sigma/n
pnorm(5, mean = mu, sd = sqrt(sigma_mu), lower.tail = F)

## [1] 0.01823492

# o también
pnorm((5-4.5)/(sqrt(2/35)),lower.tail = F) #Normal estándar

## [1] 0.01823492

#Gráfico
library(RcmdrMisc)
x1 <- seq(3.5, 5.5, length.out=1000)  
  plotDistr(x1, dnorm(x1, mean=mu, sd=sqrt(sigma_mu)), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(5, 5.5)), legend.pos=F, bty="n")

4.5.2.2 Varianza Poblacional desconocida

\[\frac{\overline{X}-\mu}{\hat{S}/\sqrt{n}} \sim t_{n-1}\] > Estudio de caso

Supongamos el ejemplo anterior pero donde la varianza poblacional es desconocida. Sin embargo, se conoce la varianza muestral $\hat{s}$ que es igual a 2.25.

$P(\overline{X}\geq 5)=P\left( T \geq \dfrac{5-4.5}{\sqrt{2.25}/\sqrt{35}} \right)=0.0284$

mu = 4.5
s2 = 2.25
n = 35
s2_mu = s2/n
pt((5-mu)/sqrt(s2_mu), df = 34,lower.tail = F)

## [1] 0.02839295

#Gráfico

x2 <- seq(-3.5, 3.5, length.out=1000)  
  plotDistr(x2, dt(x2, df = 34), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(1.97, 3.5)), legend=F, bty="n")

** Estudio de caso ** Probabilidades t student vs la normal

q<-c(seq(from=-4, to=+4, by=0.1))
q

##  [1] -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 -2.7 -2.6
## [16] -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1
## [31] -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1  0.0  0.1  0.2  0.3  0.4
## [46]  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4  1.5  1.6  1.7  1.8  1.9
## [61]  2.0  2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9  3.0  3.1  3.2  3.3  3.4
## [76]  3.5  3.6  3.7  3.8  3.9  4.0

gl<-5
pstu<-pt(q,gl)
pstu

##  [1] 0.005161708 0.005704646 0.006314241 0.006999703 0.007771628 0.008642216
##  [7] 0.009625522 0.010737750 0.011997588 0.013426592 0.015049624 0.016895352
## [13] 0.018996812 0.021392032 0.024124727 0.027245050 0.030810396 0.034886235
## [19] 0.039546949 0.044876625 0.050969739 0.057931652 0.065878792 0.074938393
## [25] 0.085247616 0.096951840 0.110201940 0.125150317 0.141945528 0.160725410
## [31] 0.181608734 0.204685600 0.230007033 0.257574474 0.287330144 0.319149436
## [37] 0.352836557 0.388124521 0.424680257 0.462115071 0.500000000 0.537884929
## [43] 0.575319743 0.611875479 0.647163443 0.680850564 0.712669856 0.742425526
## [49] 0.769992967 0.795314400 0.818391266 0.839274590 0.858054472 0.874849683
## [55] 0.889798060 0.903048160 0.914752384 0.925061607 0.934121208 0.942068348
## [61] 0.949030261 0.955123375 0.960453051 0.965113765 0.969189604 0.972754950
## [67] 0.975875273 0.978607968 0.981003188 0.983104648 0.984950376 0.986573408
## [73] 0.988002412 0.989262250 0.990374478 0.991357784 0.992228372 0.993000297
## [79] 0.993685759 0.994295354 0.994838292

pnorm<-pnorm(q)
pnorm

##  [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
##  [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01

datos=data.frame(pstu,pnorm)

matplot (q,datos, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal),paste(student)), cex = 0.7,lty = 1:2)

con muestras de tamaño 15

gl<-15
pstu15<-pt(q,gl)
pstu15

##  [1] 0.0005796584 0.0007106144 0.0008716145 0.0010695443 0.0013128305
##  [6] 0.0016117655 0.0019788916 0.0024294533 0.0029819242 0.0036586153
## [11] 0.0044863687 0.0054973399 0.0067298632 0.0082293928 0.0100495006
## [16] 0.0122529016 0.0149124647 0.0181121487 0.0219477876 0.0265276281
## [21] 0.0319725036 0.0384155129 0.0460010591 0.0548831055 0.0652225098
## [26] 0.0771833302 0.0909280407 0.1066116606 0.1243748937 0.1443364788
## [31] 0.1665850680 0.1911710668 0.2180989696 0.2473207913 0.2787312176
## [36] 0.3121650568 0.3473974679 0.3841472673 0.4220833885 0.4608343100
## [41] 0.5000000000 0.5391656900 0.5779166115 0.6158527327 0.6526025321
## [46] 0.6878349432 0.7212687824 0.7526792087 0.7819010304 0.8088289332
## [51] 0.8334149320 0.8556635212 0.8756251063 0.8933883394 0.9090719593
## [56] 0.9228166698 0.9347774902 0.9451168945 0.9539989409 0.9615844871
## [61] 0.9680274964 0.9734723719 0.9780522124 0.9818878513 0.9850875353
## [66] 0.9877470984 0.9899504994 0.9917706072 0.9932701368 0.9945026601
## [71] 0.9955136313 0.9963413847 0.9970180758 0.9975705467 0.9980211084
## [76] 0.9983882345 0.9986871695 0.9989304557 0.9991283855 0.9992893856
## [81] 0.9994203416

pnorm15<-pnorm(q)
pnorm15

##  [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
##  [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01

datos15=data.frame(pstu15,pnorm15)

matplot (q,datos15, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal15),paste(student15)), cex = 0.7,lty = 1:2)

con muestras de tamaño 30

gl<-30

pstu30<-pt(q,gl)
pstu30

##  [1] 0.0001909228 0.0002511250 0.0003297791 0.0004322999 0.0005655892
##  [6] 0.0007384037 0.0009617981 0.0012496537 0.0016193009 0.0020922424
## [11] 0.0026949820 0.0034599551 0.0044265547 0.0056422333 0.0071636508
## [16] 0.0090578245 0.0114032185 0.0142906936 0.0178242200 0.0221212356
## [21] 0.0273125225 0.0335414620 0.0409625343 0.0497389378 0.0600392338
## [26] 0.0720329646 0.0858852546 0.1017504793 0.1197651754 0.1400404590
## [31] 0.1626543077 0.1876441434 0.2150002049 0.2446602217 0.2765058798
## [36] 0.3103615024 0.3459952583 0.3831230526 0.4214150785 0.4605048059
## [41] 0.5000000000 0.5394951941 0.5785849215 0.6168769474 0.6540047417
## [46] 0.6896384976 0.7234941202 0.7553397783 0.7849997951 0.8123558566
## [51] 0.8373456923 0.8599595410 0.8802348246 0.8982495207 0.9141147454
## [56] 0.9279670354 0.9399607662 0.9502610622 0.9590374657 0.9664585380
## [61] 0.9726874775 0.9778787644 0.9821757800 0.9857093064 0.9885967815
## [66] 0.9909421755 0.9928363492 0.9943577667 0.9955734453 0.9965400449
## [71] 0.9973050180 0.9979077576 0.9983806991 0.9987503463 0.9990382019
## [76] 0.9992615963 0.9994344108 0.9995677001 0.9996702209 0.9997488750
## [81] 0.9998090772

pnorm30<-pnorm(q)
pnorm30

##  [1] 3.167124e-05 4.809634e-05 7.234804e-05 1.077997e-04 1.591086e-04
##  [6] 2.326291e-04 3.369293e-04 4.834241e-04 6.871379e-04 9.676032e-04
## [11] 1.349898e-03 1.865813e-03 2.555130e-03 3.466974e-03 4.661188e-03
## [16] 6.209665e-03 8.197536e-03 1.072411e-02 1.390345e-02 1.786442e-02
## [21] 2.275013e-02 2.871656e-02 3.593032e-02 4.456546e-02 5.479929e-02
## [26] 6.680720e-02 8.075666e-02 9.680048e-02 1.150697e-01 1.356661e-01
## [31] 1.586553e-01 1.840601e-01 2.118554e-01 2.419637e-01 2.742531e-01
## [36] 3.085375e-01 3.445783e-01 3.820886e-01 4.207403e-01 4.601722e-01
## [41] 5.000000e-01 5.398278e-01 5.792597e-01 6.179114e-01 6.554217e-01
## [46] 6.914625e-01 7.257469e-01 7.580363e-01 7.881446e-01 8.159399e-01
## [51] 8.413447e-01 8.643339e-01 8.849303e-01 9.031995e-01 9.192433e-01
## [56] 9.331928e-01 9.452007e-01 9.554345e-01 9.640697e-01 9.712834e-01
## [61] 9.772499e-01 9.821356e-01 9.860966e-01 9.892759e-01 9.918025e-01
## [66] 9.937903e-01 9.953388e-01 9.965330e-01 9.974449e-01 9.981342e-01
## [71] 9.986501e-01 9.990324e-01 9.993129e-01 9.995166e-01 9.996631e-01
## [76] 9.997674e-01 9.998409e-01 9.998922e-01 9.999277e-01 9.999519e-01
## [81] 9.999683e-01

datos30=data.frame(pstu30,pnorm30)

matplot (q,datos30, type="l", col=c(1,2), las = 1 )
legend(-3,0.5,expression(paste(normal),paste(student)), cex = 0.7,lty = 1:2)

4.5.3 Distribución muestral de la diferencia de medias

\[\overline{X}_1-\overline{X}_2 \sim Nor\left(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}\right)\] > Estudio de caso

Las distribuciones de ciertas mediciones tienen distribuciones normales. Se cuentan con dos poblaciones con los siguientes valores: $\mu_1=25$, $\sigma_1=5$, $\mu_2=26$ y $\sigma_2=6$. Si se extraen muestras aleatorias de tamaños $n_1=n_2=100$, ¿cuál es la probabilidad de que la media muestral $\overline{x}_1$ supere a la otra media en al menos 1 unidad?

$P(\overline{x}_1 \ge \overline{x}_2+1)=P(\overline{x}_1-\overline{x}_2 \ge 1)=P \left(Z \ge \dfrac{1-(25-26)}{\sqrt{\frac{5^2}{100}+\frac{6^2}{100}}} \right)\approx 0.005$

mu_1 = 25
mu_2 = 26
sigma_1 = 5
sigma_2 = 6
n_1 = 100
n_2 = 100
sigma_dmu = sqrt((sigma_1^2)/n_1+(sigma_2^2)/n_2)
pnorm(1, mean = mu_1-mu_2, sd = sigma_dmu, lower.tail = F)

## [1] 0.005222511

#Gráfico
library(RcmdrMisc)
x1 <- seq(-4, 2, length.out=1000)  
  plotDistr(x1, dnorm(x1, mean=mu_1-mu_2, sd=sigma_dmu), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions =  list(c(1,2)), legend=F, bty="n")

4.5.4 Distribución muestral de proporciones

\[\hat{p} \sim Nor\left(p,\frac{pq}{n}\right)\] > Estudio de caso

En la asignatura de Estadística I, históricamente se sabe que el porcentaje de alumnos que aprueban es del 75%. En un cierto año, se tomó una muestra aleatoria de 35 estudiantes de la asignatura. Calcula la probabilidad de que el porcetaje de aprobados sea entre 70 y 80%.

$P(0.70 \le \hat{p} \le 0.80)=P\left( \dfrac{0.70-0.75}{\sqrt{\frac{0.75(0.25)}{35}}} \le Z \le \dfrac{0.80-0.75}{\sqrt{\frac{0.75(0.25)}{35}}} \right)=0.5055$

p = 0.75
n = 35
Z1 = (0.70-0.75)/sqrt(0.75*0.25/35)
Z2 = (0.80-0.75)/sqrt(0.75*0.25/35)
Probabilidad = pnorm(Z2)-pnorm(Z1)
Probabilidad

## [1] 0.5054753

#Gráfico
x1 <- seq(-3.5, 3.5, length.out=1000)  
  plotDistr(x1, dnorm(x1), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(Z1, Z2)), legend=F, bty="n")

4.5.5 Distribución muestral para la diferencia de proporciones

\[\hat{p}_1-\hat{p}_2 \sim Nor\left(p_1-p_2,\frac{p_1q_1}{n_1}+\frac{p_2q_2}{n_2}\right)\] > Estudio de caso

Sea $p_1=0.5$, $p_2=0.45$, $n_1=60$ y $n_2=50$. Calcula $P(|\hat{p}_2-\hat{p}_1| \ge 0.1)$.

$P(|\hat{p}_2-\hat{p}_1| \ge 0.1)=P \left( \dfrac{-0.1-(0.45-0.5)}{\sqrt{\frac{0.5(0.5)}{60}+\frac{0.45(0.55)}{50}}} > Z > \dfrac{0.1-(0.45-0.5)}{\sqrt{\frac{0.5(0.5)}{60}+\frac{0.45(0.55)}{50}}} \right)=0.3412$

p1 = 0.5
p2 = 0.45
n1 = 60
n2 = 50
Z1 = (-0.1-(0.45-0.5))/sqrt(0.5*0.5/60+0.45*0.55/60)
Z2 = (0.1-(0.45-0.5))/sqrt(0.5*0.5/60+0.45*0.55/60)
Probabilidad = pnorm(Z1) + pnorm(Z2, lower.tail = F)
Probabilidad

## [1] 0.3412186

#Gráfico
x1 <- seq(-4, 4, length.out=1000)  
  plotDistr(x1, dnorm(x1), cdf=FALSE, xlab="x", ylab="Densidad", 
  main="", regions=list(c(-4, Z1),c(Z2,4)), legend=F, bty="n")

4.5.6 Distribución muestral de la varianza

\[\frac{(n-1)\hat{S}^2}{\sigma^2} \sim \chi^2_{n-1}\] > Estudio de caso

En una población normal con varianza igual a 4. Calcula la probabilidad de que en una muestra de tamaño 20 se obtenga una varianza muestra inferior a 3.5.

$P(\hat{s}^2<3.5)=P \left(\chi^2 < \dfrac{(20-1)3.5}{4} \right)=0.3847$

sigma2 = 4
n = 20
s2 = 3.5
X2 = (n-1)*s2/sigma2
pchisq(X2, df = n-1)

## [1] 0.3847433

#Gráfico
x <- seq(0, 45, length.out=1000)  
  plotDistr(x, dchisq(x, df=19), cdf=FALSE, xlab="x", ylab="Densidad", main="",
            regions=list(c(0, (19*3.5)/4)), legend=F, bty = "n", las = 1)

4.5.7 Distribución muestral del cociente de varianzas

\[\frac{\hat{S}_1^2/\sigma_1^2}{\hat{S}_2^2/\sigma^2_2} \sim F_{n_1-1,n_2-1}\] > Estudio de caso

Sunponga dos variables aleatorias provenientes de dos poblaciones normales: $X_1 \sim Nor(\mu_1,\sigma_1^2)$ y $X_2 \sim Nor(\mu_2,\sigma_2^2)$. Se sabe que las varianzas poblacionales son desconocidas pero iguales. Si al seleccionar muestras aleatorios de tamaño 10 de cada población, ¿cuál es la probabilidad de que la varianza muestral de la primera sea menor a la otra?

$P(\hat{s}_1<\hat{s}_2)=P\left( \dfrac{\hat{s}_1}{\hat{s}_2} <1 \right)=P(F<1)=0.5$

n1 = 10
n2 = 10
pf(1, df1=n1-1, df2=n2-1)

## [1] 0.5

#Gráfico
x <- seq(0, 7, length.out=1000)  
plotDistr(x, df(x, df1=n1-1, df2=n2-1), cdf=FALSE, xlab="x", ylab="Densidad",
          main="", regions=list(c(0, 1)), legend=F, bty = "n", las = 1)

4.6 Propiedades deseables de un buen estimador

4.6.1 Insesgadez

Un estimador $\hat{\theta}$ es insesgado si su valor esperado coincide con el verdadero valor del parámetro poblacional $\theta$. Es decir, si

\[E(\hat{\theta})=\theta\]

4.6.2 Eficiencia o de varianza mínima

Un estimador $\hat{\theta}_i$ es más eficiente que otro estimador $\hat{\theta}_j$, para $i \neq j$, si la varianza de $\hat{\theta}_i$ es más pequeña que la de $\hat{\theta}_j$, para todo $j$. Es decir

\[Var(\hat{\theta}_i)<Var(\hat{\theta}_j)\]

4.6.3 Consistencia

Un estimador es consistente si se verifican los siguientes dos límites.

\[\lim_{n \rightarrow \infty}E(\hat{\theta})=\theta \ \ \ \ \ \text{y} \ \ \ \ \ \lim_{n \rightarrow \infty}Var(\hat{\theta})=0\]

4.6.4 Suficiencia

Un estimador $t=T(X_1,X_2,...,X_n )$ es suficiente para $\theta$ si y solo si la función de probabilidad conjunta o de densidad de probabilidad conjunta $f(x;\theta)$ puede descomponerse de la siguiente manera:

\[f(x_1,x_2,...,x_n;\theta)=h(T(x_1,x_2,…,x_n );\theta) g(x_1,x_2,...,x_n )\] donde $h(T(x_1,x_2,...,x_n );\theta)=h(t;\theta)$ es una función que solo depende del parámetro $\theta$ por medio del estadístico $T(x_1,x_2,...,x_n )$ y la función $g(x_1,x_2,...,x_n)$ solo depende de la muestra. Esta definición en realidad es el conocido Teorema de Factorización de Fisher-Neyman.

4.6.5 Invarianza

Un estimador $\hat{\theta}$ del parámetro $\theta$ es invariante si se satisface la siguiente igualdad.

\[g(\hat{\theta})=g(\theta)\] siempre y cuando $g$ sea una función inyectiva.

4.7 Intervalos de confianza

La siguiente simulación te ayudará a entender el significado de los intervalos de confianza.

En primer lugar tienes la simulación de una muestra compuesta por 15 valores de una variable aleatoria con distribución Poisson

lambda=10
dato<-rexp(15,1/lambda)
dato

##  [1] 13.3878492  0.7292385  2.4020638 24.0003808  1.4869533 17.1007011
##  [7] 11.9416687  0.8575622 22.4922214 19.4640969 29.6416128  9.7078538
## [13]  5.9799001  6.1297314 20.2880457

Dibuja el resultado con un histograma

hist(dato)

En segundo lugar, genera 100 muestras de tamaño 15 para la misma variable aleatoria

datos <- replicate(100, rexp(15,1/lambda))
datos

##            [,1]       [,2]       [,3]       [,4]       [,5]       [,6]
##  [1,]  6.440100 16.3308154 23.2924903  7.8582123 13.1636776  3.8547770
##  [2,]  4.323202 10.5421633  0.1136667  3.3361459  0.1541709  1.0873013
##  [3,]  1.190749  4.0437524  2.9286590  0.6542408 16.0418821  2.1157918
##  [4,]  3.660724  3.3003330 21.8330849  4.7628459  2.7727182  2.7712464
##  [5,]  1.369865  2.1063237  8.9310163  1.8932717  2.1749245  1.7418874
##  [6,] 24.919402 10.4542716  0.9364355 40.5888305 24.6809341  0.1495928
##  [7,]  9.229378  7.0666908  1.1727852  4.1335142  4.9525615  5.3474219
##  [8,] 28.628974  8.4761984 10.5172224  6.8352640  6.8859596  6.9762994
##  [9,]  6.424181  1.0628405  3.0418022  3.2610156  0.6854795  2.1199738
## [10,] 29.378415 13.9411904 13.4624779  0.3492569  4.2794591 24.8281762
## [11,]  6.433504 17.4553702  4.5303089  7.4261181  2.5919842 18.7498318
## [12,]  4.714185  0.9973335 15.6552009  4.9946704 16.7411310 25.3776737
## [13,] 10.575414  2.4946389 22.2625196  6.5927644  8.4405604 22.0953420
## [14,]  7.893210  4.9633717  6.0606405 12.8585903 25.4626379  7.5927007
## [15,]  6.791855  5.5463444  7.2595474  5.0468389 11.1037284  4.3373917
##             [,7]       [,8]        [,9]      [,10]     [,11]      [,12]
##  [1,]  2.4485601  8.9173381 12.90475129  2.6799383 17.108424 21.6676567
##  [2,] 10.7045341  2.8034096  8.45045135  6.0090832  2.082157  5.6968655
##  [3,]  2.5758351 10.7632903  9.90460816  4.8960033  1.873239 11.3354261
##  [4,]  8.4731517 13.0243412  1.19371842  9.9587178 22.071040 14.6644134
##  [5,] 19.9251056  2.2593569  3.11662306  4.9335170 24.626664  1.6711938
##  [6,]  5.3737438  9.9220083 22.15201644  1.1867231  7.787657  2.3440723
##  [7,]  5.8635982 20.8541023 25.28396467  0.9164509  3.105491 18.5828356
##  [8,]  0.5353076  6.2600464 11.06527462  0.4708054  3.107649 20.4657762
##  [9,]  3.5695189  5.4680005 14.55040630 13.4003304  3.874340  0.5864691
## [10,] 13.3872484  0.4688327  0.06054592 11.8325015  8.013186  5.6363654
## [11,]  1.0499507 51.2588441  2.70248762  9.5534262 30.154168  4.7949582
## [12,] 18.6984707  1.4453163  1.36385667  8.6238000  4.363417  0.1919428
## [13,]  0.4891288  3.2534581  0.79732599  2.4849788 15.296973 10.4102678
## [14,] 18.7551033  7.9113220  8.54289416  4.1046967  2.403076  5.1390909
## [15,]  1.3639548 15.4617236 11.20075885  7.7725804  1.320268  2.6716698
##            [,13]     [,14]     [,15]     [,16]      [,17]      [,18]      [,19]
##  [1,] 26.6269861  7.053613  1.543386 14.798861 15.2535725  7.0198045 24.2799867
##  [2,] 26.5002297 20.614081 20.833466  0.910872  7.3341037 14.6825812 15.6962917
##  [3,]  4.6124727  3.697658 23.360304  1.304677  9.8575337  2.3136645  2.0576874
##  [4,] 17.8329761  3.222573  6.165805  7.657256  0.9848295  4.2486984  3.7198716
##  [5,]  0.2054649  0.823649  2.618137 11.633460 14.3536401  1.2325435  0.4363184
##  [6,]  2.2340385  6.966589 12.007523  8.564983 20.3408682  3.0860085  9.5152372
##  [7,] 24.8040548  4.677334  3.661006  6.672790 15.3860068  9.4533327  8.9931834
##  [8,]  0.4991623  3.835071  2.098183  2.276228 13.0037883  1.2616820  7.3482861
##  [9,]  0.9856298  1.850118 10.461673  2.638310  4.2235831  4.6064513  0.4773168
## [10,] 27.7103729  2.141370 10.508488 18.960193  1.1257519  8.0476507 18.3242428
## [11,] 12.0157972 21.389816  3.475417 14.734848  4.4160177  1.9027776 26.1449564
## [12,]  1.0463910  1.745607 11.694082  4.048816  0.4737590 44.8732894  7.8353191
## [13,]  4.0569611  3.339230 10.399569  6.831730  2.7648383  2.3547513 26.0332107
## [14,]  2.1711762  4.365108  3.955774  5.880355 15.5543791 23.8704350  2.4415671
## [15,]  4.8562305 10.480427 28.590008 14.019213 16.0685329  0.7259615 27.1881887
##             [,20]      [,21]      [,22]      [,23]      [,24]       [,25]
##  [1,]  2.12948293 13.4990017  6.6263528 14.3991604  1.3116762 22.30695756
##  [2,] 35.96208517  6.1599576  1.7118920 13.8982870 41.0768527  3.40246380
##  [3,] 25.95962176  3.9934740  8.9970792 15.5544323 16.2187293 11.41180587
##  [4,]  6.05274145  6.1315258  8.0158137  2.0940144  7.2171265  2.76713069
##  [5,]  1.83455130  8.0604833  4.6513199 16.4187125 35.2244469  8.46693133
##  [6,]  1.45024741  0.4405248 14.3133787  9.7166016 24.0582754  8.75953872
##  [7,]  3.16718418  8.6073581  3.5856893  2.7902156 42.2113152  2.89731518
##  [8,]  1.76925637  1.9301162  8.4054833  3.6657412  0.5258670 17.31037807
##  [9,]  0.51897389  5.2859312  0.0768727  4.1038020  3.2597726 18.30023596
## [10,]  2.98574838  3.7846580 18.0981471  3.6466674 14.5687650  2.53195027
## [11,] 39.06533485 32.8408186 35.5568217 21.3066963  4.6166055  0.02363558
## [12,] 10.20105300  4.7799581  2.6755278  2.1695257 13.4481950 11.39698133
## [13,] 31.87149069  7.4192114  3.7901548  1.7039540  1.2469430  0.77227491
## [14,]  7.31384439  5.8842283  8.9928230 31.2815510  0.7018478 10.80352572
## [15,]  0.06236052  1.8472016 11.3458811  0.3685809  7.8401261  5.97471526
##            [,26]      [,27]      [,28]      [,29]      [,30]     [,31]
##  [1,]  1.4407301  9.3551858 30.2155027  8.1887585  6.9485354 17.727953
##  [2,]  4.0694831  1.8262879  5.8297139  2.5362832  1.8633170  1.770535
##  [3,]  0.9105754  1.9859685  2.2809610  0.5344374  3.2435552 26.364607
##  [4,]  5.8274438 12.0236150  0.8046909  0.7522356  0.1789207 15.594310
##  [5,]  0.2326865  6.1364863 18.5773945  5.5376601  3.1627804  5.624569
##  [6,] 11.0524227 10.2136949  6.6657055 13.5641951  8.0734462 47.926899
##  [7,]  3.2513213  7.4005286 14.3227655  8.0516281  5.7789087  3.057698
##  [8,]  0.8478204  5.1137011  5.1673126  2.6489633  6.5206098 45.613711
##  [9,] 14.5846029 22.3704861 30.3278928  7.0785718  5.8498225  2.712053
## [10,]  1.7203762  1.6435404  7.7942569  1.0833033  0.6299356 14.044894
## [11,]  1.3649122  1.0524535 22.3754770  4.7307444  0.9868237  2.594318
## [12,] 10.9034283 15.2605352 14.3408167  9.8324115 18.6411974 11.923335
## [13,]  8.5872415  8.2090912 16.2997335  0.4019895 12.4978060  2.388239
## [14,] 34.9941857  0.6092862 31.1560102  9.5529462  5.9796699 13.383446
## [15,] 33.8510058 17.3829740 29.7914640 15.7378029  1.8564576  3.204692
##           [,32]      [,33]       [,34]     [,35]     [,36]     [,37]
##  [1,] 11.622348 31.3842818  0.90237227  4.836643  6.489957  1.541416
##  [2,] 30.210249 14.0146902  0.09824747  3.331017  5.367922  5.580911
##  [3,]  4.456283  7.0907619 11.30756422  6.583613  3.288848  5.073058
##  [4,]  1.571210  7.6684755 15.46252541  2.558192  2.612799  6.524470
##  [5,] 13.281369  3.6275191 16.97864318 10.864380  8.707858 27.920504
##  [6,]  5.453418 15.9007990 12.36238466  3.525843 16.893486 10.264077
##  [7,]  5.703386 24.7022669  1.81565975 17.199440  4.262667  6.556424
##  [8,] 11.796603 10.6846653  3.92467177  5.651540  1.805135 19.432408
##  [9,] 11.805039  4.6682826 11.21077197  6.045220  4.350659  1.454823
## [10,] 11.100347  5.6960522  8.98943620  1.838943 28.538342  7.238608
## [11,]  1.547480  7.2328289  6.97684957  3.951479 10.550890  8.202075
## [12,]  9.307596 13.8049805  2.06145001  6.152356  1.598429  7.586193
## [13,]  5.946491  0.5980278 29.90772933 16.843495 15.277747  4.220868
## [14,] 13.858730 14.8756923  2.12540893 12.058936 20.635732  6.786534
## [15,]  6.915864 12.2001570  3.22652506  3.295640  1.003525  7.834780
##             [,38]      [,39]     [,40]     [,41]      [,42]      [,43]
##  [1,]  3.07693765 13.3343783 20.050463  0.335506  7.3720584  0.9377421
##  [2,] 24.72080929  6.0614562 31.727854 15.478776  4.7881871 10.5794983
##  [3,]  1.47393991 16.2625352 17.225298  6.533671  3.1200972  6.4483257
##  [4,]  2.42389864  0.6853697  1.656022  1.906917 33.2667454  2.7224887
##  [5,] 19.94414301 26.4208779 23.042187  1.531238  1.2319145  3.0567820
##  [6,]  8.80922256  0.7180219 12.596571 42.077671 14.3727238  0.3115118
##  [7,]  0.55592638 37.8965417  9.296166  2.191933  1.5487137 14.3746898
##  [8,]  0.08083778  4.9053775 15.907876  8.202777  2.8231449  8.0214628
##  [9,]  5.50959122  9.7953607 35.853769  3.354547  3.5918921  2.4084098
## [10,]  3.76781221  7.2836254 14.756751  9.306619  0.9578880  1.1775540
## [11,]  9.04187097 10.0237054 12.108557  6.220644 25.9909752 13.8962588
## [12,] 10.33943563  5.1423127  3.881080  1.528064 28.5915911 10.5131008
## [13,]  2.69732628 17.0988589 33.645866  4.105025  2.3776748  6.9580809
## [14,] 18.10391465 17.7893486  7.579794  2.849236  0.1896323 11.0712906
## [15,]  8.16689785 10.8878758 22.130855  6.904645  7.0642095 10.1281899
##           [,44]      [,45]      [,46]      [,47]      [,48]      [,49]
##  [1,]  5.595291 16.4876015  0.9810955 25.3514986  3.4578447  7.4260070
##  [2,]  3.525164  3.3149655  0.8247673  1.0104865 10.7450107  3.3343760
##  [3,] 19.328129  9.1942496  6.8408397 10.7752160 24.3040832 13.6702549
##  [4,] 10.546157  7.1196469 11.7696010  5.5231753  3.1540276  4.8919727
##  [5,] 19.355281 11.9921329  7.4798568  3.3106810  2.0558341  3.4916718
##  [6,]  9.608192  0.6031201  4.6341223 19.4217956  6.7055718  9.8606132
##  [7,]  9.546789  2.7995043  7.9370490 27.3996732  0.4378568  4.6002376
##  [8,]  1.833253 19.4104517  8.0699709  7.1284133 12.7200821  1.9210566
##  [9,] 11.531045 20.1276674 16.1169924  7.7295003 15.7542738  1.9628083
## [10,] 11.105569 15.4529117  4.9766618  3.7856770  9.1767592 18.7919864
## [11,]  3.607641  1.2272701  2.7390432 50.2718418  1.6696267  0.3273604
## [12,]  8.569758 29.3792474 14.0315404  3.1495253  2.3438379  3.4915685
## [13,]  3.157062  5.6114073  2.0127450  0.3749662 25.1393851 21.1753178
## [14,]  5.171301  3.5099770  5.1761781  5.7506190  3.9324942  9.9458272
## [15,] 16.323131  4.8071151 10.3966287 19.7621897  0.6733926  7.7479423
##             [,50]      [,51]      [,52]     [,53]     [,54]      [,55]
##  [1,]  4.84573248 30.8889608  0.3177783  8.721412  6.102797 24.2312366
##  [2,] 10.64895186  7.9610390  6.2162611  2.345025 10.423976 13.5547742
##  [3,] 13.05631744 38.7679751  0.5041068  3.483383  1.253648  0.7209770
##  [4,] 20.73472150  3.8578507  3.4088281 13.686382 22.045783  7.3444012
##  [5,]  5.93871883  1.2484859  0.9389469 13.032208 44.923661 24.9746769
##  [6,] 17.63722222  1.3257050 15.3669284  2.868810  2.236267  5.9006017
##  [7,]  1.84185637 12.7522480 12.9840434 15.826614  1.408417 10.0495163
##  [8,]  0.07581085  0.5546796 15.3120545 23.590339 23.575563  1.0479895
##  [9,]  4.74333694  8.6834873 17.4101754  3.493004 13.605252 14.6314855
## [10,]  7.00695509 32.7205702 11.5928254  3.934618 10.433187  0.1453878
## [11,] 37.22545838  2.6923542  3.2349348  4.936608 10.653952  8.9472284
## [12,] 12.20166868  3.5385522 14.3584430  2.428287 10.664492  0.7783475
## [13,] 13.06609013 15.7659771  7.8019890 17.934662  1.609308  0.8234328
## [14,]  0.88221119  6.1984831 11.7053779  2.250781  9.812044  3.9827180
## [15,]  1.63955306  2.5688242  1.2123593 11.601796  1.368709 23.0138874
##            [,56]       [,57]      [,58]      [,59]      [,60]       [,61]
##  [1,]  7.6719342 25.23204187 22.6712448 21.9413356 22.1833411 11.68499565
##  [2,]  3.0824159 23.32647180  4.0790454 13.8228602  5.4061043  2.19066699
##  [3,]  8.7862708 17.39575695  1.9818184  9.2115681 16.0431871 12.68841683
##  [4,]  3.9139352 24.98229449 16.7023023  0.1156126  9.2653328  4.54796347
##  [5,]  1.8520942  0.08549095  8.1806566 11.4381668 22.6484028 13.17260430
##  [6,] 10.2450176 15.07940842 23.9900887  4.4384197 29.2246980 10.23323563
##  [7,] 15.5205511  1.06518621  4.2988876 14.5266643  4.3774572  4.57727151
##  [8,]  3.7346108 44.15695237  1.2146634 15.3822126  3.9084492 11.64236641
##  [9,] 17.3723104  6.98400523  5.2515670  1.1544882  0.5343800  0.56377113
## [10,]  9.3311814 24.64360205  5.9016922  4.3605597 28.7736658  2.34397536
## [11,]  0.9623398  5.26133978  5.4568470 13.9810421 11.9740387  0.01430746
## [12,]  8.0623752  7.74370425 19.6237857 32.3357841  8.4438987  1.35691633
## [13,]  1.0420362  5.41946008  1.2655667 16.1635355  0.5482444  5.94491686
## [14,]  2.8574817  7.81675219  3.7626156  2.1087827  8.2530603  3.32660494
## [15,]  6.1800241 53.36906420  0.2328409  4.7446688  7.9950275  0.26611409
##            [,62]      [,63]     [,64]     [,65]      [,66]     [,67]      [,68]
##  [1,]  3.0775220  9.9486245  1.605586  4.133273  5.0766147 19.903679  0.1391349
##  [2,]  4.7824541 16.8579578  1.496719 20.607503  0.7690612 24.346869 14.6219619
##  [3,] 15.8956151 39.0729774 40.877500  2.348772 14.3840175 28.607320  4.4544672
##  [4,] 19.4969940  2.8462719  2.578516  3.730829 14.9915719  1.588088 33.3284369
##  [5,] 37.2628111  1.6382392  7.381006  1.757734  9.2230753  4.207243  4.9071388
##  [6,]  0.3595363 15.1736870  3.405576  6.739078  7.6263613 21.120116 14.8957843
##  [7,]  0.4422735  3.4770377 15.641717 37.355628  7.8106791 18.903787 12.6747413
##  [8,]  7.0110119  1.0103737 29.231025  4.400947 12.0634615  1.039073  2.7678716
##  [9,] 20.7246972  6.9322225  4.151891  5.305519  8.9500083  6.593886 27.5818199
## [10,]  8.2312157  3.5574396 18.779787  5.977069  7.8187892  8.092310 39.2042199
## [11,]  1.4721953  2.5399367 10.940921 18.266385  0.4388723  3.349208  9.5791037
## [12,]  6.4838388  0.3111733  6.991655  4.317289  1.5752286  1.032103 15.6301820
## [13,]  7.1818603  9.1244610 15.566135  3.754520 17.0349820  0.748562 17.5427139
## [14,] 20.0937078  3.2009821 23.486995  6.859580 11.1776954  3.880446 34.3893328
## [15,] 28.4681263  1.2749644 37.096948 11.807119  0.6507316  5.609843 69.6211336
##           [,69]      [,70]      [,71]      [,72]       [,73]     [,74]
##  [1,]  6.032731  8.2145215 10.7315090  2.5591166 31.25078708  1.352097
##  [2,] 11.623096  4.4022319 12.8279676  5.8628480 11.59703316  2.275701
##  [3,] 14.801532  8.5418249  3.2362296 15.0260926  4.97851400  1.917347
##  [4,] 28.432477  9.8093036  5.8449611  1.5851764 14.99823146  7.346462
##  [5,]  9.476456  8.4844325 25.6533380  0.5163703 14.61011870 15.956184
##  [6,] 14.631396 10.6126399 12.3600925  4.9413523  7.67660456  2.398268
##  [7,] 34.952820  3.2358391  0.6406685 12.2200035  7.02294431 12.512699
##  [8,]  1.466249  1.7427802  7.7134752 12.8498834  0.08523467  9.260283
##  [9,] 24.752197  4.7510234 22.7599172 15.7852878  4.54166302  9.096301
## [10,]  7.481041  0.2546676 12.9792385 12.3057506 11.35561338  2.130903
## [11,]  1.110243  9.5611537 10.2724305 11.8328749 12.96938918  2.146058
## [12,] 28.222506 18.1547602 35.2565045  9.6800282 23.87027213 11.383780
## [13,] 20.823570  1.2302793  6.9586085  2.7431595  4.42729598 19.594284
## [14,] 31.907308  5.6497046 14.2577969 22.4119494 51.96303593  1.408785
## [15,] 13.004921  4.1319204  4.4190753 14.0355426 26.11190660  1.870991
##             [,75]      [,76]     [,77]     [,78]       [,79]      [,80]
##  [1,]  4.61020917  2.1420351 14.449294  4.306480 12.92816557 19.1548976
##  [2,]  6.01442831 11.4870801  2.413870 30.202357  3.57628586  7.4299218
##  [3,] 26.11478964 67.6124500 13.641828  9.112677  2.42451855 13.0081768
##  [4,]  2.87393733 15.1580400  9.353770 29.328234  2.27448581  5.1129488
##  [5,]  2.25445309  8.0005343  7.579896 29.984427  1.47848683 10.7278893
##  [6,]  3.43690545  3.4946006  4.937699  5.538143  1.95044760  5.7506588
##  [7,]  8.01320456  3.8696145  1.269563  7.938426  6.50371844  0.2199448
##  [8,] 19.86402200  1.0974833  1.933168 10.244665 10.99041512  1.2392410
##  [9,]  0.06084216  6.8663411 10.244345  5.808166  0.27290877  4.3926042
## [10,] 34.96931320 24.5357784 31.432863 11.117055 11.14433966  2.3902588
## [11,]  0.74253060  0.3611455 33.571581  4.770599  6.78593897  4.9951442
## [12,]  7.42760773  8.6468502  2.808067 19.442762  9.13956956  2.9941924
## [13,]  9.48128482  4.8576495 10.010177  1.291843  0.08909525  7.3396561
## [14,]  2.78800939  4.7251982 12.062229  6.382561 10.42818697  1.5080208
## [15,] 15.41235797  8.9651802  1.390768 12.757442  7.16338579 26.0865556
##            [,81]       [,82]      [,83]      [,84]      [,85]      [,86]
##  [1,] 16.2822322  6.55193320  2.1467223  2.4465618  6.2806705  7.5408977
##  [2,] 10.8704495  0.01822245 12.9866418  8.3677372  0.3957273 24.0020697
##  [3,] 21.1097128  0.17543529  1.5575026  3.5157369  5.5248785 19.5988998
##  [4,]  7.2550416  1.95282201  0.4868201  4.1535812 17.1239771  4.7135047
##  [5,] 23.6903262  8.27069182  1.0702482 12.5544357 15.1338217  1.4079640
##  [6,]  0.9879290 16.83668017  1.6710042 23.7383971 23.0209074  5.1201113
##  [7,] 19.8101928 11.53821019  0.9066344  9.9852788 38.3914941  6.0390255
##  [8,]  5.0391606 23.35302712  1.8782114  7.5439353  0.8638258  8.3731477
##  [9,]  0.4115048  5.64122866  1.8869482 14.6884669  5.9265291  6.9281062
## [10,]  6.4836738 23.33877658  1.5585015  6.7663454 20.8768601  1.4077860
## [11,]  0.4889376  4.37933948  9.1570764 42.1152614  8.0220661 48.8068245
## [12,]  6.3234585  1.48809258  0.7417590  8.5597263  7.3211608 31.9978952
## [13,]  2.1984899 19.46828915  2.2055218  3.7997221  6.9065640  0.5904277
## [14,] 28.4465499  6.17254848 27.6854139 27.4823564  5.8605058  7.8148102
## [15,]  7.0841717 16.14050975 30.2735524  0.4731061 14.4679856  0.2336823
##           [,87]      [,88]      [,89]      [,90]     [,91]       [,92]
##  [1,] 10.804542  6.7929767  3.7292124  1.5158423  2.855621  2.83240410
##  [2,]  8.741598  8.5927337 14.8034026  1.7971030  3.272860  2.46729923
##  [3,] 10.247467 18.7352040  2.0924614  5.4724887 12.330421  1.04806490
##  [4,] 18.500639 11.8233357  6.6725310 15.8251987  3.635400  6.67500405
##  [5,]  5.855081 13.4771398 13.2356752 11.1589765 11.978697  5.34113003
##  [6,]  1.400558  3.7555144 44.3553143  2.1061026  4.873385  5.26994398
##  [7,]  1.335314  1.5871087  0.5732630  9.4775877  2.597575 25.18817762
##  [8,] 21.108834  9.0974926  4.2597616 22.5548497 11.142535 29.36503008
##  [9,] 10.767855  3.0984697  2.7727339  0.1599824 23.525518 14.15104886
## [10,] 10.783693  8.1567998  0.6301400  4.2787276 19.466305  4.59167435
## [11,]  7.189378  0.4399993  3.1421831  2.5765700  2.551638  6.42886896
## [12,]  2.474731 19.6772956  5.8927127 15.8525682  3.508468  0.08342346
## [13,] 26.579498  7.7774019  0.4632571  1.7852806  1.411612  1.34774608
## [14,]  2.125622  7.4393192  6.2787396  3.0454809  2.573533  2.14041028
## [15,]  2.691345 13.2738964  8.9701951 16.0321627  1.610178  1.24602177
##            [,93]      [,94]     [,95]      [,96]      [,97]      [,98]
##  [1,] 13.2458305  2.6608621  6.974754 10.5077421  6.0173318  0.3318938
##  [2,] 24.4293493 24.9989819  1.271888  5.9761459  3.6727155  2.2570383
##  [3,] 10.9410306 25.3052509  3.127874 39.2451944  9.7023632  2.1346906
##  [4,] 51.3585279  3.1558492 22.589471  1.0853321  6.0190486 11.2301405
##  [5,]  8.6597099  2.5909205  3.822095  2.4753962 10.9319555 15.6623749
##  [6,]  7.8364834 13.4547376 11.564327  1.7139628  8.2066941  4.9368179
##  [7,] 15.9545105 29.3615792  8.991132 17.8648405 13.0412495  5.7253669
##  [8,]  8.7446196  0.1365369  3.714756 11.5469438  3.2936882  1.2477376
##  [9,] 13.6341895  8.5842337  1.196209  5.3173734  0.9891630 13.1819922
## [10,]  2.3585926  6.4189553 17.267125  4.0955284  2.8121758  2.1858263
## [11,]  0.3989007  6.5941801  1.415800 17.0663946  0.4770174  7.7164895
## [12,] 15.2905870 13.2210664 11.806169  4.3286000  3.4709153  5.8315658
## [13,] 18.6250422  7.8211471  5.599734  8.2976181  0.4079135 12.2563377
## [14,] 10.9317605 26.4380596  8.141016  5.6977338  7.0442701 33.7292646
## [15,]  6.7348880 36.2768123  3.698386  0.4303674  7.6240023  0.5273721
##            [,99]     [,100]
##  [1,] 11.6819428 21.9281600
##  [2,]  2.1510569 22.1087903
##  [3,]  1.2117407  0.4189495
##  [4,]  3.0819468  3.6166962
##  [5,]  4.2264469  4.9594610
##  [6,]  2.6405512  3.1606020
##  [7,]  3.2236641 22.2421932
##  [8,]  6.5392560  3.0394349
##  [9,] 15.3815280  1.8321279
## [10,] 14.1986144  2.2688155
## [11,]  0.2231199 10.2680839
## [12,]  0.1912370 11.4482315
## [13,]  0.3581187  7.5646128
## [14,]  5.8685644  3.3057954
## [15,] 13.6945552  0.5828206

Construye los intervalos de confianza asociados a cada una de las 100 medias obtenidas para cada muestra, con un nivel de confianza del 95%.

tint <- matrix(NA, nrow = 100, ncol = 2)
for (i in 1:100){
    temp <- t.test(datos[, i], conf.level = 0.95)
    tint[i, ] <- temp$conf.int
    }
tint

##              [,1]      [,2]
##   [1,]  4.8963725 15.366715
##   [2,]  4.2389056 10.265313
##   [3,]  4.9837585 13.949289
##   [4,]  1.9942839 12.751260
##   [5,]  4.7475922 13.936649
##   [6,]  3.5303257 13.689062
##   [7,]  3.6271543 11.467941
##   [8,]  3.7070103 17.635842
##   [9,]  4.6087833 13.163175
##  [10,]  3.6482501  8.194890
##  [11,]  4.5197043 15.105329
##  [12,]  4.3131785 12.468022
##  [13,]  4.3001698 16.520889
##  [14,]  2.8608215  9.966144
##  [15,]  5.4788942 14.704149
##  [16,]  4.9528709 11.171475
##  [17,]  5.6981816 13.120646
##  [18,]  2.1125874 15.178030
##  [19,]  6.4720767 17.593479
##  [20,]  3.5230219 19.189508
##  [21,]  3.0958239 11.659436
##  [22,]  4.2665987 13.979166
##  [23,]  4.5507654 14.531627
##  [24,]  6.0548920 22.415314
##  [25,]  4.7006904 12.249422
##  [26,]  2.6702485 15.148183
##  [27,]  4.4137053 11.664139
##  [28,]  9.6753818 21.784578
##  [29,]  3.3370872  8.693837
##  [30,]  2.7464971  8.215074
##  [31,]  5.9267071 22.597461
##  [32,]  5.7753839 13.501471
##  [33,]  7.1047587 16.115172
##  [34,]  4.0125750 12.967457
##  [35,]  4.2347466  9.730152
##  [36,]  4.2504312 13.267435
##  [37,]  4.6414347 12.187519
##  [38,]  3.7286408 12.099701
##  [39,]  6.7949046 17.779181
##  [40,] 11.6526686 23.208546
##  [41,]  1.7727355 13.230900
##  [42,]  3.0178185 15.287175
##  [43,]  4.1732247  9.507493
##  [44,]  6.1088679 12.398300
##  [45,]  5.3853518 14.752951
##  [46,]  4.3712485  9.493697
##  [47,]  5.1848659 20.247835
##  [48,]  3.6349873 12.667690
##  [49,]  4.0631342 10.955399
##  [50,]  4.6924772 15.513470
##  [51,]  4.2889218 18.314437
##  [52,]  4.6994129 11.615927
##  [53,]  4.8838322 12.467358
##  [54,]  4.8778539 17.804420
##  [55,]  4.3954228 14.290799
##  [56,]  3.9329760  9.482301
##  [57,]  8.9091011 26.099103
##  [58,]  3.7848928 12.830257
##  [59,]  6.1976166 15.899144
##  [60,]  6.6533967 17.290508
##  [61,]  2.9269798  8.346904
##  [62,]  5.9154636 18.215718
##  [63,]  2.2317077 13.363805
##  [64,]  7.4375057 21.793425
##  [65,]  3.8553007 14.459532
##  [66,]  4.9621501 10.983337
##  [67,]  4.5578931 15.311778
##  [68,]  9.9681010 30.210305
##  [69,] 10.4970947 22.665377
##  [70,]  4.0307981  9.139480
##  [71,]  7.2731434 17.515098
##  [72,]  6.1204588 13.126933
##  [73,]  7.7303935 22.597426
##  [74,]  3.3910704 10.028949
##  [75,]  3.9615981 15.246921
##  [76,]  2.1971649 20.712166
##  [77,]  4.9244206 16.022128
##  [78,]  7.0643268 18.032451
##  [79,]  3.3887057  8.231287
##  [80,]  3.5150908 11.464924
##  [81,]  5.3570667 15.507177
##  [82,]  5.1392870 14.237487
##  [83,]  0.9855902 11.842751
##  [84,]  5.4802715 18.011815
##  [85,]  6.1845940 17.297669
##  [86,]  4.0053696 19.271317
##  [87,]  5.1502515 13.597236
##  [88,]  5.7572530 12.072705
##  [89,]  1.7745387 13.941672
##  [90,]  3.6649582 11.486898
##  [91,]  3.3056369 11.005529
##  [92,]  2.2956508 12.127849
##  [93,]  7.2940078 20.591862
##  [94,]  7.3764588 20.226098
##  [95,]  3.9678910 10.856207
##  [96,]  3.5474066 14.539150
##  [97,]  3.4371709  7.724230
##  [98,]  3.1189381 12.741716
##  [99,]  2.6389208  8.650725
## [100,]  3.4887678 12.343869

Asigna los nombres a las columnas de la matriz.

colnames(tint) <- c("lim.inf", "lim.sup")
tint <- data.frame(tint)

Genera un índice para identificar cuál de los intervalos construidos contienen al parámetro poblacional, y cuál de ellos no lo contiene.

indx <- (tint$lim.inf <= lambda) & (tint$lim.sup >= lambda)
indx

##   [1]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE
##  [13]  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [25]  TRUE  TRUE  TRUE  TRUE FALSE FALSE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE
##  [37]  TRUE  TRUE  TRUE FALSE  TRUE  TRUE FALSE  TRUE  TRUE FALSE  TRUE  TRUE
##  [49]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE
##  [61] FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE  TRUE  TRUE
##  [73]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [85]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [97] FALSE  TRUE FALSE  TRUE

sum(indx)

## [1] 85

Dibuja los resultados para identificar visualmente como la mayoría de los intervalos resultantes contienen al valor del parámetro poblacional.

plot(range(tint), c(0,1 + 100), type = "n", xlab = "Medias muestrales", ylab = "Muestra")
for (i in 1:100) {lines(tint[i, ], rep(i, 2), lwd = 1)
}
abline(v = 10, lwd = 2, lty = 2)

Finalmente, agrega a la tabla de resultados los valores del índice.

tint <- data.frame(tint,indx)
tint

##        lim.inf   lim.sup  indx
## 1    4.8963725 15.366715  TRUE
## 2    4.2389056 10.265313  TRUE
## 3    4.9837585 13.949289  TRUE
## 4    1.9942839 12.751260  TRUE
## 5    4.7475922 13.936649  TRUE
## 6    3.5303257 13.689062  TRUE
## 7    3.6271543 11.467941  TRUE
## 8    3.7070103 17.635842  TRUE
## 9    4.6087833 13.163175  TRUE
## 10   3.6482501  8.194890 FALSE
## 11   4.5197043 15.105329  TRUE
## 12   4.3131785 12.468022  TRUE
## 13   4.3001698 16.520889  TRUE
## 14   2.8608215  9.966144 FALSE
## 15   5.4788942 14.704149  TRUE
## 16   4.9528709 11.171475  TRUE
## 17   5.6981816 13.120646  TRUE
## 18   2.1125874 15.178030  TRUE
## 19   6.4720767 17.593479  TRUE
## 20   3.5230219 19.189508  TRUE
## 21   3.0958239 11.659436  TRUE
## 22   4.2665987 13.979166  TRUE
## 23   4.5507654 14.531627  TRUE
## 24   6.0548920 22.415314  TRUE
## 25   4.7006904 12.249422  TRUE
## 26   2.6702485 15.148183  TRUE
## 27   4.4137053 11.664139  TRUE
## 28   9.6753818 21.784578  TRUE
## 29   3.3370872  8.693837 FALSE
## 30   2.7464971  8.215074 FALSE
## 31   5.9267071 22.597461  TRUE
## 32   5.7753839 13.501471  TRUE
## 33   7.1047587 16.115172  TRUE
## 34   4.0125750 12.967457  TRUE
## 35   4.2347466  9.730152 FALSE
## 36   4.2504312 13.267435  TRUE
## 37   4.6414347 12.187519  TRUE
## 38   3.7286408 12.099701  TRUE
## 39   6.7949046 17.779181  TRUE
## 40  11.6526686 23.208546 FALSE
## 41   1.7727355 13.230900  TRUE
## 42   3.0178185 15.287175  TRUE
## 43   4.1732247  9.507493 FALSE
## 44   6.1088679 12.398300  TRUE
## 45   5.3853518 14.752951  TRUE
## 46   4.3712485  9.493697 FALSE
## 47   5.1848659 20.247835  TRUE
## 48   3.6349873 12.667690  TRUE
## 49   4.0631342 10.955399  TRUE
## 50   4.6924772 15.513470  TRUE
## 51   4.2889218 18.314437  TRUE
## 52   4.6994129 11.615927  TRUE
## 53   4.8838322 12.467358  TRUE
## 54   4.8778539 17.804420  TRUE
## 55   4.3954228 14.290799  TRUE
## 56   3.9329760  9.482301 FALSE
## 57   8.9091011 26.099103  TRUE
## 58   3.7848928 12.830257  TRUE
## 59   6.1976166 15.899144  TRUE
## 60   6.6533967 17.290508  TRUE
## 61   2.9269798  8.346904 FALSE
## 62   5.9154636 18.215718  TRUE
## 63   2.2317077 13.363805  TRUE
## 64   7.4375057 21.793425  TRUE
## 65   3.8553007 14.459532  TRUE
## 66   4.9621501 10.983337  TRUE
## 67   4.5578931 15.311778  TRUE
## 68   9.9681010 30.210305  TRUE
## 69  10.4970947 22.665377 FALSE
## 70   4.0307981  9.139480 FALSE
## 71   7.2731434 17.515098  TRUE
## 72   6.1204588 13.126933  TRUE
## 73   7.7303935 22.597426  TRUE
## 74   3.3910704 10.028949  TRUE
## 75   3.9615981 15.246921  TRUE
## 76   2.1971649 20.712166  TRUE
## 77   4.9244206 16.022128  TRUE
## 78   7.0643268 18.032451  TRUE
## 79   3.3887057  8.231287 FALSE
## 80   3.5150908 11.464924  TRUE
## 81   5.3570667 15.507177  TRUE
## 82   5.1392870 14.237487  TRUE
## 83   0.9855902 11.842751  TRUE
## 84   5.4802715 18.011815  TRUE
## 85   6.1845940 17.297669  TRUE
## 86   4.0053696 19.271317  TRUE
## 87   5.1502515 13.597236  TRUE
## 88   5.7572530 12.072705  TRUE
## 89   1.7745387 13.941672  TRUE
## 90   3.6649582 11.486898  TRUE
## 91   3.3056369 11.005529  TRUE
## 92   2.2956508 12.127849  TRUE
## 93   7.2940078 20.591862  TRUE
## 94   7.3764588 20.226098  TRUE
## 95   3.9678910 10.856207  TRUE
## 96   3.5474066 14.539150  TRUE
## 97   3.4371709  7.724230 FALSE
## 98   3.1189381 12.741716  TRUE
## 99   2.6389208  8.650725 FALSE
## 100  3.4887678 12.343869  TRUE

4.7.1 Intervalo de confianza para una media con distribución normal de varianza poblacional conocida

Sea $X$ una variable aleatoria con distribución normal de media $\mu$ desconocida y varianza $\sigma^2$ conocida. Entonces, el intervalo de confianza para la media $\mu$ considerando un $100(1-\alpha)\%$ de confianza y un tamaño muestral $n$ es

\[ IC(\mu)=\left[\bar{x}-z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}},\bar{x}+z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}\right] \]

donde $z_{\alpha/2}$ es tal que $P(-\infty < Z \leq z_{\alpha/2})=\dfrac{\alpha}{2}$.

Se podría construir una función que permita calcular un intervalo de confianza para la media.

IC_media_var_conocida <- function(media,sigma,n,NC=0.95){
  LI = media-abs(qnorm((1-NC)/2))*sigma/sqrt(n)
  LS = media+abs(qnorm((1-NC)/2))*sigma/sqrt(n)
  return(paste0("[",round(LI,2),",",round(LS,2),"]"))}

Por ejemplo, supongamos que en una población normal la varianza es igual a 9. Se selecciona aleatoriamente una muestra aleatoria de tamaño 100 de esa población teniendo como media 35. Entonces el intervalo asociado al 95% de confianza se calcula como

IC_media_var_conocida(35,sqrt(9),100) #sqrt calcula la raíz cuadrada

## [1] "[34.41,35.59]"

Por defecto, la función toma un nivel

Estudio de caso

Germán, que realizó sus prácticas en la empresa de transportes LAMP S.A., se enfrentó con la siguiente situación. Su tutor en la empresa, le dio un informe técnico en el que hace seis meses, de una muestra aleatoria de 64 colectivos que prestan servicio en la ciudad de Asunción, se obtuvo el intervalo [ 3,8011 ; 4,3989 ] como estimación de la verdadera media del número de pasajeros por kilómetro, al nivel de confianza del 95%. La primera consigna para Germán fue que construyera, con los datos obtenidos en la muestra de 64 colectivos, un nuevo intervalo, tal que, el error máximo de la estimación fuera de 0,15 pasajeros por kilómetro

El intervalo que debe construir es de menor precisión que el construido hace seis meses?

n1=64
linf1=3.8011
lsup1=4.3989

NC1=0.95
alfa1=1-NC1

z1=qnorm(1-alfa1/2)
z1

## [1] 1.959964

media1=(linf1+lsup1)/2
media1

## [1] 4.1

El error asociado al intervalo del 1er estudio

error1=lsup1-media1
error1

## [1] 0.2989

sigma1=(error1*sqrt(n1))/z1
sigma1

## [1] 1.220022

El intervalo que debe construir es de mayor precisión porque se reduce el error

error2=0.15

if(error2>error1) print("IC2 con menor precision") else print("IC2 con mayor precisión")

## [1] "IC2 con mayor precisión"

El error estándar de la media muestral se modificará?

eem1=error1/z1
eem1

## [1] 0.1525028

eem2=error2/z1
eem2

## [1] 0.07653202

if (eem1==eem2) print("Permanece") else print("Se modifica")

## [1] "Se modifica"

Es posible construir el nuevo IC con la información disponible disminuyendo el NC?

n2=64
NC2=0.90
alfa2=1-NC2
z2=qnorm(1-alfa2/2)
z2

## [1] 1.644854

la misma información muestral implica la misma media muestral

media2=media1
linf2=media2-error2
linf2

## [1] 3.95

lsup2=media2+error2  
lsup2

## [1] 4.25

Germán recibió luego la indicación de construir un nuevo intervalo de confianza, al nivel del 99%, tal que el error máximo de la estimación no excediera de 0,2. Para obtenerlo, Germán debe informar que se debe incrementar el tamaño muestral de 64 a 254 casos?

NC3=0.99
alfa3=1-NC2
z3=qnorm(1-alfa2/2)
z3

## [1] 1.644854

error3=0.2
sigma3=sigma1
n3=(z3)^2*sigma3/error3^2
n3

## [1] 82.52059

Estudio de caso

Una compañía de seguros desea estudiar los hábitos respecto al riesgo de los residentes de Asunción. Se selecciona una muestra aleatoria de 40 participantes y se les pide que mantengan un registro detallado de las actividades riesgosas que realizan durante la semana. Se determinó que el número promedio de actividades riesgosas realizadas (suponiendo que dicen la verdad) es 15,3 horas y que presenta una desviación estándar muestral de 3,8 actividades.

Obtenga el IC al 98% de confianza para la media

mean=15.3
sd=3.8
n1=40
NC1=0.98
alfa1=1-NC1
alfa1

## [1] 0.02

z1=qnorm(1-alfa1/2, mean = 0, sd = 1)
z1

## [1] 2.326348

liminf1=mean-z1*sd/sqrt(n1)
liminf1

## [1] 13.90225

limsup1=mean+z1*sd/sqrt(n1)
limsup1

## [1] 16.69775

Caso 1.2

de=3.8
NC2=0.98
alfa2=1-NC2
alfa2

## [1] 0.02

e=1
z2=qnorm(1-alfa2/2,0,1)
z2

## [1] 2.326348

n2=((de*z2)/e)^2
n2

## [1] 78.14776

Caso 1.3

liminf2=mean-z2*sd/sqrt(n2)
liminf2

## [1] 14.3

limsup2=mean+z2*sd/sqrt(n2)
limsup2

## [1] 16.3

4.8 Pruebas de hipótesis

4.8.1 Diferencia de medias con muestras de poblaciones normales con varianzas desconocidas

#mu1-mu2=delta
delta=-2
alfa=0.01

nivel1=c(14,12,15,15,11,16,17,12,14,13,18,13,18,15,16,11)
nivel1

##  [1] 14 12 15 15 11 16 17 12 14 13 18 13 18 15 16 11

nivel2=c(20,22,18,18,19,15,18,15,22,18,19,15,21,22,18,16)
nivel2

##  [1] 20 22 18 18 19 15 18 15 22 18 19 15 21 22 18 16

plot (nivel1)

Solución

n1=16
n2=16
gl=n1+n2-2

xbar1=mean(nivel1)
xbar1

## [1] 14.375

xbar2=mean(nivel2)
xbar2

## [1] 18.5

xbardif=xbar1-xbar2
xbardif

## [1] -4.125

S1=sd(nivel1)
S1

## [1] 2.276694

S2=sd(nivel2)
S2

## [1] 2.44949

REGLA: Rechazar H0 si tcalc<tcrit

Sp=sqrt(((n1-1)/(n1+n2-2))*S1^2+((n2-1)/(n1+n2-2))*S2^2)
Sp

## [1] 2.364671

tcrit=qt(alfa,gl)
tcrit

## [1] -2.457262

tcal=((xbar1-xbar2)-(delta))/(Sp*sqrt(1/n1+1/n2))
tcal

## [1] -2.541753

ENFOQUE CON PVALOR

Pvalor=pt(tcal,gl)
Pvalor

## [1] 0.008216869

CON FUNCIÓN DE R-PROJECT

t.test(nivel1,nivel2,mu=-2,alternative = c("less"), conf.level =1-alfa)

## 
##  Welch Two Sample t-test
## 
## data:  nivel1 and nivel2
## t = -2.5418, df = 29.841, p-value = 0.008232
## alternative hypothesis: true difference in means is less than -2
## 99 percent confidence interval:
##       -Inf -2.070023
## sample estimates:
## mean of x mean of y 
##    14.375    18.500

Estudio de caso

Alejandra es una alumna egresada de la carrera de Estadística en la FACEN que realizó su pasantía en una empresa conservera que tiene sede en Asunción y varias filiales en el país. Cuando Alejandra llegó a la empresa su tutor estaba realizando un estudio para tomar la decisión de producir una nueva marca extra condimentada de salsa de tomates. El departamento de investigación de mercado de la empresa realizó una encuesta telefónica nacional de 1.000 hogares y encontró que la salsa de tomates extra condimentada sería comprada por 330 de ellos. Hace dos años, un estudio mucho más extenso mostraba que el 25% de los hogares en ese entonces habrían comprado el producto. Su tutor le preguntó si opinaba que el interés por comprar la nueva marca había crecido significativamente.

Al nivel de significancia del 2%, debe concluir que actualmente existe un mayor interés en el sabor de la salsa de tomates extra condimentad?

H0: p = 0,25 H1: p > 0,25

n=1000
PH0=0.25
NC=0.98
alfa=1-NC
zcrit=qnorm(1-alfa)
zcrit

## [1] 2.053749

Pest=330/1000
zcal=(Pest-PH0)/sqrt((PH0*(1-PH0))/n)
zcal

## [1] 5.842374

Pvalor=1-pbinom(330,1000,0.25,log = FALSE)
Pvalor

## [1] 5.82433e-09

binom.test(x=330,n=1000,p=0.25,alternative="greater",conf.level = 0.98)

## 
##  Exact binomial test
## 
## data:  330 and 1000
## number of successes = 330, number of trials = 1000, p-value = 8.708e-09
## alternative hypothesis: true probability of success is greater than 0.25
## 98 percent confidence interval:
##  0.299546 1.000000
## sample estimates:
## probability of success 
##                   0.33

Debe rechazar la H0, y Debe concluir que actualmente existe un mayor interes

Una vez tomada la decisión de no rechazar la vigencia del estudio extenso de hace dos años, la probabilidad de cometer un error de tipo I es igual a cero?

Error de tipo I

xcrit=qbinom((1-0.02),1000,0.25)
xcrit

## [1] 278

alfa=1-pbinom(xcrit,1000,0.25)
alfa

## [1] 0.01958826

Con los datos disponibles, no se puede calcular la potencia de la prueba?

Error de tipo II: Asumida una H1 alternativa P=0.30

beta=pbinom(xcrit,1000,0.30)
beta

## [1] 0.06818224

Estudio de caso

De acuerdo con los resultados de la encuesta a egresados de la FACEN del año 2005, un estudiante de tecnología de producción puede esperar un salario promedio igual al egresar que los estudiantes de la carrera de estadística. Marcos, un estudiante del último año de la carrera de estadística, decide verificar si dicha hipótesis se mantenía luego de 10 años. Para ello relevó datos de dos muestras aleatorias de egresados de ambas carreras del año 2015 para realizar una prueba de hipótesis. Los datos recabados sobre los salarios percibidos (en millones de Gs. en la actualidad) y los resultados de la prueba fueron los siguientes:

tecnol <-c(5,4.1,3,2.5,2.6,2.1,2.0,5,7,2,2.1,2.3,2.6,3.5)
estad <-c(5.1,5.2,2.0,3.0,4,6,2,8,8.1,10,2.0)

De acuerdo con los resultados, Marcos puede rechazar la hipótesis nula de que un egresado de la carrera de tecnología puede esperar un ingreso igual que un egresado de la carrera de estadística?
Dado el intervalo de confianza obtenido por Marcos, es correcto decir que la probabilidad de que el verdadero valor de la diferencia de ingresos medios esté entre -0,2134 y 3,7433 es de 95%?
El Pvalor obtenido por Marcos significa que existe un 7,652% de probabilidad de obtener una diferencia de medias mayor que +1,764935?

mean(estad)

## [1] 5.036364

mean(tecnol)

## [1] 3.271429

test <- t.test(estad,tecnol,mu = 0,alternative="greater", conf.level = 0.95)
test

## 
##  Welch Two Sample t-test
## 
## data:  estad and tecnol
## t = 1.9068, df = 14.529, p-value = 0.03826
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  0.1388691       Inf
## sample estimates:
## mean of x mean of y 
##  5.036364  3.271429

difmean=mean(estad)-mean(tecnol)
difmean

## [1] 1.764935

4.9 Pruebas de bondad de ajuste

Cuando realizamos cierto tipo de experimento, nos encontramos en la situación de que los valores obtenidos en la muestra difieren de los valores que se esperan bajo cierto modelo de probabilidad. Por esa razón es importante analizar si estas diferencias son significativas o no.

Utilizaremos primeramente pruebas de bondad de ajuste basadas en la Chi-cuadrada. Esta prueba requiere que las frecuencias esperadas sean mayores o iguales a 5.

4.9.1 Prueba Chi-cuadrada para bondad de ajuste

4.9.1.1 Ajuste a una distribución uniforme

Ejemplo: En un comedor asisten semanalmente personas de diferentes ciudades. El dueño del comedor, en su afán de conocer si la cantidad de personas que vienen por semana es la misma en cada semana, realiza un estudio anotando la cantidad de personas que vienen a su comedor durante 5 semanas. Sus anotaciones son las siguientes:

Semana	Cantidad de Personas
1	120
2	110
3	116
4	99
5	105

¿Qué se puede concluir?

Solución

#Definimos una variable que cuente con la cantidad de personas
cantidad_personas <- c(120, 110, 116, 99, 105)

#Contamos la cantidad total de personas
total <- sum(cantidad_personas)
total

## [1] 550

#Calculamos las frecuencias esperadas
esperadas <- rep(total/5, 5)
esperadas

## [1] 110 110 110 110 110

#Aplicando la formula de la chi cuadrada sería
chi_cal <- sum((cantidad_personas-esperadas)^2/esperadas)
chi_cal

## [1] 2.563636

#El p valor asociado es
pchisq(chi_cal, df=4, lower.tail = F)

## [1] 0.6332781

Podemos también usar directamente la función chisq.test() definiendo antes las probabilidades de cada clase o categoría

#Calculamos las probabilidades asociadas a cada categoría
probabilidades <- rep(1/5,5)
probabilidades

## [1] 0.2 0.2 0.2 0.2 0.2

#Aplicamos la prueba Chi con chisq.test()
chisq.test(x=cantidad_personas,p=probabilidades)

## 
##  Chi-squared test for given probabilities
## 
## data:  cantidad_personas
## X-squared = 2.5636, df = 4, p-value = 0.6333

4.9.1.2 Ajuste a una distribución Binomial

Ejemplo: Considera la siguiente tabla de frecuencia:

x	frecuencia
0	18
1	56
2	110
3	88
4	40
5	8

¿Se ajustan los datos a una distribución binomial con $p=0,5$? Utiliza un $\alpha=0,01$.

Solución

#Definimos la variable X
x <- 0:5

#Creamos la variable frecuencia observada
f_observada <- c(18, 56, 110, 88, 40, 8)

#Calculamos la suma de frecuencias, el total
total <- sum(f_observada)
total

## [1] 320

#Calculamos las probabilidades binomiales con dbinom()
#en donde size=5 es el número de ensayos de Bernoulli,
#y prob=5 es la probabilidad de éxito
probabilidades <- dbinom(x, size = 5, prob = 0.5)
probabilidades

## [1] 0.03125 0.15625 0.31250 0.31250 0.15625 0.03125

#Ahora aplicamos la función chisq.test()
chisq.test(x = f_observada, p = probabilidades)

## 
##  Chi-squared test for given probabilities
## 
## data:  f_observada
## X-squared = 11.96, df = 5, p-value = 0.03534

4.9.1.3 Ajuste a una distribución de Poisson

Ejemplo: En una cierta región de un país se dividió en secciones rectangulares de 0,5 km^^2 para hacer un conteo de la cantidad de bombas caídas durante una guerra. Los conteos se muestran en la siguiente tabla:

Cantidad de impactos	Frecuencia
0	229
1	211
2	93
3	35
4	7
5	1

¿Sugieren los datos que la aparición de bombas se distribuye según la ley de Poisson?

Solución

#Definimos la variable X
x <- 0:5

#Creamos la variable frecuencia observada
f_observada <- c(229, 211, 93, 35, 7, 1)

#Calculamos la suma de frecuencias, el total
total <- sum(f_observada)
total

## [1] 576

#Se estima primeramente el valor de lambda, pues es desconocido
lambda <- sum(x*f_observada)/total
lambda

## [1] 0.9288194

#Calculamos las probabilidades de Poisson con dpois()
probabilidades <- dpois(x,lambda = lambda)
probabilidades

## [1] 0.39501978 0.36690205 0.17039288 0.05275474 0.01224991 0.00227559

#Calculamos las frecuencias esperadas
f_esperada <- probabilidades*total
f_esperada

## [1] 227.531392 211.335581  98.146299  30.386730   7.055946   1.310740

#La última casilla tiene un valor esperado inferior a 5. Juntamos los dos últimos
f_observada_nueva <- c(229, 211, 93, 35, 8)
f_esperada_nueva <- c(f_esperada[-(5:6)],f_esperada[5]+f_esperada[6])
f_esperada_nueva

## [1] 227.531392 211.335581  98.146299  30.386730   8.366687

#Usamos la formula de la chi cuadrada
chi_cal <- sum((f_observada_nueva-f_esperada_nueva)^2/f_esperada_nueva)
chi_cal

## [1] 0.9963088

#Calculamos el p valor, con 3 grados de libertad
pvalor <- pchisq(chi_cal, 3, lower.tail = F)
pvalor

## [1] 0.8021451

4.9.1.4 Ajuste a una distribución exponencial

Ejemplo: En un estudio sobre la vida en años de 70 máquinas electrónicas se obtuvieron los siguientes resultados:

Años de vida	Frecuencia
0-1	30
1-2	23
2-3	6
3-4	5
más de 4	6

Demostrar que estos datos se ajustan a una distribución exponencial, utilizando 5% de nivel de significancia.

4.9.2 Prueba K-S

Simulación

Genera 100 valores aleatorios de una distribuci?n normal de media 3 y desviación típica 2 (utiliza la semilla 111).

options(width=80)
set.seed(111)
data<-rnorm(100,0,1)
data

##   [1]  0.23522071 -0.33073587 -0.31162382 -2.30234566 -0.17087604  0.14027823
##   [7] -1.49742666 -1.01018842 -0.94847560 -0.49396222 -0.17367413 -0.40659878
##  [13]  1.84563626  0.39405411  0.79752850 -1.56666536 -0.08585101 -0.35913948
##  [19] -1.19360897  0.36418674  0.36166245  0.34696437  0.18973653 -0.15957681
##  [25]  0.32654924  0.59825420 -1.84153430  2.71805560  0.19124439 -1.30129607
##  [31] -3.11321730 -0.94135740  1.40025878 -1.62047003 -2.26599596  1.16299359
##  [37] -0.11615504  0.33425601 -0.62085811 -1.30984491 -1.17572604 -1.12121553
##  [43] -1.36190448  0.48112458  0.74197163  0.02782463  0.33137971  0.64411413
##  [49]  2.48566156  1.95998171  0.19166338  1.55254427  0.91424229  0.35862537
##  [55]  0.17509564 -0.84726777  0.97823166  1.80586826  0.12291480 -0.12977203
##  [61] -0.21642866  1.44647817  0.40970980  0.91091657  1.43035817 -0.38129196
##  [67]  0.20230718 -0.80619919  0.29463418  1.40488308  1.02376685  0.47612606
##  [73] -0.67033033  0.15923432 -0.38271538  0.93576259 -0.63153227 -0.09830608
##  [79]  1.03198498  0.38780843 -1.25612931 -0.78695273  0.42981155 -0.37641622
##  [85] -1.21622907  1.02927851  0.43039700 -1.24557402 -0.60272849  0.66006939
##  [91]  2.05074953  0.49080818 -1.73147942  0.71088366  0.01382291 -1.40104160
##  [97]  1.25912367 -0.12747752 -0.72938651 -1.21136136

hist(data,breaks=15,freq=FALSE,main="Histograma de frecuencias relativas")

curve(dnorm(x),add=TRUE,col="red")

plot(ecdf(data),do.points=FALSE,verticals=TRUE,main="Distribución empírica",ylab="Sn(x)")
curve(pnorm(x),col="red",add=TRUE)

#calculo de D_n

data<-sort(data) # Segunda columna, se ordenan los datos
Fx<-pnorm(data,0,1) # Tercera columna, hacer F(xi)
Sn<-seq(0.01,1,0.01) # Distribución empírica (no hay empates)
aux1<-abs(Sn-Fx) # Cuarta columna
Fx1<-c(Fx,0)
Sn1<-c(0,Sn)
aux2<-abs(Sn1-Fx1)[1:100] # Quinta columna
max(aux1,aux2) # Encontrar Dn

## [1] 0.06014782

#Gráfica de S_n vs F_n

plot(Fx,Sn,type="s")
points(Sn,Sn,type="s",col="green")

#realizar la prueba con el comando

ks.test(data,"pnorm",0,1)

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  data
## D = 0.060148, p-value = 0.8623
## alternative hypothesis: two-sided

4.9.3 Prueba Chi-cuadrada para tablas de contingencia

#cargamos una variable cualitativa nominal

sexo=as.factor(c("H","M","H","H","M","M","H","M","M","H","M","M","H","M","H","H","M","M","H","M","M","H","M","M","H","M","H","H","M","M","H","M","M","H","M","M","H","M","H","H","M","M","H","M","M","H","M","M"))

sexo

##  [1] H M H H M M H M M H M M H M H H M M H M M H M M H M H H M M H M M H M M H M
## [39] H H M M H M M H M M
## Levels: H M

#cargamos una variable cualitativa nominal

fuma=as.factor(c("No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí","No","Sí","No","Sí","Sí","Sí"))

fuma

##  [1] No Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí No
## [26] Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí No Sí No Sí Sí Sí
## Levels: No Sí

#para indicar a R que los datos cargados están relacionados

datos=data.frame(sexo,fuma)
#datos

table(datos)

##     fuma
## sexo No Sí
##    H 12  8
##    M  4 24

mosaicplot(table( datos$sexo,datos$fuma),xlab = "Sexo", ylab = "Fumador",main ="Mosaico para fumadores por sexo",color = 2:3)

Prueba chi de independencia

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table(datos$sexo, datos$fuma)
## X-squared = 9.0107, df = 1, p-value = 0.002684

Algunos ejemplos más

Referencias

Allaire, J., Xie, Y., McPherson, J., Luraschi, J., Ushey, K., Atkins, A., Wickham, H., Cheng, J., Chang, W. and Iannone, R. (2022) ‘Rmarkdown: Dynamic documents for r.’

‘Statistical software for data science | stata’ (n.d.).