Simular datos de una población y de una muestra describiendo la media poblacional y la media muestral para su adecuada interpretación.
Generar una población de 1000 números con valores entre 250 y 600
Determinar una muestra del 10% de la población de dichos números
Identificar la estructura de los datos
Determinar el parámetro la media de la población
Determinar el estadístico de la media de la muestra
Mostrar el resumen de los datos de población y muestra
Comparar valores de medias del parámetro poblacional contra el estadístico de la muestra.
Se visualiza la dispersión de los datos con la función ggplot() de la librería “ggplot2”.
Interpretar el caso
La información que se utiliza para aplicar técnicas estadísticas se colecta en forma de muestras o conjuntos de observaciones. Las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico.
En el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población.
Aquí podemos notar que la muestra es un subconjunto de la población.
Un parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana, moda o una desviación estándar de una población.
Un estadístico es una medida que describe características de una muestra. Normalmente cuando se habla de muestra los estadísticos son estimadores dado que se acercan a los parámetros de una población.
library(ggplot2)
Generaremos semilla (esto nos servirá para mantener los mismos valores y que no se generen otros de manera aleatoria) y posteriormente una población que sea de 1000 números que vayan desde el 250 y 600
set.seed(1984)
poblacion = sample(x = 250:600, size = 1000, replace = TRUE)
poblacion
## [1] 417 435 458 462 327 409 364 488 522 454 317 413 287 422 358 451 507 370
## [19] 335 467 462 546 327 324 467 526 431 397 531 397 565 281 286 534 257 416
## [37] 440 511 577 596 589 358 339 329 283 276 580 323 408 502 568 330 505 360
## [55] 490 474 405 369 519 388 461 532 355 389 542 486 297 416 414 525 565 309
## [73] 410 270 599 512 289 275 367 508 451 595 328 306 506 547 322 465 427 299
## [91] 361 538 430 585 467 421 309 381 287 401 292 516 338 254 304 462 448 481
## [109] 394 580 287 472 578 309 445 593 375 337 487 270 466 367 291 529 435 321
## [127] 427 417 544 481 367 259 540 366 353 506 416 330 496 381 468 548 584 374
## [145] 441 258 285 500 570 433 528 466 340 395 478 453 509 490 422 590 285 433
## [163] 448 563 433 291 349 374 280 279 261 409 478 459 489 429 535 331 363 431
## [181] 333 402 255 396 295 590 581 345 371 470 535 463 547 385 517 480 524 404
## [199] 404 536 286 519 388 374 259 387 545 305 418 457 458 366 527 383 436 283
## [217] 273 598 346 520 560 310 325 270 461 262 295 307 571 355 520 448 274 341
## [235] 304 420 263 433 365 324 571 554 260 516 366 379 326 346 428 473 313 556
## [253] 576 573 316 263 274 495 582 432 441 469 569 544 252 477 312 316 273 346
## [271] 373 365 392 471 421 351 541 273 260 539 338 586 336 262 459 543 483 465
## [289] 259 484 357 284 501 592 384 580 297 319 314 353 363 391 293 257 539 454
## [307] 451 508 505 518 588 518 463 469 310 594 569 504 437 255 309 472 398 283
## [325] 531 566 555 549 342 398 283 575 372 254 392 521 325 550 306 311 545 318
## [343] 286 306 316 402 393 418 497 524 515 263 428 442 446 535 401 360 490 593
## [361] 374 467 266 487 453 329 403 347 365 294 495 460 510 382 412 564 321 340
## [379] 446 380 572 397 286 427 454 385 288 412 314 289 543 370 543 364 384 453
## [397] 438 517 427 584 263 308 475 307 264 401 387 508 301 307 295 463 384 545
## [415] 323 530 481 409 298 431 290 262 291 465 437 482 362 501 398 408 310 382
## [433] 577 554 579 381 425 384 364 285 397 451 267 312 279 458 411 507 585 402
## [451] 302 600 360 476 488 412 288 595 591 373 370 296 424 440 396 351 287 600
## [469] 296 485 504 393 485 353 420 403 336 480 415 388 449 490 327 391 578 471
## [487] 569 250 285 485 591 527 332 445 556 476 260 269 293 370 547 258 313 536
## [505] 393 490 357 441 395 357 336 400 281 360 507 276 285 373 504 409 457 489
## [523] 483 395 588 257 456 554 457 294 371 464 468 380 478 516 347 269 589 363
## [541] 431 328 394 548 299 373 575 475 410 566 266 406 581 458 479 491 501 307
## [559] 294 587 307 490 372 588 282 274 589 419 275 294 333 412 337 485 549 312
## [577] 539 259 526 589 325 582 280 548 308 497 566 363 524 437 275 589 355 316
## [595] 307 517 476 570 405 527 522 308 437 479 447 459 513 577 494 454 314 457
## [613] 520 533 442 275 578 431 270 461 307 448 588 418 494 435 360 512 532 486
## [631] 255 359 433 418 517 367 394 555 302 571 513 568 351 387 592 532 480 307
## [649] 587 567 521 363 427 386 338 316 542 489 255 352 333 278 293 515 255 280
## [667] 297 265 461 320 291 591 361 364 444 398 541 508 542 379 557 424 403 556
## [685] 430 367 467 461 588 558 379 521 379 523 427 574 294 494 572 256 409 469
## [703] 544 537 425 337 313 312 320 420 404 594 528 539 309 420 454 515 507 383
## [721] 390 292 566 421 367 259 255 445 456 331 392 456 260 473 329 379 321 317
## [739] 270 414 257 297 571 306 431 593 341 325 452 283 381 340 416 444 545 520
## [757] 360 433 306 597 387 595 271 481 445 493 409 565 282 477 307 500 520 486
## [775] 335 551 533 541 572 408 554 261 405 352 264 455 415 405 326 525 280 344
## [793] 541 533 411 481 299 406 298 454 586 530 372 464 286 539 572 536 572 367
## [811] 254 412 376 568 444 279 257 359 332 593 375 519 415 576 326 511 488 447
## [829] 598 548 386 439 534 471 372 266 535 525 373 417 446 472 394 276 512 374
## [847] 304 333 304 506 300 545 424 552 364 508 388 373 318 290 597 287 435 340
## [865] 274 511 340 491 360 425 290 533 433 371 521 419 351 285 371 553 596 355
## [883] 587 334 562 298 531 585 574 408 407 468 443 464 467 433 579 579 412 295
## [901] 426 395 507 584 477 594 471 517 555 284 417 442 455 489 598 591 458 298
## [919] 440 490 567 486 483 366 465 361 588 443 358 510 365 367 566 405 591 322
## [937] 436 280 372 369 423 496 561 515 287 517 575 356 578 511 393 358 545 299
## [955] 327 301 410 345 376 368 582 502 563 257 471 446 600 394 324 388 451 306
## [973] 379 471 251 575 272 449 530 291 427 521 293 541 540 398 286 530 578 373
## [991] 346 313 315 416 293 269 350 361 460 488
Función sample() en este caso la estamos usando para generar los valores de nuestra población, usando los siguientes argumentos:
La x significan los valores que se tomarán para crear la población o muestra(en este caso se toman valores mínimos de 250 y máximos de 600, separados por dos puntos)
La palabra size es para indicar de cuántos datos será la población o muestra
replace tiene un objetivo especial:
Si queremos que el valor a pueda repetirse y encontrarse dos o más veces en nuestra población, entonces indicamos que es TRUE (en algunas ocasiones esto será obligatorio cuanto la cantidad de distintos números disponibles es menor al tamaño de la población o muestra)
Por el contrario, si queremos que no se repita, entonces indicamos que replace es igual a FALSE
str(poblacion)
## int [1:1000] 417 435 458 462 327 409 364 488 522 454 ...
La letra N mayúscula usualmente en estadística indica la cantidad de individuos, números o elementos que conforman una población.
Entonces en este caso N es igual a 1000 (la cantidad de elementos totales).
Para expresarlo en el código usamos la función length() que “cuenta” la cantidad de elementos de un conjunto de datos.
N = length(poblacion)
N
## [1] 1000
Ahora bien, para crear la muestra de la población anteriormente creada, usamos la misma función sample(). Pero ahora, en vez de crear los valores, lo que haremos será tomarlos del vector llamado poblacion. Además, la muestra la haremos del 10% (por poner un ejemplo), por lo que size valdrá 100.
0.10= 10%
1000 * 0.10 = 100
La letra n minúscula sirve para indicar la cantidad de elementos de una muestra
n = N * 0.10
n
## [1] 100
muestra = sample(x = poblacion , size = n, replace = FALSE)
muestra
## [1] 461 582 363 337 290 531 302 588 467 437 507 372 346 548 421 341 276 314
## [19] 394 437 459 597 535 472 533 461 286 255 267 574 533 595 361 528 477 508
## [37] 431 449 438 318 432 471 317 589 384 312 517 468 526 412 520 374 351 312
## [55] 359 516 259 402 387 457 515 287 488 255 405 549 310 353 374 436 389 409
## [73] 338 462 407 508 294 259 345 508 542 420 379 321 469 451 416 294 307 428
## [91] 512 406 510 392 269 280 365 598 448 481
Podrán observar que es muy parecido a cuando creamos la población, solo que está vez no es generar números, sino más bien es tomarlos de un conjunto previamente existente.
En cuanto al argumento replace = FALSE, esto se usa para que no podamos sacar dos veces el mismo elemento, esto siempre será así cuando sacamos una muestra. Por ejemplo, si tuviéramos una población de 1000 diferentes personas, cuando sacamos la muestra no podemos repetir a la misma persona dos veces.
Se determina en parámetro media poblacional.
media.poblacion = mean(poblacion)
media.poblacion
## [1] 422.389
Se determina el estadístico media de la muestra
media.muestra = mean(muestra)
media.muestra
## [1] 419.35
Estructura población
str(poblacion)
## int [1:1000] 417 435 458 462 327 409 364 488 522 454 ...
Estructura muestra
str(muestra)
## int [1:100] 461 582 363 337 290 531 302 588 467 437 ...
Aquí les muestro una “tabla” con los datos que se pueden recabar de la población y de la muestra, esto lo hacemos con la función summary()
Población
summary(poblacion)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 250.0 335.8 420.0 422.4 508.0 600.0
Muestra
summary(muestra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 255.0 344.0 420.5 419.4 507.2 598.0
Para hacer un gráfico en R, debemos usar una función que se llama ggplot(), la cual viene en el paquete previamente instalado “ggplot2”
ggplot()+
geom_point(aes(x = 1:N, y = poblacion), col= '#57628F') +
geom_hline(yintercept = media.poblacion, col='#8F1E5B') +
ggtitle(label = "Población", subtitle = paste("Media poblacional = ", media.poblacion))
Aquí les dejo mi interpretación personal:
La población creada tiene 1000 datos. La muestra es del 10%, es decir, está conformada por 100 elementos
La media poblacional tiene un valor de 422.4, y la muestra tiene una media de 419.4 (diferencia de 3).
La muestra es una herramienta que nos sirve para calcular estadísticas de una población sin tener que recopilar ni evaluar todos los elementos.
La media muestral es una aproximación muy cercana de la media poblacional
La media se define como la sumatoria de n cantidad de elementos, dividido entre n
La estructura de los datos se puede obtener con la función srt(), con la que podemos ver la lista de elementos
Los valores que arroja son el conjunto de elementos
summary() es una función que sirve para obtener datos generales acerca de un conjunto de datos.
Nos muestra el valor mínimo y el valor máximo, el 1er y 3er cuartil, la mediana y la media.