Objetivo

Simular datos de una población y de una muestra describiendo la media poblacional y la media muestral para su adecuada interpretación.

Descripción

Marco teórico

Población y muestra

La información que se utiliza para aplicar técnicas estadísticas se colecta en forma de muestras o conjuntos de observaciones. Las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico.

En el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población.

Parámetro y estadístico

Un parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana, moda o una desviación estándar de una población.

Un estadístico es una medida que describe características de una muestra. Normalmente cuando se habla de muestra los estadísticos son estimadores dado que se acercan a los parámetros de una población.

Desarrollo

Cargar librerías

library(ggplot2)

Crear datos

Sembrar semilla

Al ejecutar set.seed() nos permite generar los mismos numero en la muestra y poblacion.

set.seed(16072003) 

Crear población

Genera construye una población de 1000 números con valores entre 250 y 600.

Seleccionamos el rango de los números a generar en X y el tamaño de esto en size, ademas replace permite que los números se repitan

poblacion <- sample(x = 250:600, 
                    size = 1000, 
                    replace = TRUE)   
# Muestra los valores
poblacion
##    [1] 474 329 356 556 488 599 413 261 523 279 584 406 337 482 250 502 553 343
##   [19] 294 518 350 441 467 538 285 314 338 468 355 512 423 326 549 511 525 486
##   [37] 546 364 285 570 435 408 261 564 487 439 284 370 464 266 314 465 403 425
##   [55] 546 576 331 339 582 340 535 335 474 278 263 582 433 347 325 571 517 394
##   [73] 440 565 439 260 288 292 437 255 295 597 436 284 364 446 334 363 565 420
##   [91] 582 460 341 442 391 562 487 560 436 284 348 383 386 578 337 467 549 541
##  [109] 307 333 539 289 459 524 257 550 428 568 252 297 494 399 350 507 450 552
##  [127] 403 482 397 365 462 597 498 318 262 260 535 599 453 462 369 545 523 450
##  [145] 276 536 490 577 377 260 352 385 309 265 383 451 579 338 556 494 410 437
##  [163] 412 592 570 327 573 295 441 404 596 300 279 538 404 511 353 597 385 564
##  [181] 362 540 361 508 544 500 462 382 387 336 345 392 278 526 300 275 600 524
##  [199] 418 404 534 473 298 325 600 253 434 528 401 575 518 499 599 520 378 588
##  [217] 443 364 480 531 461 441 417 543 503 535 397 395 536 460 557 402 251 308
##  [235] 290 404 293 534 256 506 295 364 254 421 357 309 444 497 433 329 487 349
##  [253] 429 408 337 439 401 373 283 274 511 259 455 437 279 332 331 559 383 545
##  [271] 533 400 422 290 428 462 573 526 260 289 407 374 529 559 291 404 485 389
##  [289] 573 499 546 425 511 584 461 441 278 250 326 277 314 261 508 426 347 298
##  [307] 413 458 370 302 597 543 278 251 484 351 418 586 537 311 410 550 330 422
##  [325] 506 457 474 378 259 527 508 379 398 543 400 471 507 284 456 529 465 525
##  [343] 305 409 381 375 456 495 341 534 300 331 467 597 354 273 571 524 414 587
##  [361] 474 309 460 288 517 320 537 347 543 421 363 401 536 335 259 545 393 550
##  [379] 537 436 592 548 343 481 433 376 265 272 334 530 525 404 336 500 410 486
##  [397] 574 428 446 428 427 358 371 558 323 485 481 577 467 570 590 315 254 503
##  [415] 404 393 539 360 402 484 543 303 585 514 589 411 327 520 339 302 420 577
##  [433] 476 372 332 391 438 384 326 534 484 505 547 542 567 402 515 561 391 398
##  [451] 398 283 597 254 429 437 531 531 308 276 523 272 450 565 424 561 445 349
##  [469] 473 296 585 489 288 365 500 291 524 387 292 596 461 582 394 548 312 570
##  [487] 571 269 510 555 259 570 548 408 363 263 563 372 569 548 531 289 390 395
##  [505] 332 331 484 367 509 352 302 581 282 598 596 545 315 426 274 376 354 560
##  [523] 353 453 508 501 447 530 444 550 446 549 505 473 406 462 318 532 576 274
##  [541] 524 359 259 556 309 505 273 398 370 519 285 567 512 527 477 444 345 515
##  [559] 304 568 411 318 254 319 454 460 269 467 250 265 441 430 288 437 288 445
##  [577] 465 563 578 412 355 507 327 288 486 595 569 479 301 473 355 406 492 390
##  [595] 549 480 401 462 296 259 388 412 328 361 353 456 320 535 331 381 392 347
##  [613] 509 392 364 337 269 472 325 540 597 572 459 593 453 350 493 586 455 250
##  [631] 381 562 482 448 480 501 488 591 462 553 496 576 405 458 334 516 377 435
##  [649] 600 590 318 574 291 429 495 378 570 545 260 357 595 461 392 596 349 372
##  [667] 414 259 490 295 455 413 533 359 552 373 424 594 348 340 512 279 485 543
##  [685] 490 255 572 379 591 383 455 252 330 372 575 393 321 470 269 383 567 357
##  [703] 448 375 384 526 372 406 307 269 521 519 408 307 592 255 570 440 292 466
##  [721] 374 330 347 428 573 567 451 376 483 496 527 598 549 272 433 444 277 489
##  [739] 411 358 346 600 262 364 390 253 260 256 572 527 378 544 429 315 502 578
##  [757] 334 418 537 587 420 312 414 357 363 376 559 430 272 398 475 295 527 414
##  [775] 493 366 438 598 579 289 375 467 397 527 381 433 440 479 266 446 444 479
##  [793] 413 251 551 436 482 449 494 329 448 462 281 411 447 292 417 594 255 456
##  [811] 448 463 547 495 564 592 402 324 386 494 401 392 305 421 377 451 425 475
##  [829] 302 393 497 513 495 554 559 477 270 575 415 437 490 288 399 591 353 422
##  [847] 430 354 472 310 323 284 374 306 290 554 322 429 367 486 315 405 557 512
##  [865] 326 324 475 527 428 333 442 517 534 306 473 344 411 445 566 514 377 517
##  [883] 537 411 281 532 443 437 328 337 323 529 279 574 498 263 366 458 309 587
##  [901] 570 573 511 440 397 493 502 469 491 512 501 405 382 467 264 342 327 311
##  [919] 514 264 560 421 566 563 393 549 427 279 334 294 558 382 341 508 403 408
##  [937] 339 518 502 433 250 480 336 442 354 519 530 514 476 539 375 375 454 336
##  [955] 306 458 544 404 498 342 335 325 501 292 393 270 332 551 562 466 512 492
##  [973] 500 345 257 302 492 295 386 268 331 576 518 537 387 325 552 575 474 498
##  [991] 471 530 422 380 420 408 426 573 476 515

Determinar N

La función length() determina la cantidad de elementos de un vector, de tal manera que N identifica el número de elementos de una población.

N <- length(poblacion)
N
## [1] 1000

Crear muestra

Se determina una muestra del 10% de la población de dichos números, 1000 * 0.10 es 100 o el 10%.

n <- N * 0.10 
muestra <- sample(x = poblacion, size = n, replace = FALSE)
muestra
##   [1] 528 330 495 461 587 573 599 384 539 406 507 425 574 502 458 442 482 404
##  [19] 374 420 339 535 494 314 598 391 496 268 453 250 382 435 546 442 343 429
##  [37] 442 492 561 433 318 597 548 401 507 577 424 250 278 263 289 496 318 388
##  [55] 518 375 365 600 512 345 413 422 376 465 394 460 448 264 494 562 461 397
##  [73] 337 357 254 454 428 411 512 277 399 272 576 571 429 444 413 437 473 389
##  [91] 520 385 291 418 589 257 573 250 445 560

Medias aritméticas de población y muestra

Media población

Con la función mean() podemos obtener la media de este conjunto de valores.

media.p <- mean(poblacion)
media.p
## [1] 429.047

Media muestral

Obtenemos la media de la muestra :

media.m <- mean(muestra)
media.m
## [1] 433.79

Explorando los datos

Estructura de los datos

str(poblacion)
##  int [1:1000] 474 329 356 556 488 599 413 261 523 279 ...
str(muestra)
##  int [1:100] 528 330 495 461 587 573 599 384 539 406 ...

Resumen de los datos

summary(poblacion)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   250.0   344.8   430.0   429.0   515.2   600.0
summary(muestra)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   250.0   375.8   434.0   433.8   507.0   600.0

Visualizar los datos

Se muestra un diagrama de dispersión con librería ggplot2 y la función ggplot().

ggplot()+
  geom_point(aes(x = 1:N, y = poblacion), col= 'gold') + 
  geom_hline(yintercept = media.p, col='blue') +
  ggtitle(label = "Población", subtitle = paste("Media poblacional = ", media.p))

Interpretación

Describir de 120 a 150 palabras interpretar el caso contestando las siguiente preguntas como sugerencia:

¿Cuántos datos tiene la población y la muestra respectivamente?, ¿Qué porcentaje de la muestra es de la población?

¿Cuál es el el valor de la media población y la media muestral?

¿Que relación tiene la media población y la media muestral?

¿Cómo se obtiene la media ?

¿Como se obtiene la estructura de los datos (str()) y que valores arroja?

¿Cómo se describen los datos? con summary() y que valores arroja?


Generamos una población con 1000 datos generados mientras que la muestra son 100 datos, esta muestra representa el 10% de la población.

La media de población es 429.047 mientras que la media muestral es de 433.

Como la muestra es una parte de la población ambas demuestran una media muy cercana.

R nos facilita algunos procesos :

La media en el método tradicional se genera con la suma de todos los datos y dividido entre el número de datos. R nos permite generar la media mediante la función mean(), donde pondremos el conjunto de datos entre los paréntesis y nos arrojara la media

Con la función str() podemos obtener la estructura , nos arroja los valores como el tipo de datos guardados, el rango de los valores (el tamaño) y los valores.

Summary() permite ver un resumen de los datos nos muestra valores como el mínimo, la mediana y la media (mean)