Objetivo

Simular datos de una población y de una muestra describiendo la media poblacional y la media muestral para su adecuada interpretación.

Descripción

Marco teórico

Población y muestra

La información que se utiliza para aplicar técnicas estadísticas se colecta en forma de muestras o conjuntos de observaciones. Las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico.

En el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población.

Parámetro y estadístico

Un parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana, moda o una desviación estándar de una población.

Un estadístico es una medida que describe características de una muestra. Normalmente cuando se habla de muestra los estadísticos son estimadores dado que se acercan a los parámetros de una población.

Desarrollo

Cargar librerías

library(ggplot2)

Crear datos

Sembrar semilla

Genera los mismos números al ejecutar (run) de nuevo la funcion sample().

set.seed(02102003) 

Crear población

Se genera o construye una población de 1000 números con valores entre 250 y 600.

poblacion <- sample(x = 250:600, 
                    size = 1000, 
                    replace = TRUE)  
poblacion
##    [1] 527 454 482 422 279 593 285 312 423 596 285 479 414 267 577 591 452 454
##   [19] 566 332 547 486 324 504 489 348 301 590 419 534 339 481 483 287 559 324
##   [37] 472 394 600 306 446 336 363 379 382 561 573 264 413 269 408 419 385 454
##   [55] 579 355 350 360 535 422 449 282 276 548 252 382 581 521 285 548 403 388
##   [73] 403 368 400 526 358 437 309 425 381 315 512 425 250 389 498 571 557 537
##   [91] 541 277 509 563 458 351 599 309 312 567 589 286 310 418 290 346 266 257
##  [109] 370 521 425 585 455 359 366 565 307 356 489 434 348 464 377 445 312 258
##  [127] 400 393 277 348 254 375 424 367 477 526 566 376 518 532 289 255 300 481
##  [145] 589 347 485 501 461 583 346 292 414 425 531 506 342 259 462 524 583 334
##  [163] 378 345 441 452 460 410 435 364 285 563 412 534 445 278 468 401 544 275
##  [181] 324 434 307 302 598 418 589 321 289 476 492 488 308 467 368 327 407 256
##  [199] 475 534 252 505 478 268 391 319 519 479 486 316 547 557 544 445 456 260
##  [217] 480 374 467 495 432 380 597 477 319 429 333 555 425 287 548 524 557 571
##  [235] 528 465 297 385 334 407 297 538 270 302 418 322 327 520 464 549 305 359
##  [253] 566 481 471 547 252 324 385 290 290 267 528 448 480 261 399 411 358 325
##  [271] 413 288 370 526 501 514 371 468 587 462 586 450 487 275 397 260 276 589
##  [289] 374 501 388 310 300 537 297 407 250 303 575 584 596 377 546 463 395 557
##  [307] 263 387 406 254 372 465 545 413 528 526 272 570 287 372 452 551 482 358
##  [325] 271 445 541 512 398 272 528 523 539 261 449 296 585 445 500 579 316 341
##  [343] 305 492 315 271 533 589 341 535 411 447 308 506 433 479 325 582 261 256
##  [361] 390 465 347 515 562 493 501 599 277 391 596 437 534 395 380 290 287 421
##  [379] 436 348 377 512 308 597 457 396 393 497 324 341 453 283 397 324 522 278
##  [397] 594 271 545 537 274 526 516 370 574 277 263 267 348 257 557 263 342 455
##  [415] 351 391 422 590 371 318 472 418 534 546 508 552 480 540 582 428 511 256
##  [433] 406 351 350 593 327 338 414 374 426 445 429 459 521 449 390 545 570 440
##  [451] 585 508 513 580 334 335 381 438 572 465 578 585 371 409 573 289 598 481
##  [469] 418 350 520 344 257 488 311 435 328 555 277 284 395 328 427 554 596 599
##  [487] 376 460 403 460 406 464 348 420 268 466 464 368 553 471 471 437 348 363
##  [505] 415 432 433 585 520 581 443 506 308 276 539 376 494 340 513 550 490 519
##  [523] 391 333 577 567 314 323 334 283 368 442 521 517 303 470 372 323 555 505
##  [541] 303 382 435 591 412 294 346 569 492 302 487 593 293 267 284 366 272 436
##  [559] 430 345 277 436 543 557 455 457 570 524 463 546 288 348 393 388 329 502
##  [577] 512 427 467 281 288 549 518 504 389 462 410 577 284 438 499 354 539 308
##  [595] 351 260 594 504 421 434 576 413 339 350 599 461 464 324 567 325 371 287
##  [613] 533 403 388 475 270 597 380 446 332 332 528 466 587 564 356 390 454 524
##  [631] 531 368 434 490 256 407 294 263 482 476 328 381 320 265 254 398 399 305
##  [649] 354 485 436 369 468 593 274 298 292 337 364 343 511 566 505 264 284 538
##  [667] 469 345 440 469 482 389 578 280 452 550 596 396 556 589 297 328 583 402
##  [685] 367 315 440 319 293 527 597 395 394 348 355 426 510 554 406 481 398 514
##  [703] 569 550 265 324 509 578 545 599 366 399 531 556 364 461 440 524 261 251
##  [721] 261 515 299 460 429 582 457 476 297 434 518 287 320 448 266 426 317 373
##  [739] 454 258 398 546 524 343 575 271 308 472 275 267 286 269 554 350 461 293
##  [757] 397 479 264 581 393 333 320 423 254 349 331 384 306 529 554 563 517 448
##  [775] 447 287 493 312 567 386 308 409 594 434 320 313 368 395 515 497 458 537
##  [793] 586 595 299 526 295 532 378 351 600 276 470 443 578 573 552 556 374 313
##  [811] 386 511 493 455 388 276 509 436 549 321 564 327 504 386 423 533 311 525
##  [829] 484 364 425 368 442 431 596 396 416 389 467 437 262 510 504 557 595 452
##  [847] 496 436 488 430 309 402 516 464 436 544 428 413 459 309 289 445 482 495
##  [865] 265 482 532 303 404 301 528 473 566 367 377 574 298 425 280 332 281 336
##  [883] 379 411 549 384 321 588 274 292 558 429 372 432 597 329 378 363 506 341
##  [901] 598 541 339 560 428 356 442 262 572 327 287 442 454 306 514 379 274 354
##  [919] 459 286 560 371 446 333 527 499 315 286 529 328 453 264 385 392 371 522
##  [937] 296 570 254 463 300 306 315 311 391 339 362 571 334 509 274 588 417 317
##  [955] 501 310 336 316 290 265 389 560 508 577 273 279 580 422 283 487 379 548
##  [973] 407 505 406 252 542 302 283 252 501 259 374 479 396 349 345 408 348 258
##  [991] 491 468 442 460 468 273 298 589 307 372

Determinar N

La función length() determina la cantidad de elementos de un vector, de tal manera que N identifica el número de elementos de una población.

N <- length(poblacion)
N
## [1] 1000

Crear muestra

Se determina una muestra del 10% de la población de dichos números, 1000 * 0.10 es 100 o el 10%.

n <- N * 0.10 
muestra <- sample(x = poblacion, size = n, replace = FALSE)
muestra
##   [1] 264 438 434 599 585 395 371 512 281 411 310 434 468 432 419 562 263 438
##  [19] 303 334 465 435 311 428 551 449 519 429 549 388 305 514 290 296 554 442
##  [37] 479 539 363 267 372 256 378 445 589 480 256 358 277 348 563 570 374 582
##  [55] 324 339 254 398 480 265 282 566 554 528 452 292 475 550 557 437 363 567
##  [73] 471 348 290 547 415 262 389 333 267 543 524 522 532 569 288 440 425 546
##  [91] 578 430 420 549 294 287 274 423 591 341

Medias aritméticas de población y muestra

Media población

Se determina en parámetro media poblacional.

media.p <- mean(poblacion)
media.p
## [1] 421.314

Media muestral

Se determina el estadístico media de la muestra

media.m <- mean(muestra)
media.m
## [1] 422.55

Explorando los datos

Estructura de los datos

str(poblacion)
##  int [1:1000] 527 454 482 422 279 593 285 312 423 596 ...
str(muestra)
##  int [1:100] 264 438 434 599 585 395 371 512 281 411 ...

Resumen de los datos

summary(poblacion)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   250.0   331.8   421.5   421.3   510.2   600.0
summary(muestra)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   254.0   330.8   429.5   422.6   525.0   599.0

Visualizar los datos

Se muestra un diagrama de dispersión con librería ggplot2 y la función ggplot().

ggplot()+
  geom_point(aes(x = 1:N, y = poblacion), col= 'blue') + 
  geom_hline(yintercept = media.p, col='red') +
  ggtitle(label = "Población", subtitle = paste("Media poblacional = ", media.p))

Interpretación

Describir de 120 a 150 palabras interpretar el caso contestando las siguiente preguntas como sugerencia:

¿Cuántos datos tiene la población y la muestra respectivamente?

La poblacion tiene 1000 datos y la muestra 100.

¿Qué porcentaje de la muestra es de la población?

Es el 10%

¿Cuál es el el valor de la media poblacional y la media muestral?

Media poblacional: 421.314

Media muestral: 422.55

¿Que relación tiene la media poblacional y la media muestral?

La media poblacional es la media del total y es más exacta que la media muestral

¿Cómo se obtiene la media ?

En otras palabras, es el promedio, que se obtiene sumando todos los numeros del conjunto y se dividen por la cantidad de numeros totales.

¿Como se obtiene la estructura de los datos (str()) y que valores arroja?

Se usa la funcion str() más el valor que queremos consultar, este muestra los valores de memoria de la variable

¿Cómo se describen los datos? con summary() y que valores arroja?

Nos da los valores mínimos, máximos, la media, etcétera.