1 OBJETIVO

Simular datos de una población y de una muestra describiendo la medida poblacional y la medida muestral para su adecuada interpretación

2 DESCRIPCIÓN

  • Generar una población de 1000 números con valores entre 250 y 600

  • Determinar una muestra del 10% de la población de dichos números

  • Identificar la estructura de los datos

  • Determinar el parámetro la media de la población

  • Determinar el estadístico de la medida de la muestra

  • Mostrar el resumen de los datos de población y muestra

  • Comparar valores de medias del parámetro poblacional contra el estadístico de la muestra

  • Se visualiza la dispersión de los datos con la función ggplot() de la librería ggplot2

  • Interpretar el caso

3 MARCO TEÓRICO

3.1 Población y muestra

La información que se utiliza para aplicar técnicas estadísticas se colecta en forma de muestras o conjuntos de observaciones. Las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico.

Población: Es el conjunto de elementos que son objeto de estudio estadístico.

Individuo: Cada uno de los elementos de la población, el número total de individuos de la población se suele representar por la letra “N”.

En el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población.

La muestra se utiliza cuando el número de individuos de la población es muy grande, por lo tanto, esta es un subconjunto de la población y tiene que ser representativa de la misma.

3.2 Parámetro y estadístico

Un parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana, moda o una desviación estándar de una población. Intenta resumir toda la información que hay en la población en unos pocos números (parámetros).

Un estadístico es una medida que describe características de una muestra. Normalmente cuando se habla de muestra los estadísticos son estimadores dado que se acercan a los parámetros de una población. Existen 4 tipos de estadísticos:

  • Posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.

  • Centralización: Indican valores con respecto a los que los datos parecen agruparse.

  • Dispersión: Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización

  • Forma: Dan una idea de como se distribuyen los datos.

4 DESARROLLO

4.1 Cargar librerías

library("ggplot2")

4.2 Crear datos

4.2.1 Sembrar semilla

Generar los mismos datos al correr el archivo con la función sample()

set.seed(2022)

4.2.2 Crear población

Se genera la población de 1000 números con valores entre 250 y 600

poblacion = sample(x = 250:600, size = 1000, replace = TRUE)
poblacion
##    [1] 477 455 560 580 445 511 440 455 372 482 519 497 256 598 361 250 556 537
##   [19] 406 261 565 399 446 260 356 525 311 321 252 534 443 539 321 505 376 483
##   [37] 536 305 250 268 565 555 497 252 281 369 348 467 525 467 336 568 600 585
##   [55] 291 492 443 593 273 584 395 446 486 359 255 538 496 528 353 531 456 282
##   [73] 344 389 562 516 578 284 540 540 473 488 351 265 302 426 321 586 597 264
##   [91] 363 436 558 470 449 330 372 450 544 379 278 559 252 509 552 287 318 295
##  [109] 269 326 275 527 283 440 564 442 585 326 550 362 508 563 483 491 409 512
##  [127] 518 254 472 400 554 328 312 428 506 455 580 417 479 388 371 422 459 327
##  [145] 551 412 380 496 446 511 430 304 382 587 362 531 372 332 542 588 380 316
##  [163] 394 268 506 340 485 327 385 473 480 571 370 415 483 600 360 297 388 599
##  [181] 267 424 515 489 596 328 438 381 454 370 526 304 532 397 265 383 310 307
##  [199] 425 522 369 535 354 454 351 387 341 457 302 437 286 467 579 308 316 487
##  [217] 592 376 406 455 421 280 329 568 469 406 484 412 350 419 327 424 267 269
##  [235] 547 257 544 483 296 567 544 322 308 385 378 495 544 523 409 345 273 437
##  [253] 554 274 288 577 557 521 416 355 310 536 600 431 423 327 478 454 361 509
##  [271] 315 440 353 310 568 506 330 444 315 599 494 521 491 465 284 304 395 356
##  [289] 334 418 290 488 586 483 372 335 289 322 472 568 500 524 305 343 478 410
##  [307] 456 396 256 500 364 556 255 549 575 290 302 284 525 387 585 587 343 472
##  [325] 509 459 257 298 431 528 406 538 332 578 598 585 314 305 323 273 550 307
##  [343] 527 514 396 496 479 418 394 552 403 547 291 587 454 559 338 551 278 450
##  [361] 438 379 285 373 282 475 443 506 579 445 483 522 391 382 495 511 488 543
##  [379] 261 352 312 392 268 312 568 520 518 524 425 333 442 345 489 501 387 287
##  [397] 516 436 407 515 538 546 325 329 467 488 600 475 463 504 452 275 562 373
##  [415] 498 566 479 290 391 303 300 271 297 262 371 457 361 403 569 308 442 478
##  [433] 419 385 578 440 403 548 330 519 433 419 485 371 262 458 550 412 441 464
##  [451] 377 586 476 252 598 408 568 358 478 548 582 258 597 505 530 403 381 381
##  [469] 350 373 416 318 407 505 285 567 563 303 474 576 307 260 319 402 470 522
##  [487] 488 381 544 475 412 522 285 252 568 596 577 343 338 364 528 364 365 294
##  [505] 569 333 499 328 544 326 518 454 557 319 287 345 289 305 545 271 561 548
##  [523] 540 309 532 517 279 533 295 415 565 286 477 346 460 555 338 364 503 530
##  [541] 365 256 323 263 362 596 290 271 271 258 320 505 301 521 428 296 497 566
##  [559] 379 333 299 265 600 269 574 282 598 455 342 590 477 532 270 526 370 535
##  [577] 515 427 510 468 298 492 468 488 367 325 566 252 251 291 596 490 419 542
##  [595] 259 314 287 465 292 578 250 279 525 428 262 352 516 593 308 441 407 319
##  [613] 267 447 386 420 296 545 394 454 395 479 447 565 384 444 519 316 571 482
##  [631] 535 456 432 266 342 475 550 429 416 413 318 374 354 306 464 463 427 479
##  [649] 283 320 459 532 385 541 530 392 590 339 543 343 440 589 459 321 337 508
##  [667] 511 349 464 511 263 572 439 514 366 267 410 446 287 365 420 420 316 424
##  [685] 292 397 275 279 441 510 405 503 286 464 318 278 346 276 390 303 301 334
##  [703] 513 272 555 306 458 300 423 364 392 329 344 529 337 252 310 375 466 279
##  [721] 392 331 504 368 426 566 293 370 485 541 300 499 308 531 445 592 542 381
##  [739] 433 289 464 581 280 265 258 287 254 366 445 403 345 408 321 293 513 465
##  [757] 307 498 259 412 575 285 479 452 583 257 324 448 512 304 338 340 435 587
##  [775] 499 326 282 597 384 411 272 474 257 423 379 518 530 372 482 405 461 270
##  [793] 564 505 496 466 498 351 275 323 417 411 451 483 321 306 542 456 289 291
##  [811] 532 362 600 335 586 360 588 451 438 502 547 432 462 596 362 291 255 435
##  [829] 293 513 530 309 577 457 289 255 444 527 297 397 470 364 263 557 311 411
##  [847] 529 472 543 286 559 263 250 302 435 569 575 344 552 415 385 465 364 458
##  [865] 310 535 538 490 595 437 531 456 465 280 425 493 446 299 303 326 527 496
##  [883] 552 545 555 463 393 415 317 398 268 512 375 468 443 290 463 434 467 325
##  [901] 307 310 492 443 454 413 395 353 460 471 333 267 352 560 255 342 576 356
##  [919] 526 331 553 505 286 498 534 271 515 375 283 326 495 559 599 339 429 592
##  [937] 591 336 408 279 510 547 424 390 374 316 472 317 272 301 550 308 378 555
##  [955] 353 290 596 426 585 372 285 419 488 563 463 566 495 346 380 465 252 270
##  [973] 500 275 259 446 430 282 551 315 349 488 400 486 531 520 465 532 278 319
##  [991] 376 349 298 506 258 465 580 464 321 545

4.2.3 Determinar N

Se utiliza la función lenght() para ver la cantidad de elementos que contiene población

N = length(poblacion)
N
## [1] 1000

4.2.4 Crear muestra

Muestra del 10% de la población

n <- N*0.1

muestra <- sample(x = poblacion, size = n, replace = FALSE)

muestra
##   [1] 287 466 395 366 279 250 531 344 258 467 336 587 445 585 331 505 557 408
##  [19] 306 294 323 585 413 285 435 255 257 423 568 269 486 351 321 463 412 321
##  [37] 530 547 442 547 465 250 557 427 488 310 252 537 412 460 335 476 600 528
##  [55] 315 256 316 598 596 301 536 403 267 343 364 400 505 290 559 437 411 534
##  [73] 560 566 483 566 564 289 369 496 278 567 585 416 559 356 376 316 330 303
##  [91] 563 480 284 406 320 269 550 477 568 342

4.3 Medias aritméticas de población y muestra

4.3.1 Media población

Parámetro de media poblacional

medp = mean(poblacion)
medp
## [1] 421.096

4.3.2 Media muestral

Estadístico de la media muestral

medm = mean(muestra)
medm
## [1] 419.96

4.4 Explorando los datos

4.4.1 Estructura de los datos

str(poblacion)
##  int [1:1000] 477 455 560 580 445 511 440 455 372 482 ...
str(muestra)
##  int [1:100] 287 466 395 366 279 250 531 344 258 467 ...

4.4.2 Resumen de los datos

summary(poblacion)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   250.0   326.0   424.5   421.1   511.0   600.0
summary(muestra)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   250.0   319.0   412.5   420.0   531.8   600.0

4.5 Visualizar los datos

Gráfico de los datos a través de la librería ggplot2 y la función ggplot()

ggplot()+
  geom_point(aes(x = 1:N, y = poblacion), col='purple') + 
  geom_hline(yintercept = medp, col='yellow')

5 Interpretación

  • ¿Cuántos datos tiene la población y la muestra respectivamente? La población tiene un total de 1000 datos y la muestra un total de 100, ¿Qué porcentaje de la muestra es de la población? La muestra es el 10% del total de individuos de la población.
  • ¿Cuál es el valor de la media poblacional y la media muestral? La media poblacional, cuyo nombre de variable es medp, tiene un valor de 421.096. La media muestral, de nombre medm, tiene el valor de 419.96.
  • ¿Qué relación tienen la media ploblacional y la media muestral? La diferencia entre el valor de la media poblacional y la media muestral es de 1.136 por lo tanto, podemos confirmar lo que anteriormente se mostró en el marco teórico: La media muestral es una estimación dado que se acerca a los parámetros de la población.
  • ¿Cómo se obtiene la media? La media se obtiene con el resultado de sumar todas las cantidades y dividirlas entre el número total de datos (de esta manera si no son datos agrupados). En este caso se realizó con la función mean.
  • ¿Cómo se obtiene la estructura de los datos (str()) y que valores arroja? Se obtiene a través de la función (str()), esta función muestra de forma compacta la estructura interna de la variable, arroja qué tipo de variable es, en el caso de poblacion es int, y los parámetros de la variable, en este caso 1:100, esto quiere decir que la variable poblacion tiene 1000 datos y los muestra desde el 1 hasta el 1000 es por eso que al usar summary(media) arroja int [1:100] junto con los 100 datos que contiene.
  • ¿Cómo se describen los datos con summary() y que valores arroja? La función summary() describe los datos de manera estadística, esta función tiene varios métodos que utiliza para calcular el número mínimo, el primer cuartil, la mediana, la media, el tercer cuartil y el número máximo.