Objetivo

Simular Datos de una población y de una muestra, describiendo la media población y la media muestral para su adecuada interpretación.

Descripción

  • Generar una población de 1000 números con valores entre 250 y 600
  • Determinar una muestra del 10% de la población de dichos números
  • Identificar la estructura de los datos
  • Determinar el parámetro la media de la población
  • Determinar el estadístico de la media de la muestra
  • Mostrar el resumen de los datos de población y muestra
  • Comparar valores de medias del parámetro poblacional contra el estadístico de la muestra
  • Se visualiza la dispersión de los datos con la función “ggplot()” de la librería “ggplot2
  • Interpretar el caso

Marco Teórico

Población y Muestra

La información que se utiliza para aplicar técnicas estadísticas se colecta en forma de muestras o conjuntos de observaciones. Las muestras se reúnen a partir de poblaciones, que son conjuntos de todos los individuos o elementos individuales de un tipo específico.

En el lenguaje de la estadística, uno de los conceptos más elementales es el muestreo. En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una muestra, se toma de un cuerpo de mediciones más grande llamado población.

Parámetros

Un parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana, moda o una desviación estándar de una población.

Un estadístico es una medida que describe características de una muestra. Normalmente cuando se habla de muestra los estadísticos son estimadores dado que se acercan a los parámetros de una población.

Desarrollo

Cargar Librerías

Ahora cargamos las librerías que vamos a necesitar, en este caso usaremos la librería que nos permita crear gráficos a partir de ciertos datos.

# Cargamos la librería
library(ggplot2)

Creación de Datos

Sembrar Semilla

Al generar una semilla, lo que nos permite es asegurarnos que al obtener números de manera aleatoria, estos sean los mismos al momento de ejecutar (run) de nuevo la función sample().

#Establecemos una semilla
set.seed(20222202)

Creación de Población

En esta sección se genera o se construye la población, con una cantidad de 1000 números que comprendan valores que van desde 250 hasta 600, todo a través de la función sample().

#Nombre de mi variable <- sample(valores,cantidad_datos,extra)
Pobl <- sample(x = 250:600, size = 1000, replace = TRUE)
#Mostramos la población generada
Pobl
##    [1] 545 407 308 263 500 327 310 493 262 365 568 260 401 578 402 431 266 589
##   [19] 253 358 594 290 381 500 329 362 387 281 291 397 519 582 401 409 396 381
##   [37] 536 337 478 310 474 593 285 430 466 464 535 308 366 474 581 383 371 419
##   [55] 320 303 454 584 464 515 599 375 254 427 333 405 573 300 300 454 580 487
##   [73] 443 401 545 558 525 379 461 334 502 259 490 564 433 317 466 541 285 270
##   [91] 451 384 434 534 365 306 309 535 382 286 413 476 350 517 586 570 426 304
##  [109] 263 274 459 554 545 426 260 347 474 528 272 444 421 517 313 333 426 314
##  [127] 348 383 575 518 272 368 583 363 259 506 256 334 333 370 300 564 373 334
##  [145] 357 454 366 305 339 550 534 411 347 477 411 545 484 448 364 506 272 267
##  [163] 262 272 547 523 466 362 577 253 364 575 425 541 449 333 574 381 443 397
##  [181] 294 459 571 582 310 406 328 273 316 283 264 550 291 315 375 543 514 558
##  [199] 274 581 425 437 435 352 275 598 519 457 596 564 340 572 520 308 447 348
##  [217] 428 413 314 378 419 348 274 361 557 304 282 482 405 296 274 469 457 455
##  [235] 406 326 504 477 378 373 362 385 373 438 538 405 467 552 377 460 370 468
##  [253] 354 405 518 585 307 371 313 376 312 572 316 478 300 513 266 565 312 374
##  [271] 351 452 272 548 497 588 399 324 340 350 452 500 517 298 431 439 523 461
##  [289] 431 280 295 367 431 410 533 359 468 391 477 593 586 472 531 519 317 383
##  [307] 348 505 530 542 580 498 474 540 255 385 569 338 419 363 323 302 509 418
##  [325] 545 264 573 449 441 499 357 283 354 367 423 446 401 480 507 365 537 439
##  [343] 383 265 472 537 545 403 555 491 329 375 368 517 372 408 571 308 300 472
##  [361] 384 290 461 427 373 375 538 599 277 314 538 317 364 309 299 564 591 294
##  [379] 406 356 558 351 375 535 496 443 307 440 459 592 417 260 330 270 274 567
##  [397] 361 338 315 395 268 530 345 598 585 261 568 267 322 551 421 553 552 329
##  [415] 553 339 486 323 478 491 555 570 445 485 440 411 524 542 576 256 492 336
##  [433] 408 279 561 293 511 537 360 503 438 558 305 572 286 348 485 560 408 354
##  [451] 334 585 408 405 296 302 410 498 414 384 395 484 333 525 598 393 336 378
##  [469] 510 513 581 531 376 325 488 502 464 337 422 309 318 330 481 562 369 381
##  [487] 405 447 277 275 401 457 504 507 437 523 524 513 537 447 401 339 554 551
##  [505] 376 477 440 522 524 327 571 387 411 278 367 448 444 519 579 340 331 586
##  [523] 346 535 380 294 379 311 307 550 558 321 343 351 405 488 282 534 292 457
##  [541] 562 487 294 393 519 507 300 520 422 540 274 315 373 374 398 462 387 425
##  [559] 469 376 598 344 569 385 508 503 427 263 393 437 343 548 448 563 323 378
##  [577] 361 437 364 501 318 524 442 374 550 477 332 587 575 508 573 495 490 390
##  [595] 306 460 530 286 522 538 517 314 494 428 396 515 584 452 331 464 419 351
##  [613] 566 492 327 408 438 421 311 475 316 344 352 540 276 449 594 566 560 561
##  [631] 595 460 439 390 316 553 499 384 576 314 545 478 567 525 393 451 453 501
##  [649] 579 564 531 311 318 349 333 425 461 594 559 399 465 579 396 490 292 379
##  [667] 451 501 505 461 464 434 434 303 404 328 454 340 325 498 368 429 405 292
##  [685] 486 422 411 494 422 479 509 444 577 302 313 426 485 546 361 581 403 574
##  [703] 410 400 380 391 509 590 430 262 574 546 502 551 301 531 550 569 447 333
##  [721] 547 554 346 587 341 514 363 466 297 315 314 372 461 360 492 282 485 508
##  [739] 294 432 479 564 509 312 548 385 470 403 488 260 538 394 332 433 535 303
##  [757] 296 525 499 448 369 352 497 396 464 420 551 279 318 346 437 399 462 460
##  [775] 476 411 459 482 571 504 575 516 341 323 298 598 447 299 437 321 420 528
##  [793] 402 586 486 376 580 430 348 265 376 470 335 395 567 269 588 331 404 441
##  [811] 274 448 455 474 334 479 438 489 452 259 289 461 261 281 409 491 518 559
##  [829] 435 312 494 540 351 423 583 456 311 359 552 442 381 429 570 324 568 330
##  [847] 413 293 478 506 277 581 318 315 283 544 302 582 378 304 284 498 556 392
##  [865] 402 454 380 368 338 485 465 310 317 373 421 378 493 389 294 430 299 435
##  [883] 478 489 294 314 530 600 380 286 522 448 355 542 490 431 562 374 510 282
##  [901] 553 383 304 379 345 493 387 385 502 267 369 511 365 382 354 429 566 549
##  [919] 257 446 426 372 454 380 553 589 591 456 395 474 352 501 348 298 281 522
##  [937] 551 382 378 403 574 292 566 336 473 575 439 515 341 474 321 472 582 392
##  [955] 292 329 318 383 480 529 455 305 277 385 362 500 532 334 544 394 378 343
##  [973] 575 391 479 285 454 504 512 548 315 494 517 458 580 396 457 278 562 577
##  [991] 500 293 436 587 386 525 457 373 304 313

Determinar Longitud de la población

Se utilizara la función denominada length(), la cual obtiene la cantidad de elementos que hay en un vector o en un arreglo de datos; de esta forma guardaremos esa cantidad de elementos de la población en una variable que llamaremos Cant_pobl.

#Obtenemos la cantidad de datos
Cant_pobl <- length(Pobl)
# Mostramos dicha cantidad
Cant_pobl
## [1] 1000

Creación de muestra

A partir de la población, se determinará una muestra (quiere decir una cierta cantidad de datos tomadas de un conjunto o de una población) del 10% de dicha población. Nota: 1000 x 0.10 es 100 o el 10%.

# Obtenemos la muestra a partir de la población
Cant_Muestra <- Cant_pobl*0.10
Muestra <- sample(x = Pobl, size = Cant_Muestra, replace = FALSE)
# Mostramos el resultado
Muestra
##   [1] 460 575 550 286 385 273 375 344 559 256 379 413 570 360 582 535 572 448
##  [19] 298 503 490 472 454 456 516 533 531 384 562 410 395 352 478 591 401 266
##  [37] 404 476 367 538 462 428 308 442 553 281 435 571 374 272 430 354 448 437
##  [55] 497 362 340 485 478 459 456 514 525 487 373 365 451 333 343 300 575 278
##  [73] 545 414 558 304 499 494 425 535 540 550 423 587 531 517 534 286 422 374
##  [91] 405 385 553 392 421 541 349 359 294 562

Medias Aritméticas de Población y Muestra

Media de la Población

En esta sección determinamos el parámetro de la media poblacional a través del uso de la función mean() (la cual nos determina la media aritmética de una variable).

# Aquí se obtiene el parámetro de la media poblacional
Media_Pobl <- mean(Pobl)
# Mostramos el resultado
Media_Pobl
## [1] 426.39

Media de la Muestra

En esta parte obtenemos lo que se denomina como Estadístico (el cual se refiere a la media aritmética de la muestra que determinamos anteriormente) a través de la función mean().

#Aquí se obtiene el estadístico de la media muestral
Media_Muestra <- mean(Muestra)
#Mostramos el resultado
Media_Muestra
## [1] 440.14

Explorando Datos

Estructura de los Datos

En esta parte se muestra la estructura o una “representación textual” de la Población y de la Muestra a través de la función str() (la cual nos permite observar, de una manera muy compacta y cómoda, la estructura de un arreglo de datos, es decir que muestra el tipo de dato que manejan esos datos, la cantidad de elementos que hay almacenados al igual que mostrar unos cuantos de los muchos posibles datos que existen dentro del arreglo).

# Para obtener la estructura de la Población
str(Pobl)
##  int [1:1000] 545 407 308 263 500 327 310 493 262 365 ...
# Para obtener la estructura de la Muestra
str(Muestra)
##  int [1:100] 460 575 550 286 385 273 375 344 559 256 ...

Resumen de los Datos

Aquí mostraremos un resumen estadístico de nuestra Población y de la Muestra (mostrando los valores mínimos y máximos en cada estructura de datos, su mediana y media-o promedio-, al igual que el primer y tercer cuartil)

# Resumen de la Población
summary(Pobl)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   253.0   343.0   426.0   426.4   509.0   600.0
# Resumen de la Media
summary(Muestra)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   256.0   371.5   445.0   440.1   531.0   591.0

Visualización de los Datos

A continuación se muestra un diagrama utilizando la librería ggplot2 cargada en un principio, y usando su función ggplot() (en el cual indicamos los datos que debe interpretar, títulos y subtítulos, al igual que ciertos aspectos de diseño).

ggplot()+
  geom_point(aes(x = 1:Cant_pobl, y = Pobl), col= 'orange') + 
  geom_hline(yintercept = Media_Pobl, col='dark blue') +
  ggtitle(label = "Población", subtitle = paste("Media Poblacional = ", Media_Pobl))

FINAL

Gracias por su atención UuUr

Interpretación

Describir de 120 a 150 palabras interpretar el caso contestando las siguiente preguntas como sugerencia:

1.- ¿Cuántos datos tiene la población y la muestra respectivamente?, ¿Qué porcentaje de la muestra es de la población?

La población tiene una cantidad de 1000 datos, y la muestra contiene un total de 100 datos o elementos. La muestra (en este caso) representa el 10% de la población.

2.- ¿Cuál es el valor de la media poblacional y la media muestral?

El valor de la media poblacional es de 426.39 y la media muestral tiene un valor de 440.14.

3.- ¿Que relación tiene la media poblacional y la media muestral?

La media muestral es un aproximado del valor que debería obtenerse en la media poblacional.

4.- ¿Cómo se obtiene la media?

Para obtener la media o el promedio de una serie de datos debemos dividir la sumatoria de todos los valores que hay de todos los elementos entre el número de elementos que existen dentro del arreglo de datos.

5.- ¿Como se obtiene la estructura de los datos (str()) y que valores arroja?

A través de la función str(), y como parámetro le damos la estructura necesaria (puede ser por ejemplo la Muestra que contiene 100 datos). Los datos que arrojan son el tipo de dato que esta manejando ese arreglo, la cantidad de elementos que contiene y muestra parte de dichos elementos almacenados.

6.- ¿Cómo se describen los datos? con summary() y que valores arroja?

Usando la función summary() se nos brinda una especie de resumen estadístico sobre la estructura de datos que nosotros le proporcionemos como parámetro, y los valores que muestran son los valores ‘mínimo’ y ‘máximo’-el dato con el valor más pequeño y más grande posible dentro de ese arreglo-, la mediana y media de esta estructura, al igual que el primer y tercer cuartil.