Cargando los datos

Revisando escalas por variable

La escala de cada variable debe coincidir con el codebook provisto.

Variable
folio_sel character
folio character
code_upm character
ponde_f numeric
sexo numeric
edad numeric
rural numeric
intp numeric
dias1 numeric
gpo_diversidad1 numeric
recomendable1 numeric
dias2 numeric
gpo_diversidad2 numeric
recomendable2 numeric
dias3 numeric
gpo_diversidad3 numeric
recomendable3 numeric
dias4 numeric
gpo_diversidad4 numeric
recomendable4 numeric
dias5 numeric
gpo_diversidad5 numeric
recomendable5 numeric
dias6 numeric
gpo_diversidad6 numeric
recomendable6 numeric
dias7 numeric
gpo_diversidad7 numeric
recomendable7 numeric
dias8 numeric
gpo_diversidad8 numeric
recomendable8 numeric
dias9 numeric
gpo_diversidad9 numeric
recomendable9 numeric
dias10 numeric
gpo_diversidad10 numeric
recomendable10 numeric
dias11 numeric
gpo_diversidad11 numeric
recomendable11 numeric
dias12 numeric
gpo_diversidad12 numeric
recomendable12 numeric
dias13 numeric
gpo_diversidad13 numeric
recomendable13 numeric
est_var numeric
region_h numeric
diversidad numeric

Todas las columnas han sido leídas con la escala indicada en el codebook.

Evaluación de Calidad de los Datos

La evaluación inicial de calidad de los datos se implementó de acuerdo a (1).

Donde:

Datos Categóricos

Count Miss Card Mode ModeFrec ModePerc Mode2 Mode2Frec Mode2Perc
folio_sel 7686 0 7684 020040001393A0340701 2 0.03% 07068009200519990061 2 0.03%
folio 7686 0 7685 020040001393A0340701.03 2 0.03% 010010001209A0020131.01 1 0.01%
code_upm 7686 3 326 4o05 47 0.61% 1o36 46 0.6%

Datos Continuos

Donde:

  • Min = valor mínimo.
  • Qrt1 = primer cuartil.
  • Median = mediana.
  • Qrt3 = tercer cuartil.
  • Max = valor máximo.
  • Mean = media.
  • Sdev = desviación estándar.
Count Miss Card Min Qrt1 Median Qrt3 Max Mean Sdev
ponde_f 7686 0 5554 37.65 1786.3 3991.84 8521.41 97320.09 7420.98 10431.81
sexo 7686 0 2 1.00 1.0 2.00 2.00 2.00 1.66 0.47
edad 7686 0 78 20.00 33.0 45.00 60.00 99.00 47.04 16.99
rural 7686 0 2 1.00 1.0 2.00 2.00 2.00 1.50 0.50
intp 7686 0 9 1.00 1.0 1.00 2.00 10.00 1.47 0.74
dias1 7686 740 89 1.00 3.0 7.00 12.00 61.00 8.79 7.03
gpo_diversidad1 7686 0 2 0.00 0.0 0.00 1.00 1.00 0.49 0.50
recomendable1 7686 740 1 1.00 1.0 1.00 1.00 1.00 1.00 0.00
dias2 7686 1435 26 1.00 3.0 6.00 7.00 19.50 5.45 2.91
gpo_diversidad2 7686 0 2 0.00 0.0 1.00 1.00 1.00 0.74 0.44
recomendable2 7686 1435 1 1.00 1.0 1.00 1.00 1.00 1.00 0.00
dias3 7686 1372 33 1.00 2.0 3.00 5.00 21.50 3.82 2.75
gpo_diversidad3 7686 0 2 0.00 0.0 1.00 1.00 1.00 0.52 0.50
recomendable3 7686 1372 1 1.00 1.0 1.00 1.00 1.00 1.00 0.00
dias4 7686 5850 14 1.00 1.0 3.00 3.00 14.00 2.98 1.77
gpo_diversidad4 7686 0 2 0.00 0.0 0.00 0.00 1.00 0.17 0.38
recomendable4 7686 5850 1 0.00 0.0 0.00 0.00 0.00 0.00 0.00
dias5 7686 4007 17 1.00 1.0 1.00 3.00 15.00 2.00 1.51
gpo_diversidad5 7686 0 2 0.00 0.0 0.00 0.00 1.00 0.14 0.35
recomendable5 7686 4007 1 0.00 0.0 0.00 0.00 0.00 0.00 0.00
dias6 7686 3761 45 1.00 1.0 3.00 5.00 39.00 3.89 3.58
gpo_diversidad6 7686 0 2 0.00 0.0 0.00 1.00 1.00 0.31 0.46
recomendable6 7686 3761 1 0.00 0.0 0.00 0.00 0.00 0.00 0.00
dias7 7686 3150 30 1.00 1.0 3.00 6.00 28.50 3.97 2.85
gpo_diversidad7 7686 0 2 0.00 0.0 0.00 1.00 1.00 0.42 0.49
recomendable7 7686 3150 1 0.00 0.0 0.00 0.00 0.00 0.00 0.00
dias8 7686 566 42 1.00 4.0 8.00 10.00 33.50 8.03 4.38
gpo_diversidad8 7686 0 2 0.00 1.0 1.00 1.00 1.00 0.84 0.37
recomendable8 7686 566 1 0.00 0.0 0.00 0.00 0.00 0.00 0.00
dias9 7686 304 4 1.00 7.0 7.00 7.00 7.00 6.73 1.02
gpo_diversidad9 7686 0 2 0.00 1.0 1.00 1.00 1.00 0.89 0.31
recomendable9 7686 304 1 1.00 1.0 1.00 1.00 1.00 1.00 0.00
dias10 7686 5160 17 1.00 1.0 3.00 4.00 14.00 3.41 2.48
gpo_diversidad10 7686 0 2 0.00 0.0 0.00 0.00 1.00 0.22 0.41
recomendable10 7686 5160 1 0.00 0.0 0.00 0.00 0.00 0.00 0.00
dias11 7686 2466 31 1.00 3.0 4.00 7.00 24.00 5.16 3.35
gpo_diversidad11 7686 0 2 0.00 0.0 1.00 1.00 1.00 0.59 0.49
recomendable11 7686 2466 1 1.00 1.0 1.00 1.00 1.00 1.00 0.00
dias12 7686 2891 13 1.00 2.0 3.00 3.00 14.00 3.14 1.83
gpo_diversidad12 7686 0 2 0.00 0.0 0.00 1.00 1.00 0.46 0.50
recomendable12 7686 2891 1 1.00 1.0 1.00 1.00 1.00 1.00 0.00
dias13 7686 1307 89 1.00 3.0 6.00 11.00 65.00 8.09 7.10
gpo_diversidad13 7686 0 2 0.00 0.0 0.00 1.00 1.00 0.39 0.49
recomendable13 7686 1307 1 1.00 1.0 1.00 1.00 1.00 1.00 0.00
est_var 7686 0 39 111.00 221.0 421.00 24001.75 32002.00 9943.88 12071.93
region_h 7686 0 4 1.00 2.0 2.00 4.00 4.00 2.57 1.16
diversidad 7686 0 14 0.00 5.0 6.00 8.00 13.00 6.17 2.28

Exploración Inicial de Variables

Sexo

  • 1 = masculino.
  • 2 = femenino.

Edad

Rural

Identificador de ruralidad.

  • 1 = rural.
  • 2 = urbano.

Referencias

1. Kelleher JD, Mac Namee B, D’arcy A. Fundamentals of machine learning for predictive data analytics: algorithms, worked examples, and case studies. MIT press; 2020.