Introducción

Row 1

Column

Información sobre el tema

INTRODUCCIÓN AL TEMA: El analfabetismo es un problema social el cual afecta a miles de ciudadanos alrededor del mundo, es por ello que analizar e investigar sobre las causas asociadas al analfabetismo es relevante para poder reducir el problema. En primer lugar, el analfabetismo definido por Juan Jiménez involucra dos características: La incapacidad de ciertos individuos de hacer frente a las exigencias de la vida diaria y no haber cumplido los tres años de escolaridad. Otros autores mencionan que es no tener habilidad de escribir o leer. El analfabetismo es, pues, un fenómeno histórica y culturalmente construido. Implica también relaciones de poder: decir quién sabe leer y escribir y quién no, cuáles saberes son valiosos o inválidos; decidir, según esos saberes, quién puede participar y quién no, son formas de control y autoridad (Kalman, 2004; Street, 2004). Ser una persona analfabeta implica varias dificultades en la vida y pérdida de oportunidades. En el Perú, la tasa de analfabetismo se ha reducido en estos años hasta llegar a 5.9% (Gobierno del Perú), sin embargo esto no implica que haya desaparecido, por ende encontramos importante analizar las causas de por qué este problema continúa.

VARIABLE DEPENDIENTE: Porcentaje del Analfabetismo en el Perú por provincia: Este valor proporcionado por la INEI nos apoyará en ver cuáles son las variables independientes relacionadas al analfabetismo y cuáles son los factores de por qué ciertas provincias tienen porcentajes más altos de analfabetismo que otros

VARIABLES INDICADAS COMO PREDICTORAS:

  • PORCENTAJE DE ZONAS RURALES: Las zonas rurales han sido el factor más mencionado en los trabajos sobre el analfabetismo, debido a que en estas zonas hay menor accesibilidad a sistemas y apoyos educativos que en las zonas urbanas

  • PORCENTAJE CON 1 NBI: Las necesidad básicas insatisfechas pueden causar que las personas no puedan acceder a la educación

  • MAYOR PORCENTAJE DE MUJERES: A varias mujeres en el Perú se les niega el acceso a la alfabetización debido a creencias o problemas económicos

  • PORCENTAJE DE PERSONAS SIN WIFI: El wifi y el internet se han vuelto una variable relevante para la educación y acceder a ella, por ello su falta puede causar mayores niveles de analfabetismo

  • PORCENTAJE DE LENGUA: El español al ser el idioma más hablado en el Perú hace que los servicios educativos sean en español y se creen pocos en los demás idiomas que encontramos en el Perú, dejando a personas sin acceso a la educación y por ende, analfabetas.

  • PORCENTAJE DE DISCAPACIDAD: Las discapacidades complican recibir una buena educación y pocas escuelas están capacitadas en enseñar a personas que tienen alguna discapacidad, por ende lo consideramos una de nuestras variables para ver si tiene relación un alto nivel de discapacidad a un alto nivel de analfabetismo

Hipótesis

PREGUNTA DE INVESTIGACIÓN: ¿Cuáles son las variables que causan que el porcentaje de analfabetismo en las provincias incremente?

HIPÓTESIS: En las provincias del Perú, la tasa de analfabetismo está influenciada por varios factores socioeconómicos y culturales. En primer lugar, las provincias rurales tienen una tasa de analfabetismo más alta debido a la menor disponibilidad de recursos educativos, infraestructura y acceso a servicios básicos. Las mujeres, especialmente en zonas rurales, pueden enfrentarse a barreras adicionales como roles tradicionales de género, lo que puede llevar a una mayor tasa de analfabetismo entre ellas. La presencia de comunidades que hablan lenguas originarias, que no tienen una adecuada integración con el sistema educativo en español, podría resultar en dificultades para acceder a educación formal y, por lo tanto, aumentar la tasa de analfabetismo. Además, el índice de desigualdad (medido por el índice de Gini) podría estar relacionado con mayores disparidades en el acceso a educación, lo que también impactaría negativamente la tasa de alfabetización en zonas con alta desigualdad. Finalmente, la falta de acceso a tecnología y a internet (sin wifi) podría ser un factor determinante, ya que en la era digital el acceso a recursos educativos en línea y a información se ha vuelto crucial para el aprendizaje, y la ausencia de estos servicios podría limitar las oportunidades educativas y aumentar la tasa de analfabetismo.

Análsisi bivariado

Row 1

Column

Analfabetismo + Porcentaje de lenguas

En el análisis bivariado veremos nuestras variables a través de Spearman debido a que algunas provincias con mayor población pueden resultar como valores atípicos

$estimate
      rho 
0.5422629 

$p.value
[1] 4.529907e-16
  • Resultado: Encontramos que estas dos variables están correlacionadas, por ende nos servirá en nuestro análisis multivariado. Esto nos indica que a mayor porcentaje de diversidad de lenguas que tenga una provincia, mayor porcentaje de analfabetismo hay en esta parte. Esto nos lleva a pensar que los colegios no se pueden adaptar a otros idiomas y por ende varias personas se quedan sin acceso a la educación.

Analfabetismo + Porcentaje de zonas rurales

$estimate
      rho 
0.6017675 

$p.value
[1] 2.682908e-20
  • Resultado: Nuestra siguiente variable presenta una correlacionalidad con analfabetismo, lo cual significa que va a ser relevante para nuestra investigación

Analfabetismo + Porcentaje de mujeres

$estimate
       rho 
-0.3682012 

$p.value
[1] 1.485062e-07
  • Resultado: Acá presentamos un estimado en negativo lo cual nos indica que a mayor porcentaje de mujeres es menor el analfabetismo. A pesar de contradecir nuestra hipótesis inicial, esta puede ser explicada por los datos del INEI cuando se trata de educación (Redatam), El porcentaje de hombres y mujeres que entran a los grados como primaria o inicial son muy similares, sin embargo cuando vemos la educación superior, las mujeres tienen un mayor porcentaje que los hombres. Esto significa que en el Perú las mujeres están presentando un gran avance. Sin embargo esto no descarta que varios estudios han mostrado las complicaciones de las mujeres en recibir educación. Igualmente la variable será usada para nuestro análisis

Analfabetismo + Porcentaje de discapacidad

$estimate
        rho 
0.006981933 

$p.value
[1] 0.9234301
  • Resultado: En este caso la variable no presenta significancia para el modelo, por ende no entrará en nuestro trabajo.

Analfabetismo + Porcentaje de 1NBI

$estimate
       rho 
0.04024869 

$p.value
[1] 0.5793837
  • Resultado: Vemos que una necesidad bàsica insatisfecha no encuentra correlación con el analfabetismo, pero tal vez más de una necesidad insatisfecha podría encontrar relación

Analfabetismo + Porcentaje sin wifi

$estimate
       rho 
-0.5572576 

$p.value
[1] 4.673564e-17
  • Resultado: Vemos que SIN WIFI se presenta relevante. Acá se presenta que a menor porcentaje de personas sin wifi, es mayor el analfabetismo. Por ende es una variable que nos va a apoyar en nuestra investigación

Análisis multivariado

Row 1

Column

Modelo 1

  • Hipótesis 1: El porcentaje de analfabetismo por provincia incrementa o disminuye dependiendo el porcentaje de lengua y el porcentaje de zonas rurales

  • Explicación: Estas dos variables salieron significativas, además son las zonas rurales las que cuentan con mayores tasas de personas que hablan distintas lenguas. Por ende encontramos relevantes juntarlas para ver el modelo


Call:
lm(formula = modelo6, data = result)

Residuals:
    Min      1Q  Median      3Q     Max 
-9.3849 -2.7738 -0.3294  2.7369 14.6520 

Coefficients:
                          Estimate Std. Error t value Pr(>|t|)    
(Intercept)                4.85375    0.66590   7.289 8.28e-12 ***
result$`Rural porcentaje`  8.46706    1.19285   7.098 2.48e-11 ***
result$PORCENTAJELENGUA    0.09918    0.01151   8.620 2.65e-15 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.367 on 189 degrees of freedom
Multiple R-squared:  0.5443,    Adjusted R-squared:  0.5394 
F-statistic: 112.9 on 2 and 189 DF,  p-value: < 2.2e-16

Modelo 2

  • Hipótesis 2: El porcentaje de analfabetismo por provincia incrementa o disminuye dependiendo el porcentaje de lengua, el porcentaje de zonas rurales y el porcentaje de mujeres en las provincias

Call:
lm(formula = modelo7, data = result)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2939  -2.4862  -0.0186   2.5155  12.4897 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 58.59636    7.49342   7.820 3.68e-13 ***
result$`Rural porcentaje`    9.81046    1.07541   9.123  < 2e-16 ***
result$PORCENTAJELENGUA      0.08057    0.01054   7.646 1.04e-12 ***
result$`Porcentaje Mujer` -107.43326   14.93289  -7.194 1.45e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.877 on 188 degrees of freedom
Multiple R-squared:  0.6427,    Adjusted R-squared:  0.637 
F-statistic: 112.7 on 3 and 188 DF,  p-value: < 2.2e-16

Modelo 3

  • Hipótesis 3: El porcentaje de analfabetismo por provincia incrementa o disminuye dependiendo el porcentaje de lengua, el porcentaje de zonas rurales, el porcentaje de mujeres y el porcentaje de personas sin wifi en las provincias

Call:
lm(formula = modelo8, data = result)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.5135  -2.3205  -0.4411   2.2396  12.1644 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 68.39017    7.80134   8.766 1.12e-15 ***
result$`Rural porcentaje`    4.89776    1.75230   2.795 0.005731 ** 
result$PORCENTAJELENGUA      0.07681    0.01029   7.463 3.10e-12 ***
result$`Porcentaje Mujer` -118.12138   14.82654  -7.967 1.55e-13 ***
result$`SIN WIFI`          -17.98222    5.14934  -3.492 0.000598 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.767 on 187 degrees of freedom
Multiple R-squared:  0.6645,    Adjusted R-squared:  0.6574 
F-statistic: 92.61 on 4 and 187 DF,  p-value: < 2.2e-16

Comparación de los 3 modelos

Resultados de todos los modelos
apropiacion (I) apropiacion (II) apropiacion (III)
(Intercept) 4.854*** 58.596*** 68.390***
(0.666) (7.493) (7.801)
result$Rural porcentaje 8.467*** 9.810*** 4.898**
(1.193) (1.075) (1.752)
result$PORCENTAJELENGUA 0.099*** 0.081*** 0.077***
(0.012) (0.011) (0.010)
result$Porcentaje Mujer -107.433*** -118.121***
(14.933) (14.827)
result$SIN WIFI -17.982***
(5.149)
Num.Obs. 192 192 192
R2 0.544 0.643 0.665
R2 Adj. 0.539 0.637 0.657
AIC 1115.9 1071.2 1061.1
BIC 1128.9 1087.5 1080.6
Log.Lik. -553.949 -530.602 -524.537
F 112.860 112.700 92.607
RMSE 4.33 3.84 3.72
  • p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Gráfico


Interpretación:

  • En nuestro primer modelo podemos encontrar que la mayoría de ellas tienen intervalos de confianza que incluyen el valor cero, lo que sugiere que no todas las variables tienen un efecto significativo en la variable dependiente en este modelo.

  • En nuestro segundo modelo tiene estimaciones más precisas para algunas variables, con intervalos de confianza más estrechos, sugiriendo que puede ser un modelo más fuerte.

  • En nuestro tercer modelo, el porcentaje sin wifi resulta ser significativo

Annova

Tabla ANOVA para comparar modelos
Res.Df RSS Df Sum of Sq F Pr(>F)
189 3604.430 NA NA NA NA
188 2826.303 1 778.1270 54.84164 0.0000000
187 2653.271 1 173.0312 12.19507 0.0005979
  • Acá observamos que el tercer modelo el cual presentaba la hipótesis de que el analfabetismo resulta tener correlación con el porcentaje de lengua, zonas rurales, porcentaje de mujeres y porcentaje de personas sin wifi termina siendo nuestro mejor modelo explicativo.

Modelo de regresión

Row 1

Column

Linealidad

Resultado: Vemos una linealidad, sin embargo se observan valores atípicos. Aún así podemos observar una linealidad

Homocedasticidad - Gráfico

Homocedasticidad - Tabla

studentized Breusch-Pagan test
BP df p.value
BP 11.83478 4 0.0186232

  • Acá podemos observar que el test de Breusch - Pagan nos sugiere que el modelo presenta heterocedasticidad significativa.

Normalidad de Residuos

Normalidad de residuos - Shapiro

Shapiro-Wilk normality test
SW p.value
W 0.9888998 0.1408228

  • El test Shapiro nos muestra que los datos no presentan una desviación significativa de la normalidad.

Multicolinealidad

Evaluando Multicolinealidad usando VIF (Variance Inflation Factors)
VIF
result\(`Rural porcentaje` </td> <td style="text-align:right;"> 3.640234 </td> </tr> <tr> <td style="text-align:left;"> result\)PORCENTAJELENGUA 1.350184
result\(`Porcentaje Mujer` </td> <td style="text-align:right;"> 1.116531 </td> </tr> <tr> <td style="text-align:left;"> result\)SIN WIFI 3.611211

  • Según VIF, no hay un problema significativo de multicolinealidad ya que nadie supera el número 5

Valores influyentes

Valores influyentes - tabla

Valores Influyentes críticos
cook.d hat
NA NA
:—— :—

  • El resultado es que no ha encontrado valores influyentes críticos que afecten el modelo.

Análisis Factorial

Row 1

Column

Tabla

                 Rural porcentaje SIN WIFI PORCENTAJELENGUA Porcentaje Mujer
Rural porcentaje             1.00    -0.84             0.45             0.07
SIN WIFI                    -0.84     1.00            -0.41            -0.16
PORCENTAJELENGUA             0.45    -0.41             1.00            -0.19
Porcentaje Mujer             0.07    -0.16            -0.19             1.00

Grafico

Prueba - KMO

Kaiser-Meyer-Olkin factor adequacy
Call: psych::KMO(r = corMatrix)
Overall MSA =  0.59
MSA for each item = 
Rural porcentaje         SIN WIFI PORCENTAJELENGUA Porcentaje Mujer 
            0.57             0.56             0.77             0.36 

  • Con ello, tachamos el análisis factorial debido a que es inadecuado para el análisis factorial debido a tener un KMO de 0.59

Análisis Conglomerado

Row 1

Column

Boxplot

PAM - Clusters

PAM - Tabla

PORCENTAJELENGUA Porcentaje Mujer Rural porcentaje SIN WIFI pam
ABANCAY 50.3809265 0.4894227 0.3120514 0.1892909 1
ACOBAMBA 79.7476968 0.4775440 0.7451585 0.0268209 2
ACOMAYO 84.5117698 0.4888840 0.5790356 0.0090846 2
AIJA 41.5611146 0.5132996 1.0000000 0.0314214 2
ALTO AMAZONAS 11.3758403 0.5029130 0.3054914 0.0815264 1
AMBO 26.2244497 0.4906447 0.6614422 0.0550249 2
ANDAHUAYLAS 71.4108242 0.4832429 0.5377112 0.0922274 2
ANGARAES 72.7172963 0.4859878 0.7791162 0.0340360 2
ANTA 65.0055154 0.4930257 0.7130149 0.0568358 2
ANTABAMBA 76.5694076 0.5160920 1.0000000 0.0039216 2
ANTONIO RAYMONDI 76.5421245 0.4924542 1.0000000 0.0076394 2
AREQUIPA 17.1013339 0.4825256 0.0207377 0.3872590 1
ASCOPE 0.6062909 0.4924170 0.1115525 0.2659226 1
ATALAYA 50.6001135 0.5124888 0.5660224 0.0326458 2
AYABACA 0.9045411 0.5055706 0.8690408 0.0141560 2

PAM - Siluetas

PAM - Datos

[1] "BAGUA"

AGNES - Clusters

AGNES - Tabla

PORCENTAJELENGUA Porcentaje Mujer Rural porcentaje SIN WIFI pam agnes
ABANCAY 50.3809265 0.4894227 0.3120514 0.1892909 1 1
ACOBAMBA 79.7476968 0.4775440 0.7451585 0.0268209 2 2
ACOMAYO 84.5117698 0.4888840 0.5790356 0.0090846 2 2
AIJA 41.5611146 0.5132996 1.0000000 0.0314214 2 3
ALTO AMAZONAS 11.3758403 0.5029130 0.3054914 0.0815264 1 3
AMBO 26.2244497 0.4906447 0.6614422 0.0550249 2 3
ANDAHUAYLAS 71.4108242 0.4832429 0.5377112 0.0922274 2 2
ANGARAES 72.7172963 0.4859878 0.7791162 0.0340360 2 2
ANTA 65.0055154 0.4930257 0.7130149 0.0568358 2 2
ANTABAMBA 76.5694076 0.5160920 1.0000000 0.0039216 2 2
ANTONIO RAYMONDI 76.5421245 0.4924542 1.0000000 0.0076394 2 2
AREQUIPA 17.1013339 0.4825256 0.0207377 0.3872590 1 1
ASCOPE 0.6062909 0.4924170 0.1115525 0.2659226 1 1
ATALAYA 50.6001135 0.5124888 0.5660224 0.0326458 2 2
AYABACA 0.9045411 0.5055706 0.8690408 0.0141560 2 3

AGNES - Siluetas

AGNES - Datos

[1] "AIJA"      "CAJAMARCA" "FERREÑAFE" "HUANUCO"   "HUAYTARA"  "TARMA"    
[7] "YAULI"    

DIANA - Clusters

DIANA - Tabla

PORCENTAJELENGUA Porcentaje Mujer Rural porcentaje SIN WIFI pam agnes diana
ABANCAY 50.3809265 0.4894227 0.3120514 0.1892909 1 1 1
ACOBAMBA 79.7476968 0.4775440 0.7451585 0.0268209 2 2 2
ACOMAYO 84.5117698 0.4888840 0.5790356 0.0090846 2 2 2
AIJA 41.5611146 0.5132996 1.0000000 0.0314214 2 3 2
ALTO AMAZONAS 11.3758403 0.5029130 0.3054914 0.0815264 1 3 1
AMBO 26.2244497 0.4906447 0.6614422 0.0550249 2 3 2
ANDAHUAYLAS 71.4108242 0.4832429 0.5377112 0.0922274 2 2 2
ANGARAES 72.7172963 0.4859878 0.7791162 0.0340360 2 2 2
ANTA 65.0055154 0.4930257 0.7130149 0.0568358 2 2 2
ANTABAMBA 76.5694076 0.5160920 1.0000000 0.0039216 2 2 2
ANTONIO RAYMONDI 76.5421245 0.4924542 1.0000000 0.0076394 2 2 2
AREQUIPA 17.1013339 0.4825256 0.0207377 0.3872590 1 1 1
ASCOPE 0.6062909 0.4924170 0.1115525 0.2659226 1 1 1
ATALAYA 50.6001135 0.5124888 0.5660224 0.0326458 2 2 2
AYABACA 0.9045411 0.5055706 0.8690408 0.0141560 2 3 2

DIANA - Siluetas

DIANA - Datos

character(0)

Conclusiones

Row 1

Column

Conclusiones

El analfabetismo es un problema que sigue siendo relevante dentro del Perú. Ha habido avances importantes al respecto, sin embargo muchas personas aún no pueden acceder a la educación debido a que pertenecen a zonas rurales o hablan otros idiomas, hay un mayor porcentaje de hombres o no tienen acceso a internet. Estos cuatro últimos factores han sido los más relevantes para nuestra investigación y los que mayor han tenido relevancia dentro del trabajo. Por ende, si se quiere proponer soluciones al problema del analfabetismo, es relevante tomar estas dos variables en cuenta ya que demuestran una brecha de desigualdad a diferencia de otras variables. Al mismo tiempo, hemos observado que dentro de nuestro modelo anidados el modelo 3 ha sido el más beneficio para nuestro trabajo, presentando ciertos problemas de heterocedasticidad pero no invalida el modelo. También es destacable que el análisis factorial no es posible al tener un KMO tan bajo y que en el análisis de conglomerados resultó más útil el modelo AGNES. Actualmente el gobierno ha podido reducir en gran cantidad el analfabetismo llegando a un 95% alfabetizadas (Gobierno del Perú), sin embargo es importante estos trabajos para ver cuáles son las variables que aún siguen provocando porcentajes mayores de analfabetismo. Al presentar estas 4 variables como relevantes, es importante que el Estado tome acción para así conseguir reducir el problema y que los ciudadanos sean capaces de tener todas las oportunidades disponibles.