-Detectar cómo se relacionan múltiples variables entre sí y medir la fuerza e importancia de esas relaciones.
-Asegurarse de que los datos provengan de una fuente confiable, lo que respalda su validez para análisis complejos y fundamentados.
-Identificar y categorizar las variables según su tipo y escala de medición, para elegir los métodos estadísticos más apropiados.
El conjunto de trabajo se obtuvo casi totalmente de kaggle: https://www.kaggle.com/datasets/canggih/upvoted-kaggle-kernels/data. Cabe aclarar que Kaggle comenzó en 2010 ofreciendo concursos de aprendizaje automático y ahora también ofrece una plataforma de datos públicos, un banco de trabajo basado en la nube para ciencia de datos y educación en inteligencia artificial.
Además de los conjuntos de datos, los kernels en Kaggle son características interesantes. Podemos aprender, compartir y, además, contribuir a otros. Teniendo estos en cuenta este conjunto de datos es una recopilación de distintos kernels depositados en Kaggle.
El conjunto de datos contiene 10 campos y 957 registros. Los campos están clasificados de dos maneras (variables cualitativas y cuantitativas) que se subdividen en medidas de escala ordinal, nominal para las variables cualitativas y de escala razón para las variables cuantitativas. El tipo de variable y su escala de medición con base en la nomenclatura (tipo_de_variable::escala_de_medicion[ordenamiento]):
. Votes (cuantitativa::razón): Registra el número de votos que tiene cada kernel en este conjunto de datos, esta columna esta ordenada de menor a mayor.
. Owner (cualitativa::nominal): registra el nombre de usuario del autor del respectivo conjunto de datos.
. Kernel (cualitativa::nominal): registra el nombre identificador de cada kernel del respectivo conjunto de datos.
.Version_History (cualitativa::nominal): Registra las diferentes actualizaciones que recibio cada kernel del respectivo conjunto de datos, hasta la ultima version la cual fue aquella antes de realizar este conjunto de datos.
.tags (cualitativa1::nominal): Registra las diferentes palabras clave que identifican a cada kernel del respectivo conjunto de datos.
.output (cualitativa::nominal) Registra el numero de temas o secciones de cada documento presente en cada kernel del respectivo conjunto de datos.
. Dataset (cualitativa::nominal): registra el nombre que el autor asigno a su respectivo conjunto de datos.
. Code type (cualitativa::nominal(dicotómica)) :registra el tipo de código el cual fue implementado en los diferentes kernels en el conjunto de datos, donde existen las variables notebook y script.
. Language (cualitativa::nominal) : registra el tipo de lenguaje de programación o de entrada con que trabaja el respectivo conjunto de datos.
. Comments (cuantitativa::ordinal): registra el número de comentarios que tiene cada kernel en el respectivo conjunto de datos.
. Views (cuantitativa::razón): registra el numero de visitas que tiene cada kernel en el respectivo conjunto de datos.
. Forks (cuantitativa::razón): Registra el número de personas que poseen cada kernel de este respectivo conjunto de datos.
. Country (cualitativa::nominal): registra la nacionalidad de cada usuario propietario de cada kernel en el respectivo conjunto de datos.
Cabe aclarar que el ultimo campo (Country) es una variable artificial, lo que significa que no esta prensente en el conjunto de datos original, pero tampoco es algo inventado. Esta misma se agregó después de recopilar información confiable sobre la nacionalidad de los usuarios. La idea de incluirla es dar más contexto y mejorar los análisis para que sean más útiles y completos según las necesidades del proyecto.
Es de tener en consideracion que el conjunto de datos original cuenta principalemente con 12 campos, entre los cuales en el conjunto de datos depurado se suprimieron 3 de estos ya que no se consideraron que aportaran informacion importante para realizar el estudio; Los 3 campos suprimidos son “version_History, tags, output”. De igual forma, se suprimieron un total de 14 registros.
str(Dataset_original)
## tibble [971 × 12] (S3: tbl_df/tbl/data.frame)
## $ Votes : num [1:971] 2130 1395 1363 1316 1078 ...
## $ Owner : chr [1:971] "Megan Risdal" "Guido Zuidhof" "Pedro Marcelino" "Anisotropic" ...
## $ Kernel : chr [1:971] "Exploring Survival on the Titanic" "Full Preprocessing Tutorial" "Comprehensive data exploration with Python" "Introduction to Ensembling/Stacking in Python" ...
## $ Dataset : chr [1:971] "Titanic: Machine Learning from Disaster" "Data Science Bowl 2017" "House Prices: Advanced Regression Techniques" "Titanic: Machine Learning from Disaster" ...
## $ Version_History: chr [1:971] "Version 8,2017-12-27|Version 7,2017-02-24|Version 6,2017-02-01|Version 5,2016-04-05|Version 4,2016-03-07|Versio"| __truncated__ "Version 19,2017-02-24|Version 18,2017-02-24|Version 17,2017-02-06|Version 16,2017-01-27|Version 15,2017-01-16|V"| __truncated__ "Version 47,2018-02-23|Version 46,2018-02-16|Version 45,2018-02-09|Version 44,2018-02-03|Version 43,2018-01-26|V"| __truncated__ "Version 93,2018-02-07|Version 92,2018-01-15|Version 91,2017-12-26|Version 90,2017-12-23|Version 89,2017-12-21|V"| __truncated__ ...
## $ Tags : chr [1:971] "tutorial, beginner, feature engineering," "tutorial, preprocessing" "beginner, eda, data cleaning" "tutorial, ensembling, xgboost" ...
## $ Output : chr [1:971] "This script outputs 9 visualizations and 28 data file." "This script outputs 8 visualizations." "This script doesn't output any visualizations or data files." "This script outputs 2 visualizations and 1 data file." ...
## $ Code_Type : chr [1:971] "Script" "Notebook" "Notebook" "Notebook" ...
## $ Language : chr [1:971] "markdown" "Python" "Python" "Python" ...
## $ Comments : num [1:971] 749 288 361 395 397 143 371 352 125 108 ...
## $ Views : num [1:971] 345590 132387 130419 147540 68256 ...
## $ Forks : num [1:971] 3370 1992 2754 3360 2229 ...
Dataset_original
## # A tibble: 971 × 12
## Votes Owner Kernel Dataset Version_History Tags Output Code_Type Language
## <dbl> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
## 1 2130 Megan R… Explo… Titani… Version 8,2017… tuto… This … Script markdown
## 2 1395 Guido Z… Full … Data S… Version 19,201… tuto… This … Notebook Python
## 3 1363 Pedro M… Compr… House … Version 47,201… begi… This … Notebook Python
## 4 1316 Anisotr… Intro… Titani… Version 93,201… tuto… This … Notebook Python
## 5 1078 Kaan Can Data … Pokemo… Version 389,20… begi… This … Notebook Python
## 6 1003 Philipp… Explo… Zillow… Version 44,201… begi… This … Script markdown
## 7 946 Manav S… Titan… Titani… Version 16,201… tuto… This … Notebook Python
## 8 826 Omar El… A Jou… Titani… Version 6,2016… begi… This … Notebook Python
## 9 814 anokas Data … Quora … <NA> inte… This … Notebook Python
## 10 726 SRK Simpl… Zillow… Version 19,201… eda,… This … Notebook Python
## # ℹ 961 more rows
## # ℹ 3 more variables: Comments <dbl>, Views <dbl>, Forks <dbl>
str(Dataset)
## tibble [957 × 10] (S3: tbl_df/tbl/data.frame)
## $ Votes : num [1:957] 33 33 33 33 33 33 33 33 33 33 ...
## $ Owner : chr [1:957] "Eric Hamers" "Shannon McNish" "VijayBJ" "Jonathan Bouchet" ...
## $ Kernel : chr [1:957] "Is The Real Estate Market Going to Crash Again?" "What Should Job Seekers do to Get a Job?" "Basic U-net using Tensorflow" "Overwatch: who should I main ?" ...
## $ Dataset : chr [1:957] "Zillow Economics Data" "Kaggle ML and Data Science Survey, 2017" "2018 Data Science Bowl" "Overwatch" ...
## $ Code_Type: chr [1:957] "Notebook" "Script" "Notebook" "Script" ...
## $ Language : chr [1:957] "Python" "markdown" "Python" "markdown" ...
## $ Comments : num [1:957] 8 2 12 9 23 11 17 3 8 2 ...
## $ Views : num [1:957] 2482 582 4790 1272 2429 ...
## $ Forks : num [1:957] 1 1 3 3 4 5 7 7 11 18 ...
## $ Country : chr [1:957] "Ukraine" "United States" "United States" "United States" ...
Dataset
## # A tibble: 957 × 10
## Votes Owner Kernel Dataset Code_Type Language Comments Views Forks Country
## <dbl> <chr> <chr> <chr> <chr> <chr> <dbl> <dbl> <dbl> <chr>
## 1 33 Eric Ha… Is Th… Zillow… Notebook Python 8 2482 1 Ukraine
## 2 33 Shannon… What … Kaggle… Script markdown 2 582 1 United…
## 3 33 VijayBJ Basic… 2018 D… Notebook Python 12 4790 3 United…
## 4 33 Jonatha… Overw… Overwa… Script markdown 9 1272 3 United…
## 5 33 tomcwal… Keras… Porto … Notebook Python 23 2429 4 Poland
## 6 33 armamut ps_ca… Porto … Notebook Python 11 1103 5 United…
## 7 33 Tilii You w… Merced… Script Python 17 2733 7 United…
## 8 33 ZFTurbo PageR… Quora … Script Python 3 1881 7 England
## 9 33 CVxTz Audio… Tensor… Notebook Python 8 2248 11 Canada
## 10 33 ZFTurbo Greed… Santa … Script Python 2 1351 18 Germany
## # ℹ 947 more rows
Estamos trabajando con un conjunto de datos sobre kernels y utilizamos herramientas de estadística descriptiva y gráficas, como boxplots y el cálculo de medias, para analizar la distribución de las variables y sus relaciones. El propósito es reconocer patrones, descubrir conexiones entre las variables y localizar valores atípicos (outliers) que puedan afectar los resultados del análisis.
Para analizar la distribución de variables como votes, comments, views y forks, utilizamos boxplots. Estos gráficos destacan la mediana (indicada por la línea negra dentro de la caja), los cuartiles (los bordes de la caja) y los valores extremos o outliers (puntos que aparecen fuera del bigote). Los outliers son importantes porque pueden influir notablemente en los resultados de análisis estadísticos, como las medias y las varianzas. También se utilizaron la matriz de covarianzas y la matriz de correlaciones para explorar las relaciones entre las variables.
Al analizar el boxplot con el conjunto completo no se puede hacer una interpretación clara del conjunto ya que hay datos muy atípicos que hace que sea imposible la interpretación de esta, por ello hemos seleccionada una muestra del 10% de todos los datos y con ella se puede hacer un mejor análisis en la cual aun podemos evidenciar estos datos atípicos y que sigue habiendo un sesgó de cola derecha lo que evidencia que hay una mayor agrupación de los datos en el lado izquierdo así, las medianas tienden a ser bajas,además, todos los datos atípicos se presentan en los extremos superiores.
Como podemos evidenciar en la pestaña de varianzas y covarianzas vemos que Views tiene la varianza más alta, lo que puede indicar que los datos de views están muy dispersos, en lo contrario de Comments que tiene una varianza más baja y por ello los datos son menos dispersos. Pero en lo que efectivamente podemos inferir es que existe una relación positiva entre todas las variables, lo que implica que están correlacionadas entre sí en cierta medida.
Interpretando la matriz de correlaciones y teniendo en cuenta la pestaña de varianzas y covarianzas se da a notar que entre las variables estudiadas votes, comments, views y forks todas las correlaciones presentes son positivas y de valores altos (considerando alto todo arriba de 0.5); donde la corealción con el valor mas alto es votes-comments con un 0.86 y la relación con el valor mas bajo es votes-forks con un 0.63.
set.seed(780757)
Dataset_Muestreado4 = Dataset[sample(1:nrow(Dataset),95),-c(2,3,4,5,6,10)]
par(mfrow = c(1, ncol(Dataset_Muestreado4)))
invisible(lapply(1:ncol(Dataset_Muestreado4), function(i)
boxplot(Dataset_Muestreado4[, i])))
set.seed(780757)
Dataset_Muestreado. = Dataset[sample(1:nrow(Dataset),957),-c(2,3,4,5,6,10)]
par(mfrow = c(1, ncol(Dataset_Muestreado.)))
invisible(lapply(1:ncol(Dataset_Muestreado.), function(i)
boxplot(Dataset_Muestreado.[, i])))
round(cov(Dataset[,-c(2,3,4,5,6,10)]),2)
## Votes Comments Views Forks
## Votes 20536.03 5659.04 2354704.7 44842.04
## Comments 5659.04 2104.39 717112.5 15304.93
## Views 2354704.68 717112.52 425041335.5 7990201.43
## Forks 44842.04 15304.93 7990201.4 247986.46
round(cor(Dataset[,-c(2,3,4,5,6,10)]),2)
## Votes Comments Views Forks
## Votes 1.00 0.86 0.80 0.63
## Comments 0.86 1.00 0.76 0.67
## Views 0.80 0.76 1.00 0.78
## Forks 0.63 0.67 0.78 1.00
En esta parte se busca estudiar e identificar diferentes patrones, relaciones y tendencias entre las variables por medio de graficas como lo son el Diagrama de dispersión y correlaciones, Diagrama de estrellas y el Diagrama de las caras de chernoff. Se debe tener en cuenta que se trabajó con las variables cuantitativas con escala de medición razón, las cuales son votes, comments, views y forks.
Cada uno de los tres gráficos estudia estos 4 campos cuantitativos de escala razon del conjunto de datos desde diferentes perspectivas. Es de destacar que nuestro conjunto de datos en su forma depurada no era suficiente para darnos una visualización más cómoda para su estudio, por lo cual se decide trabajar con semillas para cada uno de estos gráficos.
El Diagrama de dispersión y correlaciones nos muestra gráficamente la dispersión que presenta cada una de estas variables junto a el nivel de correlación existente entre estas mismas. En este mismo apartado se puede visualizar el Diagrama de dispersión y correlaciones[filtro:Code_Type] en el cual se hace el mismo estudio de dispersión y el nivel de correlación, pero ahora tomando en cuenta la variable clasificadora de nuestro conjunto de datos la cual es code_type.
El Diagrama de estrellas representa diferentes observaciones (cada figura o estrella) y los diferentes colores y tamaños reflejan valores asociados a diferentes variables. En este grafico por necesidad de interpretación se redujo la semilla utilizada con el fin de hacer más practico el estudio del gráfico.
El Diagrama de las caras de chernoff presenta cada observación en forma de rostro en donde cada uno de los rasgos faciales como tamaño, forma, boca, sonrisa y otras características están determinadas por los valores de las variables asociadas a esa observación.
conclusion
Se puede concluir en el estudio de cada gráfica, que la correlación existente entre las variables es en general de valores altos y sus dispersiones presentan en la mayor parte de los datos una cercanía. De igual forma el diagrama de estrellas acentúa la idea de que en nuestro conjunto de datos se presenta valores muy altos o valores muy bajos por medio de la casi aparición de algunas visualizaciones (estrellas) y algunas otras de forma muy grandes. Finalmente en el diagrama de caras de chernoff se presentan visualizaciones (caras) sin ninguna relación (valores muy altos o bajos en las variables que definen las cualidades).
set.seed(780757)
Dataset_Muestreado3 = Dataset[sample(1:nrow(Dataset),50),-c(2,3,4,5,6,10)]
ggpairs(Dataset_Muestreado3)
set.seed(780757)
Dataset_Muestreado = Dataset[sample(1:nrow(Dataset),957),-c(2,3,4,5,6,10)]
ggpairs(Dataset_Muestreado)
Dataset$Code_Type <- as.factor(Dataset$Code_Type)
Dataset_Muestreado3 = Dataset[sample(1:nrow(Dataset),95),c(1,5,7,8,9)]
ggpairs(Dataset_Muestreado3, aes(color = Code_Type, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
set.seed(780720)
Dataset_Muestreado = Dataset[sample(1:nrow(Dataset),23),-c(2,3,4,5,6,10)]
stars(Dataset_Muestreado, len = 1, cex = 0.7, key.loc = c(2,3,4,5,6,10), draw.segments = TRUE)
set.seed(780728)
Dataset_Muestreado = Dataset[sample(1:nrow(Dataset),25),-c(2,3,4,5,6,10)]
faces(Dataset_Muestreado)
## effect of variables:
## modified item Var
## "height of face " "Votes"
## "width of face " "Comments"
## "structure of face" "Views"
## "height of mouth " "Forks"
## "width of mouth " "Votes"
## "smiling " "Comments"
## "height of eyes " "Views"
## "width of eyes " "Forks"
## "height of hair " "Votes"
## "width of hair " "Comments"
## "style of hair " "Views"
## "height of nose " "Forks"
## "width of nose " "Votes"
## "width of ear " "Comments"
## "height of ear " "Views"
En el análisis de datos multivariados relacionados con Los kernels , es fundamental evaluar la normalidad de las variables para garantizar la validez de los modelos estadísticos que se aplicarán. En este estudio, se dispone de un conjunto de datos con aproximadamente 957 registros, de las cuales solo se le va hacer el estudio a los campos cuantitativos. Se llevarán a cabo diferentes pruebas de normalidad multivariada, tales como las pruebas de Mardia, Henze-Zirkler, Doornik-Hansen y Royston, con el fin de determinar si las variables cuantitativas siguen una distribución normal multivariada, lo cual es crucial para la aplicación de técnicas estadísticas avanzadas.
Para determinar si las variables cuantitativas de nuestro conjunto de datos siguen una distribución normal, se llevarán a cabo diversas pruebas de normalidad. Entre estas, se incluyen la prueba de Mardia, que evalúa la normalidad multivariada mediante la asimetría y curtosis; la prueba de Henze-Zirkler, que combina información sobre la distancia de las observaciones a la media; la prueba de Doornik-Henze, que se basa en el análisis de momentos; y la prueba de Rosettón, que utiliza una metodología gráfica para evaluar la normalidad. La aplicación de estas pruebas nos permitirá obtener una comprensión más clara del comportamiento de nuestros datos.
conclusion
Los resultados obtenidos a partir de las pruebas de normalidad, incluyendo Mardia, Henze-Zirkler, Doornik-Henze y Rosettón, indican de manera consistente que los datos analizados no siguen una distribución normal. Esta conclusión sugiere la presencia de asimetrías y/o curtosis que se desvían de las características esperadas en una distribución normal, lo que puede reflejar variaciones significativas en la naturaleza de los datos. La asimetría podría indicar que hay una tendencia hacia valores extremos en una dirección, mientras que la curtosis elevada podría señalar la presencia de outliers o una concentración inusual de datos en torno a la media.
mvn(Dataset[,-c(2,3,4,5,6,10)], mvnTest="mardia")
## $multivariateNormality
## Test Statistic p value Result
## 1 Mardia Skewness 52422.0890297622 0 NO
## 2 Mardia Kurtosis 1172.23684297287 0 NO
## 3 MVN <NA> <NA> NO
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Votes 154.5401 <0.001 NO
## 2 Anderson-Darling Comments 119.7650 <0.001 NO
## 3 Anderson-Darling Views 135.3486 <0.001 NO
## 4 Anderson-Darling Forks 222.3385 <0.001 NO
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th Skew
## Votes 957 99.39498 143.30397 57 33 2130 41 101 6.817008
## Comments 957 30.67398 45.87367 19 1 749 11 33 7.183988
## Views 957 12346.91118 20616.53064 7429 582 345590 3898 13469 8.233301
## Forks 957 151.61860 497.98239 52 1 9879 23 122 11.951835
## Kurtosis
## Votes 66.29937
## Comments 80.57958
## Views 99.47097
## Forks 189.34977
mvn(Dataset[,-c(2,3,4,5,6,10)], mvnTest="hz")
## $multivariateNormality
## Test HZ p value MVN
## 1 Henze-Zirkler 184.7474 0 NO
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Votes 154.5401 <0.001 NO
## 2 Anderson-Darling Comments 119.7650 <0.001 NO
## 3 Anderson-Darling Views 135.3486 <0.001 NO
## 4 Anderson-Darling Forks 222.3385 <0.001 NO
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th Skew
## Votes 957 99.39498 143.30397 57 33 2130 41 101 6.817008
## Comments 957 30.67398 45.87367 19 1 749 11 33 7.183988
## Views 957 12346.91118 20616.53064 7429 582 345590 3898 13469 8.233301
## Forks 957 151.61860 497.98239 52 1 9879 23 122 11.951835
## Kurtosis
## Votes 66.29937
## Comments 80.57958
## Views 99.47097
## Forks 189.34977
mvn(Dataset[,-c(2,3,4,5,6,10)], mvnTest="dh")
## $multivariateNormality
## Test E df p value MVN
## 1 Doornik-Hansen 2712.848 8 0 NO
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Votes 154.5401 <0.001 NO
## 2 Anderson-Darling Comments 119.7650 <0.001 NO
## 3 Anderson-Darling Views 135.3486 <0.001 NO
## 4 Anderson-Darling Forks 222.3385 <0.001 NO
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th Skew
## Votes 957 99.39498 143.30397 57 33 2130 41 101 6.817008
## Comments 957 30.67398 45.87367 19 1 749 11 33 7.183988
## Views 957 12346.91118 20616.53064 7429 582 345590 3898 13469 8.233301
## Forks 957 151.61860 497.98239 52 1 9879 23 122 11.951835
## Kurtosis
## Votes 66.29937
## Comments 80.57958
## Views 99.47097
## Forks 189.34977
mvn(Dataset[,-c(2,3,4,5,6,10)], mvnTest="royston")
## $multivariateNormality
## Test H p value MVN
## 1 Royston 693.9903 7.838133e-150 NO
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Votes 154.5401 <0.001 NO
## 2 Anderson-Darling Comments 119.7650 <0.001 NO
## 3 Anderson-Darling Views 135.3486 <0.001 NO
## 4 Anderson-Darling Forks 222.3385 <0.001 NO
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th Skew
## Votes 957 99.39498 143.30397 57 33 2130 41 101 6.817008
## Comments 957 30.67398 45.87367 19 1 749 11 33 7.183988
## Views 957 12346.91118 20616.53064 7429 582 345590 3898 13469 8.233301
## Forks 957 151.61860 497.98239 52 1 9879 23 122 11.951835
## Kurtosis
## Votes 66.29937
## Comments 80.57958
## Views 99.47097
## Forks 189.34977
-Hacer más sencillo el análisis reemplazando las variables originales por un grupo más pequeño de componentes principales que concentran lo más importante.
-Mostrar datos complejos en gráficos 2D o 3D para entender mejor los patrones y las relaciones de forma más clara.
-Encontrar las dimensiones clave que explican la mayor parte de las diferencias en los datos, enfocándose en lo más relevante.
En este estudio, realizaremos un análisis de componentes principales (ACP) para explorar un conjunto de variables cuantitativas. calculando una matriz de correlaciones que nos ayudará a entender cómo se relacionan las variables entre sí. extraeremos los valores y vectores propios, que nos mostrarán qué tanto contribuye cada componente a la variabilidad total de los datos. También utilizaremos gráficos como el de Cattell-Kaiser para y el gráfico de Cattell para visualizar cómo se comportan las variables en este nuevo espacio. Este enfoque nos permitirá simplificar el análisis y descubrir patrones interesantes en los datos.
Durante el análisis de componentes principales (ACP), los resultados de la matriz de correlaciones revelaron relaciones significativas entre las variables cuantitativas, lo que sugiere que algunas de ellas comparten información similar. A partir de los valores y vectores propios, identificamos los componentes más relevantes que capturan la mayor parte de la variabilidad en los datos. Al aplicar el gráfico de Cattell-Kaiser, se hizo evidente el número óptimo de componentes a retener. Además, el gráfico de Cattell nos proporcionó una visualización clara del comportamiento de las variables en el nuevo espacio dimensional.
conclusion
muestra 4 dimensiones donde solo la primera retiene el 81.24369 %, la siguiente el 10.77191% y las demás solo porcentajes con parte entera de una cifra. En este sentido, la representatividad de la combinación lineal que define a la dimensión 1 es significativamente alta en comparación con las demás. Como esta matriz es muda en relación con las variables originales se sigue indagando la identificación de las variables que más contribuyan a la dimensión de valor propio más alto. Matriz de correlaciones: Las variables presentan relaciones significativas entre sí, con correlaciones particularmente altas entre votos, comentarios y visualizaciones. Esto sugiere que estas métricas pueden estar asociadas con la popularidad o el interés general que generan las publicaciones. Sin embargo, los forks parecen tener una relación menos fuerte con las otras métricas, lo que podría indicar que dependen de factores adicionales. Como en la pestaña anterior esta muestra las relaciones que se obtienen al comparar las variables por ejemplo las variables que tienen más relación son comments y votes por lo contrario a forks y votes esto se ve reflejado en el diagrama por la intensidad de los colores El Gráfico de Cattell muestra que los cambios en la pendiente indican que la capacidad explicativa de la dimensión 1 es alta comparada con el resto. Así, el de Cattell-Kaiser al conjugar el instrumento gráfico anterior con el criterio de Kaiser en la misma gráfica apoya que la cantidad de dimensiones suficientes por retener es una, aclarando que esta elección retenga un porcentaje de variabilidad adecuado para estudiar el problema.
get_eigenvalue(PCA(Dataset[,-c(2,3,4,5,6,10)], ncp = 6, scale.unit = TRUE, graph = F))
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 3.2497475 81.243687 81.24369
## Dim.2 0.4310348 10.775870 92.01956
## Dim.3 0.2019606 5.049016 97.06857
## Dim.4 0.1172571 2.931427 100.00000
round(cor(Dataset[,-c(2,3,4,5,6,10)]),2)
## Votes Comments Views Forks
## Votes 1.00 0.86 0.80 0.63
## Comments 0.86 1.00 0.76 0.67
## Views 0.80 0.76 1.00 0.78
## Forks 0.63 0.67 0.78 1.00
par(mfrow=c(1,2))
corrplot::corrplot(cor(Dataset[,-c(2,3,4,5,6,10)]), method = "color", type = "upper", number.cex = 0.4)
corrplot::corrplot(cor(princomp(Dataset[,-c(2,3,4,5,6,10)], cor = TRUE)$scores), method = "color", type = "upper", number.cex = 0.4)
fviz_eig(PCA(Dataset[,-c(2,3,4,5,6,10)], scale.unit = T, graph = F), addlabels = T, ylim=c(0,90), main = "")
scree(Dataset[,-c(2,3,4,5,6,10)],factors = FALSE, pc = TRUE, main ="")
princomp(Dataset[,-c(2,3,4,5,6,10)], cor = TRUE)$sdev^2
## Comp.1 Comp.2 Comp.3 Comp.4
## 3.2497475 0.4310348 0.2019606 0.1172571
princomp(Dataset[,-c(2,3,4,5,6,10)], cor = TRUE)$loadings[ ,1:4]
## Comp.1 Comp.2 Comp.3 Comp.4
## Votes 0.5074678 0.4856239 0.1557430 0.6945430
## Comments 0.5073601 0.4037361 -0.5459676 -0.5305678
## Views 0.5135306 -0.1901153 0.7314758 -0.4063073
## Forks 0.4704769 -0.7516799 -0.3776329 0.2664998
El estudio de la calidad de representación es esencial para comprender cómo la información de alta dimensionalidad puede ser transformada y simplificada sin perder propiedades significativas. Este proceso permite garantizar que las relaciones y los patrones importantes dentro de los datos originales se mantengan intactos, incluso cuando se reducen las dimensiones o se realizan representaciones alternativas.
Entre las distintas representaciones alternativas se presenta el circulo de correlaciones en este diagrama cada variable se representa como un vector en un círculo, donde Los vectores están orientados de acuerdo con las correlaciones entre las variables y la longitud del vector indica cuán fuerte es la correlación de esa variable con el conjunto de datos en general. Por otro lado la matriz de representación tiene filas que representan observaciones (o puntos de datos) y columnas que representan las nuevas variables o componentes (que resultan de la transformación) Coordenadas individuales
conclusion
Al realizarse los diferentes análisis para cada grafica en concordancia con nuestro conjunto de datos. se puede extraer que al reducirse las dimensiones para estudiar este conjunto de datos de otra forma más simplificada, las variables en gran parte conservan su estructura y las relaciones existentes entre si; por ejemplo, en el grafico de correlaciones las variables comments y votes mantienen una cercanía en cuanto a sus vectores, lo que indica que están altamente correlacionadas, situación que se podía visualizar en la sección 1.3 en el apartado de matriz de correlaciones donde este mismo indicaba que la mayor correlación se presentaba en los campos antes mencionados. De igual forma, en esta misma sección 1.3 se presentaba que el campo forks y comments eran aquellos que tenían la menor correlación, situación también presente en la gráfica circulo de correlaciones, en donde se puede visualizar que los vectores que representan a cada una de estas están bastante apartados entre sí. En cuanto a la matriz de representación muestra que tan bien representado este cada campo en las diferentes dimensiones, en donde se puede destacar que el campo forks es mejor representado en 2 dimensiones a comparación del resto de campos en esta misma dimensión, por otro lado, el campo comments es aquel que posee el menor nivel de representación en cada dimensión, donde su valor más alto en relación de los otros campos es en las dimensiones 3 y 4.
fviz_pca_var(PCA(Dataset[,-c(2,3,4,5,6,10)], scale.unit = T, graph = F),col.var="#3B83BD", repel = T, col.circle = "#CDCDCD", ggtheme = theme_bw())
(get_pca_var(PCA(Dataset[,-c(2,3,4,5,6,10)], ncp = 4, scale.unit = TRUE, graph = F)))$cos2
## Dim.1 Dim.2 Dim.3 Dim.4
## Votes 0.8368864 0.10165119 0.004898732 0.05656365
## Comments 0.8365314 0.07025990 0.060200554 0.03300813
## Views 0.8570029 0.01557925 0.108060421 0.01935746
## Forks 0.7193268 0.24354446 0.028800924 0.00832785
fviz_pca_var(PCA(Dataset[,-c(2,3,4,5,6,10)], ncp = 4, scale.unit = TRUE, graph = F), col.var="cos2", gradient.cols=c("#00AFBB","#E7B800","#FC4E07"), repel = TRUE)
head((PCA(Dataset[,-c(2,3,4,5,6,10)], ncp = 4, scale.unit = TRUE, graph = F))$ind$coord, n = 23L)
## Dim.1 Dim.2 Dim.3 Dim.4
## 1 -0.8743689 0.10628678 0.038112345 0.054290639
## 2 -0.9881145 0.14159063 0.034113096 0.161186480
## 3 -0.7706962 0.09537903 0.005330064 -0.036435539
## 4 -0.8915680 0.08933776 0.094490883 0.067648578
## 5 -0.7068681 -0.02175616 0.220886481 -0.116636396
## 6 -0.8717578 0.07318771 0.125823133 0.048908034
## 7 -0.7628505 0.03841323 0.140924452 -0.051593030
## 8 -0.9390039 0.15383142 0.004460499 0.127213349
## 9 -0.8707480 0.11923022 0.054006244 0.064259074
## 10 -0.9528803 0.17435975 0.019712941 0.155125688
## 11 -0.7818159 0.09808506 0.084626488 -0.008637619
## 12 -0.9096936 0.16686399 0.017747490 0.117889524
## 13 -0.8513259 0.22936084 -0.093364367 0.094025454
## 14 -0.6227836 0.10971452 0.078853169 -0.117997828
## 15 -0.7224183 0.12545899 0.163025706 -0.015316547
## 16 -0.7906254 0.16458034 0.172657665 0.064032461
## 17 -0.9397109 0.11610108 0.052135683 0.122091882
## 18 -0.9245598 0.10996819 0.060329349 0.108570940
## 19 -0.8999158 0.12141230 0.029436559 0.091639151
## 20 -0.7115387 0.16998836 -0.175128484 -0.057905471
## 21 -0.6314081 0.00611902 0.125780788 -0.163554874
## 22 -0.8774669 0.09565738 0.088890449 0.070560903
## 23 -0.6994774 0.14980928 -0.134863834 -0.071798400
En esta sección se busca analizar cuánto aporta cada campo al modelo estadístico y cómo influye en los resultados obtenidos. El objetivo es identificar qué campos requieren mayor atención, detectar patrones significativos y eliminar posibles redundancias, facilitando así la interpretación y el uso eficiente de los datos. Esto no solo ayudará a entender cómo interactúan los diferentes campos entre sí, sino también a evaluar su impacto en el comportamiento general del sistema, ofreciendo información clave para tomar decisiones estratégicas y bien fundamentadas.
El objetivo antes mencionado de “identificar campos que requieran mayor atención, detectar patrones significativos y eliminar posibles redundancias” se alcanza mediante el uso de métodos de reducción de dimensionalidad. Estos métodos permiten representar gráficamente, a través de diagramas de barras, el nivel de contribución de cada campo en cada dimensión. Para lograr esto, se elabora un gráfico para cada dimensión identificada en el análisis, en el cual cada campo contribuye como una dimensión en sí misma. Por lo tanto, al trabajar con 4 variables cuantitativas en escala razón, surgen 4 dimensiones a analizar. Este enfoque proporciona una representación visual clara y comprensible de cómo cada campo influye en las distintas dimensiones, facilitando la interpretación de los resultados y la toma de decisiones fundamentadas. conclusion
Gracias al estudio de matriz de contribuciones es posible identificar en forma de porcentajes cuanto contribuye cada una de las variables a las distintas dimensiones, en donde el campo comments no se presenta en ninguna dimensión como el mayor contribuyente frente a los otros campos, su mayor contribución es en la dimensión 3 con un 29.8081%. Por otro lado, contrario a comments el campo views se presenta en 2 dimensiones como el mayor contribuyente frente a los otros campos con porcentajes de 53.5057 - 26.3714 . Mediante los gráficos de barras para cada dimensión “D1,D2,D3,D4”, se puede visualizar de forma más representativa lo antes mencionado, además a esto, también se puede visualizar que los campos forks y votes tienen una mayor contribución en las dimensiones D2 y D4 respectivamente. De esto se puede concluir que al estudiar estos distintos campos votes, comments, views y forks en una sola dimensión, se pueden tener un análisis satisfactorio ya que en esta dimensión es donde todos los campos contribuyen en medidas proporcionales.
round((get_pca_var(PCA(Dataset[,-c(2,3,4,5,6,10)], ncp = 4, scale.unit = TRUE, graph = F)))$contrib,4)
## Dim.1 Dim.2 Dim.3 Dim.4
## Votes 25.7524 23.5831 2.4256 48.2390
## Comments 25.7414 16.3003 29.8081 28.1502
## Views 26.3714 3.6144 53.5057 16.5086
## Forks 22.1349 56.5023 14.2607 7.1022
fviz_contrib(PCA(Dataset[,-c(2,3,4,5,6,10)], ncp = 4, scale.unit = TRUE, graph = F), choice = "var", axes = 1, top = 10)
fviz_contrib(PCA(Dataset[,-c(2,3,4,5,6,10)], ncp = 4, scale.unit = TRUE, graph = F), choice = "var", axes = 2, top = 10)
fviz_contrib(PCA(Dataset[,-c(2,3,4,5,6,10)], ncp = 4, scale.unit = TRUE, graph = F), choice = "var", axes = 3, top = 10)
fviz_contrib(PCA(Dataset[,-c(2,3,4,5,6,10)], ncp = 4, scale.unit = TRUE, graph = F), choice = "var", axes = 4, top = 10)
En esta sección se busca entender cómo se relacionan varios campos y observaciones dentro de un conjunto de datos, Para interpretar mejor esta información, se utilizan herramientas como las coordenadas individuales, que nos muestran cómo se posicionan las observaciones en un espacio más simple, y el biplot de variables y registros, que junta en un mismo gráfico las conexiones entre registros y variables. Estas herramientas nos permiten descubrir patrones, tendencias y relaciones importantes, haciendo más fácil comprender la estructura de los datos y tomar decisiones basadas en ellos.
El apartado de coordenadas individuales muestra un listado de coordenadas de las distintas observaciones de este conjunto de datos en las respectivas dimensiones (los campos cuantitativos de escala razón), donde cada coordenada corresponde a la posición de una observación en estas dimensiones clave lo cual permite identificar agrupamientos, similitudes y patrones entre los registros. Por otro lado, el Biplot de Variables y Registros es una gráfica que combina en un mismo espacio las relaciones entre las observaciones (registros) y los campos de un conjunto de datos, permitiendo analizar cómo estas interacciones se asocian con una variable categórica, como code_type. Este enfoque visual muestra si las categorías de la variable dicotómica influyen en la distribución de los registros, revelando posibles agrupaciones según dichas categorías. Además, los vectores de las variables originales indican cuáles tienen mayor impacto en la separación entre categorías. Esto facilita la identificación de patrones clave en cada grupo y ayuda a comprender cómo los diversos campos interactúan con la variable categórica en el conjunto de datos.
conclusion
El diagrama de Coordenadas individuales muestra como muchos registros tienen valores muy similares o idénticos en las diferentes dimensiones, especialmente alrededor de valores cercanos a cero. Esto sugiere que podría haber poca variabilidad entre las observaciones proyectadas en estas dimensiones, indicando que estas dimensiones no capturan información significativa o diferenciadora en la mayoría de los casos. En cuanto al Biplot de Variables y Registros se puede visualizar que la mayoría de los registros están agrupados cerca del origen, lo que sugiere que comparten características similares sin valores extremos en las variables representadas; además a esto, se puede soportar más lo presentado en sección 2.4, donde mediante los gráficos presentes se realizó una inferencia de que en la dimencion1 (Dim1) era la más destacada para diferenciar registros, ya que esta explica el 69.4% de la variabilidad.
set.seed(780754)
Dataset_Muestreado2 = Dataset[sample(1:nrow(Dataset),100),-c(2,3,4,6,10)]
Dataset_Muestreado2$Code_Type <- as.factor(Dataset_Muestreado2$Code_Type)
fviz_pca_biplot(PCA(Dataset_Muestreado2[,], ncp = 4, scale.unit = TRUE, graph = F, quali.sup = "Code_Type"), axes = c(1,2), repel = TRUE, habillage = "Code_Type")
set.seed(780728)
Dataset_Muestreado_coor <- Dataset[sample(1:nrow(Dataset), 100), -c(2,3,4,6,10)]
set.seed(780728)
sampled_rows <- sample(1:nrow(Dataset), 100)
Data_coor <- cbind(Dataset_Muestreado_coor[sampled_rows,])
suppressWarnings(head(PCA(Data_coor, ncp = 6, scale.unit = T, graph = F, quali.sup = 2)$ind$coord, n = 61L))
## Dim.1 Dim.2 Dim.3 Dim.4
## 1 8.913352e-15 -1.377115e-15 1.617447e-15 -2.477177e-15
## 2 1.693063e-15 -2.277324e-15 -1.776275e-15 -1.781116e-15
## 3 5.377124e-16 4.350735e-16 -2.412408e-15 -2.948469e-15
## 4 -1.227647e+00 9.062372e-01 8.838714e-01 -2.912382e-01
## 5 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 6 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 7 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 8 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 9 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 10 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 11 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 12 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 13 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 14 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 15 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 16 6.154184e+00 5.942662e+00 8.211837e-01 5.456037e-02
## 17 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 18 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 19 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 20 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 21 -1.742735e+00 -1.048767e+00 -5.142518e-01 -3.027832e-01
## 22 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 23 -3.106623e+00 -4.682208e-01 -5.907296e-01 -4.415453e-01
## 24 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 25 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 26 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 27 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 28 -2.018879e+00 4.965015e-01 1.622776e-01 -6.301985e-02
## 29 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 30 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 31 3.366253e+00 -2.731181e+00 2.943564e+00 8.222237e-02
## 32 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 33 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 34 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 35 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 36 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 37 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 38 -3.315962e+00 -5.760180e-01 -4.812919e-01 3.324999e-01
## 39 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 40 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 41 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 42 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 43 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 44 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 45 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 46 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 47 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 48 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 49 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 50 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 51 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 52 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 53 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 54 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 55 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 56 -3.669457e+00 -6.136423e-01 -3.813606e-01 1.038962e-01
## 57 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 58 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 59 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 60 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
## 61 1.759412e-15 -1.244774e-15 -1.486010e-15 -1.940180e-15
set.seed(780720)
Dataset_Muestreado_biplot = Dataset[sample(1:nrow(Dataset),100),-c(2,3,4,6,10)]
Dataset_Muestreado_biplot$Code_Type <- as.factor(Dataset_Muestreado_biplot$Code_Type)
fviz_pca_biplot(PCA(Dataset_Muestreado_biplot, ncp = , scale.unit = TRUE, graph = F, quali.sup = "Code_Type"), axes = c(1, 2), repel = TRUE, habillage = "Code_Type")
-Realizar pruebas de hipótesis, como la prueba de chi-cuadrado, para confirmar si las variables categóricas son independientes o están asociadas.
-Representar Variables del conjunto de datos en procesos estadísticos como la tabla de contingencia, tabla de probabilidades.
“En el análisis de datos, las variables cualitativas juegan un papel fundamental para la comprensión de patrones y relaciones dentro de un conjunto del datos. Este estudio se centra en la aplicación de diversas técnicas estadísticas para explorar y analizar las variables cualitativas, utilizando herramientas como tablas de contingencia, probabilidades, frecuencias y perfiles. Además, se llevarán a cabo pruebas de hipótesis para validar las suposiciones formuladas. A través de este enfoque, se busca obtener una visión más clara sobre la interrelación de las variables estudiadas, contribuyendo así a una interpretación más robusta de los resultados.”
“El análisis de las variables cualitativas permite identificar tendencias y patrones que son esenciales para la toma de decisiones informadas. En este estudio, se procederá a la construcción de tablas de contingencia que permitirán visualizar las relaciones entre diferentes categorías, facilitando así la identificación de correlaciones significativas. A través del cálculo de probabilidades y frecuencias, se determinarán las distribuciones de las variables, lo que ofrecerá una comprensión más profunda de su comportamiento. Así mismo, se elaborarán perfiles descriptivos que resuman las características clave de cada categoría, proporcionando un contexto valioso para las pruebas de hipótesis que se llevarán a cabo.
conclusion
En conclusión, En la primera tabla, que cruza la variable “code_type” con “language”, se destaca que el nombre que más frecuentemente aparece es “notebook” en combinación con “Python”. De un total de 957 registros, 540 corresponden a esta combinación específica. Esto indica que más del 56% corresponde a esta combinación y esto se puede evidenciar en la tabla de probabilidades. En la segunda tabla de contingencia, que cruza la variable “country” con “language”, se observa que la combinación más prominente es la de “United States” con “Python”. De un total de 957 registros, esta combinación alcanza un total de 196 casos, lo que representa más del 20% del total. Este dato es particularmente significativo, ya que sugiere que una quinta parte de los registros proviene de usuarios en Estados Unidos que utilizan Python como su lenguaje de programación preferido. En la tercera tabla de contingencia, donde se cruzan las variables “country” y “code_type”, se evidencia una vez más la prominencia de Estados Unidos en el uso de “notebooks”. Específicamente, esta combinación registra un total de 165 casos de un total de 957, lo que representa más del 17% de todos los registros analizados. Con base en el análisis realizado a través de tablas de contingencia y el cálculo de probabilidades, se puede concluir que las combinaciones de las variables cualitativas estudiadas—“country”, “language” y “code_type”—revelan patrones claros y significativos. En particular, se evidencia que el país que más se destaca es “United States”, mientras que el lenguaje más utilizado es “Python” y el tipo de código más frecuente es “notebook”.
El estudio de perfiles complementa y respalda las conclusiones anteriores al proporcionar una representación visual clara de las tendencias identificadas en los análisis previos. A través de gráficos, se evidencia de manera contundente que las combinaciones de variables más influyentes en este contexto son “United States”, “Python” y “notebook”. Prueba de hipótesis H0:Las variables categóricas son independientes H1:las variables categóricas son dependientes Relación entre Code_Type y Language Dado que el p-valor es mucho menor que 0.05, se rechaza la hipótesis nula de independencia entre Code_Type y Language. Esto indica que hay una relación estadísticamente significativa entre ambos. Relación entre Country y Language Con un p-valor de 0.9891 (muy mayor que 0.05), no se rechaza la hipótesis nula. Esto sugiere que no hay evidencia estadística suficiente para afirmar que existe una relación entre Country y Language. Ambos parecen ser independientes. Relación entre Country y Code_Type con un p-valor de 0.899 (mucho mayor que 0.05), no se rechaza la hipótesis nula. Esto indica que no hay evidencia estadística de una relación entre Country y Code_Type. Parecen ser independientes.
addmargins(table(Dataset$Code_Type, Dataset$Language))
##
## markdown Python R SQLite Sum
## Notebook 0 540 41 0 581
## Script 144 178 53 1 376
## Sum 144 718 94 1 957
addmargins(table(Dataset$Country, Dataset$Language))
##
## markdown Python R SQLite Sum
## Argentina 1 12 0 0 13
## Australia 5 18 4 0 27
## Bangladesh 4 21 4 0 29
## Belgium 0 5 2 0 7
## Brazil 4 25 3 0 32
## Canada 1 21 3 0 25
## China 3 14 1 0 18
## England 14 62 8 1 85
## France 5 24 2 0 31
## Germany 10 83 10 0 103
## India 21 78 10 0 109
## Israel 3 12 1 0 16
## Lebanon 1 8 1 0 10
## Netherlands 2 8 3 0 13
## Norway 3 10 0 0 13
## Poland 5 21 2 0 28
## Portugal 2 11 0 0 13
## Russia 5 16 2 0 23
## South Africa 1 6 1 0 8
## Spain 3 34 3 0 40
## Taiwan 2 2 2 0 6
## Ukraine 2 25 3 0 30
## United States 46 196 29 0 271
## Vietnam 1 6 0 0 7
## Sum 144 718 94 1 957
addmargins(table(Dataset$Country, Dataset$Code_Type))
##
## Notebook Script Sum
## Argentina 7 6 13
## Australia 18 9 27
## Bangladesh 17 12 29
## Belgium 3 4 7
## Brazil 21 11 32
## Canada 18 7 25
## China 10 8 18
## England 50 35 85
## France 22 9 31
## Germany 58 45 103
## India 61 48 109
## Israel 7 9 16
## Lebanon 5 5 10
## Netherlands 8 5 13
## Norway 8 5 13
## Poland 18 10 28
## Portugal 7 6 13
## Russia 15 8 23
## South Africa 6 2 8
## Spain 27 13 40
## Taiwan 3 3 6
## Ukraine 23 7 30
## United States 165 106 271
## Vietnam 4 3 7
## Sum 581 376 957
round(addmargins(prop.table(table(Dataset$Code_Type, Dataset$Language))*100),2)
##
## markdown Python R SQLite Sum
## Notebook 0.00 56.43 4.28 0.00 60.71
## Script 15.05 18.60 5.54 0.10 39.29
## Sum 15.05 75.03 9.82 0.10 100.00
round(addmargins(prop.table(table(Dataset$Country, Dataset$Language))*100),2)
##
## markdown Python R SQLite Sum
## Argentina 0.10 1.25 0.00 0.00 1.36
## Australia 0.52 1.88 0.42 0.00 2.82
## Bangladesh 0.42 2.19 0.42 0.00 3.03
## Belgium 0.00 0.52 0.21 0.00 0.73
## Brazil 0.42 2.61 0.31 0.00 3.34
## Canada 0.10 2.19 0.31 0.00 2.61
## China 0.31 1.46 0.10 0.00 1.88
## England 1.46 6.48 0.84 0.10 8.88
## France 0.52 2.51 0.21 0.00 3.24
## Germany 1.04 8.67 1.04 0.00 10.76
## India 2.19 8.15 1.04 0.00 11.39
## Israel 0.31 1.25 0.10 0.00 1.67
## Lebanon 0.10 0.84 0.10 0.00 1.04
## Netherlands 0.21 0.84 0.31 0.00 1.36
## Norway 0.31 1.04 0.00 0.00 1.36
## Poland 0.52 2.19 0.21 0.00 2.93
## Portugal 0.21 1.15 0.00 0.00 1.36
## Russia 0.52 1.67 0.21 0.00 2.40
## South Africa 0.10 0.63 0.10 0.00 0.84
## Spain 0.31 3.55 0.31 0.00 4.18
## Taiwan 0.21 0.21 0.21 0.00 0.63
## Ukraine 0.21 2.61 0.31 0.00 3.13
## United States 4.81 20.48 3.03 0.00 28.32
## Vietnam 0.10 0.63 0.00 0.00 0.73
## Sum 15.05 75.03 9.82 0.10 100.00
round(addmargins(prop.table(table(Dataset$Country, Dataset$Code_Type))*100),2)
##
## Notebook Script Sum
## Argentina 0.73 0.63 1.36
## Australia 1.88 0.94 2.82
## Bangladesh 1.78 1.25 3.03
## Belgium 0.31 0.42 0.73
## Brazil 2.19 1.15 3.34
## Canada 1.88 0.73 2.61
## China 1.04 0.84 1.88
## England 5.22 3.66 8.88
## France 2.30 0.94 3.24
## Germany 6.06 4.70 10.76
## India 6.37 5.02 11.39
## Israel 0.73 0.94 1.67
## Lebanon 0.52 0.52 1.04
## Netherlands 0.84 0.52 1.36
## Norway 0.84 0.52 1.36
## Poland 1.88 1.04 2.93
## Portugal 0.73 0.63 1.36
## Russia 1.57 0.84 2.40
## South Africa 0.63 0.21 0.84
## Spain 2.82 1.36 4.18
## Taiwan 0.31 0.31 0.63
## Ukraine 2.40 0.73 3.13
## United States 17.24 11.08 28.32
## Vietnam 0.42 0.31 0.73
## Sum 60.71 39.29 100.00
round(addmargins(prop.table(table(Dataset$Code_Type, Dataset$Language), 1)*100, 2), 2)
##
## markdown Python R SQLite Sum
## Notebook 0.00 92.94 7.06 0.00 100.00
## Script 38.30 47.34 14.10 0.27 100.00
round(addmargins(prop.table(table(Dataset$Country, Dataset$Language), 1)*100, 2), 2)
##
## markdown Python R SQLite Sum
## Argentina 7.69 92.31 0.00 0.00 100.00
## Australia 18.52 66.67 14.81 0.00 100.00
## Bangladesh 13.79 72.41 13.79 0.00 100.00
## Belgium 0.00 71.43 28.57 0.00 100.00
## Brazil 12.50 78.12 9.38 0.00 100.00
## Canada 4.00 84.00 12.00 0.00 100.00
## China 16.67 77.78 5.56 0.00 100.00
## England 16.47 72.94 9.41 1.18 100.00
## France 16.13 77.42 6.45 0.00 100.00
## Germany 9.71 80.58 9.71 0.00 100.00
## India 19.27 71.56 9.17 0.00 100.00
## Israel 18.75 75.00 6.25 0.00 100.00
## Lebanon 10.00 80.00 10.00 0.00 100.00
## Netherlands 15.38 61.54 23.08 0.00 100.00
## Norway 23.08 76.92 0.00 0.00 100.00
## Poland 17.86 75.00 7.14 0.00 100.00
## Portugal 15.38 84.62 0.00 0.00 100.00
## Russia 21.74 69.57 8.70 0.00 100.00
## South Africa 12.50 75.00 12.50 0.00 100.00
## Spain 7.50 85.00 7.50 0.00 100.00
## Taiwan 33.33 33.33 33.33 0.00 100.00
## Ukraine 6.67 83.33 10.00 0.00 100.00
## United States 16.97 72.32 10.70 0.00 100.00
## Vietnam 14.29 85.71 0.00 0.00 100.00
round(addmargins(prop.table(table(Dataset$Country, Dataset$Code_Type), 1)*100, 2), 2)
##
## Notebook Script Sum
## Argentina 53.85 46.15 100.00
## Australia 66.67 33.33 100.00
## Bangladesh 58.62 41.38 100.00
## Belgium 42.86 57.14 100.00
## Brazil 65.62 34.38 100.00
## Canada 72.00 28.00 100.00
## China 55.56 44.44 100.00
## England 58.82 41.18 100.00
## France 70.97 29.03 100.00
## Germany 56.31 43.69 100.00
## India 55.96 44.04 100.00
## Israel 43.75 56.25 100.00
## Lebanon 50.00 50.00 100.00
## Netherlands 61.54 38.46 100.00
## Norway 61.54 38.46 100.00
## Poland 64.29 35.71 100.00
## Portugal 53.85 46.15 100.00
## Russia 65.22 34.78 100.00
## South Africa 75.00 25.00 100.00
## Spain 67.50 32.50 100.00
## Taiwan 50.00 50.00 100.00
## Ukraine 76.67 23.33 100.00
## United States 60.89 39.11 100.00
## Vietnam 57.14 42.86 100.00
plotct(table(Dataset$Code_Type, Dataset$Language),"row")
plotct(table(Dataset$Country, Dataset$Language),"row")
plotct(table(Dataset$Country, Dataset$Code_Type),"row")
suppressWarnings(chisq.test(table(Dataset$Code_Type, Dataset$Language)))
##
## Pearson's Chi-squared test
##
## data: table(Dataset$Code_Type, Dataset$Language)
## X-squared = 298.84, df = 3, p-value < 2.2e-16
suppressWarnings(chisq.test(table(Dataset$Country, Dataset$Language)))
##
## Pearson's Chi-squared test
##
## data: table(Dataset$Country, Dataset$Language)
## X-squared = 44.932, df = 69, p-value = 0.9891
suppressWarnings(chisq.test(table(Dataset$Country, Dataset$Code_Type)))
##
## Pearson's Chi-squared test
##
## data: table(Dataset$Country, Dataset$Code_Type)
## X-squared = 14.877, df = 23, p-value = 0.899
El análisis Chi-cuadrado sugiere que existe una asociación significativa entre el tipo de código (Code_Type) y el lenguaje (Language), ya que se observan desviaciones importantes entre los valores observados y esperados. Esto indica que ciertas combinaciones (por ejemplo, “Notebook” con “Python”) ocurren más frecuentemente de lo que se esperaría bajo independencia, mientras que otras (por ejemplo, “Script” con “R”) ocurren menos frecuentemente.
Contribuciones La tabla muestra las contribuciones al estadístico chi-cuadrado (χ²) de dos variables categóricas: Code_Type y Language. Se destaca que Markdown tiene la mayor contribución en ambos tipos de documentos (Notebook y Script), sugiriendo una asociación más fuerte con este lenguaje. Sin embargo, para una conclusión definitiva, se necesita conocer el valor del χ² y su p-valor, así como el contexto de los datos. En resumen, Markdown parece ser el lenguaje más relevante en esta comparación.
Correspondecia simple La tabla presenta los resultados de un análisis que relaciona el tipo de código (Code_Type) y el lenguaje (Language): * $eig: La primera dimensión explica el 31.23% de la varianza total. * $coord: Muestra las coordenadas para cada lenguaje: - Markdown, - Python, - R, - SQLite.
Las coordenadas indican la dirección y fuerza de la relación con la dimensión principal. * $contrib: La contribución a la varianza total en la primera dimensión es: - Markdown: 74.46% - Python: menor contribución - SQLite: contribución mínima * $cos2: Todos los puntos tienen un coseno cuadrado (cos²) de 1, lo que indica una excelente representación en la dimensión principal. * $inertia: Muestra la inercia asociada a las dimensiones, reflejando la varianza capturada. En resumen, el análisis muestra que Markdown es el mayor contribuyente a la varianza en la primera dimensión, con una representación perfecta en el espacio reducido. El análisis de correspondencia revela que existe una relación significativa entre el tipo de código (Code_Type) y el lenguaje utilizado (Language). En particular, Markdown es el principal contribuyente a la varianza en la primera dimensión, lo que sugiere que se utiliza de manera predominante en comparación con otros lenguajes como Python y SQLite. Además, todos los puntos están perfectamente representados en la dimensión principal, lo que indica que el modelo captura adecuadamente la estructura de los datos. En resumen, este análisis proporciona información valiosa sobre cómo se relacionan diferentes tipos de código con los lenguajes utilizados en el conjunto de datos.
suppressWarnings(chisq.test(table(Dataset$Code_Type, Dataset$Language))$observed)
##
## markdown Python R SQLite
## Notebook 0 540 41 0
## Script 144 178 53 1
suppressWarnings(chisq.test(table(Dataset$Code_Type, Dataset$Language))$expected)
##
## markdown Python R SQLite
## Notebook 87.4232 435.9018 57.06792 0.6071055
## Script 56.5768 282.0982 36.93208 0.3928945
suppressWarnings(chisq.test(table(Dataset$Code_Type, Dataset$Language))$residuals)
##
## markdown Python R SQLite
## Notebook -9.3500373 4.9859624 -2.1269812 -0.7791698
## Script 11.6227123 -6.1978797 2.6439778 0.9685594
suppressWarnings(chisq.test(table(Dataset$Code_Type, Dataset$Language))$stdres)
##
## markdown Python R SQLite
## Notebook -16.184008 15.917251 -3.573356 -1.243716
## Script 16.184008 -15.917251 3.573356 1.243716
suppressWarnings(chisq.test(table(Dataset$Code_Type, Dataset$Language))$residuals^2/chisq.test(table(Dataset$Code_Type, Dataset$Language))$statistic*100)
##
## markdown Python R SQLite
## Notebook 29.2537853 8.3186601 1.5138495 0.2031513
## Script 45.2033225 12.8540998 2.3392195 0.3139120
CA(table(Dataset$Code_Type, Dataset$Language), graph = FALSE)$eig
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.3122717 100 100
CA(table(Dataset$Code_Type, Dataset$Language), graph = FALSE)$col
## $coord
## [,1]
## markdown 1.2430659
## Python -0.2968580
## R 0.3499949
## SQLite 1.2430659
##
## $contrib
## [,1]
## markdown 74.4571078
## Python 21.1727600
## R 3.8530690
## SQLite 0.5170632
##
## $cos2
## [,1]
## markdown 1
## Python 1
## R 1
## SQLite 1
##
## $inertia
## [1] 0.232508504 0.066116545 0.012032045 0.001614642
CA(table(Dataset$Code_Type, Dataset$Language), graph = FALSE)$row
## $coord
## Notebook Script
## -0.4495440 0.6946411
##
## $contrib
## Notebook Script
## 39.28945 60.71055
##
## $cos2
## Notebook Script
## 1 1
##
## $inertia
## [1] 0.1226898 0.1895819
En el análisis de datos, las variables cualitativas clasificadoras ofrecen una valiosa perspectiva sobre las diferencias y similitudes entre grupos. En este estudio, nos enfocaremos en una única variable cualitativa clasificadora: “country”, que nos permitirá explorar un conjunto diverso de naciones. A través de la aplicación de diversas pruebas de Análisis de Componentes Múltiples (ACM), bitplo ACM, calidad de representaciones, contribuciones y bitplo de contribuciones, buscaremos desentrañar patrones significativos en cómo cada país se presenta y contribuye a su respectivo ámbito. Este enfoque nos permitirá identificar variaciones entre los países.
Al profundizar en el análisis de la variable “country”, se revela la complejidad de las pruebas, como el Análisis de Componentes Múltiples (ACM) y el bitplo ACM, nos permiten visualizar y comprender cómo cada país se posiciona en relación con las métricas de calidad de representación y contribuciones. A través del análisis de estas variables, emergen patrones que reflejan la diversidad en la forma en que los países presentan sus datos, también la variabilidad
conclusion
ACM: La tabla ayuda a entender qué cantidad de información (varianza) se retiene al reducir la dimensionalidad de los datos usando ACP. Se puede observar que la parte de la varianza mas alta se concentra en el prime campo (dim 1, principalmente). Los últimos componentes principales contribuyen muy poco a la varianza total. Esto sugiere que la reducción de la dimensionalidad a un número menor de componentes principales, manteniendo una alta proporción de la varianza, podría ser posible sin una pérdida significativa de información. El biplot del Análisis de Componentes Múltiples (ACM) ofrece una representación visual clara de las interrelaciones entre las diversas observaciones (las cinco variables) y la variable categórica “country”. Al analizar la distribución de los puntos y los vectores en la gráfica, se pueden identificar patrones relevantes en los datos. Los puntos que se agrupan indican que comparten características comunes, mientras que la dirección y longitud de los vectores revelan cuáles variables ejercen mayor influencia. Un vector largo que se orienta hacia un grupo particular de puntos sugiere que esa variable desempeña un papel significativo en el análisis. La calidad de representación se manifiesta en un plano que ilustra las relaciones entre las variables, utilizando un concepto de proximidad para destacar cómo se agrupan los nombres de la variable “country” junto con los de “code_type”. Esta visualización permite observar la cercanía entre los diferentes grupos, revelando el grado de relación que existe entre estas variables cualitativas. Cuanto más próximos estén los nombres en el gráfico, mayor será la similitud en sus características y comportamientos. Así, esta representación no solo facilita la identificación de patrones y agrupaciones significativas, sino que también proporciona una comprensión más clara de cómo interactúan estas variables en el contexto del análisis. El gráfico de contribuciones del Análisis de Componentes Múltiples (ACM) es súper útil para entender qué variables tienen más peso en la primera dimensión del análisis. Básicamente, te muestra cuáles factores realmente importan y cómo están relacionados entre sí. Esto ayuda a tener una idea más clara de qué está influyendo más en los datos y, a partir de ahí, decidir en qué enfocarse. Es una herramienta muy práctica porque te permite priorizar lo importante y planear estrategias o investigaciones basadas en lo que realmente está moviendo los resultados. Bitplo de contribuciones: Esta pestaña refleja aspectos similares a los presentados en la sección de calidad de representación, ya que también ilustra las contribuciones y las relaciones entre las variables dentro del conjunto de datos. Al analizar esta información, se puede apreciar cómo cada variable interactúa con las demás y qué tan influyentes son en el contexto general del análisis. Esta visualización permite identificar no solo la fuerza de estas relaciones, sino también su relevancia en la interpretación de los datos.
round(MCA(Dataset[1:400, -c(1,2,3,4,6,7,8,9)], graph = FALSE)$eig,2)
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.61 5.04 5.04
## dim 2 0.50 4.17 9.21
## dim 3 0.50 4.17 13.38
## dim 4 0.50 4.17 17.54
## dim 5 0.50 4.17 21.71
## dim 6 0.50 4.17 25.88
## dim 7 0.50 4.17 30.04
## dim 8 0.50 4.17 34.21
## dim 9 0.50 4.17 38.38
## dim 10 0.50 4.17 42.54
## dim 11 0.50 4.17 46.71
## dim 12 0.50 4.17 50.88
## dim 13 0.50 4.17 55.04
## dim 14 0.50 4.17 59.21
## dim 15 0.50 4.17 63.38
## dim 16 0.50 4.17 67.54
## dim 17 0.50 4.17 71.71
## dim 18 0.50 4.17 75.88
## dim 19 0.50 4.17 80.04
## dim 20 0.50 4.17 84.21
## dim 21 0.50 4.17 88.38
## dim 22 0.50 4.17 92.54
## dim 23 0.50 4.17 96.71
## dim 24 0.39 3.29 100.00
fviz_mca_biplot(MCA(Dataset[1:400, -c(1,2,3,4,6,7,8,9)], graph = FALSE), repel = TRUE)
fviz_mca_var(MCA(Dataset[1:400, -c(1,2,3,4,6,7,8,9)], graph = FALSE), col.var ="cos2", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE)
fviz_contrib(MCA(Dataset[1:400, -c(1,2,3,4,6,7,8,9)], graph = FALSE), choice = "var", axes = 1, top = 15)
fviz_mca_var(MCA(Dataset[1:400, -c(1,2,3,4,6,7,8,9)], graph = FALSE), col.var ="contrib", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE)
-Agrupar los datos en categorías o grupos donde los elementos dentro de cada grupo sean similares entre sí, basándose en las variables analizadas.
-Usar estos grupos como base para predecir comportamientos o características futuras de nuevas observaciones.
-Analizar las características comunes o las diferencias significativas entre los grupos, con el fin de extraer conclusiones útiles o relevantes.
Esta fase está diseñada para organizar el conjunto de datos en una estructura jerárquica de grupos similares, el cual permite identificar patrones en los datos mediante la construcción de conglomerados basados en la medida de disimilaridad entre las observaciones, lo que facilita la clasificación en niveles jerárquicos progresivos. Lo cual se puede lograr con el uso de herramientas, algunas de estas son los dendogramas optimizados y la optimización de Mojena. Este enfoque permite profundizar en la estructura de los datos.
Para esta fase cada apartado desempeña un rol clave para garantizar una clasificación eficiente y precisa de los datos. El campo clasificador proporciona un marco que define las características y criterios relevantes que serán utilizados para medir similitudes o diferencias entre las observaciones, asegurando que los conglomerados formados sean consistentes con los objetivos del análisis. La disimilaridad, por su parte, actúa como una métrica cuantitativa que mide las diferencias entre los elementos del conjunto de datos, siendo crucial para determinar qué elementos deben agruparse. La optimización de Mojena interviene como una herramienta estadística para identificar el número óptimo de conglomerados mediante el análisis del dendograma, evitando tanto la subagrupación como la sobreagrupación de los datos. Finalmente, los dendogramas optimizados ofrecen una representación visual jerárquica que facilita la interpretación del proceso de agrupación, mostrando las relaciones entre los grupos y ayudando a validar la calidad de la clasificación. Juntos, estos componentes integran un enfoque robusto que permite obtener agrupaciones jerárquicas coherentes y de alta calidad. conclusion
Al aplicar los distintos estudios al conjunto de datos, se puede extraer infromacion diversa de cada uno; el grafico de Disimilaridad muestra con base en una escala de colores las distancias entre las observaciones(disimilaridad) En este mismo puede observarse que el valor viethnam presenta una gran disimilaridad (colores muy rojizos) con el resto de valores presentes en este conjunto de datos, esto podría reflejar diferencias en cuanto a cómo se relacionan estos mismos valores con los diversos campos presentes en el conjunto de datos, contrario a esto, el valor ukraine presenta un poco disimilaridad con la gran parte de los otros valores presentes, lo cual indica que ukraine tiene mayor similitud en cuanto a como se relaciona este country con el resto de valores presentes. De forma general se puede extraer que se presentan mayor numero de no dimilaridad que de disimilaridad en el gráfico. Teniendo en cuenta que la optimización de Mojena muestra el número óptimo de conglomerados jerárquicos que deberían configurarse, donde la “unión simple” por medio del vecino más cercano muestra que el numero optimo de grupos es 2, la “unión completa” por medio del vecino más lejano y la “unión promedio” muestran un total de 3 grupos óptimos; situación que se complementa con los dendogramas optimizados en donde para el primer dendograma optimizado ”Enlace simple” no se muestran los diversos conglomerados de formas tan representativas ya que una de estas agrupaciones solo está contenida la variable vietnam y en la otra agrupación se representan los valores restantes. El segundo dendograma optimizado ”Enlace completo” por medio del vecino más lejano, representa la agrupación más significativa, ya que, aunque se presenta la misma situación de la variable vietham, en esta a diferencia del primer dendograma el resto de los datos están divididos en 2 grupos más., situación también presente en el tercer dendograma optimizado ”Enlace promedio” nada más que en este ultimo la agrupación de los valores restantes no abarca gran significancia para el estudio.
cdd_UpvotedKernels_COUN_promedio <- read_excel("D:/Curso GdD_2024_[G2]/cdd_UpvotedKernels_COUN_promedio.xlsx")
as.data.frame(cdd_UpvotedKernels_COUN_promedio)[1:24,-c(2,3,4)]
## Country Forks_S01
## 1 Argentina 0.020947872
## 2 Australia 0.007078956
## 3 Bangladesh 0.011191711
## 4 Belgium 0.028938767
## 5 Brazil 0.016498152
## 6 Canada 0.014399676
## 7 China 0.024386403
## 8 England 0.010002025
## 9 France 0.027816784
## 10 Germany 0.014037274
## 11 India 0.012768621
## 12 Israel 0.008408838
## 13 Lebanon 0.007471148
## 14 Netherlands 0.009298052
## 15 Norway 0.006089679
## 16 Poland 0.005900558
## 17 Portugal 0.009648481
## 18 Russia 0.023957499
## 19 South Africa 0.012996052
## 20 Spain 0.022054060
## 21 Taiwan 0.013430519
## 22 Ukraine 0.014382129
## 23 United States 0.015839366
## 24 Vietnam 0.097576143
data_ = as.data.frame(cdd_UpvotedKernels_COUN_promedio)[, -c(1)]
rownames(data_) = unclass(cdd_UpvotedKernels_COUN_promedio$Country)
fviz_dist(get_dist(data_, stand = T, method = "euclidean"), gradient = list(low = "#00AFBB", mid = "white", high = "#FC4E07"))
head(as.data.frame(cdd_UpvotedKernels_COUN_promedio))
## Country Votes_S01 Comments_S01 Views_S01 Forks_S01
## 1 Argentina 0.05817835 0.04535171 0.04713358 0.020947872
## 2 Australia 0.01845670 0.02579719 0.03268298 0.007078956
## 3 Bangladesh 0.02829987 0.03522036 0.02579520 0.011191711
## 4 Belgium 0.01927924 0.03017571 0.05752869 0.028938767
## 5 Brazil 0.02341142 0.04875501 0.02606815 0.016498152
## 6 Canada 0.01751073 0.03283422 0.03382403 0.014399676
str(as.data.frame(cdd_UpvotedKernels_COUN_promedio))
## 'data.frame': 24 obs. of 5 variables:
## $ Country : chr "Argentina" "Australia" "Bangladesh" "Belgium" ...
## $ Votes_S01 : num 0.0582 0.0185 0.0283 0.0193 0.0234 ...
## $ Comments_S01: num 0.0454 0.0258 0.0352 0.0302 0.0488 ...
## $ Views_S01 : num 0.0471 0.0327 0.0258 0.0575 0.0261 ...
## $ Forks_S01 : num 0.02095 0.00708 0.01119 0.02894 0.0165 ...
hc_single = hclust(get_dist(data_, stand = T, method = "euclidean"), method = "single")
mojena = function(hc){
n_hd = length(hc$height)
alp_g = 0 ; alpha = hc$height[n_hd:1]
for(i in 1:(n_hd-1)){
alp_g[i] = mean(alpha[(n_hd-i+1):1])+1.25*sd(alpha[(n_hd-i+1):1])
}
nog = sum(alp_g<= alpha[-n_hd]) + 1
plot(alpha[-n_hd], pch=20, col=(alp_g>alpha[-n_hd])+1, main = paste("Optimal number of groups =",nog),
ylab = expression(alpha[g]), xlab="Nodes")}
mojena(hc_single)
hc_complete = hclust(get_dist(data_, stand = T, method = "euclidean"), method = "complete")
mojena = function(hc){
n_hd = length(hc$height)
alp_g = 0 ; alpha = hc$height[n_hd:1]
for(i in 1:(n_hd-1)){
alp_g[i] = mean(alpha[(n_hd-i+1):1])+1.25*sd(alpha[(n_hd-i+1):1])
}
nog = sum(alp_g<= alpha[-n_hd]) + 1
plot(alpha[-n_hd], pch=20, col=(alp_g>alpha[-n_hd])+1, main = paste("Optimal number of groups =",nog),
ylab = expression(alpha[g]), xlab="Nodes")}
mojena(hc_complete)
hc_average = hclust(get_dist(data_, stand = T, method = "euclidean"), method = "average")
mojena = function(hc){
n_hd = length(hc$height)
alp_g = 0 ; alpha = hc$height[n_hd:1]
for(i in 1:(n_hd-1)){
alp_g[i] = mean(alpha[(n_hd-i+1):1])+1.25*sd(alpha[(n_hd-i+1):1])
}
nog = sum(alp_g<= alpha[-n_hd]) + 1
plot(alpha[-n_hd], pch=20, col=(alp_g>alpha[-n_hd])+1, main = paste("Optimal number of groups =",nog),
ylab = expression(alpha[g]), xlab="Nodes")}
mojena(hc_average)
suppressWarnings(fviz_dend(hc_single, k = 2, cex = 0.5, k_colors = "npg", color_labels_by_k = T, rect = T))
fviz_dend(hc_complete, k = 3, cex = 0.5, k_colors = "npg", color_labels_by_k = T, rect = T)
fviz_dend(hc_average, k = 3, cex = 0.5, k_colors = "npg", color_labels_by_k = T, rect = T)
La agrupación no jerárquica es crucial para identificar patrones o estructuras subyacentes en un conjunto de datos. A diferencia de los métodos jerárquicos, que generan una jerarquía de grupos, los algoritmos de agrupación no jerárquica, como el K-means, buscan dividir los datos en un número fijo de clusters o conglomerados, definidos por su proximidad en un espacio multidimensional. Para determinar el número ideal de conglomerados (K), se utilizan diversas técnicas de validación, como los metodos Elbow, Silhouette, Gap Statistic, Majority Rule, cada una con sus ventajas para evaluar la calidad y estabilidad de los grupos formados. Una vez aplicado el algoritmo K-means, los resultados se visualizan mediante gráficos que permiten interpretar de manera efectiva la distribución de los puntos en cada conglomerado, proporcionando una base sólida para tomar decisiones basadas en los patrones de comportamiento o características comunes dentro del conjunto de datos.
Para realizar una conclusión adecuada sobre esta sección, es importante conocer brevemente cada uno de los métodos. El método Elbow es una técnica utilizada para determinar el número óptimo de conglomerados (K) en un análisis de agrupación. Este método calcula la variabilidad dentro de los clusters para diferentes valores de K y traza una gráfica de la suma de los errores cuadráticos (SSE) en función de K. El punto conocido como “codo” en la curva, donde la disminución de SSE se vuelve menos pronunciada, indica el número ideal de clusters. Por su parte, el método de Silhouette evalúa la calidad de los conglomerados, midiendo tanto la cohesión interna como la separación entre los grupos. Un valor cercano a +1 indica que las observaciones están bien agrupadas, mientras que valores cercanos a -1 sugieren que los puntos están mal asignados. La Gap Statistic compara la variabilidad observada de los conglomerados con la que se esperaría bajo un modelo aleatorio, proporcionando una medida robusta para seleccionar el número adecuado de clusters, siendo particularmente útil cuando la distribución de los datos no es uniforme. Finalmente, Majority Rule se utiliza para consolidar los resultados obtenidos por diferentes algoritmos de clustering. Este enfoque es útil cuando se emplean varias técnicas de agrupación y se busca llegar a un consenso sobre el número y la calidad de los conglomerados, ya que asigna a cada punto el conglomerado más frecuente entre los métodos aplicados. Una vez determinado el número óptimo de clusters, el K-means se encarga de asignar cada observación a su conglomerado correspondiente. Los gráficos resultantes del K-means permiten visualizar cómo se distribuyen los puntos en el espacio multidimensional, facilitando la interpretación de los resultados y proporcionando una representación visual de las relaciones y patrones presentes en los datos.
conclusion
En las 3 pestañas presentes K-óptimos, Resultados K-means y Gráficos K-means se pueden llegar a diversos análisis frente al estudio que se está realizando; en la primer pestaña K-óptimos junto a sus subpestañas se pueden determinar: EL numero optimo que minimiza la variación por medio del método Elbow donde arroja como resultado un 3, por otro lado el Silhouette nos muestra que las la calidad de la asignación de las observaciones a medida que aumenta el número de grupos disminuye, de este modo el numero optimo de agrupamientos es de 2, el método Gap Statistic nos da un numero optimo (teniendo en cuenta la estadística de brecha) de 1, finalmente, el método Majority Rule mediante el cálculo de 30 índices para determinar el número óptimo de conglomerados al variar todas las combinaciones de número de conglomerados, medidas de distancia y métodos de conglomerado, determinó que tal número es 3 (situación no muy visible en la gráfica como en los anteriores métodos, pero si presente en la conclusión generada por el mismo código del método en la “R console”); Gracias a este apartado en la primer pestaña, se sabe que los números de grupos más óptimos y pertinentes para realizar la siguiente pestaña Resultados k-means son de 2 y 3. En la segunda pestaña Resultados K-means se es necesario establecer una estructura para facilitar así la forma en la cual se refiere a cada resultado en los chunks, en donde se tomará 4 partes, donde cada una de estas sera 1.K-means clustering 2.Cluster means 3.Clustering vector 4.sum of squares by cluster.Para la parte 1 en el primer k-optimo (generado con un numero optimo de 2 agrupaciones), el algoritmo ha agrupado las observaciones en 2 cluster de tamaños 23 y 1 en donde la asignación desigual sugiere que el segundo cluster representa un “caso atípico” o “especial” en comparación con el resto de los datos; en la parte 2 El Cluster 2 tiene valores significativamente más altos en todas las variables (casi el doble o más) en comparación con el Cluster 1, lo cual indica que el único miembro del Cluster 2 presenta una actividad muy superior en términos de votos, comentarios, vistas y forks;parte 3 en esta se asigna los países a los cluster en donde se asigna únicamente Vietnam en el cluster 2; Para la parte 4 la suma de cuadrados dentro de los cluster es 0.0112 y 0.000(Este resultado es de esperar ya que este cluster contiene solo una observación, por lo que no hay variabilidad interna). Con esta misma secuencia para la parte 1 en el segundo k-optimo (generado con un numero optimo de 3 agrupaciones), el algoritmo ha agrupado las observaciones en 3 clusters de tamaños 1, 19 y 4 Esto sugiere y apoya la idea que hay un cluster (en este caso el primer cluster) contiene un caso único, mientras que los demás agrupan países con comportamientos similares; en la parte 2 el Cluster 1 contiene los valores más altos en todas las variables, lo que lo diferencia significativamente de los demás clusters, el Cluster 2 representa países con los valores más bajos en las variables, posiblemente reflejando menor actividad o participación y por último el Cluster 3 tiene valores intermedios entre los dos clusters anteriores, indicando un nivel moderado de actividad en las métricas analizadas. parte 3 en esta se asigna los países al clúster en donde la asignación de importancia es Vietnam ya que esta se asigna únicamente en el cluster 1 reafirmando que es un caso atípico con un comportamiento destacado en las variables; Para la parte 4 la suma de cuadrados dentro de los cluster es 0.0000(sin variabilidad interna por solo contener a viethnam), 0.0043 (muestra algo de dispersión, pero sigue siendo compacto)y finalmente 0.0009 (la baja suma de cuadrados se puede interpretar como que las observaciones están más concentradas en el espacio de las variables).
Finalmente, en la pestaña Gráficos K-means, se apoya lo mencionado anteriormente, ya que en ambas gráficas se representa que Vietnam es el único país en este cluster, lo cual coincide con el resultado del análisis, donde el cluster que representa a vietnam tenía un tamaño de 1. Esto sugiere que Vietnam es un caso atípico en las dimensiones analizadas (Votes, Comments, Views, Forks), con valores significativamente diferentes al resto. En la gráfica, Vietnam está aislado en el extremo izquierdo de Dim1, reflejando su singularidad.
fviz_nbclust(data_, kmeans, method = "wss") + geom_vline(xintercept = 3, linetype = 2)
fviz_nbclust(data_, kmeans, method = "silhouette")
fviz_nbclust(data_, kmeans, method = "gap_stat")
suppressWarnings(NbClust(data = data_, diss = NULL, distance = "euclidean", min.nc = 2, max.nc = 10, method = "kmeans")$Best.nc)
## *** : The Hubert index is a graphical method of determining the number of clusters.
## In the plot of Hubert index, we seek a significant knee that corresponds to a
## significant increase of the value of the measure i.e the significant peak in Hubert
## index second differences plot.
##
## *** : The D index is a graphical method of determining the number of clusters.
## In the plot of D index, we seek a significant knee (the significant peak in Dindex
## second differences plot) that corresponds to a significant increase of the value of
## the measure.
##
## *******************************************************************
## * Among all indices:
## * 7 proposed 2 as the best number of clusters
## * 11 proposed 3 as the best number of clusters
## * 3 proposed 5 as the best number of clusters
## * 1 proposed 8 as the best number of clusters
## * 2 proposed 10 as the best number of clusters
##
## ***** Conclusion *****
##
## * According to the majority rule, the best number of clusters is 3
##
##
## *******************************************************************
## KL CH Hartigan CCC Scott Marriot TrCovW TraceW
## Number_clusters 5.0000 3.0000 3.0000 3.0000 3.0000 3 3 3.0000
## Value_Index 7.7838 40.8058 20.3169 6.3096 52.2383 0 0 0.0051
## Friedman Rubin Cindex DB Silhouette Duda PseudoT2
## Number_clusters 8.000 5.0000 1e+01 3.0000 2.0000 2.0000 2.0000
## Value_Index 180.617 -9.8313 6e-03 0.5219 0.6232 0.8373 4.0812
## Beale Ratkowsky Ball PtBiserial Frey McClain Dunn Hubert
## Number_clusters 2.0000 2.0000 3.000 2.0000 5.000 2.0000 3.000 0
## Value_Index 0.4457 0.5231 0.004 0.7481 33.635 0.0878 0.426 0
## SDindex Dindex SDbw
## Number_clusters 3.0000 0 10.0000
## Value_Index 101.6843 0 0.0479
set.seed(780728)
print(kmeans(data_, 2, nstart = 25))
## K-means clustering with 2 clusters of sizes 23, 1
##
## Cluster means:
## Votes_S01 Comments_S01 Views_S01 Forks_S01
## 1 0.03255877 0.04041055 0.03687265 0.01467577
## 2 0.06771578 0.08346066 0.10660540 0.09757614
##
## Clustering vector:
## Argentina Australia Bangladesh Belgium Brazil
## 1 1 1 1 1
## Canada China England France Germany
## 1 1 1 1 1
## India Israel Lebanon Netherlands Norway
## 1 1 1 1 1
## Poland Portugal Russia South Africa Spain
## 1 1 1 1 1
## Taiwan Ukraine United States Vietnam
## 1 1 1 2
##
## Within cluster sum of squares by cluster:
## [1] 0.01120638 0.00000000
## (between_SS / total_SS = 55.9 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
set.seed(780728)
print(kmeans(data_, 3, nstart = 25))
## K-means clustering with 3 clusters of sizes 1, 19, 4
##
## Cluster means:
## Votes_S01 Comments_S01 Views_S01 Forks_S01
## 1 0.06771578 0.08346066 0.10660540 0.09757614
## 2 0.02721395 0.03789107 0.03287651 0.01265442
## 3 0.05794663 0.05237807 0.05585434 0.02427714
##
## Clustering vector:
## Argentina Australia Bangladesh Belgium Brazil
## 3 2 2 2 2
## Canada China England France Germany
## 2 3 2 3 2
## India Israel Lebanon Netherlands Norway
## 2 2 2 2 2
## Poland Portugal Russia South Africa Spain
## 2 2 3 2 2
## Taiwan Ukraine United States Vietnam
## 2 2 2 1
##
## Within cluster sum of squares by cluster:
## [1] 0.0000000000 0.0043053069 0.0008956218
## (between_SS / total_SS = 79.5 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
fviz_cluster(kmeans(data_, 2, nstart = 25), data = data_, palette = c("#2E9FDF", "#00AFBB", "#E7B800", "#E7B801"), ellipse.type = "euclid", star.plot = TRUE, repel = TRUE, ggtheme = theme_minimal()
)
## Too few points to calculate an ellipse
fviz_cluster(kmeans(data_, 3, nstart = 25), data = data_, palette = c("#2E9FDF", "#00AFBB", "#E7B800", "#E7B801"), ellipse.type = "euclid", star.plot = TRUE, repel = TRUE, ggtheme = theme_minimal()
)
## Too few points to calculate an ellipse
-Identificar las variables más influyentes en el comportamiento de la variable dependiente, para poder tomar decisiones más informadas.
-Usar métodos de análisis para entender cómo se relacionan las variables entre sí, con el objetivo de hacer predicciones, ver qué tan importantes son algunas variables en el resultado de otras, y comprobar si el modelo que hemos creado es bueno o no.
-Realizar predicciones precisas sobre el comportamiento de una variable dependiente, utilizando las relaciones descubiertas entre variables independientes.
El análisis que se llevará a cabo en este estudio tiene como objetivo explorar la relación entre las variables cuantitativas y la variable cualitativa clasificadora, utilizando un enfoque estadístico detallado. Se emplearán diversas técnicas para analizar el comportamiento de las variables y su interacción, incluyendo el resumen de las votaciones (“Votes”) y visualizaciones a través de gráficos como el diagrama de dispersión entre votos y vistas (“Views”). Además, se calcularán los coeficientes del modelo de regresión lineal simple (RLS), se presentarán resúmenes estadísticos del mismo, y se realizará una tabla ANOVA para evaluar la significancia de los factores involucrados. El análisis también incluirá la estimación de intervalos de confianza para los coeficientes del modelo, así como las predicciones realizadas y sus correspondientes intervalos de predicción y de confianza. Este enfoque permitirá entender mejor las relaciones entre las variables y proporcionar un marco robusto para la toma de decisiones basada en los datos.
En el desarrollo del análisis, se utilizarán las variables cuantitativas y cualitativas clasificadoras para comprender la relación y el comportamiento de las mismas a través de diversos métodos estadísticos. Se iniciará con un resumen descriptivo de las variables “Votes” y “Views”, lo que permitirá obtener una visión general de su distribución y características clave. Posteriormente, se analizará la relación entre estas dos variables mediante un diagrama de dispersión, lo cual ayudará a visualizar su posible correlación. A continuación, se abordará un análisis más profundo mediante la construcción del modelo de regresión lineal simple (RLS), en el cual se examinarán los coeficientes estimados del modelo, y se incluirá un resumen estadístico detallado de sus resultados. La significancia de los factores involucrados en el modelo será evaluada a través de una tabla ANOVA, lo que permitirá verificar si las variables explicativas tienen un efecto relevante sobre la variable dependiente. También se calcularán intervalos de confianza para el coeficiente B1, lo que proporcionará una estimación precisa de su rango de valores posibles. Finalmente, se realizarán predicciones basadas en el modelo ajustado, con sus respectivos intervalos de predicción e intervalos de confianza, con el objetivo de ofrecer una visión robusta sobre el comportamiento futuro de las variables estudiadas. Este enfoque integral garantizará un análisis exhaustivo y detallado de los datos.
Conclusion
Regresión Lineal Simple tiene como objetivo analizar la relación entre dos variables clave en el conjunto de datos: Votes y Views. Este análisis comienza con un resumen estadístico de las variables bajo estudio, que incluye una revisión de las características básicas de cada variable como (media, mediana, mínimo, máximo, entre otros) a través de la función summary(). Esta herramienta proporciona una visión preliminar de la distribución de Votes y Views, permitiendo identificar posibles tendencias o anomalías en los datos. Además, se presenta un diagrama de dispersión entre ambas variables, que visualiza la relación potencial entre Votes y Views, ayudando a evaluar si es adecuada la aplicación de un modelo de regresión lineal simple. Una vez analizadas las variables, se procede a la formulación del modelo de regresión lineal simple (RLS) entre Votes y Views. Para ello, se usa la función lm(), la cual ajusta un modelo de regresión lineal, representando a Votes en función de Views. Los coeficientes del modelo obtenidos mediante coef() nos indican la pendiente y la intersección de la recta ajustada, lo que define la relación entre las dos variables. A continuación, se utiliza summary() para obtener un resumen estadístico del modelo, que proporciona información crucial sobre la calidad del ajuste y la significancia de las variables involucradas. También se emplea el análisis de varianza (ANOVA) con la función anova() para verificar la validez del modelo, observando si la variabilidad explicada por el modelo es significativa frente a la variabilidad no explicada.En esta etapa, es importante destacar el uso de la función suppressWarnings() en ciertos códigos. Este comando se utiliza para suprimir advertencias que podrían surgir durante el cálculo de predicciones o intervalos. Esto se hace para evitar que mensajes innecesarios interrumpan la visualización de los resultados, especialmente cuando no son relevantes para el análisis que se está realizando. Finalmente, se lleva a cabo un análisis más detallado del modelo RLS, que incluye la estimación del intervalo de confianza para el coeficiente de pendiente (B1), utilizando la función confint(). Este intervalo nos da una idea de la precisión con la que se estima la pendiente del modelo. Luego, se realizan predicciones utilizando la función predict(), tanto con intervalos de predicción como intervalos de confianza. Los intervalos de predicción nos permiten estimar el rango dentro del cual se espera que caigan futuras observaciones, mientras que los intervalos de confianza proporcionan un rango en el que es probable que se encuentre la verdadera media de las respuestas. En resumen, este capítulo proporciona una visión integral del análisis de regresión lineal simple, desde el resumen inicial de las variables hasta la evaluación final del modelo y sus predicciones. Los métodos y funciones de R empleados a lo largo del análisis permiten realizar un estudio exhaustivo y preciso de la relación entre Votes y Views, proporcionando herramientas valiosas para la toma de decisiones informadas basadas en los datos.
summary(Dataset_Muestreado3$Votes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 33.0 40.5 57.0 127.6 92.5 2130.0
boxplot(Dataset_Muestreado3$Votes, main = "Diagrama de Caja de Votes", col = c("brown4"))
summary(Dataset_Muestreado3$Views)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1295 3995 7145 16947 12562 345590
boxplot(Dataset_Muestreado3$Views, main = "Diagrama de Caja de Views", col = c("brown4"))
plot(Dataset_Muestreado3$Votes, Dataset_Muestreado3$Views, main = "Diagrama de Dispersión Vot v.s Views")
pairs(~Comments + Views + Votes + Forks, data = Dataset_Muestreado3)
modelo_RL_Simple = lm(Dataset$Votes~Dataset$Views)
coef(modelo_RL_Simple)
## (Intercept) Dataset$Views
## 30.993802950 0.005539943
summary(modelo_RL_Simple)
##
## Call:
## lm(formula = Dataset$Votes ~ Dataset$Views)
##
## Residuals:
## Min 1Q Median 3Q Max
## -479.19 -25.99 -8.01 13.50 668.87
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.099e+01 3.263e+00 9.498 <2e-16 ***
## Dataset$Views 5.540e-03 1.358e-04 40.780 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 86.6 on 955 degrees of freedom
## Multiple R-squared: 0.6352, Adjusted R-squared: 0.6348
## F-statistic: 1663 on 1 and 955 DF, p-value: < 2.2e-16
anova(modelo_RL_Simple)
## Analysis of Variance Table
##
## Response: Dataset$Votes
## Df Sum Sq Mean Sq F value Pr(>F)
## Dataset$Views 1 12470952 12470952 1663 < 2.2e-16 ***
## Residuals 955 7161490 7499
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
confint(modelo_RL_Simple, level = 0.95)
## 2.5 % 97.5 %
## (Intercept) 24.589695831 37.397910069
## Dataset$Views 0.005273346 0.005806539
suppressWarnings(predict(modelo_RL_Simple, data.frame(seq(1,400)), interval='prediction', level = 0.95))
## fit lwr upr
## 1 44.74394 -125.3064383 214.7943
## 2 34.21805 -135.8409177 204.2770
## 3 57.53013 -112.5118473 227.5721
## 4 38.04061 -132.0150639 208.0963
## 5 44.45032 -125.6002744 214.5009
## 6 37.10436 -132.9521025 207.1608
## 7 46.13447 -123.9148910 216.1838
## 8 41.41444 -128.6384974 211.4674
## 9 43.44759 -126.6037612 213.4989
## 10 38.47827 -131.5770441 208.5336
## 11 49.02632 -121.0210003 219.0736
## 12 42.73848 -127.3134176 212.7904
## 13 57.90131 -112.1404604 227.9431
## 14 64.15590 -105.8825969 234.1944
## 15 46.86574 -123.1830918 216.9146
## 16 39.23170 -130.8229907 209.2864
## 17 36.81074 -133.2459691 206.8675
## 18 37.50878 -132.5473447 207.5649
## 19 42.56674 -127.4852885 212.6188
## 20 78.68163 -91.3513324 248.7146
## 21 59.59653 -110.4442995 229.6374
## 22 39.33696 -130.7176457 209.3916
## 23 76.23298 -93.8007187 246.2667
## 24 43.19276 -126.8587932 213.2443
## 25 51.59131 -118.4542921 221.6369
## 26 81.59564 -88.4365582 251.6278
## 27 91.17420 -78.8562999 261.2047
## 28 35.25956 -134.7984915 205.3176
## 29 46.09015 -123.9592427 216.1395
## 30 86.71455 -83.3165886 256.7457
## 31 65.00905 -105.0290412 235.0471
## 32 51.83507 -118.2103763 221.8805
## 33 75.34104 -94.6929363 245.3750
## 34 44.47802 -125.5725540 214.5286
## 35 49.64125 -120.4056474 219.6881
## 36 45.16498 -124.8850905 215.2150
## 37 74.89785 -95.1362782 244.9320
## 38 45.22038 -124.8296502 215.2704
## 39 69.28035 -100.7558693 239.3166
## 40 48.86566 -121.1817690 218.9131
## 41 65.62953 -104.4082797 235.6673
## 42 45.78545 -124.2641613 215.8351
## 43 55.10363 -114.9397658 225.1470
## 44 48.32274 -121.7250590 218.3705
## 45 47.79091 -122.2572653 217.8391
## 46 54.48870 -115.5550729 224.5325
## 47 59.57437 -110.4664713 229.6152
## 48 129.17267 -40.8634105 299.2087
## 49 87.41812 -82.6128978 257.4491
## 50 85.04148 -84.9899594 255.0729
## 51 87.66742 -82.3635601 257.6984
## 52 67.33583 -102.7012125 237.3729
## 53 41.12082 -128.9323468 211.1740
## 54 40.81612 -129.2372861 210.8695
## 55 44.47802 -125.5725540 214.5286
## 56 41.40890 -128.6440417 211.4618
## 57 42.64430 -127.4076693 212.6963
## 58 41.94627 -128.1062449 211.9988
## 59 69.07537 -100.9609315 239.1117
## 60 37.83563 -132.2202134 207.8915
## 61 71.88966 -98.1455324 241.9249
## 62 47.46959 -122.5788085 217.5180
## 63 40.40063 -129.6531144 210.4544
## 64 77.17477 -92.8586374 247.2082
## 65 44.39492 -125.6557153 214.4456
## 66 40.53912 -129.5145047 210.5928
## 67 46.67738 -123.3715848 216.7263
## 68 56.75454 -113.2878856 226.7970
## 69 64.83731 -105.2008601 234.8755
## 70 64.40520 -105.6331803 234.4436
## 71 43.13182 -126.9197792 213.1834
## 72 52.87658 -117.1681999 222.9214
## 73 40.35077 -129.7030140 210.4045
## 74 81.00841 -89.0239369 251.0407
## 75 54.52748 -115.5162696 224.5712
## 76 74.94217 -95.0919439 244.9763
## 77 59.07577 -110.9653383 229.1169
## 78 58.26140 -111.7801615 228.3030
## 79 54.18954 -115.8544134 224.2335
## 80 51.53037 -118.5152712 221.5760
## 81 114.51952 -55.5120786 284.5511
## 82 159.37090 -10.6836385 329.4254
## 83 62.56040 -107.4788835 232.5997
## 84 43.60271 -126.4485248 213.6540
## 85 35.38144 -134.6765064 205.4394
## 86 35.79139 -134.2661944 205.8490
## 87 59.94554 -110.0950948 229.9862
## 88 37.89103 -132.1647675 207.9468
## 89 54.66044 -115.3832299 224.7041
## 90 51.36417 -118.6815780 221.4099
## 91 59.98986 -110.0507515 230.0305
## 92 51.53591 -118.5097276 221.5815
## 93 59.84028 -110.2004103 229.8810
## 94 56.98721 -113.0550732 227.0295
## 95 87.97211 -82.0588152 258.0030
## 96 46.48902 -123.5600783 216.5381
## 97 55.91247 -114.1304507 225.9554
## 98 67.28043 -102.7566361 237.3175
## 99 45.76883 -124.2807933 215.8185
## 100 45.97935 -124.0701220 216.0288
## 101 55.23659 -114.8067271 225.2799
## 102 51.75751 -118.2879858 221.8030
## 103 81.72306 -88.3091088 251.7552
## 104 61.14217 -108.8978340 231.1822
## 105 96.93020 -73.0998805 266.9603
## 106 45.30902 -124.7409458 215.3590
## 107 47.12612 -122.9225286 217.1748
## 108 52.27826 -117.7668952 222.3234
## 109 41.18176 -128.8713591 211.2349
## 110 51.35863 -118.6871215 221.4044
## 111 41.66373 -128.3890036 211.7165
## 112 58.00656 -112.0351421 228.0483
## 113 40.65546 -129.3980727 210.7090
## 114 56.52740 -113.5151555 226.5700
## 115 83.77838 -86.2533241 253.8101
## 116 56.06758 -113.9752406 226.1104
## 117 96.86926 -73.1608220 266.8993
## 118 91.85561 -78.1748138 261.8860
## 119 138.05320 -31.9870208 308.0934
## 120 62.98697 -107.0520952 233.0260
## 121 48.93214 -121.1152439 218.9795
## 122 46.76602 -123.2828821 216.8149
## 123 81.67320 -88.3589803 251.7054
## 124 62.18368 -107.8557896 232.2232
## 125 36.20689 -133.8503400 206.2641
## 126 56.05096 -113.9918703 226.0938
## 127 50.79910 -119.2470239 220.8452
## 128 79.29656 -90.7362278 249.3294
## 129 48.15101 -121.8969168 218.1989
## 130 56.38890 -113.6537350 226.4315
## 131 52.76024 -117.2846125 222.8051
## 132 55.14795 -114.8954195 225.1913
## 133 49.87947 -120.1672688 219.9262
## 134 79.21900 -90.8138083 249.2518
## 135 92.69769 -77.3326609 262.7280
## 136 45.57493 -124.4748332 215.6247
## 137 70.05040 -99.9855055 240.0863
## 138 59.94554 -110.0950948 229.9862
## 139 58.43314 -111.6083273 228.4746
## 140 38.82728 -131.2277390 208.8823
## 141 35.99083 -134.0665840 206.0482
## 142 43.29802 -126.7534538 213.3495
## 143 44.52788 -125.5226572 214.5784
## 144 89.30170 -80.7290341 259.3324
## 145 49.28669 -120.7604448 219.3338
## 146 44.60544 -125.4450401 214.6559
## 147 42.43932 -127.6128059 212.4915
## 148 47.46405 -122.5843524 217.5125
## 149 56.97059 -113.0717027 227.0129
## 150 52.42784 -117.6172209 222.4729
## 151 48.63852 -121.4090633 218.6861
## 152 74.32170 -95.7126268 244.3560
## 153 46.93222 -123.1165649 216.9810
## 154 52.28380 -117.7613517 222.3290
## 155 99.42872 -70.6013250 269.4588
## 156 41.95735 -128.0951563 212.0099
## 157 49.80745 -120.2393367 219.8542
## 158 51.13149 -118.9144081 221.1774
## 159 90.29889 -79.7317141 260.3295
## 160 46.96546 -123.0833015 217.0142
## 161 54.80448 -115.2391037 224.8481
## 162 83.90026 -86.1314195 253.9319
## 163 167.25978 -2.8016268 337.3212
## 164 48.46678 -121.5809204 218.5145
## 165 106.45336 -63.5770168 276.4837
## 166 103.73879 -66.2913780 273.7690
## 167 64.45506 -105.5832971 234.4934
## 168 98.84702 -71.1830210 268.8771
## 169 39.54747 -130.5069560 209.6019
## 170 43.20938 -126.8421606 213.2609
## 171 85.68966 -84.3416622 255.7210
## 172 62.27232 -107.7671056 232.3117
## 173 44.63314 -125.4173197 214.6836
## 174 41.44214 -128.6107758 211.4950
## 175 53.19789 -116.8466804 223.2425
## 176 62.57702 -107.4622553 232.6163
## 177 46.60536 -123.4436558 216.6544
## 178 52.58850 -117.4564600 222.6335
## 179 42.88806 -127.1637239 212.9398
## 180 57.95670 -112.0850297 227.9984
## 181 43.24262 -126.8088955 213.2941
## 182 58.51070 -111.5307249 228.5521
## 183 107.88267 -62.1478629 277.9132
## 184 54.27818 -115.7657198 224.3221
## 185 133.35533 -36.6825692 303.3932
## 186 116.53052 -53.5015212 286.5626
## 187 64.89271 -105.1454346 234.9309
## 188 47.55269 -122.4956506 217.6010
## 189 106.24285 -63.7875147 276.2732
## 190 132.97861 -37.0591120 303.0163
## 191 37.84117 -132.2146688 207.8970
## 192 43.27032 -126.7811746 213.3218
## 193 38.16803 -131.8875389 208.2236
## 194 53.00400 -117.0407006 223.0487
## 195 43.12074 -126.9308676 213.1723
## 196 61.36931 -108.6705784 231.4092
## 197 49.59693 -120.4499970 219.6439
## 198 60.84855 -109.1916045 230.8887
## 199 47.53607 -122.5122822 217.5844
## 200 45.42535 -124.6245214 215.4752
## 201 49.75759 -120.2892298 219.8044
## 202 58.77108 -111.2702031 228.8124
## 203 72.04478 -97.9903561 242.0799
## 204 49.76313 -120.2836862 219.8099
## 205 56.58834 -113.4541806 226.6309
## 206 49.22021 -120.8269695 219.2674
## 207 51.84615 -118.1992893 221.8916
## 208 105.74425 -64.2860647 275.7746
## 209 87.44582 -82.5851935 257.4768
## 210 61.55767 -108.4821230 231.5975
## 211 43.08750 -126.9641327 213.1391
## 212 50.08445 -119.9621530 220.1310
## 213 59.46911 -110.5717874 229.5100
## 214 35.97975 -134.0776734 206.0372
## 215 43.45867 -126.5926729 213.5100
## 216 62.33880 -107.7005927 232.3782
## 217 62.56040 -107.4788835 232.5997
## 218 47.77429 -122.2738968 217.8225
## 219 37.86333 -132.1924904 207.9192
## 220 46.31174 -123.7374844 216.3610
## 221 45.63587 -124.4138491 215.6856
## 222 44.80488 -125.2454536 214.8552
## 223 53.54691 -116.4974452 223.5913
## 224 44.27305 -125.7776854 214.3238
## 225 79.71760 -90.3150781 249.7503
## 226 36.81074 -133.2459691 206.8675
## 227 44.68300 -125.3674231 214.7334
## 228 40.58344 -129.4701496 210.6370
## 229 72.67079 -97.3641120 242.7057
## 230 60.11728 -109.9232645 230.1578
## 231 100.74168 -69.2883709 270.7717
## 232 58.87633 -111.1648860 228.9176
## 233 55.20335 -114.8399867 225.2467
## 234 48.13993 -121.9080045 218.1879
## 235 53.91255 -116.1315816 223.9567
## 236 67.38015 -102.6568736 237.4172
## 237 48.73824 -121.3092755 218.7858
## 238 56.90412 -113.1382204 226.9465
## 239 143.93108 -26.1124714 313.9746
## 240 358.37118 187.8850192 528.8573
## 241 68.70973 -101.3267197 238.7462
## 242 44.53896 -125.5115691 214.5895
## 243 49.63017 -120.4167348 219.6771
## 244 72.99211 -97.0426791 243.0269
## 245 66.16690 -103.8706601 236.2045
## 246 102.47568 -67.5544211 272.5058
## 247 73.42422 -96.6104095 243.4589
## 248 222.82540 52.6916423 392.9592
## 249 48.28396 -121.7638656 218.3318
## 250 65.97854 -104.0591036 236.0162
## 251 66.61563 -103.4217230 236.6530
## 252 117.46677 -52.5654953 287.4990
## 253 56.41106 -113.6315623 226.4537
## 254 115.73831 -54.2935524 285.7702
## 255 44.33399 -125.7167004 214.3847
## 256 38.07939 -131.9762519 208.1350
## 257 66.13366 -103.9039148 236.1712
## 258 55.06485 -114.9785688 225.1083
## 259 48.08453 -121.9634426 218.1325
## 260 54.00673 -116.0373443 224.0508
## 261 104.81354 -65.2167005 274.8438
## 262 55.22551 -114.8178136 225.2688
## 263 59.41925 -110.6216740 229.4602
## 264 51.19797 -118.8478852 221.2438
## 265 107.70539 -62.3251208 277.7359
## 266 54.89866 -115.1448676 224.9422
## 267 61.95654 -108.0830427 231.9961
## 268 69.00335 -101.0329806 239.0397
## 269 109.15686 -60.8738344 279.1875
## 270 53.49705 -116.5473358 223.5414
## 271 38.84944 -131.2055610 208.9044
## 272 75.08067 -94.9533994 245.1147
## 273 38.27329 -131.7821923 208.3288
## 274 50.08445 -119.9621530 220.1310
## 275 50.90990 -119.1361518 220.9559
## 276 60.95935 -109.0807476 230.9995
## 277 130.29728 -39.7392669 300.3338
## 278 62.03964 -107.9999012 232.0792
## 279 89.46236 -80.5683539 259.4931
## 280 61.21419 -108.8257773 231.2542
## 281 87.88902 -82.1419273 257.9200
## 282 58.80986 -111.2314020 228.8511
## 283 54.02335 -116.0207142 224.0674
## 284 51.75197 -118.2935293 221.7975
## 285 135.99234 -34.0468234 306.0315
## 286 70.23322 -99.8026145 240.2690
## 287 47.18152 -122.8670898 217.2301
## 288 57.64647 -112.3954422 227.6884
## 289 58.12290 -111.9187378 228.1645
## 290 40.43387 -129.6198481 210.4876
## 291 75.33550 -94.6984780 245.3695
## 292 64.23346 -105.8050005 234.2719
## 293 44.62760 -125.4228638 214.6781
## 294 69.72908 -100.3069513 239.7651
## 295 104.49776 -65.5324547 274.5280
## 296 58.67136 -111.3699773 228.7127
## 297 71.11407 -98.9214191 241.1496
## 298 88.58705 -81.4437885 258.6179
## 299 195.29743 25.2047635 365.3901
## 300 48.38368 -121.6640772 218.4314
## 301 52.67714 -117.3677645 222.7220
## 302 43.23708 -126.8144397 213.2886
## 303 144.00310 -26.0404958 314.0467
## 304 43.00440 -127.0472956 213.0561
## 305 50.88220 -119.1638698 220.9283
## 306 44.57220 -125.4783046 214.6227
## 307 44.95446 -125.0957641 215.0047
## 308 48.92106 -121.1263314 218.9684
## 309 63.34153 -106.6973639 233.3804
## 310 55.66871 -114.3743529 225.7118
## 311 124.77395 -45.2604729 294.8084
## 312 96.04381 -73.9863065 266.0739
## 313 64.87055 -105.1676048 234.9087
## 314 50.54426 -119.5020304 220.5906
## 315 72.39934 -97.6356685 242.4343
## 316 64.93703 -105.1010943 234.9752
## 317 172.65014 2.5835584 342.7167
## 318 65.97300 -104.0646461 236.0106
## 319 75.09729 -94.9367740 245.1313
## 320 60.94827 -109.0918333 230.9884
## 321 110.00447 -60.0263408 280.0353
## 322 48.75486 -121.2926442 218.8024
## 323 63.98970 -106.0488752 234.0283
## 324 66.87601 -103.1612299 236.9133
## 325 79.52370 -90.5090284 249.5564
## 326 56.31134 -113.7313397 226.3540
## 327 43.40881 -126.6425704 213.4602
## 328 40.88814 -129.1652094 210.9415
## 329 80.01676 -90.0158417 250.0494
## 330 123.78784 -46.2462485 293.8219
## 331 89.17428 -80.8564704 259.2050
## 332 43.96281 -126.0881558 214.0138
## 333 103.85513 -66.1750462 273.8853
## 334 83.22992 -86.8018971 253.2617
## 335 71.74562 -98.2896250 241.7809
## 336 51.46943 -118.5762503 221.5151
## 337 50.27280 -119.7736687 220.3193
## 338 76.88115 -93.1523438 246.9146
## 339 209.68466 39.5718016 379.7975
## 340 53.34193 -116.7025514 223.3864
## 341 48.20641 -121.8414788 218.2543
## 342 41.23716 -128.8159158 211.2902
## 343 54.65490 -115.3887732 224.6986
## 344 95.34024 -74.6899147 265.3704
## 345 72.34394 -97.6910884 242.3790
## 346 68.56015 -101.4763608 238.5967
## 347 98.34843 -71.6816213 268.3785
## 348 58.30572 -111.7358172 228.3473
## 349 65.04783 -104.9902435 235.0859
## 350 165.73629 -4.3237189 335.7963
## 351 79.53478 -90.4979455 249.5675
## 352 48.16209 -121.8858292 218.2100
## 353 45.66357 -124.3861292 215.7133
## 354 44.12347 -125.9273763 214.1743
## 355 35.12106 -134.9371111 205.1792
## 356 43.85755 -126.1934942 213.9086
## 357 77.79524 -92.2379786 247.8285
## 358 43.03210 -127.0195746 213.0838
## 359 44.97108 -125.0791320 215.0213
## 360 47.86293 -122.1851955 217.9111
## 361 46.43916 -123.6099737 216.4883
## 362 70.00608 -100.0298427 240.0420
## 363 81.28540 -88.7468709 251.3177
## 364 109.91029 -60.1205062 279.9411
## 365 68.72081 -101.3156351 238.7573
## 366 66.28324 -103.7542687 236.3207
## 367 119.86556 -50.1673297 289.8985
## 368 125.99828 -44.0365790 296.0331
## 369 53.55245 -116.4919018 223.5968
## 370 60.59372 -109.4465761 230.6340
## 371 50.35590 -119.6905140 220.4023
## 372 54.28926 -115.7546331 224.3332
## 373 51.94587 -118.0995058 221.9912
## 374 48.15655 -121.8913730 218.2045
## 375 46.47240 -123.5767101 216.5215
## 376 85.01932 -85.0121235 255.0508
## 377 111.18447 -58.8465129 281.2155
## 378 72.83145 -97.2033954 242.8663
## 379 92.07167 -77.9587342 262.1021
## 380 45.58047 -124.4692892 215.6302
## 381 88.69785 -81.3329734 258.7287
## 382 61.55767 -108.4821230 231.5975
## 383 75.54602 -94.4878915 245.5799
## 384 93.24614 -76.7841586 263.2764
## 385 40.46711 -129.5865817 210.5208
## 386 66.49930 -103.5381139 236.5367
## 387 59.53559 -110.5052720 229.5764
## 388 87.39042 -82.6406020 257.4214
## 389 136.94521 -33.0944344 306.9849
## 390 57.03707 -113.0051850 227.0793
## 391 94.02173 -76.0085057 264.0520
## 392 77.06951 -92.9639282 247.1029
## 393 124.87367 -45.1607885 294.9081
## 394 79.20792 -90.8248912 249.2407
## 395 47.35325 -122.6952297 217.4017
## 396 42.63876 -127.4132135 212.6907
## 397 38.04615 -132.0095194 208.1018
## 398 53.15911 -116.8854844 223.2037
## 399 102.13775 -67.8923442 272.1678
## 400 44.17333 -125.8774793 214.2241
## 401 137.47150 -32.5684108 307.5114
## 402 52.79902 -117.2458083 222.8438
## 403 79.56802 -90.4646968 249.6007
## 404 50.05121 -119.9954150 220.0978
## 405 67.28597 -102.7510938 237.3230
## 406 79.25778 -90.7750181 249.2906
## 407 74.56545 -95.4687865 244.5997
## 408 41.15406 -128.8990808 211.2072
## 409 42.04045 -128.0119922 212.0929
## 410 76.47119 -93.5624264 246.5048
## 411 63.17533 -106.8636439 233.2143
## 412 48.07899 -121.9689864 218.1270
## 413 48.72162 -121.3259067 218.7691
## 414 44.28413 -125.7665972 214.3348
## 415 43.35342 -126.6980120 213.4048
## 416 46.67184 -123.3771287 216.7208
## 417 73.47962 -96.5549905 243.5142
## 418 70.27754 -99.7582774 240.3134
## 419 53.16465 -116.8799409 223.2092
## 420 55.17011 -114.8732464 225.2135
## 421 52.36136 -117.6837428 222.4065
## 422 85.97220 -84.0590729 256.0035
## 423 63.56313 -106.4756577 233.6019
## 424 67.76240 -102.2744519 237.7993
## 425 44.51680 -125.5337454 214.5674
## 426 111.53349 -58.4975534 281.5645
## 427 64.32210 -105.7163191 234.3605
## 428 48.02359 -122.0244246 218.0716
## 429 53.66879 -116.3754905 223.7131
## 430 72.94225 -97.0925565 242.9771
## 431 85.50130 -84.5300557 255.5327
## 432 58.63812 -111.4032354 228.6795
## 433 69.67368 -100.3623731 239.7097
## 434 56.08974 -113.9530678 226.1326
## 435 110.97396 -59.0569973 281.0049
## 436 50.49440 -119.5519231 220.5407
## 437 65.28605 -104.7519149 235.3240
## 438 111.62767 -58.4033900 281.6587
## 439 97.55068 -72.4793887 267.5807
## 440 174.34536 4.2770703 344.4137
## 441 51.34201 -118.7037522 221.3878
## 442 51.10380 -118.9421261 221.1497
## 443 54.86542 -115.1781274 224.9090
## 444 46.69400 -123.3549530 216.7430
## 445 46.61644 -123.4325679 216.6655
## 446 99.29022 -70.7398236 269.3203
## 447 79.01957 -91.0133013 249.0524
## 448 49.94041 -120.1062884 219.9871
## 449 65.36915 -104.6687772 235.4071
## 450 57.39717 -112.6448818 227.4392
## 451 169.00486 -1.0581782 339.0679
## 452 88.51503 -81.5158184 258.5459
## 453 47.21476 -122.8338265 217.2633
## 454 43.09304 -126.9585885 213.1447
## 455 71.66252 -98.3727555 241.6978
## 456 93.96079 -76.0694496 263.9910
## 457 53.20897 -116.8355935 223.2535
## 458 73.36883 -96.6658285 243.4035
## 459 62.55486 -107.4844262 232.5941
## 460 123.47761 -46.5563829 293.5116
## 461 69.60720 -100.4288793 239.6433
## 462 59.64085 -110.3999560 229.6817
## 463 99.52844 -70.5016061 269.5585
## 464 53.62447 -116.4198376 223.6688
## 465 209.61264 39.4998904 379.7254
## 466 51.90709 -118.1383105 221.9525
## 467 43.33680 -126.7146446 213.3882
## 468 48.88228 -121.1651377 218.9297
## 469 80.40455 -89.6279444 250.4370
## 470 57.41933 -112.6227094 227.4614
## 471 76.62077 -93.4128014 246.6543
## 472 58.79878 -111.2424880 228.8400
## 473 94.91920 -75.1109748 264.9494
## 474 84.72017 -85.3113396 254.7517
## 475 52.92090 -117.1238523 222.9656
## 476 46.03475 -124.0146823 216.0842
## 477 48.57204 -121.4755886 218.6197
## 478 85.39050 -84.6408756 255.4219
## 479 72.34948 -97.6855464 242.3845
## 480 116.98479 -53.0473533 287.0169
## 481 47.66349 -122.3847736 217.7118
## 482 55.05377 -114.9896554 225.0972
## 483 65.31375 -104.7242023 235.3517
## 484 73.57380 -96.4607782 243.6084
## 485 52.59958 -117.4453730 222.6445
## 486 55.85153 -114.1914262 225.8945
## 487 147.54866 -22.4971720 317.5945
## 488 54.51640 -115.5273563 224.5602
## 489 162.59514 -7.4620959 332.6524
## 490 49.64125 -120.4056474 219.6881
## 491 92.24895 -77.7814386 262.2793
## 492 42.14017 -127.9121955 212.1925
## 493 55.24767 -114.7956405 225.2910
## 494 38.28991 -131.7655586 208.3454
## 495 57.60215 -112.4397870 227.6441
## 496 47.99035 -122.0576875 218.0384
## 497 123.52747 -46.5065398 293.5615
## 498 48.01251 -122.0355122 218.0605
## 499 202.33869 32.2364997 372.4409
## 500 99.47304 -70.5570055 269.5031
## 501 156.24637 -13.8056807 326.2984
## 502 108.48652 -61.5440814 278.5171
## 503 90.24903 -79.7815798 260.2796
## 504 79.06389 -90.9689695 249.0967
## 505 45.15390 -124.8961786 215.2040
## 506 44.56666 -125.4838487 214.6172
## 507 80.39901 -89.6334857 250.4315
## 508 48.06791 -121.9800740 218.1159
## 509 101.87737 -68.1527122 271.9075
## 510 46.00151 -124.0479462 216.0510
## 511 82.84767 -87.1842383 252.8796
## 512 73.86188 -96.1726005 243.8964
## 513 73.66798 -96.3665662 243.7025
## 514 108.56962 -61.4609926 278.6002
## 515 88.13277 -81.8981320 258.1637
## 516 85.60656 -84.4247769 255.6379
## 517 46.88790 -123.1609161 216.9367
## 518 46.01813 -124.0313142 216.0676
## 519 57.84037 -112.2014343 227.8822
## 520 99.31792 -70.7121239 269.3480
## 521 53.71865 -116.3255999 223.7629
## 522 56.02326 -114.0195863 226.0661
## 523 74.90893 -95.1251947 244.9431
## 524 84.72017 -85.3113396 254.7517
## 525 65.91760 -104.1200708 235.9553
## 526 189.85166 19.7659085 359.9374
## 527 44.17887 -125.8719352 214.2297
## 528 152.87254 -17.1769713 322.9221
## 529 83.18560 -86.8462264 253.2174
## 530 65.10877 -104.9292756 235.1468
## 531 86.54281 -83.4883567 256.5740
## 532 83.83378 -86.1979129 253.8655
## 533 128.91229 -41.1236827 298.9483
## 534 72.15004 -97.8850580 242.1851
## 535 287.99175 117.7196590 458.2638
## 536 48.41138 -121.6363583 218.4591
## 537 68.20006 -101.8366092 238.2367
## 538 55.31969 -114.7235780 225.3630
## 539 43.58609 -126.4651572 213.6373
## 540 57.94562 -112.0961159 227.9874
## 541 100.28187 -69.7481791 270.3119
## 542 81.57902 -88.4531821 251.6112
## 543 102.22085 -67.8092482 272.2509
## 544 46.41700 -123.6321495 216.4662
## 545 57.26975 -112.7723735 227.3119
## 546 73.63474 -96.3998175 243.6693
## 547 63.95092 -106.0876735 233.9895
## 548 55.76289 -114.2801179 225.8059
## 549 70.57669 -99.4590025 240.6124
## 550 82.19395 -87.8381018 252.2260
## 551 82.47649 -87.5554991 252.5085
## 552 66.03394 -104.0036790 236.0716
## 553 138.45761 -31.5828190 308.4980
## 554 63.57421 -106.4645724 233.6130
## 555 48.11777 -121.9301797 218.1657
## 556 45.17052 -124.8795465 215.2206
## 557 140.60157 -29.4400330 310.6432
## 558 94.85826 -75.1719179 264.8884
## 559 50.58304 -119.4632250 220.6293
## 560 88.97484 -81.0559364 259.0056
## 561 52.98184 -117.0628744 223.0265
## 562 72.03924 -97.9958981 242.0744
## 563 44.69962 -125.3507909 214.7500
## 564 43.12628 -126.9253234 213.1779
## 565 153.74785 -16.3023030 323.7980
## 566 61.36377 -108.6761212 231.4037
## 567 108.49760 -61.5330029 278.5282
## 568 346.22763 175.7831866 516.6721
## 569 118.22574 -51.8067139 288.2582
## 570 53.48043 -116.5639661 223.5248
## 571 90.45401 -79.5765767 260.4846
## 572 45.66911 -124.3805852 215.7188
## 573 72.33840 -97.6966303 242.3734
## 574 81.85048 -88.1816595 251.8826
## 575 74.14442 -95.8899657 244.1788
## 576 78.23289 -91.8001957 248.2660
## 577 103.69447 -66.3356949 273.7246
## 578 84.07199 -85.9596453 254.1036
## 579 78.07778 -91.9553590 248.1109
## 580 66.67657 -103.3607565 236.7139
## 581 72.98657 -97.0482210 243.0214
## 582 51.98465 -118.0607011 222.0300
## 583 72.34394 -97.6910884 242.3790
## 584 60.92611 -109.1140047 230.9662
## 585 52.88766 -117.1571130 222.9324
## 586 93.62840 -76.4018715 263.6587
## 587 48.35598 -121.6917962 218.4038
## 588 58.80986 -111.2314020 228.8511
## 589 128.39154 -41.6442298 298.4273
## 590 223.20766 53.0732551 393.3421
## 591 65.84558 -104.1921229 235.8833
## 592 81.76738 -88.2647786 251.7995
## 593 95.57292 -74.4572246 265.6031
## 594 291.92511 121.6428243 462.2074
## 595 65.35807 -104.6798622 235.3960
## 596 45.59155 -124.4582012 215.6413
## 597 63.50219 -106.5366268 233.5410
## 598 48.10669 -121.9412673 218.1546
## 599 85.51238 -84.5189737 255.5437
## 600 137.08925 -32.9504697 307.1290
## 601 82.27705 -87.7549833 252.3091
## 602 60.15606 -109.8844642 230.1966
## 603 50.40022 -119.6461649 220.4466
## 604 113.09575 -56.9355644 283.1271
## 605 51.53037 -118.5152712 221.5760
## 606 65.95638 -104.0812735 235.9940
## 607 87.04140 -82.9896763 257.0725
## 608 153.03874 -17.0108942 323.0884
## 609 106.64172 -63.3886771 276.6721
## 610 51.02624 -119.0197363 221.0722
## 611 52.07329 -117.9720049 222.1186
## 612 105.61129 -64.4190120 275.6416
## 613 46.54996 -123.4990951 216.5990
## 614 71.09191 -98.9435874 241.1274
## 615 90.04959 -79.9810428 260.0802
## 616 159.62573 -10.4290097 329.6805
## 617 143.65408 -26.3893010 313.6975
## 618 61.20311 -108.8368629 231.2431
## 619 56.65482 -113.3876625 226.6973
## 620 43.28694 -126.7645421 213.3384
## 621 53.85161 -116.1925587 223.8958
## 622 103.43963 -66.5905178 273.4698
## 623 80.25497 -89.7775616 250.2875
## 624 93.19074 -76.8395627 263.2210
## 625 99.62815 -70.4018874 269.6582
## 626 41.75237 -128.3002948 211.8050
## 627 105.93815 -64.0921838 275.9685
## 628 40.22335 -129.8305352 210.2772
## 629 57.94008 -112.1016589 227.9818
## 630 73.97822 -96.0562213 244.0127
## 631 60.49954 -109.5408050 230.5399
## 632 64.80407 -105.2341154 234.8423
## 633 87.19652 -82.8345320 257.2276
## 634 88.50949 -81.5213591 258.5403
## 635 88.04413 -81.9867848 258.0751
## 636 232.03833 61.8885118 402.1881
## 637 131.01193 -39.0249185 301.0488
## 638 46.17879 -123.8705393 216.2281
## 639 57.00383 -113.0384438 227.0461
## 640 57.54675 -112.4952180 227.5887
## 641 73.83972 -96.1947680 243.8742
## 642 61.64631 -108.3934383 231.6861
## 643 57.46919 -112.5728214 227.5112
## 644 53.47489 -116.5695095 223.5193
## 645 70.59885 -99.4368340 240.6345
## 646 88.34883 -81.6820415 258.3797
## 647 60.05634 -109.9842365 230.0969
## 648 111.65537 -58.3756949 281.6864
## 649 59.53559 -110.5052720 229.5764
## 650 56.21162 -113.8311173 226.2544
## 651 47.94603 -122.1020381 217.9941
## 652 85.27970 -84.7516956 255.3111
## 653 200.72657 30.6266181 370.8265
## 654 48.21749 -121.8303912 218.2654
## 655 104.03795 -65.9922394 274.0681
## 656 58.20600 -111.8355920 228.2476
## 657 94.10483 -75.9254006 264.1351
## 658 106.24839 -63.7819753 276.2787
## 659 72.06694 -97.9681881 242.1021
## 660 144.36873 -25.6750827 314.4125
## 661 55.38617 -114.6570588 225.4294
## 662 61.19203 -108.8479486 231.2320
## 663 61.18649 -108.8534914 231.2265
## 664 97.34016 -72.6899122 267.3702
## 665 89.77814 -80.2525351 259.8088
## 666 65.07553 -104.9625308 235.1136
## 667 87.22422 -82.8068276 257.2553
## 668 40.57236 -129.4812384 210.6260
## 669 89.35156 -80.6791678 259.3823
## 670 192.68811 22.5988111 362.7774
## 671 317.59720 147.2432343 487.9512
## 672 53.98457 -116.0595178 224.0286
## 673 95.99395 -74.0361683 266.0241
## 674 113.83811 -56.1933544 283.8696
## 675 78.28829 -91.7447803 248.3214
## 676 58.22262 -111.8189629 228.2642
## 677 70.07256 -99.9633368 240.1085
## 678 83.75068 -86.2810297 253.7824
## 679 50.89328 -119.1527826 220.9393
## 680 182.55002 12.4728939 352.6271
## 681 84.83097 -85.2005186 254.8625
## 682 108.32586 -61.7047200 278.3564
## 683 55.13133 -114.9120494 225.1747
## 684 53.05386 -116.9908096 223.0985
## 685 58.63258 -111.4087784 228.6739
## 686 60.98151 -109.0585762 231.0216
## 687 70.73181 -99.3038233 240.7674
## 688 130.28620 -39.7503421 300.3227
## 689 73.74554 -96.2889798 243.7801
## 690 166.43986 -3.6207852 336.5005
## 691 80.32145 -89.7110650 250.3540
## 692 65.61845 -104.4193647 235.6563
## 693 216.08883 45.9660814 386.2116
## 694 109.25103 -60.7796680 279.2817
## 695 191.79064 21.7024748 361.8788
## 696 61.73495 -108.3047537 231.7746
## 697 116.08178 -53.9501532 286.1137
## 698 77.01411 -93.0193445 247.0476
## 699 60.12282 -109.9177216 230.1634
## 700 74.60423 -95.4299937 244.6385
## 701 88.80311 -81.2276992 258.8339
## 702 187.97916 17.8956902 358.0626
## 703 93.66164 -76.3686293 263.6919
## 704 75.40198 -94.6319770 245.4359
## 705 97.24598 -72.7840939 267.2761
## 706 151.69254 -18.3561292 321.7412
## 707 140.07528 -29.9660341 310.1166
## 708 61.50227 -108.5375510 231.5421
## 709 193.05929 22.9695148 363.1491
## 710 112.95726 -57.0740373 282.9885
## 711 62.46068 -107.5786526 232.5000
## 712 91.88331 -78.1471113 261.9137
## 713 71.45201 -98.5833532 241.4874
## 714 250.35892 80.1737477 420.5441
## 715 73.74554 -96.2889798 243.7801
## 716 72.21098 -97.8240961 242.2461
## 717 104.75814 -65.2720959 274.7884
## 718 89.88893 -80.1417218 259.9196
## 719 54.10090 -115.9431071 224.1449
## 720 69.34129 -100.6949050 239.3775
## 721 82.02776 -88.0043392 252.0599
## 722 76.02800 -94.0057615 246.0618
## 723 142.76769 -27.2751629 312.8105
## 724 67.83442 -102.2024016 237.8712
## 725 69.11969 -100.9165937 239.1560
## 726 111.83265 -58.1984466 281.8637
## 727 99.09632 -70.9337221 269.1264
## 728 85.34064 -84.6907446 255.3720
## 729 57.28637 -112.7557442 227.3285
## 730 114.71896 -55.3126820 284.7506
## 731 68.10588 -101.9308283 238.1426
## 732 109.37291 -60.6578057 279.4036
## 733 72.28854 -97.7465082 242.3236
## 734 82.85321 -87.1786971 252.8851
## 735 101.26244 -68.7676277 271.2925
## 736 157.31558 -12.7373073 327.3685
## 737 80.92531 -89.1070569 250.9577
## 738 67.96184 -102.0749283 237.9986
## 739 144.93935 -25.1048203 314.9835
## 740 176.45054 6.3800699 346.5210
## 741 82.06100 -87.9710917 252.0931
## 742 75.30781 -94.7261868 245.3418
## 743 236.06586 65.9086690 406.2231
## 744 93.56746 -76.4628157 263.5977
## 745 95.34024 -74.6899147 265.3704
## 746 96.80278 -73.2273036 266.8329
## 747 194.90963 24.8174728 365.0018
## 748 71.37999 -98.6553999 241.4154
## 749 127.55501 -42.4804356 297.5904
## 750 105.36199 -64.6682887 275.3923
## 751 111.16785 -58.8631301 281.1988
## 752 51.41403 -118.6316859 221.4597
## 753 97.01884 -73.0112385 267.0489
## 754 84.88637 -85.1451082 254.9178
## 755 42.51134 -127.5407308 212.5634
## 756 75.64020 -94.3936820 245.6741
## 757 55.14795 -114.8954195 225.1913
## 758 154.42927 -15.6213976 324.4799
## 759 149.34914 -20.6978934 319.3962
## 760 86.43755 -83.5936341 256.4687
## 761 129.88178 -40.1545889 299.9182
## 762 92.17693 -77.8534649 262.2073
## 763 123.63827 -46.3957775 293.6723
## 764 85.93896 -84.0923187 255.9702
## 765 117.29503 -52.7371915 287.3273
## 766 81.47930 -88.5529253 251.5115
## 767 94.23225 -75.7979728 264.2625
## 768 107.27328 -62.7571887 277.3037
## 769 47.05964 -122.9890553 217.1083
## 770 103.46179 -66.5683593 273.4919
## 771 80.33807 -89.6944409 250.3706
## 772 84.99717 -85.0342876 255.0286
## 773 118.49166 -51.5408653 288.5242
## 774 407.06174 236.3882948 577.7352
## 775 121.29487 -48.7384369 291.3282
## 776 159.53710 -10.5175761 329.5918
## 777 111.05152 -58.9794503 281.0825
## 778 142.57379 -27.4689467 312.6165
## 779 136.77901 -33.2605478 306.8186
## 780 132.10330 -37.9340278 302.1406
## 781 133.00631 -37.0314250 303.0440
## 782 234.66980 64.5151869 404.8244
## 783 52.85996 -117.1848303 222.9047
## 784 58.42760 -111.6138703 228.4691
## 785 132.77363 -37.2639964 302.8113
## 786 87.34610 -82.6849288 257.3771
## 787 57.36393 -112.6781405 227.4060
## 788 87.66188 -82.3691009 257.6929
## 789 75.53494 -94.4989750 245.5689
## 790 70.75397 -99.2816549 240.7896
## 791 83.13574 -86.8960970 253.1676
## 792 196.88185 26.7871012 366.9766
## 793 79.76192 -90.2707467 249.7946
## 794 73.15831 -96.8764212 243.1930
## 795 120.98463 -49.0485818 291.0178
## 796 161.11044 -8.9455378 331.1664
## 797 255.11219 84.9171009 425.3073
## 798 87.49014 -82.5408668 257.5211
## 799 62.46622 -107.5731098 232.5055
## 800 51.98465 -118.0607011 222.0300
## 801 83.39058 -86.6412036 253.4224
## 802 113.24533 -56.7860141 283.2767
## 803 169.64749 -0.4161568 339.7111
## 804 115.26741 -54.7643442 285.2992
## 805 155.94167 -14.1101423 325.9935
## 806 62.29448 -107.7449346 232.3339
## 807 82.91415 -87.1177441 252.9460
## 808 105.02960 -65.0006590 275.0599
## 809 74.18320 -95.8511728 244.2176
## 810 133.14481 -36.8929899 303.1826
## 811 85.44590 -84.5854656 255.4773
## 812 87.86686 -82.1640906 257.8978
## 813 105.13486 -64.8954083 275.1651
## 814 71.62374 -98.4115498 241.6590
## 815 92.73093 -77.2994182 262.7613
## 816 48.92106 -121.1263314 218.9684
## 817 95.05216 -74.9780082 265.0823
## 818 98.33735 -71.6927013 268.3674
## 819 111.14016 -58.8908254 281.1711
## 820 84.13847 -85.8931521 254.1701
## 821 54.48316 -115.5606163 224.5269
## 822 252.84081 82.6505019 423.0311
## 823 77.24679 -92.7865964 247.2802
## 824 137.50474 -32.5351884 307.5447
## 825 139.67640 -30.3646901 309.7175
## 826 138.56287 -31.4776162 308.6034
## 827 173.82461 3.7568453 343.8924
## 828 90.27673 -79.7538766 260.3073
## 829 96.64212 -73.3879678 266.6722
## 830 192.94849 22.8588572 363.0381
## 831 155.49848 -14.5529977 325.5500
## 832 131.92048 -38.1167647 301.9577
## 833 116.43080 -53.6012170 286.4628
## 834 82.45433 -87.5776640 252.4863
## 835 50.82126 -119.2248495 220.8674
## 836 96.10475 -73.9253644 266.1349
## 837 98.88026 -71.1497811 268.9103
## 838 86.50957 -83.5216022 256.5407
## 839 183.99594 13.9171676 354.0747
## 840 638.18815 466.1925619 810.1837
## 841 96.24325 -73.7868597 266.2734
## 842 194.33348 24.2420657 364.4249
## 843 70.00608 -100.0298427 240.0420
## 844 148.76191 -21.2847302 318.8085
## 845 153.52626 -16.5237370 323.5763
## 846 72.94225 -97.0925565 242.9771
## 847 111.62213 -58.4089290 281.6532
## 848 118.75204 -51.2805562 288.7846
## 849 130.18094 -39.8555568 300.2174
## 850 209.56278 39.4501058 379.6755
## 851 121.23947 -48.7938198 291.2728
## 852 126.48580 -43.5492423 296.5208
## 853 207.14736 37.0382735 377.2565
## 854 176.04612 5.9760773 346.1162
## 855 101.92723 -68.1028545 271.9573
## 856 94.32089 -75.7093275 264.3511
## 857 128.60759 -41.4282577 298.6434
## 858 75.02527 -95.0088171 245.0594
## 859 95.07986 -74.9503069 265.1100
## 860 122.93469 -47.0991212 292.9685
## 861 193.90690 23.8160403 363.9978
## 862 134.24726 -35.7910563 304.2856
## 863 235.10191 64.9465056 405.2573
## 864 105.99355 -64.0367893 276.0239
## 865 157.27126 -12.7815919 327.3241
## 866 314.57239 144.2273359 484.9175
## 867 225.80589 55.6670637 395.9447
## 868 178.01834 7.9462120 348.0905
## 869 78.38247 -91.6505743 248.4155
## 870 89.14104 -80.8897147 259.1718
## 871 90.95260 -79.0779228 260.9831
## 872 120.51374 -49.5193400 290.5468
## 873 198.27238 28.1757681 368.3690
## 874 187.40855 17.3257621 357.4913
## 875 118.49720 -51.5353268 288.5297
## 876 256.62459 86.4262853 426.8229
## 877 253.60532 83.4134138 423.7972
## 878 253.54992 83.3581306 423.7417
## 879 75.72330 -94.3105560 245.7572
## 880 92.99130 -77.0390177 263.0216
## 881 153.57058 -16.4794502 323.6206
## 882 137.98118 -32.0590022 308.0214
## 883 77.08059 -92.9528450 247.1140
## 884 94.27657 -75.7536502 264.3068
## 885 148.09157 -21.9546157 318.1378
## 886 117.04573 -52.9864286 287.0779
## 887 124.04268 -45.9914963 294.0769
## 888 94.90812 -75.1220554 264.9383
## 889 137.15573 -32.8840245 307.1955
## 890 190.58847 20.5018097 360.6751
## 891 305.59215 135.2728120 475.9115
## 892 139.68194 -30.3591532 309.7230
## 893 453.54186 282.6598505 624.4239
## 894 596.99314 425.2852095 768.7011
## 895 223.04146 52.9073368 393.1756
## 896 156.22421 -13.8278233 326.2762
## 897 295.36541 125.0740407 465.6568
## 898 114.35886 -55.6727041 284.3904
## 899 171.08234 1.0173017 341.1474
## 900 294.59536 124.3060368 464.8847
## 901 346.21655 175.7721439 516.6609
## 902 97.73349 -72.2965663 267.7636
## 903 221.96117 51.8288581 392.0935
## 904 131.85954 -38.1776771 301.8968
## 905 307.93554 137.6096006 478.2615
## 906 85.31848 -84.7129086 255.3499
## 907 151.72024 -18.3284492 321.7689
## 908 417.67627 246.9577556 588.3948
## 909 442.95503 272.1230779 613.7870
## 910 117.10667 -52.9255039 287.1389
## 911 81.82278 -88.2093659 251.8549
## 912 160.58414 -9.4713919 330.6397
## 913 193.35291 23.2627568 363.4431
## 914 174.40630 4.3379474 344.4747
## 915 143.47126 -26.5720092 313.5145
## 916 151.54296 -18.5056013 321.5915
## 917 109.25103 -60.7796680 279.2817
## 918 103.72217 -66.3079968 273.7523
## 919 60.83747 -109.2026902 230.8776
## 920 177.61947 7.5477620 347.6912
## 921 139.37724 -30.6636835 309.4182
## 922 144.27455 -25.7692041 314.3183
## 923 150.16905 -19.8785442 320.2166
## 924 170.09069 0.0266133 340.1548
## 925 142.81755 -27.2253329 312.8604
## 926 271.23896 101.0079395 441.4700
## 927 100.23755 -69.7924982 270.2676
## 928 224.59818 54.4614242 394.7349
## 929 170.62806 0.5634685 340.6927
## 930 117.25071 -52.7815002 287.2829
## 931 303.95786 133.6430927 474.2726
## 932 171.71943 1.6537705 341.7851
## 933 213.36318 43.2447087 383.4816
## 934 474.77646 303.7895151 645.7634
## 935 167.31517 -2.7462786 337.3766
## 936 156.62309 -13.4292572 326.6754
## 937 176.78848 6.7176510 346.8593
## 938 577.69198 406.1111136 749.2728
## 939 151.62606 -18.4225612 321.6747
## 940 200.33877 30.2393560 370.4382
## 941 208.18333 38.0727159 378.2939
## 942 311.81904 141.4819872 482.1561
## 943 165.83047 -4.2296250 335.8906
## 944 582.82750 411.2133136 754.4417
## 945 224.23255 54.0964102 394.3687
## 946 189.05391 18.9691349 359.1387
## 947 836.99454 663.2990434 1010.6900
## 948 249.79938 79.6153608 419.9834
## 949 276.54623 106.3026066 446.7898
## 950 1123.57024 946.5410809 1300.5994
## 951 1369.48830 1188.8065531 1550.1700
## 952 360.76444 190.2698169 531.2591
## 953 409.12814 238.4460384 579.8102
## 954 848.35696 674.5489038 1022.1650
## 955 753.50760 580.5883871 926.4268
## 956 764.41021 591.3947178 937.4257
## 957 1945.54263 1753.7015125 2137.3837
suppressWarnings(predict(modelo_RL_Simple, data.frame(seq(1,400)), interval='confidence', level = 0.95))
## fit lwr upr
## 1 44.74394 38.65343 50.83445
## 2 34.21805 27.89229 40.54381
## 3 57.53013 51.67893 63.38132
## 4 38.04061 31.80401 44.27721
## 5 44.45032 38.35370 50.54695
## 6 37.10436 30.84631 43.36241
## 7 46.13447 40.07255 52.19638
## 8 41.41444 35.25304 47.57583
## 9 43.44759 37.32989 49.56530
## 10 38.47827 32.25161 44.70492
## 11 49.02632 43.02192 55.03072
## 12 42.73848 36.60568 48.87128
## 13 57.90131 52.05624 63.74637
## 14 64.15590 58.40669 69.90511
## 15 46.86574 40.81862 52.91286
## 16 39.23170 33.02203 45.44136
## 17 36.81074 30.54591 43.07557
## 18 37.50878 31.26002 43.75753
## 19 42.56674 36.43026 48.70322
## 20 78.68163 73.09851 84.26475
## 21 59.59653 53.77882 65.41423
## 22 39.33696 33.12965 45.54426
## 23 76.23298 70.62762 81.83833
## 24 43.19276 37.06964 49.31587
## 25 51.59131 45.63567 57.54695
## 26 81.59564 76.03584 87.15544
## 27 91.17420 85.66655 96.68185
## 28 35.25956 28.95850 41.56062
## 29 46.09015 40.02733 52.15296
## 30 86.71455 81.18734 92.24176
## 31 65.00905 59.27182 70.74628
## 32 51.83507 45.88395 57.78619
## 33 75.34104 69.72699 80.95510
## 34 44.47802 38.38198 50.57407
## 35 49.64125 43.64873 55.63377
## 36 45.16498 39.08319 51.24677
## 37 74.89785 69.27936 80.51634
## 38 45.22038 39.13973 51.30102
## 39 69.28035 63.59899 74.96171
## 40 48.86566 42.85813 54.87318
## 41 65.62953 59.90083 71.35822
## 42 45.78545 39.71641 51.85449
## 43 55.10363 49.21121 60.99605
## 44 48.32274 42.30460 54.34089
## 45 47.79091 41.76226 53.81955
## 46 54.48870 48.58551 60.39189
## 47 59.57437 53.75631 65.39242
## 48 129.17267 123.49542 134.84991
## 49 87.41812 81.89455 92.94169
## 50 85.04148 79.50481 90.57816
## 51 87.66742 82.14508 93.18975
## 52 67.33583 61.62988 73.04177
## 53 41.12082 34.95301 47.28862
## 54 40.81612 34.64164 46.99061
## 55 44.47802 38.38198 50.57407
## 56 41.40890 35.24738 47.57041
## 57 42.64430 36.50949 48.77912
## 58 41.94627 35.79643 48.09611
## 59 69.07537 63.39149 74.75925
## 60 37.83563 31.59436 44.07690
## 61 71.88966 66.23903 77.54029
## 62 47.46959 41.43456 53.50462
## 63 40.40063 34.21699 46.58426
## 64 77.17477 71.57824 82.77129
## 65 44.39492 38.29714 50.49271
## 66 40.53912 34.35854 46.71971
## 67 46.67738 40.62647 52.72830
## 68 56.75454 50.89039 62.61869
## 69 64.83731 59.09769 70.57694
## 70 64.40520 58.65952 70.15088
## 71 43.13182 37.00741 49.25623
## 72 52.87658 46.94455 58.80860
## 73 40.35077 34.16603 46.53551
## 74 81.00841 75.44418 86.57263
## 75 54.52748 48.62497 60.42998
## 76 74.94217 69.32413 80.56021
## 77 59.07577 53.24977 64.90178
## 78 58.26140 52.42223 64.10057
## 79 54.18954 48.28107 60.09802
## 80 51.53037 45.57359 57.48715
## 81 114.51952 108.97809 120.06095
## 82 159.37090 153.16543 165.57636
## 83 62.56040 56.78807 68.33272
## 84 43.60271 37.48829 49.71714
## 85 35.38144 29.08325 41.67962
## 86 35.79139 29.50283 42.07995
## 87 59.94554 54.13335 65.75774
## 88 37.89103 31.65103 44.13104
## 89 54.66044 48.76027 60.56061
## 90 51.36417 45.40430 57.32405
## 91 59.98986 54.17836 65.80136
## 92 51.53591 45.57924 57.49258
## 93 59.84028 54.02643 65.65414
## 94 56.98721 51.12697 62.84746
## 95 87.97211 82.45126 93.49297
## 96 46.48902 40.43430 52.54374
## 97 55.91247 50.03401 61.79092
## 98 67.28043 61.57376 72.98710
## 99 45.76883 39.69945 51.83821
## 100 45.97935 39.91427 52.04442
## 101 55.23659 49.34648 61.12670
## 102 51.75751 45.80495 57.71007
## 103 81.72306 76.16420 87.28192
## 104 61.14217 55.34853 66.93582
## 105 96.93020 91.43550 102.42490
## 106 45.30902 39.23020 51.38783
## 107 47.12612 41.08422 53.16801
## 108 52.27826 46.33531 58.22122
## 109 41.18176 35.01529 47.34823
## 110 51.35863 45.39866 57.31861
## 111 41.66373 35.50776 47.81970
## 112 58.00656 52.16322 63.84990
## 113 40.65546 34.47745 46.83348
## 114 56.52740 50.65942 62.39538
## 115 83.77838 78.23379 89.32296
## 116 56.06758 50.19178 61.94338
## 117 96.86926 91.37450 102.36403
## 118 91.85561 86.35022 97.36100
## 119 138.05320 132.25332 143.85307
## 120 62.98697 57.22092 68.75302
## 121 48.93214 42.92591 54.93837
## 122 46.76602 40.71689 52.81515
## 123 81.67320 76.11398 87.23242
## 124 62.18368 56.40577 67.96160
## 125 36.20689 29.92804 42.48574
## 126 56.05096 50.17488 61.92705
## 127 50.79910 44.82863 56.76957
## 128 79.29656 73.71865 84.87448
## 129 48.15101 42.12948 54.17253
## 130 56.38890 50.51857 62.25923
## 131 52.76024 46.82610 58.69438
## 132 55.14795 49.25631 61.03960
## 133 49.87947 43.89152 55.86741
## 134 79.21900 73.64044 84.79757
## 135 92.69769 87.19482 98.20055
## 136 45.57493 39.50158 51.64828
## 137 70.05040 64.37838 75.72242
## 138 59.94554 54.13335 65.75774
## 139 58.43314 52.59676 64.26951
## 140 38.82728 32.60852 45.04604
## 141 35.99083 29.70694 42.27473
## 142 43.29802 37.17714 49.41889
## 143 44.52788 38.43288 50.62289
## 144 89.30170 83.78685 94.81655
## 145 49.28669 43.28734 55.28605
## 146 44.60544 38.51205 50.69883
## 147 42.43932 36.30011 48.57854
## 148 47.46405 41.42891 53.49919
## 149 56.97059 51.11007 62.83111
## 150 52.42784 46.48763 58.36805
## 151 48.63852 42.62656 54.65048
## 152 74.32170 68.69733 79.94607
## 153 46.93222 40.88643 52.97800
## 154 52.28380 46.34095 58.22665
## 155 99.42872 93.93529 104.92214
## 156 41.95735 35.80774 48.10695
## 157 49.80745 43.81812 55.79677
## 158 51.13149 45.16727 57.09572
## 159 90.29889 84.78806 95.80972
## 160 46.96546 40.92034 53.01057
## 161 54.80448 48.90683 60.70212
## 162 83.90026 78.35646 89.44405
## 163 167.25978 160.86890 173.65065
## 164 48.46678 42.45146 54.48210
## 165 106.45336 100.94945 111.95728
## 166 103.73879 98.24139 109.23619
## 167 64.45506 58.71008 70.20004
## 168 98.84702 93.35354 104.34051
## 169 39.54747 33.34488 45.75007
## 170 43.20938 37.08662 49.33214
## 171 85.68966 80.15679 91.22253
## 172 62.27232 56.49573 68.04891
## 173 44.63314 38.54033 50.72596
## 174 41.44214 35.28135 47.60292
## 175 53.19789 47.27168 59.12410
## 176 62.57702 56.80494 68.34909
## 177 46.60536 40.55299 52.65773
## 178 52.58850 46.65123 58.52577
## 179 42.88806 36.75846 49.01766
## 180 57.95670 52.11255 63.80086
## 181 43.24262 37.12056 49.36467
## 182 58.51070 52.67558 64.34581
## 183 107.88267 102.37408 113.39125
## 184 54.27818 48.37128 60.18509
## 185 133.35533 127.62397 139.08669
## 186 116.53052 110.97555 122.08549
## 187 64.89271 59.15386 70.63156
## 188 47.55269 41.51932 53.58607
## 189 106.24285 100.73955 111.74614
## 190 132.97861 127.25239 138.70483
## 191 37.84117 31.60003 44.08232
## 192 43.27032 37.14885 49.39178
## 193 38.16803 31.93433 44.40172
## 194 53.00400 47.07428 58.93371
## 195 43.12074 36.99609 49.24538
## 196 61.36931 55.57913 67.15949
## 197 49.59693 43.60356 55.59030
## 198 60.84855 55.05041 66.64670
## 199 47.53607 41.50236 53.56978
## 200 45.42535 39.34893 51.50178
## 201 49.75759 43.76731 55.74787
## 202 58.77108 52.94017 64.60198
## 203 72.04478 66.39589 77.69367
## 204 49.76313 43.77295 55.75330
## 205 56.58834 50.72139 62.45529
## 206 49.22021 43.21957 55.22085
## 207 51.84615 45.89523 57.79706
## 208 105.74425 100.24234 111.24616
## 209 87.44582 81.92239 92.96925
## 210 61.55767 55.77034 67.34499
## 211 43.08750 36.96215 49.21285
## 212 50.08445 44.10042 56.06847
## 213 59.46911 53.64938 65.28883
## 214 35.97975 29.69560 42.26390
## 215 43.45867 37.34120 49.57615
## 216 62.33880 56.56319 68.11440
## 217 62.56040 56.78807 68.33272
## 218 47.77429 41.74531 53.80326
## 219 37.86333 31.62269 44.10397
## 220 46.31174 40.25343 52.37006
## 221 45.63587 39.56377 51.70797
## 222 44.80488 38.71564 50.89412
## 223 53.54691 47.62698 59.46684
## 224 44.27305 38.17272 50.37338
## 225 79.71760 74.14316 85.29204
## 226 36.81074 30.54591 43.07557
## 227 44.68300 38.59122 50.77478
## 228 40.58344 34.40384 46.76305
## 229 72.67079 67.02885 78.31274
## 230 60.11728 54.30778 65.92679
## 231 100.74168 95.24788 106.23549
## 232 58.87633 53.04713 64.70554
## 233 55.20335 49.31267 61.09404
## 234 48.13993 42.11818 54.16167
## 235 53.91255 47.99915 59.82594
## 236 67.38015 61.67478 73.08552
## 237 48.73824 42.72823 54.74825
## 238 56.90412 51.04248 62.76575
## 239 143.93108 138.03439 149.82777
## 240 358.37118 344.75155 371.99081
## 241 68.70973 63.02131 74.39816
## 242 44.53896 38.44419 50.63374
## 243 49.63017 43.63744 55.62290
## 244 72.99211 67.35367 78.63055
## 245 66.16690 60.44549 71.88831
## 246 102.47568 96.98026 107.97111
## 247 73.42422 67.79043 79.05802
## 248 222.82540 214.73474 230.91606
## 249 48.28396 42.26505 54.30287
## 250 65.97854 60.25459 71.70249
## 251 66.61563 60.90022 72.33105
## 252 117.46677 111.90494 123.02860
## 253 56.41106 50.54111 62.28101
## 254 115.73831 110.18887 121.28774
## 255 44.33399 38.23493 50.43304
## 256 38.07939 31.84368 44.31510
## 257 66.13366 60.41180 71.85552
## 258 55.06485 49.17176 60.95795
## 259 48.08453 42.06169 54.10737
## 260 54.00673 48.09501 59.91844
## 261 104.81354 99.31393 110.31315
## 262 55.22551 49.33521 61.11581
## 263 59.41925 53.59873 65.23977
## 264 51.19797 45.23499 57.16095
## 265 107.70539 102.19743 113.21335
## 266 54.89866 49.00266 60.79465
## 267 61.95654 56.17523 67.73785
## 268 69.00335 63.31858 74.68812
## 269 109.15686 103.64338 114.67033
## 270 53.49705 47.57623 59.41787
## 271 38.84944 32.63118 45.06770
## 272 75.08067 69.46402 80.69732
## 273 38.27329 32.04199 44.50459
## 274 50.08445 44.10042 56.06847
## 275 50.90990 44.94151 56.87828
## 276 60.95935 55.16291 66.75580
## 277 130.29728 124.60613 135.98842
## 278 62.03964 56.25958 67.81971
## 279 89.46236 83.94818 94.97654
## 280 61.21419 55.42165 67.00673
## 281 87.88902 82.36776 93.41027
## 282 58.80986 52.97958 64.64013
## 283 54.02335 48.11192 59.93477
## 284 51.75197 45.79931 57.70463
## 285 135.99234 130.22351 141.76116
## 286 70.23322 64.56338 75.90305
## 287 47.18152 41.14073 53.22230
## 288 57.64647 51.79720 63.49574
## 289 58.12290 52.28147 63.96434
## 290 40.43387 34.25096 46.61677
## 291 75.33550 69.72140 80.94961
## 292 64.23346 58.48535 69.98157
## 293 44.62760 38.53467 50.72053
## 294 69.72908 64.05319 75.40497
## 295 104.49776 98.99886 109.99667
## 296 58.67136 52.83884 64.50387
## 297 71.11407 65.45458 76.77356
## 298 88.58705 83.06906 94.10504
## 299 195.29743 188.12271 202.47214
## 300 48.38368 42.36673 54.40063
## 301 52.67714 46.74148 58.61279
## 302 43.23708 37.11490 49.35925
## 303 144.00310 138.10515 149.90105
## 304 43.00440 36.87728 49.13152
## 305 50.88220 44.91329 56.85110
## 306 44.57220 38.47812 50.66629
## 307 44.95446 38.86832 51.04060
## 308 48.92106 42.91461 54.92751
## 309 63.34153 57.58064 69.10242
## 310 55.66871 49.78607 61.55135
## 311 124.77395 119.14641 130.40150
## 312 96.04381 90.54802 101.53960
## 313 64.87055 59.13139 70.60971
## 314 50.54426 44.56897 56.51955
## 315 72.39934 66.75440 78.04427
## 316 64.93703 59.19880 70.67527
## 317 172.65014 166.12290 179.17738
## 318 65.97300 60.24898 71.69703
## 319 75.09729 69.48081 80.71377
## 320 60.94827 55.15166 66.74489
## 321 110.00447 104.48737 115.52156
## 322 48.75486 42.74517 54.76455
## 323 63.98970 58.23813 69.74128
## 324 66.87601 61.16404 72.58798
## 325 79.52370 73.94767 85.09973
## 326 56.31134 50.43969 62.18299
## 327 43.40881 37.29029 49.52734
## 328 40.88814 34.71524 47.06104
## 329 80.01676 74.44475 85.58877
## 330 123.78784 118.17041 129.40528
## 331 89.17428 83.65889 94.68968
## 332 43.96281 37.85597 50.06965
## 333 103.85513 98.35752 109.35274
## 334 83.22992 77.68170 88.77815
## 335 71.74562 66.09336 77.39788
## 336 51.46943 45.51152 57.42734
## 337 50.27280 44.29237 56.25324
## 338 76.88115 71.28191 82.48039
## 339 209.68466 202.04617 217.32314
## 340 53.34193 47.41832 59.26554
## 341 48.20641 42.18597 54.22684
## 342 41.23716 35.07190 47.40242
## 343 54.65490 48.75463 60.55516
## 344 95.34024 89.84335 100.83712
## 345 72.34394 66.69838 77.98949
## 346 68.56015 62.86986 74.25045
## 347 98.34843 92.85478 103.84208
## 348 58.30572 52.46727 64.14417
## 349 65.04783 59.31114 70.78453
## 350 165.73629 159.38256 172.09002
## 351 79.53478 73.95884 85.11072
## 352 48.16209 42.14078 54.18340
## 353 45.66357 39.59204 51.73510
## 354 44.12347 38.02000 50.22693
## 355 35.12106 28.81674 41.42538
## 356 43.85755 37.74850 49.96660
## 357 77.79524 72.20434 83.38613
## 358 43.03210 36.90557 49.15863
## 359 44.97108 38.88528 51.05688
## 360 47.86293 41.83571 53.89015
## 361 46.43916 40.38343 52.49489
## 362 70.00608 64.33353 75.67863
## 363 81.28540 75.72329 86.84752
## 364 109.91029 104.39361 115.42697
## 365 68.72081 63.03253 74.40910
## 366 66.28324 60.56339 72.00309
## 367 119.86556 114.28452 125.44661
## 368 125.99828 120.35766 131.63891
## 369 53.55245 47.63262 59.47228
## 370 60.59372 54.79163 66.39580
## 371 50.35590 44.37704 56.33476
## 372 54.28926 48.38255 60.19597
## 373 51.94587 45.99679 57.89494
## 374 48.15655 42.13513 54.17796
## 375 46.47240 40.41735 52.52746
## 376 85.01932 79.48252 90.55613
## 377 111.18447 105.66183 116.70711
## 378 72.83145 67.19126 78.47164
## 379 92.07167 86.56696 97.57639
## 380 45.58047 39.50724 51.65371
## 381 88.69785 83.18036 94.21533
## 382 61.55767 55.77034 67.34499
## 383 75.54602 69.93400 81.15805
## 384 93.24614 87.74476 98.74752
## 385 40.46711 34.28494 46.64928
## 386 66.49930 60.78233 72.21626
## 387 59.53559 53.71692 65.35426
## 388 87.39042 81.86671 92.91413
## 389 136.94521 131.16222 142.72820
## 390 57.03707 51.17767 62.89648
## 391 94.02173 88.52223 99.52124
## 392 77.06951 71.47201 82.66700
## 393 124.87367 119.24509 130.50226
## 394 79.20792 73.62927 84.78658
## 395 47.35325 41.31590 53.39061
## 396 42.63876 36.50383 48.77370
## 397 38.04615 31.80968 44.28262
## 398 53.15911 47.23220 59.08602
## 399 102.13775 96.64274 107.63275
## 400 44.17333 38.07091 50.27574
## 401 137.47150 131.68055 143.26246
## 402 52.79902 46.86558 58.73245
## 403 79.56802 73.99236 85.14369
## 404 50.05121 44.06654 56.03587
## 405 67.28597 61.57937 72.99256
## 406 79.25778 73.67955 84.83602
## 407 74.56545 68.94359 80.18732
## 408 41.15406 34.98698 47.32113
## 409 42.04045 35.89264 48.18826
## 410 76.47119 70.86810 82.07428
## 411 63.17533 57.41203 68.93863
## 412 48.07899 42.05604 54.10193
## 413 48.72162 42.71128 54.73195
## 414 44.28413 38.18403 50.38422
## 415 43.35342 37.23371 49.47312
## 416 46.67184 40.62081 52.72287
## 417 73.47962 67.84642 79.11283
## 418 70.27754 64.60823 75.94685
## 419 53.16465 47.23784 59.09146
## 420 55.17011 49.27885 61.06138
## 421 52.36136 46.41993 58.30279
## 422 85.97220 80.44093 91.50346
## 423 63.56313 57.80544 69.32081
## 424 67.76240 62.06197 73.46283
## 425 44.51680 38.42157 50.61204
## 426 111.53349 106.00910 117.05788
## 427 64.32210 58.57524 70.06895
## 428 48.02359 41.99955 54.04763
## 429 53.66879 47.75104 59.58653
## 430 72.94225 67.30327 78.58123
## 431 85.50130 79.96734 91.03526
## 432 58.63812 52.80507 64.47117
## 433 69.67368 63.99712 75.35024
## 434 56.08974 50.21432 61.96516
## 435 110.97396 105.45235 116.49557
## 436 50.49440 44.51817 56.47063
## 437 65.28605 59.55265 71.01945
## 438 111.62767 106.10280 117.15254
## 439 97.55068 92.05654 103.04481
## 440 174.34536 167.77370 180.91702
## 441 51.34201 45.38173 57.30230
## 442 51.10380 45.13905 57.06854
## 443 54.86542 48.96884 60.76199
## 444 46.69400 40.64342 52.74458
## 445 46.61644 40.56430 52.66859
## 446 99.29022 93.79679 104.78364
## 447 79.01957 73.43933 84.59981
## 448 49.94041 43.95363 55.92719
## 449 65.36915 59.63689 71.10141
## 450 57.39717 51.54377 63.25057
## 451 169.00486 162.57066 175.43905
## 452 88.51503 82.99671 94.03334
## 453 47.21476 41.17464 53.25487
## 454 43.09304 36.96780 49.21827
## 455 71.66252 66.00932 77.31573
## 456 93.96079 88.46115 99.46043
## 457 53.20897 47.28296 59.13498
## 458 73.36883 67.73444 79.00321
## 459 62.55486 56.78245 68.32726
## 460 123.47761 117.86327 129.09194
## 461 69.60720 63.92984 75.28457
## 462 59.64085 53.82384 65.45785
## 463 99.52844 94.03501 105.02186
## 464 53.62447 47.70593 59.54301
## 465 209.61264 201.97656 217.24871
## 466 51.90709 45.95730 57.85688
## 467 43.33680 37.21674 49.45685
## 468 48.88228 42.87508 54.88948
## 469 80.40455 74.83564 85.97347
## 470 57.41933 51.56630 63.27236
## 471 76.62077 71.01909 82.22245
## 472 58.79878 52.96832 64.62923
## 473 94.91920 89.42156 100.41684
## 474 84.72017 79.18154 90.25879
## 475 52.92090 46.98967 58.85212
## 476 46.03475 39.97080 52.09869
## 477 48.57204 42.55878 54.58530
## 478 85.39050 79.85590 90.92511
## 479 72.34948 66.70398 77.99497
## 480 116.98479 111.42654 122.54305
## 481 47.66349 41.63232 53.69466
## 482 55.05377 49.16049 60.94706
## 483 65.31375 59.58073 71.04677
## 484 73.57380 67.94160 79.20600
## 485 52.59958 46.66251 58.53665
## 486 55.85153 49.97203 61.73102
## 487 147.54866 141.58649 153.51083
## 488 54.51640 48.61370 60.41910
## 489 162.59514 156.31601 168.87428
## 490 49.64125 43.64873 55.63377
## 491 92.24895 86.74478 97.75312
## 492 42.14017 35.99451 48.28582
## 493 55.24767 49.35776 61.13759
## 494 38.28991 32.05898 44.52083
## 495 57.60215 51.75215 63.45215
## 496 47.99035 41.96565 54.01505
## 497 123.52747 117.91264 129.14230
## 498 48.01251 41.98825 54.03677
## 499 202.33869 194.94146 209.73592
## 500 99.47304 93.97961 104.96646
## 501 156.24637 150.10939 162.38335
## 502 108.48652 102.97571 113.99734
## 503 90.24903 84.73801 95.76006
## 504 79.06389 73.48402 84.64375
## 505 45.15390 39.07188 51.23591
## 506 44.56666 38.47246 50.66086
## 507 80.39901 74.83005 85.96797
## 508 48.06791 42.04474 54.09107
## 509 101.87737 96.38265 107.37209
## 510 46.00151 39.93688 52.06613
## 511 82.84767 77.29683 88.39850
## 512 73.86188 68.23272 79.49104
## 513 73.66798 68.03678 79.29918
## 514 108.56962 103.05849 114.08076
## 515 88.13277 82.61268 93.65286
## 516 85.60656 80.07321 91.13991
## 517 46.88790 40.84122 52.93457
## 518 46.01813 39.95384 52.08241
## 519 57.84037 51.99429 63.68644
## 520 99.31792 93.82449 104.81134
## 521 53.71865 47.80179 59.63550
## 522 56.02326 50.14671 61.89982
## 523 74.90893 69.29055 80.52730
## 524 84.72017 79.18154 90.25879
## 525 65.91760 60.19283 71.64238
## 526 189.85166 182.84264 196.86068
## 527 44.17887 38.07657 50.28117
## 528 152.87254 146.80620 158.93888
## 529 83.18560 77.63708 88.73413
## 530 65.10877 59.37292 70.84462
## 531 86.54281 81.01468 92.07094
## 532 83.83378 78.28955 89.37800
## 533 128.91229 123.23820 134.58639
## 534 72.15004 66.50233 77.79775
## 535 287.99175 277.38292 298.60058
## 536 48.41138 42.39498 54.42779
## 537 68.20006 62.50522 73.89490
## 538 55.31969 49.43103 61.20836
## 539 43.58609 37.47132 49.70087
## 540 57.94562 52.10128 63.78996
## 541 100.28187 94.78828 105.77545
## 542 81.57902 76.01910 87.13894
## 543 102.22085 96.72574 107.71595
## 544 46.41700 40.36082 52.47318
## 545 57.26975 51.41423 63.12527
## 546 73.63474 68.00319 79.26630
## 547 63.95092 58.19880 69.70305
## 548 55.76289 49.88187 61.64391
## 549 70.57669 64.91093 76.24246
## 550 82.19395 76.63852 87.74939
## 551 82.47649 76.92307 88.02992
## 552 66.03394 60.31074 71.75714
## 553 138.45761 132.65147 144.26376
## 554 63.57421 57.81668 69.33173
## 555 48.11777 42.09558 54.13995
## 556 45.17052 39.08884 51.25219
## 557 140.60157 134.76121 146.44193
## 558 94.85826 89.36051 100.35602
## 559 50.58304 44.60849 56.55759
## 560 88.97484 83.45858 94.49110
## 561 52.98184 47.05172 58.91195
## 562 72.03924 66.39029 77.68819
## 563 44.69962 38.60819 50.79105
## 564 43.12628 37.00175 49.25081
## 565 153.74785 147.66353 159.83218
## 566 61.36377 55.57350 67.15403
## 567 108.49760 102.98674 114.00846
## 568 346.22763 333.14061 359.31464
## 569 118.22574 112.65808 123.79340
## 570 53.48043 47.55931 59.40155
## 571 90.45401 84.94376 95.96425
## 572 45.66911 39.59769 51.74053
## 573 72.33840 66.69278 77.98401
## 574 81.85048 76.29256 87.40840
## 575 74.14442 68.51821 79.77062
## 576 78.23289 72.64588 83.81991
## 577 103.69447 98.19716 109.19179
## 578 84.07199 78.52930 89.61468
## 579 78.07778 72.48939 83.66616
## 580 66.67657 60.96197 72.39118
## 581 72.98657 67.34807 78.62507
## 582 51.98465 46.03629 57.93300
## 583 72.34394 66.69838 77.98949
## 584 60.92611 55.12916 66.72307
## 585 52.88766 46.95583 58.81948
## 586 93.62840 88.12797 99.12882
## 587 48.35598 42.33849 54.37348
## 588 58.80986 52.97958 64.64013
## 589 128.39154 122.72366 134.05941
## 590 223.20766 215.10348 231.31183
## 591 65.84558 60.11983 71.57134
## 592 81.76738 76.20885 87.32591
## 593 95.57292 90.07642 101.06942
## 594 291.92511 281.15390 302.69631
## 595 65.35807 59.62566 71.09048
## 596 45.59155 39.51854 51.66456
## 597 63.50219 57.74362 69.26075
## 598 48.10669 42.08428 54.12909
## 599 85.51238 79.97849 91.04627
## 600 137.08925 131.30409 142.87441
## 601 82.27705 76.72221 87.83189
## 602 60.15606 54.34717 65.96496
## 603 50.40022 44.42221 56.37824
## 604 113.09575 107.56291 118.62860
## 605 51.53037 45.57359 57.48715
## 606 65.95638 60.23213 71.68063
## 607 87.04140 81.51591 92.56690
## 608 153.03874 146.96901 159.10848
## 609 106.64172 101.13724 112.14620
## 610 51.02624 45.06004 56.99244
## 611 52.07329 46.12656 58.02001
## 612 105.61129 100.10973 111.11285
## 613 46.54996 40.49647 52.60345
## 614 71.09191 65.43216 76.75166
## 615 90.04959 84.53779 95.56139
## 616 159.62573 153.41455 165.83691
## 617 143.65408 137.76222 149.54594
## 618 61.20311 55.41040 66.99582
## 619 56.65482 50.78899 62.52065
## 620 43.28694 37.16582 49.40805
## 621 53.85161 47.93713 59.76609
## 622 103.43963 97.94277 108.93650
## 623 80.25497 74.68487 85.82508
## 624 93.19074 87.68921 98.69227
## 625 99.62815 94.13472 105.12159
## 626 41.75237 35.59833 47.90642
## 627 105.93815 100.43571 111.44059
## 628 40.22335 34.03579 46.41091
## 629 57.94008 52.09565 63.78452
## 630 73.97822 68.35028 79.60616
## 631 60.49954 54.69599 66.30308
## 632 64.80407 59.06399 70.54416
## 633 87.19652 81.67183 92.72122
## 634 88.50949 82.99115 94.02783
## 635 88.04413 82.52362 93.56465
## 636 232.03833 223.61680 240.45986
## 637 131.01193 125.31170 136.71216
## 638 46.17879 40.11777 52.23980
## 639 57.00383 51.14387 62.86380
## 640 57.54675 51.69583 63.39767
## 641 73.83972 68.21033 79.46911
## 642 61.64631 55.86032 67.43229
## 643 57.46919 51.61698 63.32139
## 644 53.47489 47.55367 59.39611
## 645 70.59885 64.93335 76.26436
## 646 88.34883 82.82975 93.86791
## 647 60.05634 54.24588 65.86680
## 648 111.65537 106.13036 117.18038
## 649 59.53559 53.71692 65.35426
## 650 56.21162 50.33828 62.08497
## 651 47.94603 41.92045 53.97160
## 652 85.27970 79.74444 90.81496
## 653 200.72657 193.38107 208.07207
## 654 48.21749 42.19727 54.23770
## 655 104.03795 98.53999 109.53591
## 656 58.20600 52.36593 64.04608
## 657 94.10483 88.60551 99.60415
## 658 106.24839 100.74507 111.75170
## 659 72.06694 66.41830 77.71558
## 660 144.36873 138.46435 150.27311
## 661 55.38617 49.49866 61.27369
## 662 61.19203 55.39915 66.98491
## 663 61.18649 55.39352 66.97946
## 664 97.34016 91.84585 102.83447
## 665 89.77814 84.26526 95.29102
## 666 65.07553 59.33922 70.81184
## 667 87.22422 81.69967 92.74878
## 668 40.57236 34.39252 46.75221
## 669 89.35156 83.83692 94.86620
## 670 192.68811 185.59351 199.78271
## 671 317.59720 305.74658 329.44783
## 672 53.98457 48.07245 59.89668
## 673 95.99395 90.49809 101.48981
## 674 113.83811 108.30089 119.37532
## 675 78.28829 72.70176 83.87483
## 676 58.22262 52.38282 64.06243
## 677 70.07256 64.40080 75.74431
## 678 83.75068 78.20591 89.29545
## 679 50.89328 44.92458 56.86198
## 680 182.55002 175.75364 189.34640
## 681 84.83097 79.29302 90.36892
## 682 108.32586 102.81566 113.83607
## 683 55.13133 49.23940 61.02327
## 684 53.05386 47.12504 58.98267
## 685 58.63258 52.79944 64.46572
## 686 60.98151 55.18541 66.77762
## 687 70.73181 65.06787 76.39576
## 688 130.28620 124.59519 135.97720
## 689 73.74554 68.11516 79.37592
## 690 166.43986 160.06906 172.81067
## 691 80.32145 74.75188 85.89103
## 692 65.61845 59.88960 71.34729
## 693 216.08883 208.23308 223.94458
## 694 109.25103 103.73718 114.76489
## 695 191.79064 184.72329 198.85799
## 696 61.73495 55.95030 67.51959
## 697 116.08178 110.52998 121.63359
## 698 77.01411 71.41610 82.61211
## 699 60.12282 54.31341 65.93224
## 700 74.60423 68.98276 80.22570
## 701 88.80311 83.28609 94.32012
## 702 187.97916 181.02574 194.93258
## 703 93.66164 88.16129 99.16198
## 704 75.40198 69.78854 81.01543
## 705 97.24598 91.75158 102.74037
## 706 151.69254 145.65007 157.73500
## 707 140.07528 134.24346 145.90709
## 708 61.50227 55.71411 67.29043
## 709 193.05929 185.95337 200.16521
## 710 112.95726 107.42520 118.48931
## 711 62.46068 56.68688 68.23448
## 712 91.88331 86.37801 97.38862
## 713 71.45201 65.79640 77.10761
## 714 250.35892 241.25097 259.46686
## 715 73.74554 68.11516 79.37592
## 716 72.21098 66.56394 77.85801
## 717 104.75814 99.25866 110.25762
## 718 89.88893 84.37650 95.40137
## 719 54.10090 48.19086 60.01095
## 720 69.34129 63.66067 75.02190
## 721 82.02776 76.47112 87.58439
## 722 76.02800 70.42067 81.63533
## 723 142.76769 136.89112 148.64426
## 724 67.83442 62.13492 73.53393
## 725 69.11969 63.43635 74.80303
## 726 111.83265 106.30672 117.35858
## 727 99.09632 93.60288 104.58976
## 728 85.34064 79.80574 90.87554
## 729 57.28637 51.43113 63.14161
## 730 114.71896 109.17626 120.26165
## 731 68.10588 62.40984 73.80192
## 732 109.37291 103.85855 114.88728
## 733 72.28854 66.64237 77.93471
## 734 82.85321 77.30241 88.40400
## 735 101.26244 95.76828 106.75659
## 736 157.31558 151.15549 163.47566
## 737 80.92531 75.36045 86.49017
## 738 67.96184 62.26397 73.65972
## 739 144.93935 139.02485 150.85384
## 740 176.45054 169.82274 183.07834
## 741 82.06100 76.50460 87.61739
## 742 75.30781 69.69342 80.92219
## 743 236.06586 227.49650 244.63523
## 744 93.56746 88.06688 99.06803
## 745 95.34024 89.84335 100.83712
## 746 96.80278 91.30795 102.29762
## 747 194.90963 187.74690 202.07236
## 748 71.37999 65.72356 77.03642
## 749 127.55501 121.89691 133.21310
## 750 105.36199 99.86107 110.86292
## 751 111.16785 105.64530 116.69041
## 752 51.41403 45.45509 57.37298
## 753 97.01884 91.52423 102.51345
## 754 84.88637 79.34875 90.42398
## 755 42.51134 36.37368 48.64901
## 756 75.64020 70.02910 81.25130
## 757 55.14795 49.25631 61.03960
## 758 154.42927 148.33077 160.52776
## 759 149.34914 143.35276 155.34552
## 760 86.43755 80.90885 91.96625
## 761 129.88178 124.19583 135.56774
## 762 92.17693 86.67254 97.68132
## 763 123.63827 118.02233 129.25420
## 764 85.93896 80.40750 91.47041
## 765 117.29503 111.73448 122.85558
## 766 81.47930 75.91864 87.03996
## 767 94.23225 88.73321 99.73129
## 768 107.27328 101.76679 112.77976
## 769 47.05964 41.01641 53.10286
## 770 103.46179 97.96489 108.95870
## 771 80.33807 74.76863 85.90752
## 772 84.99717 79.46022 90.53411
## 773 118.49166 112.92190 124.06142
## 774 407.06174 391.26974 422.85373
## 775 121.29487 115.70127 126.88847
## 776 159.53710 153.32791 165.74629
## 777 111.05152 105.52953 116.57350
## 778 142.57379 136.70052 148.44706
## 779 136.77901 130.99851 142.55951
## 780 132.10330 126.38883 137.81777
## 781 133.00631 127.27972 138.73290
## 782 234.66980 226.15189 243.18771
## 783 52.85996 46.92763 58.79229
## 784 58.42760 52.59113 64.26406
## 785 132.77363 127.05019 138.49707
## 786 87.34610 81.82216 92.87004
## 787 57.36393 51.50998 63.21788
## 788 87.66188 82.13952 93.18424
## 789 75.53494 69.92281 81.14708
## 790 70.75397 65.09029 76.41766
## 791 83.13574 77.58688 88.68461
## 792 196.88185 189.65785 204.10585
## 793 79.76192 74.18784 85.33599
## 794 73.15831 67.52166 78.79495
## 795 120.98463 115.39383 126.57544
## 796 161.11044 154.86560 167.35528
## 797 255.11219 245.82077 264.40361
## 798 87.49014 81.96693 93.01335
## 799 62.46622 56.69250 68.23993
## 800 51.98465 46.03629 57.93300
## 801 83.39058 77.84343 88.93773
## 802 113.24533 107.71163 118.77904
## 803 169.64749 163.19714 176.09784
## 804 115.26741 109.72114 120.81368
## 805 155.94167 149.81122 162.07213
## 806 62.29448 56.51822 68.07074
## 807 82.91415 77.36377 88.46452
## 808 105.02960 99.52949 110.52971
## 809 74.18320 68.55739 79.80900
## 810 133.14481 127.41633 138.87329
## 811 85.44590 79.91162 90.98018
## 812 87.86686 82.34549 93.38822
## 813 105.13486 99.63450 110.63522
## 814 71.62374 65.97010 77.27739
## 815 92.73093 87.22815 98.23370
## 816 48.92106 42.91461 54.92751
## 817 95.05216 89.55477 100.54956
## 818 98.33735 92.84369 103.83100
## 819 111.14016 105.61773 116.66258
## 820 84.13847 78.59621 89.68074
## 821 54.48316 48.57987 60.38645
## 822 252.84081 243.63732 262.04430
## 823 77.24679 71.65092 82.84265
## 824 137.50474 131.71328 143.29620
## 825 139.67640 133.85100 145.50180
## 826 138.56287 132.75509 144.37066
## 827 173.82461 167.26667 180.38255
## 828 90.27673 84.76581 95.78765
## 829 96.64212 91.14711 102.13714
## 830 192.94849 185.84595 200.05103
## 831 155.49848 149.37746 161.61949
## 832 131.92048 126.20843 137.63253
## 833 116.43080 110.87654 121.98506
## 834 82.45433 76.90075 88.00791
## 835 50.82126 44.85120 56.79131
## 836 96.10475 90.60905 101.60045
## 837 98.88026 93.38678 104.37374
## 838 86.50957 80.98126 92.03788
## 839 183.99594 177.15836 190.83352
## 840 638.18815 611.68446 664.69184
## 841 96.24325 90.74773 101.73876
## 842 194.33348 187.18851 201.47844
## 843 70.00608 64.33353 75.67863
## 844 148.76191 142.77680 154.74701
## 845 153.52626 147.44651 159.60601
## 846 72.94225 67.30327 78.58123
## 847 111.62213 106.09729 117.14697
## 848 118.75204 113.18020 124.32388
## 849 130.18094 124.49125 135.87062
## 850 209.56278 201.92837 217.19719
## 851 121.23947 115.64637 126.83257
## 852 126.48580 120.83980 132.13179
## 853 207.14736 199.59321 214.70152
## 854 176.04612 169.42919 182.66306
## 855 101.92723 96.43246 107.42200
## 856 94.32089 88.82204 99.81973
## 857 128.60759 122.93715 134.27804
## 858 75.02527 69.40806 80.64247
## 859 95.07986 89.58252 100.57721
## 860 122.93469 117.32569 128.54369
## 861 193.90690 186.77504 201.03876
## 862 134.24726 128.50351 139.99100
## 863 235.10191 226.56810 243.63573
## 864 105.99355 100.49096 111.49614
## 865 157.27126 151.11214 163.43038
## 866 314.57239 302.85055 326.29423
## 867 225.80589 217.60935 234.00243
## 868 178.01834 171.34804 184.68865
## 869 78.38247 72.79676 83.96818
## 870 89.14104 83.62550 94.65658
## 871 90.95260 85.44418 96.46103
## 872 120.51374 114.92710 126.10038
## 873 198.27238 191.00474 205.54001
## 874 187.40855 180.47193 194.34516
## 875 118.49720 112.92740 124.06700
## 876 256.62459 247.27438 265.97481
## 877 253.60532 244.37229 262.83836
## 878 253.54992 244.31903 262.78082
## 879 75.72330 70.11301 81.33359
## 880 92.99130 87.48924 98.49336
## 881 153.57058 147.48991 159.65124
## 882 137.98118 132.18242 143.77994
## 883 77.08059 71.48320 82.67798
## 884 94.27657 88.77763 99.77551
## 885 148.09157 142.11920 154.06395
## 886 117.04573 111.48703 122.60444
## 887 124.04268 118.42267 129.66269
## 888 94.90812 89.41046 100.40579
## 889 137.15573 131.36956 142.94189
## 890 190.58847 183.55738 197.61957
## 891 305.59215 294.25025 316.93404
## 892 139.68194 133.85645 145.50743
## 893 453.54186 435.63590 471.44782
## 894 596.99314 572.42537 621.56090
## 895 223.04146 214.94316 231.13976
## 896 156.22421 150.08771 162.36071
## 897 295.36541 284.45148 306.27935
## 898 114.35886 108.81844 119.89928
## 899 171.08234 164.59553 177.56914
## 900 294.59536 283.71343 305.47729
## 901 346.21655 333.13002 359.30308
## 902 97.73349 92.23949 103.22750
## 903 221.96117 213.90099 230.02135
## 904 131.85954 126.14829 137.57079
## 905 307.93554 296.49486 319.37622
## 906 85.31848 79.78345 90.85351
## 907 151.72024 145.67721 157.76326
## 908 417.67627 401.40441 433.94813
## 909 442.95503 425.53326 460.37679
## 910 117.10667 111.54752 122.66582
## 911 81.82278 76.26465 87.38090
## 912 160.58414 154.35131 166.81698
## 913 193.35291 186.23802 200.46779
## 914 174.40630 167.83303 180.97957
## 915 143.47126 137.58258 149.35994
## 916 151.54296 145.50348 157.58243
## 917 109.25103 103.73718 114.76489
## 918 103.72217 98.22481 109.21954
## 919 60.83747 55.03915 66.63579
## 920 177.61947 170.96003 184.27891
## 921 139.37724 133.55662 145.19787
## 922 144.27455 138.37184 150.17727
## 923 150.16905 144.15675 156.18135
## 924 170.09069 163.62913 176.55224
## 925 142.81755 136.94012 148.69497
## 926 271.23896 261.31104 281.16688
## 927 100.23755 94.74398 105.73112
## 928 224.59818 216.44468 232.75168
## 929 170.62806 164.15285 177.10327
## 930 117.25071 111.69050 122.81093
## 931 303.95786 292.68471 315.23101
## 932 171.71943 165.21627 178.22259
## 933 213.36318 205.60065 221.12571
## 934 474.77646 455.89531 493.65761
## 935 167.31517 160.92293 173.70742
## 936 156.62309 150.47801 162.76816
## 937 176.78848 170.15156 183.42539
## 938 577.69198 554.02861 601.35535
## 939 151.62606 145.58492 157.66719
## 940 200.33877 193.00565 207.67190
## 941 208.18333 200.59487 215.77180
## 942 311.81904 300.21408 323.42400
## 943 165.83047 159.47447 172.18647
## 944 582.82750 558.92368 606.73132
## 945 224.23255 216.09204 232.37305
## 946 189.05391 182.06867 196.03915
## 947 836.99454 801.07675 872.91232
## 948 249.79938 240.71290 258.88586
## 949 276.54623 266.40458 286.68787
## 950 1123.57024 1073.97906 1173.16141
## 951 1369.48830 1308.12173 1430.85486
## 952 360.76444 347.03934 374.48953
## 953 409.12814 393.24287 425.01340
## 954 848.35696 811.89872 884.81520
## 955 753.50760 721.55424 785.46095
## 956 764.41021 731.93988 796.88054
## 957 1945.54263 1856.53153 2034.55373
En el análisis de datos, las variables cualitativas clasificadoras ofrecen una valiosa perspectiva sobre las diferencias y similitudes entre grupos. En este estudio, nos enfocaremos en una única variable cualitativa clasificadora: “country”, que nos permitirá explorar un conjunto diverso de naciones. A través de la aplicación de diversas pruebas de Análisis de Componentes Múltiples (ACM), bitplo ACM, calidad de representaciones, contribuciones y bitplo de contribuciones, buscaremos desentrañar patrones significativos en cómo cada país se presenta y contribuye a su respectivo ámbito. Este enfoque nos permitirá identificar variaciones entre los países.
Al profundizar en el análisis de la variable “country”, se revela la complejidad de las pruebas, como el Análisis de Componentes Múltiples (ACM) y el bitplo ACM, nos permiten visualizar y comprender cómo cada país se posiciona en relación con las métricas de calidad de representación y contribuciones. A través del análisis de estas variables, emergen patrones que reflejan la diversidad en la forma en que los países presentan sus datos, también la variabilidad conclusion
ACM: La tabla ayuda a entender qué cantidad de información (varianza) se retiene al reducir la dimensionalidad de los datos usando ACP. Se puede observar que la parte de la varianza mas alta se concentra en el prime campo (dim 1, principalmente). Los últimos componentes principales contribuyen muy poco a la varianza total. Esto sugiere que la reducción de la dimensionalidad a un número menor de componentes principales, manteniendo una alta proporción de la varianza, podría ser posible sin una pérdida significativa de información. El biplot del Análisis de Componentes Múltiples (ACM) ofrece una representación visual clara de las interrelaciones entre las diversas observaciones (las cinco variables) y la variable categórica “country”. Al analizar la distribución de los puntos y los vectores en la gráfica, se pueden identificar patrones relevantes en los datos. Los puntos que se agrupan indican que comparten características comunes, mientras que la dirección y longitud de los vectores revelan cuáles variables ejercen mayor influencia. Un vector largo que se orienta hacia un grupo particular de puntos sugiere que esa variable desempeña un papel significativo en el análisis.
La calidad de representación se manifiesta en un plano que ilustra las relaciones entre las variables, utilizando un concepto de proximidad para destacar cómo se agrupan los nombres de la variable “country” junto con los de “code_type”. Esta visualización permite observar la cercanía entre los diferentes grupos, revelando el grado de relación que existe entre estas variables cualitativas. Cuanto más próximos estén los nombres en el gráfico, mayor será la similitud en sus características y comportamientos. Así, esta representación no solo facilita la identificación de patrones y agrupaciones significativas, sino que también proporciona una comprensión más clara de cómo interactúan estas variables en el contexto del análisis. El gráfico de contribuciones del Análisis de Componentes Múltiples (ACM) es súper útil para entender qué variables tienen más peso en la primera dimensión del análisis. Básicamente, te muestra cuáles factores realmente importan y cómo están relacionados entre sí. Esto ayuda a tener una idea más clara de qué está influyendo más en los datos y, a partir de ahí, decidir en qué enfocarse. Es una herramienta muy práctica porque te permite priorizar lo importante y planear estrategias o investigaciones basadas en lo que realmente está moviendo los resultados. Bitplo de contribuciones: Esta pestaña refleja aspectos similares a los presentados en la sección de calidad de representación, ya que también ilustra las contribuciones y las relaciones entre las variables dentro del conjunto de datos. Al analizar esta información, se puede apreciar cómo cada variable interactúa con las demás y qué tan influyentes son en el contexto general del análisis. Esta visualización permite identificar no solo la fuerza de estas relaciones, sino también su relevancia en la interpretación de los datos.
summary(Dataset$Votes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 33.00 41.00 57.00 99.39 101.00 2130.00
summary(Dataset$Comments)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 11.00 19.00 30.67 33.00 749.00
summary(Dataset$Views)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 582 3898 7429 12347 13469 345590
summary(Dataset$Forks)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.0 23.0 52.0 151.6 122.0 9879.0
table(Dataset$Code_Type)
##
## Notebook Script
## 581 376
prop.table(table(Dataset$Code_Type))
##
## Notebook Script
## 0.6071055 0.3928945
barplot(table(Dataset$Code_Type))
table(Dataset$Language)
##
## markdown Python R SQLite
## 144 718 94 1
prop.table(table(Dataset$Language))
##
## markdown Python R SQLite
## 0.150470219 0.750261233 0.098223615 0.001044932
barplot(table(Dataset$Language))
table(Dataset$Country)
##
## Argentina Australia Bangladesh Belgium Brazil
## 13 27 29 7 32
## Canada China England France Germany
## 25 18 85 31 103
## India Israel Lebanon Netherlands Norway
## 109 16 10 13 13
## Poland Portugal Russia South Africa Spain
## 28 13 23 8 40
## Taiwan Ukraine United States Vietnam
## 6 30 271 7
prop.table(table(Dataset$Country))
##
## Argentina Australia Bangladesh Belgium Brazil
## 0.013584117 0.028213166 0.030303030 0.007314525 0.033437827
## Canada China England France Germany
## 0.026123302 0.018808777 0.088819227 0.032392894 0.107628004
## India Israel Lebanon Netherlands Norway
## 0.113897597 0.016718913 0.010449321 0.013584117 0.013584117
## Poland Portugal Russia South Africa Spain
## 0.029258098 0.013584117 0.024033438 0.008359457 0.041797283
## Taiwan Ukraine United States Vietnam
## 0.006269592 0.031347962 0.283176594 0.007314525
barplot(table(Dataset$Country))
pairs(~Comments + Views + Votes + Forks, data = Dataset_Muestreado3)
En el presente estudio, se analizará un conjunto de datos que incluye variables cuantitativas y variables cualitativas clasificadoras. El objetivo principal es realizar un análisis descriptivo y aplicar un análisis de varianza (ANOVA) para el modelo de regresión lineal múltiple (RLM) total. Se calcularán los coeficientes del modelo RLM total para comprender la relación entre las variables y, posteriormente, se depurará el modelo para obtener los coeficientes del modelo RLM ajustado. Este enfoque permitirá identificar los factores significativos que influyen en la variable dependiente y proporcionará una visión clara de la estructura del conjunto de datos.
El análisis de los datos se centrará en las variables cuantitativas, las cuales permitirán evaluar numéricamente las relaciones existentes entre las distintas observaciones. A través del modelo de regresión lineal múltiple (RLM) total, se llevará a cabo un análisis de varianza (ANOVA) que facilitará la identificación de diferencias significativas entre los grupos definidos por las variables cualitativas clasificadoras. Este proceso no solo permitirá calcular los coeficientes del modelo RLM total, sino que también se procederá a depurar el modelo para optimizar su precisión y relevancia. Al obtener los coeficientes del modelo RLM depurado, se espera poder ofrecer una interpretación más clara y fundamentada de cómo las variables independientes impactan en la variable dependiente estudiada.
conclusion
Resumen y anova: Este muestra los coeficientes y que factores son significativas para seguir el estudio, teniendo en cuenta que las variables cauantitativas y las cualitativas para tomarlas en cuente las debe convertir en factor
Corficientes del modelo RLM: El número de comentarios (Comments) parece ser el factor que más contribuye positivamente a los votos. Un incremento de una unidad en Comments está asociado con un aumento promedio de 1.90485895 en Votes. Algunas categorías específicas de Country y Code_Type parecen influir negativamente en la cantidad de votos, lo que podría indicar sesgos en la audiencia.
Coeficientes del modelo reducido - Comments y Views tienen un efecto positivo en los votos, siendo Comments el factor con mayor impacto. - Forks tiene un efecto negativo en los votos, aunque el impacto es pequeño. - El tipo de código (Code_Type) juega un papel importante, y ser del tipo Script reduce significativamente los votos en comparación con el nivel de referencia.
summary(lm(Dataset$Votes~Dataset$Comments+Dataset$Views+Dataset$Forks+as.factor(Dataset$Code_Type)+as.factor(Dataset$Language)+as.factor(Dataset$Country)))
##
## Call:
## lm(formula = Dataset$Votes ~ Dataset$Comments + Dataset$Views +
## Dataset$Forks + as.factor(Dataset$Code_Type) + as.factor(Dataset$Language) +
## as.factor(Dataset$Country))
##
## Residuals:
## Min 1Q Median 3Q Max
## -270.10 -26.19 -3.48 20.11 553.86
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.717e+01 1.952e+01 3.954 8.27e-05
## Dataset$Comments 1.904e+00 7.126e-02 26.718 < 2e-16
## Dataset$Views 2.976e-03 1.914e-04 15.548 < 2e-16
## Dataset$Forks -3.494e-02 6.950e-03 -5.027 5.97e-07
## as.factor(Dataset$Code_Type)Script -2.961e+01 5.156e+00 -5.743 1.26e-08
## as.factor(Dataset$Language)Python -1.935e+01 7.082e+00 -2.732 0.00641
## as.factor(Dataset$Language)R -3.778e+01 8.806e+00 -4.291 1.97e-05
## as.factor(Dataset$Language)SQLite -1.530e+01 6.400e+01 -0.239 0.81109
## as.factor(Dataset$Country)Australia -4.855e+01 2.150e+01 -2.258 0.02416
## as.factor(Dataset$Country)Bangladesh -2.973e+01 2.123e+01 -1.401 0.16166
## as.factor(Dataset$Country)Belgium -5.786e+01 2.982e+01 -1.940 0.05266
## as.factor(Dataset$Country)Brazil -6.035e+01 2.094e+01 -2.882 0.00405
## as.factor(Dataset$Country)Canada -5.849e+01 2.173e+01 -2.692 0.00724
## as.factor(Dataset$Country)China -9.701e+00 2.311e+01 -0.420 0.67480
## as.factor(Dataset$Country)England -3.770e+01 1.896e+01 -1.988 0.04711
## as.factor(Dataset$Country)France -3.529e+01 2.101e+01 -1.679 0.09341
## as.factor(Dataset$Country)Germany -3.723e+01 1.869e+01 -1.992 0.04670
## as.factor(Dataset$Country)India -3.431e+01 1.867e+01 -1.838 0.06638
## as.factor(Dataset$Country)Israel -6.016e+01 2.372e+01 -2.537 0.01136
## as.factor(Dataset$Country)Lebanon -6.148e+01 2.672e+01 -2.301 0.02163
## as.factor(Dataset$Country)Netherlands -4.968e+01 2.497e+01 -1.990 0.04691
## as.factor(Dataset$Country)Norway -5.715e+01 2.492e+01 -2.293 0.02206
## as.factor(Dataset$Country)Poland -3.466e+01 2.134e+01 -1.624 0.10465
## as.factor(Dataset$Country)Portugal -4.953e+01 2.489e+01 -1.989 0.04694
## as.factor(Dataset$Country)Russia -3.942e+01 2.209e+01 -1.785 0.07464
## as.factor(Dataset$Country)South Africa -5.441e+00 2.858e+01 -0.190 0.84907
## as.factor(Dataset$Country)Spain -3.561e+01 2.028e+01 -1.755 0.07954
## as.factor(Dataset$Country)Taiwan -4.302e+01 3.151e+01 -1.365 0.17247
## as.factor(Dataset$Country)Ukraine -2.964e+01 2.112e+01 -1.403 0.16084
## as.factor(Dataset$Country)United States -3.508e+01 1.808e+01 -1.940 0.05264
## as.factor(Dataset$Country)Vietnam -7.115e+01 2.993e+01 -2.377 0.01766
##
## (Intercept) ***
## Dataset$Comments ***
## Dataset$Views ***
## Dataset$Forks ***
## as.factor(Dataset$Code_Type)Script ***
## as.factor(Dataset$Language)Python **
## as.factor(Dataset$Language)R ***
## as.factor(Dataset$Language)SQLite
## as.factor(Dataset$Country)Australia *
## as.factor(Dataset$Country)Bangladesh
## as.factor(Dataset$Country)Belgium .
## as.factor(Dataset$Country)Brazil **
## as.factor(Dataset$Country)Canada **
## as.factor(Dataset$Country)China
## as.factor(Dataset$Country)England *
## as.factor(Dataset$Country)France .
## as.factor(Dataset$Country)Germany *
## as.factor(Dataset$Country)India .
## as.factor(Dataset$Country)Israel *
## as.factor(Dataset$Country)Lebanon *
## as.factor(Dataset$Country)Netherlands *
## as.factor(Dataset$Country)Norway *
## as.factor(Dataset$Country)Poland
## as.factor(Dataset$Country)Portugal *
## as.factor(Dataset$Country)Russia .
## as.factor(Dataset$Country)South Africa
## as.factor(Dataset$Country)Spain .
## as.factor(Dataset$Country)Taiwan
## as.factor(Dataset$Country)Ukraine
## as.factor(Dataset$Country)United States .
## as.factor(Dataset$Country)Vietnam *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 63.42 on 926 degrees of freedom
## Multiple R-squared: 0.8103, Adjusted R-squared: 0.8041
## F-statistic: 131.8 on 30 and 926 DF, p-value: < 2.2e-16
coefficients(lm(Dataset$Votes~Dataset$Comments+Dataset$Views+Dataset$Forks+as.factor(Dataset$Code_Type)+as.factor(Dataset$Language)+as.factor(Dataset$Country)))
## (Intercept) Dataset$Comments
## 77.16720104 1.90405895
## Dataset$Views Dataset$Forks
## 0.00297632 -0.03494092
## as.factor(Dataset$Code_Type)Script as.factor(Dataset$Language)Python
## -29.60954671 -19.35198089
## as.factor(Dataset$Language)R as.factor(Dataset$Language)SQLite
## -37.78336149 -15.30198108
## as.factor(Dataset$Country)Australia as.factor(Dataset$Country)Bangladesh
## -48.55479575 -29.73372467
## as.factor(Dataset$Country)Belgium as.factor(Dataset$Country)Brazil
## -57.86493529 -60.34814058
## as.factor(Dataset$Country)Canada as.factor(Dataset$Country)China
## -58.49423708 -9.70116335
## as.factor(Dataset$Country)England as.factor(Dataset$Country)France
## -37.69854863 -35.29060596
## as.factor(Dataset$Country)Germany as.factor(Dataset$Country)India
## -37.22967472 -34.30764260
## as.factor(Dataset$Country)Israel as.factor(Dataset$Country)Lebanon
## -60.15906269 -61.48134464
## as.factor(Dataset$Country)Netherlands as.factor(Dataset$Country)Norway
## -49.67554458 -57.15233261
## as.factor(Dataset$Country)Poland as.factor(Dataset$Country)Portugal
## -34.66318276 -49.52617638
## as.factor(Dataset$Country)Russia as.factor(Dataset$Country)South Africa
## -39.41881745 -5.44060608
## as.factor(Dataset$Country)Spain as.factor(Dataset$Country)Taiwan
## -35.60605924 -43.01642695
## as.factor(Dataset$Country)Ukraine as.factor(Dataset$Country)United States
## -29.63660617 -35.07722205
## as.factor(Dataset$Country)Vietnam
## -71.14915784
coefficients(lm(Dataset$Votes~Dataset$Comments+Dataset$Views+Dataset$Forks+as.factor(Dataset$Code_Type)))
## (Intercept) Dataset$Comments
## 18.195429766 1.932182162
## Dataset$Views Dataset$Forks
## 0.002993868 -0.037476669
## as.factor(Dataset$Code_Type)Script
## -23.800366384
En este estudio, se analizará un conjunto de datos que incluye variables cuantitativas y variables cualitativas clasificadoras, con el objetivo de identificar el mejor modelo mediante un proceso iterativo basado en el Índice de Calidad Total (ICT). Se evaluarán las bondades del estudio significativo, así como los criterios de información para la comparación de modelos. Este enfoque permitirá seleccionar el modelo que no solo se ajuste adecuadamente a los datos, sino que también ofrezca una interpretación clara y fundamentada de las relaciones entre las variables. A través de este análisis, se espera contribuir a una comprensión más precisa de los factores que influyen en la variable dependiente, optimizando así la interpretación de los resultados.
El análisis se centrará en seleccionar el modelo más adecuado utilizando únicamente variables cuantitativas y cualitativas clasificadoras. Para ello, se empleará un enfoque iterativo basado en el Índice de Calidad Total (ICT), evaluando distintas opciones de modelado para identificar la que ofrezca el mejor equilibrio entre ajuste y relevancia estadística. Además, se utilizarán criterios de información para comparar los modelos, asegurando una evaluación completa y objetiva. Este procedimiento no solo permitirá una selección sólida del modelo, sino que también aportará información valiosa sobre cómo las variables se relacionan entre sí y cómo influyen en la variable dependiente.
conclusion
Mejor modelo iterado
el modelo final recomendado por este análisis stepwise, basado en el AIC, es aquel que incluye Dataset\(Comments, Dataset\)Views, Dataset\(Forks, Dataset\)Code_Type y Dataset\(Language como predictores de Dataset\)Votes, excluyendo Dataset$Country. La tabla muestra el Sum of Squares, RSS y AIC para cada paso y la inclusión/exclusión de cada variable. este modelo sugiere que mientras más comentarios se tengan, mayor será la predicción positiva sobre la variable dependiente, pero ciertos lenguajes y tipos de código tienen efectos negativos significativos sobre ella, siendo R y Script los que más reducen su valor esperado.
Bondades de ajustes
Los resultados sugieren que existe una relación significativa entre las variables independientes y la variable dependiente analizada. En particular, la cantidad de comentarios y votos parecen influir en el modelo de manera notable. Además, el uso de diferentes lenguajes de programación y estructuras de base de datos también se considera en la evaluación del modelo, lo que indica que las preferencias y elecciones de lenguaje pueden tener un impacto en el comportamiento observado en la variable dependiente. Se recomienda un análisis adicional para explorar estas relaciones en profundidad y considerar otros factores que podrían influir en los resultados. Basándonos en los valores AIC y BIC presentados para tres modelos diferentes (modelo_RLM_TOTAL, modelo_RLM_REDUCIDO y modelo_Iterado_STEP), se observa que el modelo_RLM_TOTAL presenta los valores AIC y BIC más bajos. Esto sugiere que, según estos criterios de información, el modelo_RLM_TOTAL es el modelo que mejor se ajusta a los datos, penalizando la complejidad del modelo. A pesar de que el modelo_Iterado_STEP tiene un AIC ligeramente inferior al modelo_RLM_REDUCIDO, ambos presentan valores AIC y BIC significativamente superiores al modelo_RLM_TOTAL. Por lo tanto, se recomienda el modelo_RLM_TOTAL como el mejor modelo entre los tres evaluados.
modelo_Iterado_STEP = step(lm(Dataset$Votes~Dataset$Comments+Dataset$Views+Dataset$Forks+as.factor(Dataset$Code_Type)+as.factor(Dataset$Language)+as.factor(Dataset$Country)))
## Start: AIC=7973.23
## Dataset$Votes ~ Dataset$Comments + Dataset$Views + Dataset$Forks +
## as.factor(Dataset$Code_Type) + as.factor(Dataset$Language) +
## as.factor(Dataset$Country)
##
## Df Sum of Sq RSS AIC
## - as.factor(Dataset$Country) 23 112017 3836738 7955.6
## <none> 3724721 7973.2
## - as.factor(Dataset$Language) 3 74184 3798905 7986.1
## - Dataset$Forks 1 101663 3826384 7997.0
## - as.factor(Dataset$Code_Type) 1 132665 3857386 8004.7
## - Dataset$Views 1 972350 4697071 8193.2
## - Dataset$Comments 1 2871471 6596192 8518.2
##
## Step: AIC=7955.59
## Dataset$Votes ~ Dataset$Comments + Dataset$Views + Dataset$Forks +
## as.factor(Dataset$Code_Type) + as.factor(Dataset$Language)
##
## Df Sum of Sq RSS AIC
## <none> 3836738 7955.6
## - as.factor(Dataset$Language) 3 78442 3915180 7969.0
## - Dataset$Forks 1 108392 3945129 7980.2
## - as.factor(Dataset$Code_Type) 1 137680 3974418 7987.3
## - Dataset$Views 1 1017722 4854459 8178.7
## - Dataset$Comments 1 2971539 6808277 8502.4
coefficients(modelo_Iterado_STEP)
## (Intercept) Dataset$Comments
## 39.60773061 1.90836196
## Dataset$Views Dataset$Forks
## 0.00298039 -0.03558517
## as.factor(Dataset$Code_Type)Script as.factor(Dataset$Language)Python
## -29.80324069 -19.51339911
## as.factor(Dataset$Language)R as.factor(Dataset$Language)SQLite
## -38.55885966 -15.28883919
modelo_RLM_TOTAL = lm(Dataset$Comments~Dataset$Views+Dataset$Votes+Dataset$Forks+as.factor(Dataset$Code_Type)+as.factor(Dataset$Language))
modelo_RLM_REDUCIDO = lm(Dataset$Votes~Dataset$Comments+Dataset$Views+Dataset$Forks+as.factor(Dataset$Code_Type))
stargazer(modelo_RLM_TOTAL, modelo_RLM_REDUCIDO, modelo_Iterado_STEP, type = "text", df = TRUE)
##
## ==============================================================================================
## Dependent variable:
## --------------------------------------------------------------------------
## Comments Votes
## (1) (2) (3)
## ----------------------------------------------------------------------------------------------
## Comments 1.932*** 1.908***
## (0.071) (0.070)
##
## Views 0.0001 0.003*** 0.003***
## (0.0001) (0.0002) (0.0002)
##
## Votes 0.229***
## (0.008)
##
## Forks 0.018*** -0.037*** -0.036***
## (0.002) (0.007) (0.007)
##
## Code_Type)Script 5.030*** -23.800*** -29.803***
## (1.792) (4.333) (5.107)
##
## Language)Python 2.528 -19.513***
## (2.434) (7.007)
##
## Language)R 3.391 -38.559***
## (3.061) (8.759)
##
## Language)SQLite -8.476 -15.289
## (22.094) (63.825)
##
## Constant 0.028 18.195*** 39.608***
## (2.687) (3.057) (7.654)
##
## ----------------------------------------------------------------------------------------------
## Observations 957 957 957
## R2 0.771 0.801 0.805
## Adjusted R2 0.770 0.800 0.803
## Residual Std. Error 22.012 (df = 949) 64.129 (df = 952) 63.584 (df = 949)
## F Statistic 457.584*** (df = 7; 949) 955.437*** (df = 4; 952) 558.142*** (df = 7; 949)
## ==============================================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
AIC(modelo_RLM_TOTAL, modelo_RLM_REDUCIDO, modelo_Iterado_STEP)
## df AIC
## modelo_RLM_TOTAL 9 8643.113
## modelo_RLM_REDUCIDO 6 10686.804
## modelo_Iterado_STEP 9 10673.436
BIC(modelo_RLM_TOTAL, modelo_RLM_REDUCIDO, modelo_Iterado_STEP)
## df BIC
## modelo_RLM_TOTAL 9 8686.887
## modelo_RLM_REDUCIDO 6 10715.987
## modelo_Iterado_STEP 9 10717.210
En esta fase regresión logística simple se busca examinar la relación entre una variable dependiente dicotómica (binaria) y una o más variables independientes. Este tipo de análisis es particularmente útil cuando se desea predecir la probabilidad de que ocurra un evento, como la presencia o ausencia de una característica; con esto se busca modelar esta relación para comprender cómo las variables de estudio afectan las probabilidades de un resultado determinado. El proceso comienza con un análisis estadístico preliminar de los datos, que incluye la obtención de resúmenes descriptivos y gráficos. A través de estos, se evalúa la distribución de las variables y se identifican posibles problemas en los datos, como valores atípicos o sesgos.
Para realizar una conclusión adecuada sobre esta sección, es importante comprender brevemente los pasos realizados en el análisis de Regresión Logística Simple. En primer lugar, se obtiene un resumen estadístico de las variables de estudio, lo que permite explorar las características de los datos y detectar posibles problemas como valores atípicos. Luego, se formula el modelo de RLogS, que establece la relación entre las variables independientes y la probabilidad del evento de interés. A continuación, se utilizan diagramas de cajas para visualizar la dispersión de los datos y detectar posibles valores extremos que puedan influir en el modelo. Además, se complementa el análisis con diagramas de barras que permiten examinar la distribución de las variables categóricas, y histogramas para estudiar la distribución de las variables continuas. Estos pasos permiten validar el modelo, interpretar los resultados de manera efectiva y asegurar que los datos sean adecuados para el análisis, garantizando así la robustez y fiabilidad del modelo de regresión logística simple. conclusion
Luego de realizar los diferentes estudios para cada pestaña en esta fase, se puede decir de cada una de estas lo siguiente; El Resumen estadístico de las variables de estudio El diagrama de caja, combinado con el resumen estadístico de la variable “Comments”, confirma una fuerte presencia de valores extremos en los datos situacion antes presentada en la sección 1.3, solo que adiferencia del estudio realizado en esta seccion se sabe que el valor máximo de 749 se encuentra muy alejado de la media (41.08) y del tercer cuartil (31.00), lo que refuerza la identificación de valores atípicos que podrían influir significativamente en el análisis. En cuanto al histograma de Comments refuerza las observaciones derivadas del análisis estadístico y del diagrama de caja antes realizado, mostrando una distribución altamente sesgada hacia la izquierda. La mayor parte de las observaciones se concentran en valores bajos, específicamente entre 0 y 50, como lo evidencia la barra más alta en el histograma. Esto coincide con el primer cuartil (11.50) y la mediana (20.00), lo que indica que la mayoría de los kernels depositados en nuestro conjunto de datos tienen pocos comentarios. En cuanto a el análisis del diagrama de barras Muestra que el tipo de codigo Notebooks se utilizan con mayor frecuencia en comparación con los Scripts en este contexto, lo que podría reflejar una preferencia general de los usuarios por este formato debido a sus ventajas para tareas específicas, como la visualización de resultados o la integración de texto y código; diferente a este, el Resumen y Diagrama de Cajas Conjunto muestra que aunque ambos formatos tienen distribuciones similares en términos de sus valores centrales, los Notebooks tienden a tener más variabilidad y valores atípicos extremos en comparación con los Scripts. Esto podría indicar que los Notebooks son más propensos a registrar valores altos en ciertas situaciones específicas.
En esta fase regresión logística simple se busca examinar la relación entre una variable dependiente dicotómica (binaria) y una o más variables independientes. Este tipo de análisis es particularmente útil cuando se desea predecir la probabilidad de que ocurra un evento, como la presencia o ausencia de una característica; con esto se busca modelar esta relación para comprender cómo las variables de estudio afectan las probabilidades de un resultado determinado. El proceso comienza con un análisis estadístico preliminar de los datos, que incluye la obtención de resúmenes descriptivos y gráficos. A través de estos, se evalúa la distribución de las variables y se identifican posibles problemas en los datos, como valores atípicos o sesgos.
Para realizar una conclusión adecuada sobre esta sección, es importante comprender brevemente los pasos realizados en el análisis de Regresión Logística Simple. En primer lugar, se obtiene un resumen estadístico de las variables de estudio, lo que permite explorar las características de los datos y detectar posibles problemas como valores atípicos. Luego, se formula el modelo de RLogS, que establece la relación entre las variables independientes y la probabilidad del evento de interés. A continuación, se utilizan diagramas de cajas para visualizar la dispersión de los datos y detectar posibles valores extremos que puedan influir en el modelo. Además, se complementa el análisis con diagramas de barras que permiten examinar la distribución de las variables categóricas, y histogramas para estudiar la distribución de las variables continuas. Estos pasos permiten validar el modelo, interpretar los resultados de manera efectiva y asegurar que los datos sean adecuados para el análisis, garantizando así la robustez y fiabilidad del modelo de regresión logística simple. conclusion
Luego de realizar los diferentes estudios para cada pestaña en esta fase, se puede decir de cada una de estas lo siguiente; El Resumen estadístico de las variables de estudio El diagrama de caja, combinado con el resumen estadístico de la variable “votes”, confirma una fuerte presencia de valores extremos en los datos situacion antes presentada en la sección 1.3, solo que adiferencia del estudio realizado en esta seccion se sabe que el valor máximo de 2130 se encuentra muy alejado de la media (127.6) y del tercer cuartil (92.5), lo que refuerza la identificación de valores atípicos que podrían influir significativamente en el análisis. En cuanto al histograma de votes refuerza las observaciones derivadas del análisis estadístico y del diagrama de caja antes realizado, mostrando una distribución altamente sesgada hacia la izquierda. La mayor parte de las observaciones se concentran en valores bajos, específicamente entre 0 y 50, como lo evidencia la barra más alta en el histograma. Esto coincide con el primer cuartil (40.5) y la mediana (57.00), lo que indica que la mayoría de los kernels depositados en nuestro conjunto de datos tienen pocos comentarios. En cuanto a el análisis del diagrama de barras Muestra que el tipo de codigo Notebooks se utilizan con mayor frecuencia en comparación con los Scripts en este contexto, lo que podría reflejar una preferencia general de los usuarios por este formato debido a sus ventajas para tareas específicas, como la visualización de resultados o la integración de texto y código; diferente a este, el Resumen y Diagrama de Cajas Conjunto muestra que aunque ambos formatos tienen distribuciones similares en términos de sus valores centrales, los Notebooks tienden a tener más variabilidad y valores atípicos extremos en comparación con los Scripts. Esto podría indicar que los Notebooks son más propensos a registrar valores altos en ciertas situaciones específicas.
summary(Dataset_Muestreado3$Votes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 33.0 40.5 57.0 127.6 92.5 2130.0
boxplot(Dataset_Muestreado3$Votes, main = "Diagrama de Caja de Votes", col = c("brown4"))
summary(Dataset_Muestreado3$Votes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 33.0 40.5 57.0 127.6 92.5 2130.0
hist(Dataset_Muestreado3$Votes, main = "Histograma de Votes", col = c("gold"))
table(Dataset$Code_Type)
##
## Notebook Script
## 581 376
prop.table(table(Dataset$Code_Type))
##
## Notebook Script
## 0.6071055 0.3928945
barplot(table(Dataset$Code_Type))
tapply(Dataset$Votes, Dataset$Code_Type, mean)
## Notebook Script
## 108.8812 84.7367
tapply(Dataset$Votes, Dataset$Code_Type, median)
## Notebook Script
## 60 53
boxplot(Dataset_Muestreado3$Votes~Dataset_Muestreado3$Code_Type, main = "Boxplot Conjunto: Votes-Code_Type", col = c("orange", "gold"))
En esta fase regresión logística simple se busca examinar la relación entre una variable dependiente dicotómica (binaria) y una o más variables independientes. Este tipo de análisis es particularmente útil cuando se desea predecir la probabilidad de que ocurra un evento, como la presencia o ausencia de una característica; con esto se busca modelar esta relación para comprender cómo las variables de estudio afectan las probabilidades de un resultado determinado. El proceso comienza con un análisis estadístico preliminar de los datos, que incluye la obtención de resúmenes descriptivos y gráficos. A través de estos, se evalúa la distribución de las variables y se identifican posibles problemas en los datos, como valores atípicos o sesgos.
En esta etapa, se emplean herramientas clave para la formulación del modelo de RLogS, como el cálculo de los coeficientes del modelo, que cuantifican la influencia de cada variable independiente en la probabilidad del evento de interés. Estos coeficientes permiten identificar la dirección y magnitud de los efectos, lo que facilita la interpretación de los resultados. Además, se realiza un resumen estadístico del modelo, que incluye métricas como el estadístico de verosimilitud y los valores p asociados a cada variable, ayudando a determinar su relevancia y significancia en el modelo. Estos pasos aseguran que el modelo sea matemáticamente robusto y estadísticamente válido, proporcionando una representación clara de las relaciones entre las variables de estudio y el evento analizado. conclusion
En el estudio de Coeficientes del Modelo RLogS se muestra el coeficiente de **Dataset\(Votes** como negativo, de lo cual se puede inferir que un aumento en los votos está asociado con una disminución en la probabilidad de que ocurra el evento de interés (en este caso, el evento asociado a la variable Code_Type). Sin embargo, el valor absoluto del coeficiente es pequeño (-0.0016), lo que sugiere que el efecto de los votos sobre la probabilidad de que ocurra el evento es relativamente débil. Por otro lado,de el **Resumen Estadístico del Modelo RLogS** se puede extraer que el número de votos tiene una relación significativa con la probabilidad de que ocurra el evento de interés, dado que el coeficiente de Dataset\)Votes es negativo y su p-valor es menor que 0.05. Este resultado sugiere que, a medida que aumenta el número de votos, la probabilidad de que ocurra el evento de interés disminuye.El intercepto del modelo también es significativo y negativo, lo que indica que cuando el número de votos es cero, la probabilidad de que ocurra el evento es baja. Además, se observa que el AIC del modelo es 1278.7, lo que proporciona una medida de la bondad de ajuste del modelo. Un AIC más bajo generalmente indica un mejor ajuste, y este valor puede ser utilizado para comparar con otros modelos, aunque en este caso solo se presenta un modelo para la variable Code_Type.
Dataset$Code_Type <- as.factor(Dataset$Code_Type)
modelo_RLog_Simple = glm (Dataset$Code_Type~Dataset$Votes, family = "binomial", data = data.frame(Dataset$Code_Type, Dataset$Votes))
coef(modelo_RLog_Simple)
## (Intercept) Dataset$Votes
## -0.285495547 -0.001586158
Dataset$Language <- as.factor(Dataset$Language)
summary(modelo_RLog_Simple)
##
## Call:
## glm(formula = Dataset$Code_Type ~ Dataset$Votes, family = "binomial",
## data = data.frame(Dataset$Code_Type, Dataset$Votes))
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.2854955 0.0882906 -3.234 0.00122 **
## Dataset$Votes -0.0015862 0.0006517 -2.434 0.01494 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1282.4 on 956 degrees of freedom
## Residual deviance: 1274.7 on 955 degrees of freedom
## AIC: 1278.7
##
## Number of Fisher Scoring iterations: 4
modelo_RLog_Simple_S = glm(Dataset$Language~Dataset$Votes, family = "binomial", data = data.frame(Dataset$Language, Dataset$Votes))
summary(modelo_RLog_Simple_S)
##
## Call:
## glm(formula = Dataset$Language ~ Dataset$Votes, family = "binomial",
## data = data.frame(Dataset$Language, Dataset$Votes))
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.8186523 0.1069357 17.007 <2e-16 ***
## Dataset$Votes -0.0008318 0.0005117 -1.625 0.104
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 810.62 on 956 degrees of freedom
## Residual deviance: 808.24 on 955 degrees of freedom
## AIC: 812.24
##
## Number of Fisher Scoring iterations: 4
En esta fase regresión logística simple se busca examinar la relación entre una variable dependiente dicotómica (binaria) y una o más variables independientes. Este tipo de análisis es particularmente útil cuando se desea predecir la probabilidad de que ocurra un evento, como la presencia o ausencia de una característica; con esto se busca modelar esta relación para comprender cómo las variables de estudio afectan las probabilidades de un resultado determinado. El proceso comienza con un análisis estadístico preliminar de los datos, que incluye la obtención de resúmenes descriptivos y gráficos. A través de estos, se evalúa la distribución de las variables y se identifican posibles problemas en los datos, como valores atípicos o sesgos.
En el análisis del modelo RLogS, se emplean procesos clave como la consideración de la Variable Predictora igual a Cero, las Probabilidades Estimadas y la Gráfica del Modelo RLogS. El primer método establece un punto de referencia al evaluar el modelo en condiciones iniciales, es decir, cuando las variables predictoras toman un valor de cero. Esto ayuda a identificar la probabilidad base de ocurrencia del evento estudiado. Por otro lado, las Probabilidades Estimadas se calculan para predecir la probabilidad de un evento en función de los valores de las variables independientes, proporcionando una medida numérica clave para la interpretación del modelo. Finalmente, la Gráfica del Modelo RLogS ofrece una representación visual que permite observar cómo varían las probabilidades en función de los cambios en las variables predictoras, facilitando la validación y comunicación de los resultados obtenidos.
conclusion
En el análisis realizado referente al apartado Variable Predictora igual a Cero, se observó que el número de votos tiene una relación negativa con la probabilidad de que ocurra el evento de interés (Code_Type = 1). Esto se refleja en el coeficiente de Dataset$Votes en log-odds, que es negativo (-0.001586), y en el odds ratio de 0.998415, que indica que, por cada incremento unitario en el número de votos, las odds de que ocurra el evento disminuyen en un 0.15%. Aunque este efecto es significativo, el odds ratio cercano a 1 sugiere que el impacto de los votos sobre la probabilidad de que ocurra el evento es débil. En resumen, el número de votos tiene una influencia negativa y pequeña sobre la probabilidad del evento de interés, pero la magnitud de este efecto es moderada. En analizar la pestaña Probabilidad Estimadas se observa que la probabilidad estimada comienza en 0.41633 y disminuye progresivamente hasta su menor valor de 0.02499; Este patrón sugiere una tendencia descendente en la probabilidad a lo largo de las observaciones, aunque la disminución es gradual y leve. además, Las probabilidades se mantienen bastante constantes en algunos intervalos, con pequeños descensos entre algunas observaciones lo que puede indicar que el modelo predice probabilidades similares a lo largo de una gran parte del rango de entrada.
Finalmente teniendo en cuenta que en la Gráfica del Modelo RLogS los puntos amarillos corresponden a los datos observados, mientras que la curva naranja ilustra las probabilidades predichas por el modelo. La forma casi horizontal de la curva sugiere que no hay una relación clara entre las visualizaciones y el tipo de código, indicando que las visualizaciones no parecen ser un factor determinante para predecir el tipo de código
coef(modelo_RLog_Simple)
## (Intercept) Dataset$Votes
## -0.285495547 -0.001586158
round(exp(coef(modelo_RLog_Simple)),5)
## (Intercept) Dataset$Votes
## 0.75164 0.99842
round(suppressWarnings(predict(modelo_RLog_Simple, data.frame(seq(1, 400)), type = "response")),5)
## 1 2 3 4 5 6 7 8 9 10
## 0.41633 0.41633 0.41633 0.41633 0.41633 0.41633 0.41633 0.41633 0.41633 0.41633
## 11 12 13 14 15 16 17 18 19 20
## 0.41633 0.41633 0.41633 0.41633 0.41633 0.41633 0.41595 0.41595 0.41595 0.41595
## 21 22 23 24 25 26 27 28 29 30
## 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595
## 31 32 33 34 35 36 37 38 39 40
## 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595
## 41 42 43 44 45 46 47 48 49 50
## 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595 0.41595
## 51 52 53 54 55 56 57 58 59 60
## 0.41595 0.41595 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556
## 61 62 63 64 65 66 67 68 69 70
## 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556
## 71 72 73 74 75 76 77 78 79 80
## 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556 0.41556
## 81 82 83 84 85 86 87 88 89 90
## 0.41556 0.41556 0.41556 0.41556 0.41518 0.41518 0.41518 0.41518 0.41518 0.41518
## 91 92 93 94 95 96 97 98 99 100
## 0.41518 0.41518 0.41518 0.41518 0.41518 0.41518 0.41518 0.41518 0.41518 0.41518
## 101 102 103 104 105 106 107 108 109 110
## 0.41518 0.41518 0.41518 0.41518 0.41518 0.41518 0.41518 0.41479 0.41479 0.41479
## 111 112 113 114 115 116 117 118 119 120
## 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479
## 121 122 123 124 125 126 127 128 129 130
## 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479
## 131 132 133 134 135 136 137 138 139 140
## 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479 0.41479 0.41441
## 141 142 143 144 145 146 147 148 149 150
## 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441
## 151 152 153 154 155 156 157 158 159 160
## 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441
## 161 162 163 164 165 166 167 168 169 170
## 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441 0.41441 0.41402 0.41402
## 171 172 173 174 175 176 177 178 179 180
## 0.41402 0.41402 0.41402 0.41402 0.41402 0.41402 0.41402 0.41402 0.41402 0.41402
## 181 182 183 184 185 186 187 188 189 190
## 0.41402 0.41402 0.41402 0.41402 0.41402 0.41402 0.41402 0.41402 0.41402 0.41402
## 191 192 193 194 195 196 197 198 199 200
## 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364
## 201 202 203 204 205 206 207 208 209 210
## 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364
## 211 212 213 214 215 216 217 218 219 220
## 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364 0.41364 0.41325
## 221 222 223 224 225 226 227 228 229 230
## 0.41325 0.41325 0.41325 0.41325 0.41325 0.41325 0.41325 0.41325 0.41325 0.41325
## 231 232 233 234 235 236 237 238 239 240
## 0.41325 0.41325 0.41325 0.41325 0.41325 0.41325 0.41325 0.41325 0.41325 0.41325
## 241 242 243 244 245 246 247 248 249 250
## 0.41287 0.41287 0.41287 0.41287 0.41287 0.41287 0.41287 0.41287 0.41287 0.41287
## 251 252 253 254 255 256 257 258 259 260
## 0.41287 0.41287 0.41287 0.41287 0.41287 0.41249 0.41249 0.41249 0.41249 0.41249
## 261 262 263 264 265 266 267 268 269 270
## 0.41249 0.41249 0.41249 0.41249 0.41249 0.41249 0.41249 0.41249 0.41249 0.41249
## 271 272 273 274 275 276 277 278 279 280
## 0.41210 0.41210 0.41210 0.41210 0.41210 0.41210 0.41210 0.41210 0.41210 0.41210
## 281 282 283 284 285 286 287 288 289 290
## 0.41210 0.41210 0.41210 0.41210 0.41210 0.41210 0.41172 0.41172 0.41172 0.41172
## 291 292 293 294 295 296 297 298 299 300
## 0.41172 0.41172 0.41172 0.41172 0.41172 0.41172 0.41172 0.41172 0.41172 0.41172
## 301 302 303 304 305 306 307 308 309 310
## 0.41172 0.41172 0.41172 0.41133 0.41133 0.41133 0.41133 0.41133 0.41133 0.41133
## 311 312 313 314 315 316 317 318 319 320
## 0.41133 0.41133 0.41133 0.41133 0.41133 0.41133 0.41133 0.41133 0.41133 0.41133
## 321 322 323 324 325 326 327 328 329 330
## 0.41133 0.41133 0.41133 0.41133 0.41133 0.41133 0.41095 0.41095 0.41095 0.41095
## 331 332 333 334 335 336 337 338 339 340
## 0.41095 0.41095 0.41095 0.41095 0.41095 0.41095 0.41095 0.41095 0.41095 0.41056
## 341 342 343 344 345 346 347 348 349 350
## 0.41056 0.41056 0.41056 0.41056 0.41056 0.41056 0.41056 0.41056 0.41056 0.41056
## 351 352 353 354 355 356 357 358 359 360
## 0.41056 0.41018 0.41018 0.41018 0.41018 0.41018 0.41018 0.41018 0.41018 0.41018
## 361 362 363 364 365 366 367 368 369 370
## 0.41018 0.41018 0.41018 0.41018 0.41018 0.41018 0.41018 0.41018 0.40980 0.40980
## 371 372 373 374 375 376 377 378 379 380
## 0.40980 0.40980 0.40980 0.40980 0.40980 0.40980 0.40980 0.40980 0.40980 0.40980
## 381 382 383 384 385 386 387 388 389 390
## 0.40980 0.40980 0.40980 0.40980 0.40980 0.40980 0.40980 0.40980 0.40980 0.40980
## 391 392 393 394 395 396 397 398 399 400
## 0.40980 0.40980 0.40980 0.40980 0.40941 0.40941 0.40941 0.40941 0.40941 0.40941
## 401 402 403 404 405 406 407 408 409 410
## 0.40941 0.40941 0.40941 0.40941 0.40941 0.40941 0.40941 0.40903 0.40903 0.40903
## 411 412 413 414 415 416 417 418 419 420
## 0.40903 0.40903 0.40903 0.40903 0.40903 0.40903 0.40903 0.40903 0.40903 0.40903
## 421 422 423 424 425 426 427 428 429 430
## 0.40903 0.40903 0.40903 0.40903 0.40865 0.40865 0.40865 0.40865 0.40865 0.40865
## 431 432 433 434 435 436 437 438 439 440
## 0.40865 0.40865 0.40865 0.40865 0.40865 0.40865 0.40865 0.40865 0.40865 0.40865
## 441 442 443 444 445 446 447 448 449 450
## 0.40865 0.40826 0.40826 0.40826 0.40826 0.40826 0.40826 0.40826 0.40826 0.40826
## 451 452 453 454 455 456 457 458 459 460
## 0.40826 0.40826 0.40788 0.40788 0.40788 0.40788 0.40788 0.40788 0.40788 0.40788
## 461 462 463 464 465 466 467 468 469 470
## 0.40788 0.40788 0.40788 0.40788 0.40788 0.40750 0.40750 0.40750 0.40750 0.40750
## 471 472 473 474 475 476 477 478 479 480
## 0.40750 0.40750 0.40750 0.40750 0.40750 0.40711 0.40711 0.40711 0.40711 0.40711
## 481 482 483 484 485 486 487 488 489 490
## 0.40711 0.40711 0.40711 0.40711 0.40711 0.40711 0.40711 0.40711 0.40711 0.40673
## 491 492 493 494 495 496 497 498 499 500
## 0.40673 0.40635 0.40635 0.40635 0.40635 0.40635 0.40635 0.40635 0.40635 0.40635
## 501 502 503 504 505 506 507 508 509 510
## 0.40635 0.40635 0.40635 0.40635 0.40597 0.40597 0.40597 0.40597 0.40597 0.40597
## 511 512 513 514 515 516 517 518 519 520
## 0.40597 0.40597 0.40597 0.40597 0.40597 0.40597 0.40558 0.40558 0.40558 0.40558
## 521 522 523 524 525 526 527 528 529 530
## 0.40558 0.40558 0.40558 0.40558 0.40558 0.40558 0.40520 0.40520 0.40520 0.40520
## 531 532 533 534 535 536 537 538 539 540
## 0.40520 0.40520 0.40520 0.40520 0.40520 0.40520 0.40520 0.40520 0.40482 0.40482
## 541 542 543 544 545 546 547 548 549 550
## 0.40482 0.40482 0.40482 0.40482 0.40482 0.40482 0.40482 0.40482 0.40482 0.40482
## 551 552 553 554 555 556 557 558 559 560
## 0.40482 0.40482 0.40482 0.40444 0.40444 0.40406 0.40406 0.40406 0.40367 0.40367
## 561 562 563 564 565 566 567 568 569 570
## 0.40367 0.40367 0.40367 0.40367 0.40367 0.40329 0.40329 0.40329 0.40291 0.40291
## 571 572 573 574 575 576 577 578 579 580
## 0.40291 0.40291 0.40291 0.40291 0.40291 0.40291 0.40253 0.40253 0.40253 0.40253
## 581 582 583 584 585 586 587 588 589 590
## 0.40253 0.40253 0.40215 0.40215 0.40215 0.40215 0.40215 0.40215 0.40215 0.40215
## 591 592 593 594 595 596 597 598 599 600
## 0.40177 0.40177 0.40177 0.40177 0.40177 0.40138 0.40138 0.40138 0.40138 0.40138
## 601 602 603 604 605 606 607 608 609 610
## 0.40138 0.40100 0.40100 0.40100 0.40100 0.40062 0.40062 0.40062 0.40062 0.40024
## 611 612 613 614 615 616 617 618 619 620
## 0.40024 0.40024 0.40024 0.40024 0.40024 0.40024 0.40024 0.40024 0.39986 0.39986
## 621 622 623 624 625 626 627 628 629 630
## 0.39986 0.39986 0.39986 0.39986 0.39986 0.39948 0.39948 0.39948 0.39948 0.39948
## 631 632 633 634 635 636 637 638 639 640
## 0.39948 0.39948 0.39948 0.39948 0.39948 0.39948 0.39910 0.39910 0.39910 0.39910
## 641 642 643 644 645 646 647 648 649 650
## 0.39872 0.39872 0.39872 0.39872 0.39834 0.39834 0.39834 0.39834 0.39796 0.39796
## 651 652 653 654 655 656 657 658 659 660
## 0.39758 0.39758 0.39758 0.39758 0.39758 0.39720 0.39720 0.39682 0.39682 0.39682
## 661 662 663 664 665 666 667 668 669 670
## 0.39644 0.39644 0.39644 0.39644 0.39606 0.39606 0.39606 0.39568 0.39568 0.39568
## 671 672 673 674 675 676 677 678 679 680
## 0.39568 0.39530 0.39530 0.39492 0.39492 0.39492 0.39492 0.39492 0.39492 0.39454
## 681 682 683 684 685 686 687 688 689 690
## 0.39454 0.39454 0.39417 0.39417 0.39417 0.39417 0.39417 0.39417 0.39417 0.39417
## 691 692 693 694 695 696 697 698 699 700
## 0.39379 0.39379 0.39379 0.39341 0.39341 0.39341 0.39341 0.39341 0.39303 0.39303
## 701 702 703 704 705 706 707 708 709 710
## 0.39303 0.39303 0.39303 0.39190 0.39190 0.39152 0.39152 0.39152 0.39114 0.39114
## 711 712 713 714 715 716 717 718 719 720
## 0.39076 0.39076 0.39076 0.39076 0.39076 0.39076 0.39038 0.39038 0.39038 0.39001
## 721 722 723 724 725 726 727 728 729 730
## 0.39001 0.38963 0.38963 0.38963 0.38925 0.38925 0.38925 0.38888 0.38888 0.38888
## 731 732 733 734 735 736 737 738 739 740
## 0.38888 0.38888 0.38888 0.38888 0.38850 0.38812 0.38812 0.38775 0.38775 0.38737
## 741 742 743 744 745 746 747 748 749 750
## 0.38699 0.38699 0.38699 0.38699 0.38662 0.38624 0.38624 0.38549 0.38511 0.38511
## 751 752 753 754 755 756 757 758 759 760
## 0.38511 0.38474 0.38474 0.38474 0.38436 0.38436 0.38436 0.38436 0.38399 0.38361
## 761 762 763 764 765 766 767 768 769 770
## 0.38361 0.38361 0.38361 0.38361 0.38361 0.38324 0.38324 0.38286 0.38249 0.38249
## 771 772 773 774 775 776 777 778 779 780
## 0.38249 0.38249 0.38211 0.38211 0.38174 0.38174 0.38174 0.38136 0.38136 0.38136
## 781 782 783 784 785 786 787 788 789 790
## 0.38136 0.38136 0.38099 0.38099 0.38099 0.38062 0.38024 0.38024 0.38024 0.37949
## 791 792 793 794 795 796 797 798 799 800
## 0.37949 0.37949 0.37875 0.37875 0.37875 0.37875 0.37763 0.37726 0.37688 0.37614
## 801 802 803 804 805 806 807 808 809 810
## 0.37577 0.37577 0.37577 0.37577 0.37539 0.37539 0.37502 0.37502 0.37465 0.37428
## 811 812 813 814 815 816 817 818 819 820
## 0.37428 0.37354 0.37354 0.37317 0.37317 0.37242 0.37242 0.37242 0.37242 0.37205
## 821 822 823 824 825 826 827 828 829 830
## 0.37205 0.37168 0.37168 0.37168 0.37168 0.37168 0.37131 0.37131 0.37131 0.37094
## 831 832 833 834 835 836 837 838 839 840
## 0.37094 0.37057 0.37057 0.37020 0.36983 0.36983 0.36983 0.36909 0.36872 0.36872
## 841 842 843 844 845 846 847 848 849 850
## 0.36762 0.36762 0.36725 0.36725 0.36725 0.36688 0.36651 0.36614 0.36578 0.36541
## 851 852 853 854 855 856 857 858 859 860
## 0.36504 0.36467 0.36467 0.36467 0.36394 0.36394 0.36357 0.36284 0.36247 0.36247
## 861 862 863 864 865 866 867 868 869 870
## 0.36247 0.36174 0.36137 0.36064 0.36064 0.36027 0.35991 0.35991 0.35954 0.35954
## 871 872 873 874 875 876 877 878 879 880
## 0.35918 0.35845 0.35845 0.35772 0.35699 0.35663 0.35626 0.35590 0.35554 0.35554
## 881 882 883 884 885 886 887 888 889 890
## 0.35554 0.35481 0.35082 0.34974 0.34938 0.34902 0.34830 0.34830 0.34722 0.34722
## 891 892 893 894 895 896 897 898 899 900
## 0.34543 0.34507 0.34399 0.34328 0.34292 0.34042 0.33971 0.33616 0.33545 0.33369
## 901 902 903 904 905 906 907 908 909 910
## 0.33298 0.33017 0.33017 0.32982 0.32772 0.32632 0.32423 0.32423 0.32354 0.32181
## 911 912 913 914 915 916 917 918 919 920
## 0.32111 0.32042 0.31973 0.31561 0.31492 0.31287 0.31185 0.31083 0.30981 0.30408
## 921 922 923 924 925 926 927 928 929 930
## 0.30307 0.30207 0.30140 0.30140 0.30073 0.29873 0.29476 0.29476 0.29115 0.29049
## 931 932 933 934 935 936 937 938 939 940
## 0.28821 0.28626 0.28594 0.21836 0.28142 0.28046 0.25498 0.25498 0.25438 0.25228
## 941 942 943 944 945 946 947 948 949 950
## 0.24989 0.23675 0.23589 0.22108 0.21972 0.21593 0.20538 0.20255 0.19200 0.16859
## 951 952 953 954 955 956 957
## 0.14356 0.13280 0.11969 0.08526 0.07963 0.07599 0.02499
Dataset$Code_Type <- as.factor(Dataset$Code_Type)
Code_Type <- Dataset$Code_Type
Views <- Dataset$Views
dataPlot <- data.frame(Views, Code_Type)
plot(Code_Type~Views, data = dataPlot, main = "Modelo RLogS: Views-Code_Type", xlab = "Views", ylab = "Code_Type = 0 | Code_Type = 1", col = "gold", pch = "I")
curve(predict(glm(Code_Type~Views, family = "binomial", data = dataPlot), data.frame(Views = x), type = "response"), col = "orange", lwd = 3, add = TRUE)
Se realizó un análisis estadístico con los datos de Kaggle, encontrando patrones interesantes y relaciones importantes entre las variables. Se utilizaron varias técnicas, como análisis descriptivo, Análisis de Componentes Principales (ACP), Análisis de Correspondencias Múltiples (ACM), agrupamiento y regresión. En primer lugar, se detectaron algunos valores atípicos y sesgos en los datos. Se observó que existían relaciones positivas entre los votos, comentarios, vistas y forks, aunque la distribución no era normal.
El ACP permitió simplificar las variables cuantitativas, revelando que la primera dimensión explicaba la mayor parte de la variabilidad. Con el ACM, se identificaron agrupaciones interesantes entre países y tipos de código, lo que proporcionó una buena representación visual para entender sus interacciones. Además, los análisis de agrupamiento jerárquico y no jerárquico señalaron a Vietnam como un caso especial, debido a su alta actividad en las variables clave. Esto sugiere que se requieren enfoques personalizados para este campo.
Finalmente, las regresiones lineales múltiples y logísticas simples ofrecieron información adicional sobre cómo las variables afectan los resultados. La regresión lineal múltiple mostró que los comentarios y vistas tienen un impacto positivo en los votos, mientras que los forks presentan una relación débilmente negativa. Por otro lado, el análisis de regresión logística indicó que el número de votos tenía una pequeña influencia negativa en la probabilidad de eventos binarios relacionados con el tipo de código. En resumen, estas conclusiones proporcionan una comprensión valiosa de las relaciones en los datos, ayudando a tomar decisiones informadas al aplicar modelos estadísticos en situaciones donde la variabilidad y la estructura de los datos son relevantes.
https://glibrerosl.github.io/Applied-Statistics-FULL/#[Conglomerados]
https://rpubs.com/glibrerosl/Applied-Statistics-FULL
https://www.kaggle.com/datasets/canggih/upvoted-kaggle-kernels