1 Introducción

Es indiscutible que las contribuciones de los genios de la estadística son de suma importancia y que están presentes en más ámbitos de los que se podría imaginar No obstante, presentar algunas de sus características mas terrenales y hacer énfasis en que hay diversas profesiones y orígenes entre ellos, puede generar en el espectador un mayor interés por estos personajes y también por esta interesante y transdisciplinar rama del conocimiento que es la estadística.

La minería de texto es una disciplina que se enfoca en la extracción de información y conocimiento relevante a partir de grandes volúmenes de texto no estructurado. Utilizando técnicas de procesamiento del lenguaje natural y aprendizaje automático, se identifican patrones, tendencias y relaciones en los datos textuales para obtener insights significativos. Mediante la tokenización, el análisis semántico, la clasificación, la extracción de entidades y la generación de resúmenes, la minería de texto permite explorar y comprender de manera eficiente y automática la información contenida en documentos, correos electrónicos, redes sociales y otros recursos de texto, mejorando la toma de decisiones y la búsqueda de información. Un word cloud, o nube de palabras, es una visualización gráfica que muestra las palabras más frecuentes en un texto o conjunto de datos. Las palabras se representan en diferentes tamaños según su importancia, lo que permite identificar de manera rápida los términos clave y patrones temáticos destacados en el contenido analizado.

2 Objetivo

Describir a los Genios de la Estadística según sus características y contribuciones a través de un recorrido vertiginoso por personajes que, han contribuido al nacimiento, evolución y desarrollo no sólo de la Estadística sino también de la Probabilidad y de las Matemáticas, por medio de wordcloud.

3 Metodología

  • Recopilación de información.

  • Selección de variables.

  • Integración de base de datos.

  • Análisis de datos.

  • Presentación e interpretación de resultados.

4 Análisis

4.1 Cargamos las librerias

library(tidytext)
library(wordcloud)
## Loading required package: RColorBrewer
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(tm)
## Loading required package: NLP
library(RColorBrewer)
library(readr)

4.2 Lectura de la base de datos “GENIOS”

#Cargamos nuestra base de datos
datos<- read_csv("NUBES3.csv")
## Rows: 32 Columns: 2
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (2): APORTACIÓN, Aportación principal
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
datos<-data.frame(datos)
datos
##                                                                                                  APORTACIÓN
## 1                                                            ÚLTIMO TEOREMA DE FERMAT (DISTRIBUCIÓN NORMAL)
## 2                                                     PIONERO EN CALCULAR LA RAZON DE MASCULINIDAD AL NACER
## 3                                                              INICIADOR DE LA TEORÍA DE LAS PROBABILIDADES
## 4                                                         TEOREMA DE BERNOULLI O LEY DE LOS GRANDES NÚMEROS
## 5                                      FÓRMULA DE MOIVRE, LA CUAL CONECTA NÚMEROS COMPLEJOS Y TRIGONOMETRÍA
## 6                                                                   TEOREMA DE BAYES, ESTADÍSTICA BAYESIANA
## 7                                                                                       TEORÍA DE LA TIERRA
## 8             CRITERIOS PARA CONSIDERAR ERRORES EN LAS MEDIDAS Y PROPUSO EL MÉTODO DE LOS MÍNIMOS CUADRADOS
## 9                                     TEORÍA DE ERRORES, DISTRIBUCIÓN NORMAL, DISPERSIÓN, MÍNIMOS CUADRADOS
## 10                                                                                      DISTRIBUCIÓN NORMAL
## 11                                   DIAGRAMA DE LA ROSA DE NIGHTINGALE, MODELO DE ESTADÍSTICA HOSPITALARIA
## 12                                                                                 DESIGUALDAD DE CHEBYSHEV
## 13                                                                                    LA LÍNEA DE REGRESIÓN
## 14                                                   TEORÍA DE JUEGOS (ALICIA EN EL PAÍS DE LAS MARAVILLAS)
## 15                                                                ÍNDICE DE PRECIOS HOY ÍNDICE DE LASPEYRES
## 16                                                                               ÍNDICE DE COSTE DE LA VIDA
## 17                                                                            FUNDADOR DE LA BIOESTADÍSTICA
## 18                                                                                DISTRIBUCIÓN T DE STUDENT
## 19                                                                                           DISTRIBUCIÓN F
## 20                                                                                            PRUEBA FISHER
## 21                                                                                      GRÁFICOS DE CONTROL
## 22                                    PRUEBA DE LA SUMA DE LOS RANGOS Y LA PRUEBA DE LOS SIGNOS DE WILCOXON
## 23                                                                                 DISTANCIA DE MAHALANOBIS
## 24                                                                                  INTERVALOS DE CONFIANZA
## 25                                  INTRODUCTOR DEL ENSAYO CLÍNICO ALEATORIZADO EN LA INVESTIGACIÓN CLÍNICA
## 26 HACER DE LA ESTADÍSTICA UNA CIENCIA PRÁCTICA Y APLICABLE A LA AGRICULTURA Y A LA INVESTIGACIÓN BIOLÓGICA
## 27                                                                     CONTROL ESTADÍSTICO DE PROCESO (CEP)
## 28                                                               PRUEBA DE NORMALIDAD DE KOLMOGÓROV-SMIRNOV
## 29                                                                     ANÁLISIS EXPLORATORIO DE DATOS (EDA)
## 30                                                                       PRUEBA DE NORMALIDAD DE LILLIEFORS
## 31                                  PENSAMIENTO ESTADÍSTICO Y DESTACADO CONSULTOR EN ENTORNOS EMPRESARIALES
## 32                                  FUNDADOR Y PRESIDENTE DE SNEE ASSOCIATES IMPROVING BUSINESS PERFORMANCE
##                                                                                                                                                                                              Aportación.principal
## 1                                                                                                                                                                                               TEOREMA DE FERMAT
## 2                                                                                                                                                                          LAS BASES DE LA ESTADISTICA CIENTIFICA
## 3                                                                                                                                                                            INVENCION DE LA CALCULADORA MECÁNICA
## 4                                                                                                                                                                                    TEORIA DE LAS PROBABILIDADES
## 5                                                                                                                                                                                            FORMULA DE DE MOIVRE
## 6                                                                                                                                                                    CALCULAR LA PROBABILIDAD DE UN SUCESO FUTURO
## 7                                                                                                                                                                                              HISTOIRE NATURELLE
## 8                                                                                                                                                                                METODOS DE LOS MINIMOS CUADRADOS
## 9                                                                                                                                        LA FUNCION GAUSSIANA O CAMPANA DE GAUSS, TEOREMA FUNDAMENTAL DEL ALGEBRA
## 10                                                                                                                                                                    MÉTODO ESTADISTICO APLICADO A LA SOCIOLOGIA
## 11                                                                                                                                                                             FUNDADORA DE LA ENFERMERIA MODERNA
## 12                                                                                                                                                                                    LA DESIGUALDAD DE CHEBYSHOV
## 13 SENTO LAS BASES DE LA CIENCIA QUE HOY CONOCEMOS COMO ESTADISTICA, DESCRIBE UNA SERIE DE PROCEDIMIENTOS ESTADÍSTICOS PARA DAR SUSTENTO A SU TEORIA DE LA HEREDABILIDAD DE LAS HABILIDADES NATURALES DEL HOMBRE.
## 14                                      SON DESTACABLES SUS TRABAJOS SOBRE GEOMETRIA, ALGEBRA Y LOGICA, PERO SOBRE TODO, SU FIGURA COMO DIVULGADOR A TRAVES DE JUEGOS, PROBLEMAS Y PARADOJAS PARA NIÑOS Y ADULTOS
## 15                                                                                                                  METODOS PARA MEDIR LOS CAMBIOS EN LOS PRECIOS DE LOS BIENES Y SERVICIOS A LO LARGO DEL TIEMPO
## 16                                                                                                                                                                   LA FORMA DE CALCULAR LOS NUMEROS QUE PROPUSO
## 17                                                                          CREADOR DE LA BIOESTADISTICA, DEFINICION DE CORRELACION, DESVIACION TIPICA, ANALISIS DE REGRESION, LIBRO "LA GRAMÁTICA DE LA CIENCIA"
## 18                                                                                                                                                                                            PRUEBA T DE STUDENT
## 19                                                                                                                                                                                       STATISTICAS METHODS 1983
## 20                                                                                                                                    USO LA MATEMATICA PARA CAMBIAR LAS LEYES DE MENDEL CON LA SELECCION NATURAL
## 21                                                                                                                                                                   INTRODUJO EL DIAGRAMA DE CONTROL ESQUEMATICO
## 22                                                                                                                                                     PRUEBAS ESTADISTICAS NO PARAMETRICAS Y PRUEBA T DE STUDENT
## 23                                                                                                                                                                                       DISTANCIA DE MAHALANOBIS
## 24                                                                                                                                                                INTERVALO DE CONFIANZAS, LEMA DE NEYMAN-PEARSON
## 25                                                                                                                                                                                     CRITERIOS DE BRADFORD HILL
## 26                                                                                                                                                                                                           <NA>
## 27                                                                                                   METODOLOGIA DE MEJORA CONTINUA PDCA, PLANEAR, HACER, VERIFICAR, ACTUAR O CICLO DE SHEWHART O CICLO DE DEMING
## 28                                                                                                                                                                                      TEORIA DE LA PROBABILIDAD
## 29                                                                                                                                                                                        DESARROLLO DEL BOX PLOT
## 30                                                                                                                                                                             PRUEBA DE NORMALIDAD DE LILLIEFORS
## 31                                                                                                                                                                                                           <NA>
## 32                                                                                                                                                                                                           <NA>

4.3 Creación del CORPUS

palabras<-VCorpus(VectorSource(datos$APORTACIÓN))
# Al crear un corpus en R, se puede realizar una variedad de tareas, como la limpieza y preprocesamiento de textos
# Ahora, hacemos una limpieza de nuestros datos antes de graficar los resultados en un wordcloud y así evitar la aparición de palabras innecesarias

# minusculas
palabras<-tm_map(palabras, content_transformer(tolower))
# signos de puntuación
palabras<-tm_map(palabras, removePunctuation)
#####
palabras<-tm_map(palabras, removeWords, stopwords("spanish"))

5 Resultados

5.1 Aportación

# Para presentar nuestros resultados utilizaremos la paquetería # library(RColorBrewer) y library(wordcloud)

# Utilizaremos esta paleta de colores
colores = brewer.pal(9, "Set1")


#Utilizamos la función WORDCLOUD con sus respectivos parámetros
wordcloud(palabras, scale=c(1.9,0.3), random.order = FALSE, min.freq = 1,
          max.words = 100, rot.per = 0.25, colors = colores)

title(main = " ", cex.main=1.5)

En la anterior nube de palabras las aportaciones de los genios de la estadística se basan principalmente en la distribución, cómo se logra apreciar en la imagen con una mayor representatividad, la teoría fue tambien una de las principales aportaciones en conjunto con las palabras en color amarillo; índice, estadística, teorema y normal.

5.2 Aportación principal

## Para la variable de aportación principal hacemos el mismo procedimiento
palabras<-VCorpus(VectorSource(datos$Aportación.principal))
#minusculas
palabras<-tm_map(palabras, content_transformer(tolower))
# signos de puntuación
palabras<-tm_map(palabras, removePunctuation)
#####
palabras<-tm_map(palabras, removeWords, stopwords("spanish"))
#COLOR
colores = brewer.pal(5, "Dark2")
wordcloud(palabras, scale=c(1.8,0.3), random.order = FALSE, min.freq = 1,
          max.words = 90, rot.per = 0.20, colors = colores)

title(main = " ", font.main=1)

La aportación principal (gráfico anterior) de los genios de la estadística es la prueba y teoría con mayor representatividad seguido de los métodos, bases, probabilidad, ciencias, entre otras. Con menor significancia pero no menos importante están las demás aportaciones en color anaranjado.

6 Conclusiones

El genio no está necesariamente relacionado con un nivel inusualmente alto de inteligencia, tampoco existe una fórmula para serlo Los genios de la estadística tuvieron diversas condiciones de vida, en general se observa su curiosidad, su manera de plantear soluciones fuera de lo común, su determinación, su pasión, su afán de siempre estar aprendiendo y no solo enfocarse en una sola área del conocimiento.

7 Referencias

  • Cabrera, J. y McDougall, A. (2002). Statistical Consulting Springer.

  • Corona, R. D. E., Mirafuentes, M. O. O. y López L. L. (2023). Genios de la Estadística. XII Foro Internacional de Estadística Aplicada – Una ciencia transdisciplinar, Facultad de Estadística e Informática. Xalapa, Veracruz, México.

  • Gutiérrez, C. S. (1994). Filosofía de la Estadística. Servei de Publications Universitat de València.

  • López, L. L. (2023). Genios, aportaciones y aplicaciones de la Estadística Versión draft.

  • Robson, D. (2022). Qué características en común tienen los genios BBC Future. Disponible en: https://www.bbc.com/mundo/vert-fut-63548724