Comparado con las matemáticas, las físicas y las ciencias naturales, las ciencias estadísticas son muy jóvenes. Los métodos estadísticos que se aprenderán fueron desarrollados durante el siglo pasado en su mayoría.
Los modelos de computadoras están causando una revolución en los análisis de datos, estos métodos están continuamente siendo desarrollados. En años recientes, nuevos métodos estadísticos han sido desarrollados analizando datos de distintos campos; medicina, ciencias actuariales, negocios, comportamiento del consumidor.
Este curso brinda los fundamentos para los métodos estadísticos, explicando cuándo y cómo estos métodos funcionan, además de cómo usar adecuadamente el software estadístico para aplicarlos.
La historia de la estadística es rica y multifacética, marcada por el desarrollo progresivo de conceptos y técnicas que han transformado la forma en que comprendemos los datos y el mundo. A continuación, se presenta un recorrido histórico destacando cuándo se incorporaron aspectos clave como las pruebas de hipótesis, la estadística descriptiva, la varianza y el muestreo, todos temas cruciales en cualquier curso de estadística.
La evolución de la estadística puede rastrearse desde sus inicios en la antigüedad, cuando se utilizaba principalmente para el conteo de poblaciones y recursos, hasta la era moderna, donde la estadística se aplica en prácticamente todas las disciplinas científicas y toma de decisiones en los negocios.
Antigüedad y Edad Media: La estadística comienza como un método para llevar registros de población y bienes. Las civilizaciones antiguas como la egipcia, la babilónica, la griega y la romana ya utilizaban formas primitivas de estadística para administrar sus recursos y planificar sus actividades económicas.
Siglo XVII: Se inicia el desarrollo de la teoría de la probabilidad, impulsada por el estudio de juegos de azar. Blaise Pascal y Pierre de Fermat sientan las bases de esta teoría en sus correspondencias sobre problemas de juego.
Siglo XVIII: Aparecen los primeros intentos de aplicar métodos estadísticos a los estudios sociales y económicos. Se realizan los primeros censos nacionales en varios países, lo que permitió a los gobiernos una mejor planificación y control de sus poblaciones.
Siglo XIX: La estadística adquiere un enfoque más científico con la introducción de métodos para el análisis de datos y la inferencia estadística. Francis Galton y Karl Pearson, entre otros, contribuyen significativamente al desarrollo de la estadística como una disciplina científica.
Siglo XX y XXI: El desarrollo de la computación y la tecnología de la información transforma radicalmente la estadística, permitiendo el análisis de grandes volúmenes de datos y la aplicación de modelos estadísticos complejos en todas las áreas del conocimiento. La estadística se convierte en una herramienta indispensable para la investigación científica, la toma de decisiones en los negocios y la política pública.
Hoy en día, la estadística se encuentra en el corazón de la revolución de los datos, alimentando avances en inteligencia artificial, ciencia de datos y big data. A través de este curso, exploraremos cómo los principios estadísticos fundamentales se aplican en el uso de herramientas modernas como Excel y R, preparando a los estudiantes para enfrentar los desafíos del análisis de datos en el siglo XXI.
Estos hitos destacan la evolución de la estadística desde herramientas básicas de descripción hasta complejas metodologías para la inferencia y la toma de decisiones. Cada uno de estos avances ha enriquecido el campo de la estadística, proporcionando a los científicos y a los profesionales, incluidos los actuarios, las herramientas necesarias para analizar datos, evaluar teorías y modelar el futuro con mayor precisión. A través de estos desarrollos, la estadística
El software estadístico se ha convertido en una herramienta muy poderosa y de facil acceso. Esto ha tenido numerosos beneficios en los análisis de datos que ahora son posibles realizar, pero un peligro es que se puede llegar a pensar que la estadística es puramente una serie de herramientas computacionales construida con algoritmos. Por el contrario el curso prtende mostar que los métodos estadísticos son el resultado de una teroría estadístrica unificada, a pesar de que la teoría misma tenga variaciones en la forma de interpretación.
Otro peligro de la evolución de la tecnología es que se puede pensar que los análisis realizados por software son buenos sin considerar la entrada de información que brinda el usuario, se verá que un pensamiento crítico es necesario para decidir cual método estadístico es el más apropiado para cada situación en particular, ya que algunos tienen ciertos supuestos que deben cumplirse para poder llevarse a cabo. No obstante, usted debe estar en la capacidad de interpretar y explicar los resultados que cualquier software muestre. La estadística y las ciencias actuariales han evolucionado considerablemente a lo largo de los años, marcadas por varios acontecimientos y descubrimientos clave. A continuación, se presenta un resumen de estas evoluciones y su impacto en el campo de las ciencias actuariales.
1662: John Graunt publica “Natural and Political Observations Made upon the Bills of Mortality”, considerado uno de los primeros trabajos en estadística demográfica, analizando las estadísticas de mortalidad en Londres.
1713: Jakob Bernoulli publica “Ars Conjectandi”, introduciendo la ley de los grandes números y estableciendo fundamentos para la teoría de la probabilidad.
1894: Karl Pearson publica “Contributions to the Mathematical Theory of Evolution”, introduciendo el coeficiente de correlación, fundamental en estadística para cuantificar relaciones lineales entre dos variables.
1900: Wilhelm Lexis desarrolla el concepto de dispersión, contribuyendo a la comprensión de la variabilidad en los conjuntos de datos.
1937: Ronald A. Fisher introduce el diseño de experimentos y el análisis de varianza (ANOVA), revolucionando la metodología de la investigación científica.
1693: Edmond Halley publica un artículo presentando la primera tabla de mortalidad actuaria, utilizada para calcular primas de seguros de vida.
1762: Fundación de la Equitable Society en Londres, marcando el inicio de las compañías de seguros de vida modernas basadas en principios actuariales.
1980s-1990s: El desarrollo de computadoras personales transforma la estadística y las ciencias actuariales, permitiendo análisis de datos más complejos.
2000s: La disponibilidad de grandes volúmenes de datos y avances en computación impulsan nuevas técnicas estadísticas, como el aprendizaje automático y la minería de datos.
2010s: Aplicaciones de inteligencia artificial y aprendizaje profundo en la predicción de riesgos y personalización de productos de seguros, marcando una nueva era en ciencias actuariales y estadística.
Estos eventos no solo destacan los avances metodológicos y teóricos en estadística y ciencias actuariales, sino también cómo la evolución tecnológica ha ampliado el alcance y la aplicabilidad de estas disciplinas, adaptándose a los cambios en la sociedad y la economía global.
Descargar archivo llamado “C1_E1_analisis_datos” en excel y resolver.
La herramienta de Análisis de Datos en Excel es una funcionalidad poderosa que permite realizar análisis estadísticos complejos, desde análisis de regresión hasta pruebas t, sin necesidad de escribir fórmulas complicadas desde cero. Sin embargo, no viene habilitada por defecto en todas las instalaciones de Excel. Aquí te muestro cómo instalarla y una breve explicación de algunas de las opciones que ofrece.
Paso 1: Verificar si la Herramienta de Análisis Está Instalada - Primero, abre Excel y busca la pestaña “Datos” en la cinta de opciones. Si ves un grupo llamado “Análisis” con un ícono que dice “Análisis de datos”, ya está instalada y puedes saltarte al uso de la herramienta. - Si no ves esta opción, necesitarás instalar el complemento.
Paso 2: Instalar el Complemento de Análisis de Datos 1. Ve a “Archivo” > “Opciones” para abrir el cuadro de diálogo de opciones de Excel. 2. Selecciona “Complementos” en el menú de la izquierda. 3. En el menú desplegable “Administrar” en la parte inferior, selecciona “Complementos de Excel” y haz clic en “Ir…”. 4. En la ventana de complementos, busca y selecciona “Herramienta de Análisis” y luego haz clic en “Aceptar”. 5. Excel instalará el complemento y, después de unos momentos, deberías ver la opción “Análisis de datos” en la pestaña “Datos”.
Una vez habilitada la herramienta, aquí tienes una explicación de algunas de las opciones más utilizadas:
Análisis de Varianza (ANOVA): Te permite realizar ANOVA de un factor y dos factores, útil para comparar medias entre grupos y entender si las diferencias observadas son estadísticamente significativas.
Regresión: Proporciona análisis de regresión lineal, permitiéndote modelar la relación entre una variable dependiente y una o más variables independientes.
Prueba t: Incluye pruebas t para comparar medias, como la prueba t de dos muestras asumiendo varianzas iguales/no iguales y la prueba t de una muestra. Esencial para probar hipótesis sobre medias poblacionales.
Estadística Descriptiva: Ofrece un resumen estadístico de tus datos, incluyendo media, mediana, modo, varianza, desviación estándar, y mucho más. Es el punto de partida para cualquier análisis estadístico.
Histograma: Te permite crear rápidamente un histograma para visualizar la distribución de tus datos, útil para identificar la forma de la distribución y la presencia de valores atípicos.
Correlación: Proporciona coeficientes de correlación entre pares de variables, ayudándote a identificar relaciones lineales entre ellas.
Estas herramientas, al ser directamente accesibles desde Excel, facilitan enormemente el análisis estadístico sin la necesidad de software adicional, haciendo del análisis de datos una tarea más integrada y accesible para usuarios de todos los niveles.
La estadística se divide en dos grandes áreas: Estadística Descriptiva e Inferencia Estadística, cada una con sus propósitos y metodologías.
La Estadística Descriptiva se enfoca en describir y resumir conjuntos de datos. Su propósito es presentar los datos de manera informativa, facilitando la comprensión de sus características principales a través de:
La Inferencia Estadística, por otro lado, utiliza los datos de una muestra para hacer estimaciones o pruebas sobre una población más grande. Se basa en el análisis de probabilidades para:
| Aspecto | Estadística Descriptiva | Inferencia Estadística |
|---|---|---|
| Objetivo | Describir y resumir datos | Hacer predicciones o inferencias sobre datos |
| Metodología | Análisis de datos existentes | Generalización a partir de muestras |
| Enfoque | Datos observados | Población a partir de la muestra |
| Resultados | Medidas y gráficos específicos de la muestra | Estimaciones y pruebas sobre la población global |
En resumen, mientras que la estadística descriptiva se centra en resumir los datos disponibles, la inferencia estadística busca extraer conclusiones y hacer predicciones sobre una población más amplia basándose en una muestra de datos.
La evolución del software estadístico a lo largo del tiempo ha sido un testimonio del creciente papel que juega la estadística en diversas disciplinas y sectores. Desde los inicios con herramientas básicas hasta las sofisticadas plataformas que tenemos hoy, el software estadístico ha permitido a investigadores, científicos y profesionales transformar datos brutos en insights significativos, facilitando así la toma de decisiones basada en evidencias.
En las primeras décadas, los programas estadísticos estaban mayormente confinados a ambientes académicos e instituciones de investigación, donde eran desarrollados y utilizados por expertos en estadística. Estas herramientas, a menudo operadas en grandes computadoras centrales, requerían de un conocimiento profundo no solo de estadística sino también de programación.
Con el avance tecnológico y la llegada de las computadoras personales, el software estadístico se volvió más accesible. SAS y SPSS, por ejemplo, fueron pioneros en facilitar análisis estadísticos complejos a un público más amplio sin necesidad de una experiencia profunda en codificación. Estos programas introdujeron interfaces de usuario gráficas (GUI) y menús desplegables que simplificaron el proceso de análisis estadístico.
La era digital trajo consigo una explosión en la cantidad de datos disponibles, impulsando la demanda de herramientas aún más potentes y versátiles. Es aquí donde software como R y Python (con su biblioteca Pandas) han sobresalido, ofreciendo capacidades avanzadas de análisis y visualización de datos, además de ser herramientas de código abierto. R, en particular, ha sido adoptado ampliamente por la comunidad estadística por su flexibilidad y la vasta biblioteca de paquetes especializados disponibles.
En el campo de las ciencias actuariales, donde el análisis de datos juega un papel central en la evaluación de riesgos y la toma de decisiones, la elección del software estadístico es crucial. Excel, con su familiar interfaz y robustas capacidades de análisis, sigue siendo una herramienta valiosa para tareas estadísticas básicas y manejo de datos. Su accesibilidad y la amplia adopción en el entorno empresarial lo hacen indispensable para los actuarios, especialmente para modelado financiero y análisis de riesgo.
Sin embargo, para análisis más complejos y manejo de grandes volúmenes de datos, R se destaca como la herramienta preferida. Su naturaleza de código abierto, junto con el soporte de una activa comunidad de usuarios, ha facilitado el desarrollo de paquetes estadísticos especializados en ciencias actuariales. R ofrece una flexibilidad y potencia que supera con creces las capacidades de Excel, especialmente en áreas como modelado estadístico, simulación Monte Carlo y análisis de supervivencia, todos críticos en el campo actuarial.
En resumen, mientras que Excel sirve como una puerta de entrada al análisis de datos para los actuarios, R ofrece un camino hacia análisis más profundos y especializados. La combinación de estas herramientas proporciona a los profesionales en ciencias actuariales un conjunto de recursos muy potente para navegar el complejo mundo del análisis de riesgos y la toma de decisiones basada en datos. La elección entre Excel y R, o la decisión de usar ambos, dependerá de las necesidades específicas del análisis, la complejidad de los datos y el nivel de precisión requerido.
| Software | Descripción breve | Principales campos de uso | ¿De pago? | Empresa/Organización creadora |
|---|---|---|---|---|
| R | Lenguaje de programación y entorno de software libre para análisis estadístico y gráficos. | Academia, investigación, bioestadística, finanzas, marketing. | No | R Foundation for Statistical Computing |
| SAS | Suite de software de análisis estadístico que ofrece herramientas avanzadas para análisis de datos. | Industria farmacéutica, investigación en salud, banca, seguros. | Sí | SAS Institute Inc. |
| SPSS | Software de análisis estadístico que proporciona herramientas avanzadas para la gestión de datos. | Investigación social, educación, salud, marketing, recursos humanos. | Sí | IBM |
| Stata | Software estadístico que ofrece herramientas para el análisis, manejo y visualización de datos. | Economía, investigación biomédica, ciencias políticas. | Sí | StataCorp |
| Excel | Hoja de cálculo que incluye funciones para análisis estadístico básico y manipulación de datos. | Negocios, educación, finanzas personales, investigación preliminar. | Sí | Microsoft |
| Python (Pandas) | Lenguaje de programación de alto nivel con librerías (como Pandas) para análisis de datos. | Ciencia de datos, ingeniería de software, inteligencia artificial. | No | Python Software Foundation (Pandas es un proyecto de código abierto liderado por la comunidad) |
| MATLAB | Plataforma de software para cálculo numérico que incluye estadística y análisis de datos. | Ingeniería, física, matemáticas, análisis financiero. | Sí | MathWorks |
| Julia | Lenguaje de programación de alto rendimiento para análisis numérico y computación científica. | Investigación científica, análisis de grandes volúmenes de datos, IA. | No | Julia Computing, Inc. (desarrollo liderado por la comunidad con apoyo de la organización) |
| Minitab | Software estadístico que proporciona herramientas para el análisis de datos y mejora de procesos. | Control de calidad, Six Sigma, investigación y desarrollo. | Sí | Minitab, LLC |
| Tableau | Herramienta de visualización de datos que permite transformar datos en paneles e informes interactivos. | Business Intelligence, marketing, análisis de datos empresariales. | Sí (versión gratuita limitada) | Salesforce (Tableau Software, Inc.) |
Para comenzar a trabajar con R y RStudio, primero debes instalar ambos programas en tu computadora. R es el lenguaje de programación, mientras que RStudio actúa como un entorno de desarrollo integrado (IDE) para R, haciendo que la programación sea más accesible.
.pkg más
reciente para tu versión de macOS y sigue el proceso de
instalación.Una vez instalados R y RStudio, puedes verificar que todo funcione correctamente:
sessionInfo() y presiona Enter. Esto te
mostrará la versión de R que estás utilizando y otra información
relevante.install.packages("nombre_del_paquete"), por ejemplo,
install.packages("dplyr").RStudio es un IDE (Entorno de Desarrollo Integrado) gratuito y de código abierto diseñado específicamente para R, un lenguaje de programación ampliamente utilizado en estadística, minería de datos, y visualización gráfica. RStudio simplifica el uso de R al proporcionar una interfaz amigable, herramientas de gestión de proyectos, visualización de datos, y más, todo en un solo lugar.
Los siguientes ejercicios están diseñados para ayudarte a familiarizarte con el entorno de RStudio y a obtener confianza trabajando con el lenguaje de programación R.
Abrir script y cargarlo como C1_E2_FundamentosR.
El primer paso en casi todos los lenguajes de programación es hacer que tu programa muestre el mensaje “¡Hola, Mundo!”.
Escribe y ejecuta este código en la consola de RStudio print(“¡Hola, Mundo!”)
R puede ser utilizado como una calculadora avanzada. Intenta realizar algunas operaciones aritméticas básicas.
Suma 3 + 5 Resta 10 - 2 Multiplicación 4 * 7 División 20 / 5
**Potencia* 2^3
Las variables te permiten almacenar datos que puedes reutilizar a lo largo de tu script. Crea algunas variables y asigna valores a ellas.
Asignar valores a variables numero <- 42 saludo <- “Hola, ¿cómo estás?” pi_valor <- pi
Imprimir los valores de las variables print(numero) print(saludo) print(pi_valor)
Utiliza algunas funciones básicas en R para trabajar con números y textos.
Usar la función sqrt() para calcular la raíz cuadrada sqrt(16)
Usar la función toupper() para convertir texto a mayúsculas toupper(“haciéndolo en mayúsculas”)
En R, un vector es una estructura de datos que contiene elementos del mismo tipo. Crea un vector y realiza operaciones simples con él.
mi_vector <- c(1, 2, 3, 4, 5)
Sumar 2 a cada elemento del vector mi_vector + 2
Calcular la media de los valores del vector mean(mi_vector)
frutas <- data.frame( Nombre = c(“Manzana”, “Banana”, “Naranja”, “Kiwi”), Cantidad = c(10, 5, 8, 12), Precio = c(0.50, 0.20, 0.30, 0.75)