class: center, middle, inverse, title-slide .title[ # Estadistica y Probabilidad ] .subtitle[ ## ESTC-8050
UTEM ] .author[ ### Luis F. Cona Q. ] .institute[ ### Dpto. EstadÃstica y EconometrÃa, UTEM ] .date[ ### 2023/07/25 (updated: 2023-08-16) ] --- <style> .center { display: block; margin-left: auto; margin-right: auto; } </style> # EstadÃstica Descriptiva ## Problema Introductorio **Eres un ingeniero civil** trabajando en una empresa de construcción que se especializa en la construcción de puentes. Como parte de tu trabajo, necesitas monitorear la calidad y resistencia del concreto que se utiliza en las construcciones. Según las especificaciones de diseño, el concreto debe tener una resistencia promedio a la compresión de 3000 psi (libras por pulgada cuadrada). Para asegurarte de que el concreto cumple con estas especificaciones, tomas muestras de cada lote de concreto y las pruebas para determinar su resistencia a la compresión. Has realizado este proceso en los últimos 50 lotes de concreto y ahora tienes una gran cantidad de datos. Necesitas utilizar técnicas de estadÃstica descriptiva para analizar los datos de resistencia a la compresión y responder las siguientes preguntas: --- ## Algunas preguntas de interés: 1. ¿Cuál es la resistencia promedio a la compresión del concreto en los últimos 50 lotes? ¿Cómo se compara esto con la especificación de diseño de 3000 psi? 2. ¿Cuál es la desviación estándar de la resistencia a la compresión? ¿Cuánta variabilidad hay en la resistencia del concreto? 3. ¿Cuál es el rango de resistencia a la compresión? Es decir, ¿cuál es la diferencia entre la resistencia más alta y la más baja que has medido? 4. ¿Cuál es la mediana de la resistencia a la compresión? Si ordenas los datos de menor a mayor, ¿cuál es el valor en el medio? 5. ¿Hay alguna anomalÃa o valor atÃpico en los datos que pueda ser causa de preocupación? Con base en tus hallazgos, ¿cómo evaluarÃas la calidad del concreto que tu empresa ha estado utilizando? --- # Conceptos Previos - **Población:** Se refiere al conjunto completo de individuos, objetos o medidas que se quiere estudiar. Es el grupo total sobre el cual se quiere obtener información. - **Muestra:** Es un subconjunto seleccionado de la población. Es una porción o fracción de la población que se elige de forma especÃfica para representar a toda la población. ### **Ejemplo en el contexto de la IngenierÃa:** #### **Situación:** Imagina que eres un ingeniero civil y trabajas para una empresa que produce concreto. La empresa produce 10,000 bloques de concreto al dÃa. Estás interesado en asegurar que estos bloques cumplan con una resistencia mÃnima a la compresión. - **Población:** Los 10,000 bloques de concreto producidos en un dÃa. - **Muestra:** Debido a que no es práctico (ni económico) testear la resistencia de todos y cada uno de los 10,000 bloques producidos diariamente, decides tomar una muestra aleatoria de, digamos, 100 bloques de concreto de la producción diaria para testear su resistencia a la compresión. --- - **Variable:** En estadÃstica, una variable es cualquier caracterÃstica, número o cantidad que puede ser medido o contado. Las variables pueden tomar diferentes valores, y esos valores pueden variar de un individuo a otro dentro de una población o muestra. **Ejemplo en el contexto de la IngenierÃa:** - **Situación:** Imagina que eres un ingeniero eléctrico diseñando diferentes tipos de Ampolletas LED. Para asegurarte de la eficiencia de estas ampolletas, decides medir la cantidad de luz (en lúmenes) que emiten al consumir una cierta cantidad de energÃa (en vatios). - **Variable:** La cantidad de luz emitida por la ampolleta (en lúmenes) es tu variable de interés. Diferentes ampolletas, incluso del mismo tipo o marca, pueden emitir ligeramente diferentes cantidades de luz debido a variaciones en la fabricación, por lo que la cantidad de luz es una caracterÃstica que puede variar y, por lo tanto, es una variable. --- # Clasificación de una variable 1. **Variables Cualitativas (o Categóricas):** Son aquellas que describen caracterÃsticas o categorÃas y no pueden ser medidas en términos cuantitativos. Pueden ser: - **Nominales:** No tienen un orden especÃfico. Ejemplo: Color de un cable (rojo, azul, verde). - **Ordinales:** Tienen un orden o jerarquÃa. Ejemplo: Niveles de calidad de un material (bajo, medio, alto). 2. **Variables Cuantitativas:** Son aquellas que representan cantidades y pueden medirse numéricamente. Se dividen en: - **Discretas:** Toman valores especÃficos, generalmente contables. Ejemplo: Número de tornillos en un paquete (1, 2, 3, ...). - **Continuas:** Pueden tomar cualquier valor dentro de un rango especÃfico. Ejemplo: Longitud de una viga en metros, que podrÃa ser 5.2m, 5.25m, 5.257m, etc. --- **Ejemplo en el contexto de la IngenierÃa** - **Situación:** Eres un ingeniero mecánico y estás supervisando la producción de motores para automóviles en una fábrica. 1. **Variable Cualitativa:** - **Nominal:** Tipo de combustible que usa el motor (Gasolina, Diesel, Eléctrico). - **Ordinal:** Calificación de eficiencia del motor (Baja, Media, Alta). 2. **Variable Cuantitativa:** - **Discreta:** Número de cilindros en el motor (por ejemplo, 4, 6, 8 cilindros). - **Continua:** Potencia de salida del motor, que podrÃa ser 150.5 HP, 150.55 HP, etc. --- # Escalas de medición La **escala de medición** se refiere al tipo de información proporcionada por los números de una variable. Las escalas de medición son esenciales para determinar qué tipo de análisis es apropiado para los datos en cuestión. Existen cuatro niveles o escalas principales de medición: - **Escala Nominal:** Mide categorÃas o nombres sin ningún orden. En esta escala, los números sirven únicamente como etiquetas. - **Ejemplo:** Tipos de materiales utilizados en la construcción: 1 = Acero, 2 = Concreto, 3 = Madera. AquÃ, los números no indican que un material sea "mejor" o "mayor" que otro. - **Escala Ordinal:** Mide categorÃas con un orden o rango especÃfico, pero las diferencias entre las categorÃas no son uniformes. - **Ejemplo:**Niveles de corrosión en un metal: 1 = Sin corrosión, 2 = Corrosión leve, 3 = Corrosión moderada, 4 = Corrosión severa. Aunque hay un orden claro, la "distancia" entre los niveles no es necesariamente la misma. --- - **Escala de Intervalo:** Los números tienen significado y las distancias entre los valores son uniformes, pero no hay un punto de partida verdadero o absoluto (es decir, no hay un verdadero cero). - **Ejemplo:** Temperatura medida en grados Celsius. Una diferencia de 10°C siempre representa la misma diferencia de temperatura, pero 0°C no significa ausencia de temperatura. - **Escala de Razón:** Similar a la escala de intervalo, pero con un punto de partida verdadero o absoluto. Todas las operaciones aritméticas son posibles en esta escala. - **Ejemplo:** La longitud de una pieza de maquinaria medida en metros. AquÃ, 0 metros significa ausencia de longitud y una pieza de 4 metros es, de hecho, el doble de larga que una pieza de 2 metros. --- # Representación de los datos **Tabla de Distribución de Frecuencias:** Es una herramienta que resume un conjunto de datos en grupos o clases, mostrando la cantidad (frecuencia) de observaciones en cada grupo. Es especialmente útil para organizar y dar una visión clara de grandes conjuntos de datos. Las principales componentes de una tabla de distribución de frecuencias son: 1. **Clases o Intervalos:** Son los grupos en los que se dividen los datos. 2. **Frecuencia Absoluta(n):** Número de observaciones en cada clase. 3. **Frecuencia Relativa(f):** Proporción o porcentaje de observaciones en cada clase respecto al total. 4. **Frecuencia Acumulada(N):** Suma acumulada de las frecuencias de una clase y todas las anteriores - **Ejemplo en el contexto de la ingenierÃa:** - **Situación:** Imagina que eres un ingeniero y has realizado pruebas de resistencia a la tensión en 100 piezas de un tipo de alambre. Obtienes medidas en Newtons (N) y quieres organizar los datos para analizar la distribución de la resistencia. --- Tus resultados varÃan desde 50N hasta 150N. Decide dividir estos datos en cinco clases de igual ancho. Tabla de Distribución de Frecuencias: | Clase (Resistencia N) | Frecuencia Absoluta | Frecuencia Relativa | Frecuencia Acumulada | |:----------------------:| :------------------:| :------------------: | :-------------------: | |50 - 70 | 10 | 10% | 10 | |70 - 90 | 25 | 25% | 35 | |90 - 110| 30 | 30% | 65 | |110 - 130| 20 | 20% | 85 | |130 - 150| 15 | 15% | 100 | Esta tabla te permite ver rápidamente cómo se distribuye la resistencia entre las piezas probadas. Por ejemplo, puedes ver que el 30% de las piezas tienen una resistencia entre 90N y 109N. --- # Representaciones Gráficas Las representaciones gráficas son herramientas visuales utilizadas para mostrar y resumir conjuntos de datos o distribuciones estadÃsticas. Son esenciales para la comprensión y comunicación de información en estadÃstica. Veamos algunas representaciones gráficas comunes y un ejemplo en el contexto de la ingenierÃa para cada una: - **Histograma:** Representa la distribución de frecuencias de un conjunto de datos continuo o discreto. Es similar a un gráfico de barras, pero para datos cuantitativos. - **Ejemplo:** Se consideran datos aleatorios de una función de probabilidad y se dibujan en el histograma. <img src="presentacionNinja1_files/figure-html/unnamed-chunk-1-1.png" class="center" /> --- - **Gráfico de Barras:** Utilizado para representar frecuencias o valores para datos categóricos. - **Ejemplo:** Imaginemos que tienes un conjunto de datos que representa la marca de automóviles preferida entre un grupo de personas: <img src="presentacionNinja1_files/figure-html/unnamed-chunk-2-1.png" class="center" /> --- **Diagrama de Sectores (Pie Chart):** Muestra la proporción de categorÃas en un conjunto de datos categóricos. - **Ejemplo:** Si quieres mostrar la proporción de diferentes tipos de vehÃculos y sus ventas, podrÃas usar un diagrama de sectores para representar porcentajes de, Toyota, Honda, Ford, BMW, Tesla <img src="presentacionNinja1_files/figure-html/unnamed-chunk-3-1.png" class="center" /> --- **Diagrama de dispersión (Scatter plot):** Representa la relación entre dos variables cuantitativas. - **Ejemplo:** Si estás investigando la relación entre las horas de estudio y la calificación, podrÃas usar un diagrama de dispersión para trazar cada par de valores (Horas de estudio vs. calificación). <img src="presentacionNinja1_files/figure-html/unnamed-chunk-4-1.png" class="center" /> --- **Boxplot (Diagrama de caja y bigotes):** Resume la distribución de un conjunto de datos, mostrando medidas de tendencia central y dispersión, asà como posibles valores atÃpicos. - **Ejemplo:** Las calificaciones de dos grupos de estudiantes (Grupo A y Grupo B) <img src="presentacionNinja1_files/figure-html/unnamed-chunk-5-1.png" class="center" /> --- # EstadÃsgrafos de Tendencia central Las medidas de centralización describen el centro de una distribución de datos. Estas medidas resumen una serie de datos con un único valor que, de alguna manera, es representativo del conjunto de datos en su totalidad. Las principales medidas de centralización son: - **Media aritmética:** Es el valor promedio de un conjunto de datos y se calcula sumando todos los valores y dividiendo por el número de observaciones. - **Mediana:** Es el valor medio de un conjunto de datos ordenado. Si hay un número impar de observaciones, es el valor en el centro. Si hay un número par de observaciones, es el promedio de los dos valores centrales. - **Moda o Modo:** Es el valor que aparece con mayor frecuencia en un conjunto de datos. --- # EstadÃsgrafos de Posición **Concepto básico:** Las medidas de posición dividen un conjunto de datos en partes iguales o representativas, permitiendo determinar la posición relativa de datos individuales o grupos de datos. **Percentiles:** - Dividen un conjunto de datos en 100 partes iguales. - El percentil 25, por ejemplo, es el valor bajo el cual se encuentra el 25% de los datos. Es también conocido como el primer cuartil (Q1). - El percentil 50 es el valor medio cuando los datos están ordenados, y se conoce como la mediana. Es el segundo cuartil (Q2). - El percentil 75 es el valor bajo el cual se encuentra el 75% de los datos. Es el tercer cuartil (Q3). --- **Cuartiles:** - Son un caso especial de los percentiles. - Dividen un conjunto de datos en cuatro partes iguales. - Aparte de los mencionados Q1, Q2 y Q3, el valor mÃnimo es a menudo considerado como Q0 y el valor máximo como Q4. **Deciles:** - Dividen un conjunto de datos en 10 partes iguales. - Por ejemplo, el primer decil (D1) es el valor bajo el cual cae el 10% de los datos. --- **Aplicaciones prácticas:** **IngenierÃa Civil y Construcción:** - Diseño de carreteras: Los percentiles se utilizan para determinar caracterÃsticas como la velocidad del diseño. Por ejemplo, una velocidad del 85º percentil indica la velocidad por debajo de la cual el 85% de los conductores conducen en una carretera especÃfica bajo condiciones normales. Esta velocidad se utiliza a menudo para establecer lÃmites de velocidad adecuados. - Dimensionamiento de instalaciones: En el diseño de estaciones, aeropuertos o edificios, se podrÃa usar el 95º percentil de la altura o el ancho de hombros de las personas para garantizar que la mayorÃa de la población pueda usar las instalaciones cómodamente. --- **IngenierÃa Industrial:** - Control de calidad: Los percentiles pueden usarse para establecer lÃmites de control en la producción. Por ejemplo, si un producto tiene un peso que debe cumplir ciertas especificaciones, el 5º y 95º percentil podrÃan usarse para establecer lÃmites de control. - ErgonomÃa y diseño de productos: Al diseñar herramientas o estaciones de trabajo, se podrÃan utilizar los percentiles de medidas antropométricas para garantizar la comodidad y seguridad de diferentes percentiles de la población. **IngenierÃa Ambiental:** - Calidad del agua y aire: En estudios de contaminación, se pueden usar percentiles para establecer lÃmites seguros. Por ejemplo, el nivel de un contaminante especÃfico que no se excede el 95% del tiempo podrÃa ser una métrica importante. --- **IngenierÃa Mecánica:** - Análisis de resistencia de materiales: Si se prueba la resistencia de un material bajo diferentes condiciones, el 5º percentil de resistencia podrÃa usarse como un valor conservador para el diseño, asegurando que el material superará las expectativas en la mayorÃa de los casos. **IngenierÃa Eléctrica y Electrónica:** - Diseño de componentes: Al diseñar circuitos, se pueden usar percentiles para considerar variaciones en la fabricación de componentes. Por ejemplo, si un resistor tiene una resistencia nominal de 100 ohmios pero un 5% de variación, los valores del 5º y 95º percentil se considerarÃan en el diseño del circuito. **IngenierÃa de Telecomunicaciones:** - Análisis de tráfico: Al diseñar redes, se puede considerar el 95º percentil del tráfico para garantizar un desempeño adecuado durante aumentos de demanda, pero sin sobre dimensionar la infraestructura para el tráfico que sólo ocurre el 5% del tiempo. --- **IngenierÃa de sistemas y computación:** - Diseño de sistemas: Al diseñar infraestructura de TI, como servidores o redes, los ingenieros pueden usar percentiles para garantizar que los sistemas puedan manejar cargas de alta demanda. Por ejemplo, al evaluar la latencia de un servicio web, el percentil 99 (a veces llamado P99) representa la latencia máxima que el 99% de los usuarios experimentarán. - Optimización del rendimiento: Al medir el rendimiento de una aplicación o sistema, los percentiles pueden ayudar a identificar y solucionar cuellos de botella. --- # EstadÃsgrafos de Variabilidad Los **estadÃsticos de variabilidad (o dispersión)** nos dan información sobre la extensión o dispersión de un conjunto de datos. Te proporcionaré el 20% de información clave que te ayudará a entender el 80% del concepto: **Rango (Range):** - El rango es la diferencia entre el valor máximo y el valor mÃnimo de un conjunto de datos. Es la forma más simple de medir la variabilidad. - Ejemplo práctico: Si estás evaluando la temperatura a lo largo de un dÃa y la máxima fue de 30°C y la mÃnima de 20°C, el rango serÃa de 10°C. - Limitación: El rango solo considera dos valores y puede no ser representativo si hay valores atÃpicos. **Varianza (Variance) y Desviación Estándar (Standard Deviation):** - La varianza es el promedio de las diferencias al cuadrado entre cada dato y la media. Una varianza alta indica que los datos están más dispersos. - La desviación estándar es la raÃz cuadrada de la varianza. Es una medida más interpretable que la varianza porque está en las mismas unidades que los datos. --- - Ejemplo práctico: En una fábrica, si estás midiendo el tamaño de un producto y notas que la desviación estándar es grande, esto podrÃa indicar problemas de calidad en la producción. **Rango Intercuartil (IQR):** - Es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). Ofrece una imagen de la dispersión de la mitad central de los datos, siendo menos susceptible a valores extremos que el rango. - Ejemplo práctico: Al analizar salarios, el IQR puede mostrarte la dispersión salarial de la mayorÃa central, evitando distorsiones de valores extremadamente altos o bajos. **Coeficiente de variación (CV):** - Es la desviación estándar dividida por la media, generalmente expresada en porcentaje. Es útil para comparar la variabilidad entre conjuntos de datos con diferentes unidades o magnitudes. --- - Ejemplo práctico: Si estás comparando la variabilidad en la producción de dos máquinas diferentes, el CV te permite determinar cuál tiene mayor variabilidad relativa, independientemente de la producción promedio. - Ejemplo práctico en ingenierÃa: Evaluación de la consistencia de dos tipos de materiales Supongamos que eres un ingeniero encargado de seleccionar un material para construir un componente especÃfico. Dos proveedores te ofrecen materiales diferentes, y ambos parecen prometedores. Después de realizar pruebas, te das cuenta de que cada material tiene diferentes resistencias a la tensión (medida en megapascales, MPa). - **Material A:** - Media de resistencia: 150 MPa - Desviación estándar: 5 MPa - **Material B:** - Media de resistencia: 300 MPa - Desviación estándar: 30 MPa --- A primera vista, el Material B es más resistente, pero también parece tener una mayor variabilidad. Para tomar una decisión informada sobre cuál material es más confiable y consistente en su desempeño, puedes calcular el CV: .pull-left[ **Coeficiente de varaiación** `\begin{align} CV=\frac{\mbox{desviación estándar}}{\mbox{media}}\cdot100. \end{align}` $$ CV_A=\frac{5}{150}\cdot 100 = 3.33\% $$ $$ CV_B=\frac{30}{300}\cdot 100 = 10\% $$ ] .pull-right[ Aunque el Material B es más resistente en general, tiene un CV mayor, lo que indica que su resistencia varÃa más en relación con su media que el Material A. En contextos donde es esencial la consistencia (por ejemplo, en piezas crÃticas de seguridad), podrÃas optar por el Material A, a pesar de tener una resistencia menor en términos absolutos, debido a su menor variabilidad relativa. ] --- Este uso del coeficiente de variación ayuda a los ingenieros a tomar decisiones basadas no solo en caracterÃsticas promedio o absolutas de los materiales, sino también en la consistencia y confiabilidad de esos materiales en diferentes aplicaciones y condiciones. --- # EstadÃsgrafos de Forma Los **estadÃgrafos de forma** nos ayudan a conocer la forma y caracterÃsticas de la distribución de un conjunto de datos. **AsimetrÃa (Skewness):** - Describe la dirección y grado en que los datos se inclinan o desvÃan de la simetrÃa perfecta. - AsimetrÃa positiva: la cola a la derecha de la distribución es más larga. Significa que hay más valores atÃpicamente altos. - AsimetrÃa negativa: la cola a la izquierda es más larga. Indica más valores atÃpicamente bajos. - Ejemplo: Si estás observando los salarios de una empresa y hay una asimetrÃa positiva, esto podrÃa indicar que hay unos pocos empleados con salarios mucho más altos que el resto. --- **Curtosis (Kurtosis):** - Mide la "pesadez" de las colas de una distribución. Describe si los datos son más o menos puntiagudos que una distribución normal. - Leptocúrtica: Curtosis > 0. Distribución con colas más pesadas que la normal. Más valores extremos. - Mesocúrtica: Curtosis ≈ 0. Similar a la distribución normal. - Platicúrtica: Curtosis < 0. Distribución más achatada con colas más ligeras. - Ejemplo: Si estás analizando los tiempos de respuesta de un sistema y encuentras que la distribución es leptocúrtica, esto podrÃa indicar que hay muchos tiempos atÃpicamente largos o cortos. --- **Ejemplo:** Para los siguientes datos se calculara la simetria y la curtosis: 10, 20, 20, 25, 30, 30, 30, 40, 50, 60 ``` ## Valor de AsimetrÃa: 0.5939164 ``` ``` ## Valor de Curtosis: -0.4250399 ``` **Ejemplo en IngenierÃa Civil - Evaluación de la Resistencia del Concreto:** Imagina que eres un ingeniero civil trabajando en un proyecto de construcción de un rascacielos. Como parte de tu trabajo, necesitas asegurarte de que el concreto utilizado para las columnas de soporte del edificio cumpla con ciertos estándares de resistencia. Después de tomar muestras de varios lotes de concreto, realizas pruebas de resistencia a la compresión y obtienes los siguientes resultados (en megapascales, MPa): --- Antes de continuar con el proyecto, deseas evaluar la calidad del concreto. Además del promedio y la desviación estándar, decides calcular la asimetrÃa y la curtosis para obtener una mejor comprensión de la distribución de los datos: ``` ## Valor de AsimetrÃa: 0.1149788 ``` ``` ## Valor de Curtosis: -1.079554 ``` ---
---
---