# Asimetria

Formalmente, decimos que una distribución de frecuencias es simétrica si la media aritmética \(\bar{x}\) es igual a la mediana \(\overline{M}_e\) . Esto significa que, en cualquier otro caso, la distribución es asimétrica.Esto significa que, en cualquier otro caso, la distribución es asimétrica.

Cuando \(\bar{x}<\overline{M}_e\) decimos que la distribución es Asimétrica a la izquierda, Asimétrica de cola izquierda o que tiene Asimetría negativa.

Cuando \(\bar{x}>\overline{M}_e\) decimos que la distribución es Asimétrica a la derecha, Asimétrica de cola derecha o que tiene Asimetría positiva.

Coeficiente de Asimetria

También conocido como el coeficiente de asimetría de Fisher-Pearson, se basa en momentos centrales: \[ asimetría = \frac{m_3}{S^3} \] Donde \(S^3\) es la desviación típica elevada al cubo y \(m_3\) es lo que se conoce como el Momento central de orden r, donde r puede ser cualquier entero positivo y se calcula se la siguiente manera. \[ m_r = \frac{1}{n} \sum_{i=1}^n (x_i - \overline{X})^r \] Interpretacion

Distribución simétrica \[ asimetría=0 \] Distribución asimétrica a la derecha \[ asimetría>0 \] Distribución asimétrica a la izquierda \[ asimetría<0 \] Evidentemente, la varianza también es un momento central, pero de orden 2. Por esto es que decimos que este coeficiente de asimetría está basado en momentos. Es decir, el coeficiente de asimetría es el momento central de orden 3 para los datos estandarizados.

Aplicaciones

Primer caso - Datos sencillos

Ingresamos 5 valores, a los cuales llamaremos “Números” y calculamos su coeficiente de asimetría.

# Ingresamos los valores mediante la concatenacion
Números <- c(12, 16, 20, 45, -18)
Números
## [1]  12  16  20  45 -18

A continuación calculamos la asimetría, utilizando la formula mostrada anteriormente

library(moments)
skewness(Números)
## [1] -0.2170317

Segundo caso - Dataset

Importamos un dataset, y calculamos su asimetría

# Primero llamamos a la librería y observamos que datasets encontramos
paquetes <- library(help = "datasets")   
head(paquetes$info)
## [[1]]
##  [1] "Package:       datasets"                                          
##  [2] "Version:       4.3.1"                                             
##  [3] "Priority:      base"                                              
##  [4] "Title:         The R Datasets Package"                            
##  [5] "Author:        R Core Team and contributors worldwide"            
##  [6] "Maintainer:    R Core Team <do-use-Contact-address@r-project.org>"
##  [7] "Contact:       R-help mailing list <r-help@r-project.org>"        
##  [8] "Description:   Base R datasets."                                  
##  [9] "License:       Part of R 4.3.1"                                   
## [10] "Built:         R 4.3.1; ; 2023-06-16 07:35:46 UTC; windows"       
## 
## [[2]]
##   [1] "AirPassengers           Monthly Airline Passenger Numbers 1949-1960"    
##   [2] "BJsales                 Sales Data with Leading Indicator"              
##   [3] "BOD                     Biochemical Oxygen Demand"                      
##   [4] "CO2                     Carbon Dioxide Uptake in Grass Plants"          
##   [5] "ChickWeight             Weight versus age of chicks on different diets" 
##   [6] "DNase                   Elisa assay of DNase"                           
##   [7] "EuStockMarkets          Daily Closing Prices of Major European Stock"   
##   [8] "                        Indices, 1991-1998"                             
##   [9] "Formaldehyde            Determination of Formaldehyde"                  
##  [10] "HairEyeColor            Hair and Eye Color of Statistics Students"      
##  [11] "Harman23.cor            Harman Example 2.3"                             
##  [12] "Harman74.cor            Harman Example 7.4"                             
##  [13] "Indometh                Pharmacokinetics of Indomethacin"               
##  [14] "InsectSprays            Effectiveness of Insect Sprays"                 
##  [15] "JohnsonJohnson          Quarterly Earnings per Johnson & Johnson Share" 
##  [16] "LakeHuron               Level of Lake Huron 1875-1972"                  
##  [17] "LifeCycleSavings        Intercountry Life-Cycle Savings Data"           
##  [18] "Loblolly                Growth of Loblolly pine trees"                  
##  [19] "Nile                    Flow of the River Nile"                         
##  [20] "Orange                  Growth of Orange Trees"                         
##  [21] "OrchardSprays           Potency of Orchard Sprays"                      
##  [22] "PlantGrowth             Results from an Experiment on Plant Growth"     
##  [23] "Puromycin               Reaction Velocity of an Enzymatic Reaction"     
##  [24] "Theoph                  Pharmacokinetics of Theophylline"               
##  [25] "Titanic                 Survival of passengers on the Titanic"          
##  [26] "ToothGrowth             The Effect of Vitamin C on Tooth Growth in"     
##  [27] "                        Guinea Pigs"                                    
##  [28] "UCBAdmissions           Student Admissions at UC Berkeley"              
##  [29] "UKDriverDeaths          Road Casualties in Great Britain 1969-84"       
##  [30] "UKLungDeaths            Monthly Deaths from Lung Diseases in the UK"    
##  [31] "UKgas                   UK Quarterly Gas Consumption"                   
##  [32] "USAccDeaths             Accidental Deaths in the US 1973-1978"          
##  [33] "USArrests               Violent Crime Rates by US State"                
##  [34] "USJudgeRatings          Lawyers' Ratings of State Judges in the US"     
##  [35] "                        Superior Court"                                 
##  [36] "USPersonalExpenditure   Personal Expenditure Data"                      
##  [37] "VADeaths                Death Rates in Virginia (1940)"                 
##  [38] "WWWusage                Internet Usage per Minute"                      
##  [39] "WorldPhones             The World's Telephones"                         
##  [40] "ability.cov             Ability and Intelligence Tests"                 
##  [41] "airmiles                Passenger Miles on Commercial US Airlines,"     
##  [42] "                        1937-1960"                                      
##  [43] "airquality              New York Air Quality Measurements"              
##  [44] "anscombe                Anscombe's Quartet of 'Identical' Simple Linear"
##  [45] "                        Regressions"                                    
##  [46] "attenu                  The Joyner-Boore Attenuation Data"              
##  [47] "attitude                The Chatterjee-Price Attitude Data"             
##  [48] "austres                 Quarterly Time Series of the Number of"         
##  [49] "                        Australian Residents"                           
##  [50] "beavers                 Body Temperature Series of Two Beavers"         
##  [51] "cars                    Speed and Stopping Distances of Cars"           
##  [52] "chickwts                Chicken Weights by Feed Type"                   
##  [53] "co2                     Mauna Loa Atmospheric CO2 Concentration"        
##  [54] "crimtab                 Student's 3000 Criminals Data"                  
##  [55] "datasets-package        The R Datasets Package"                         
##  [56] "discoveries             Yearly Numbers of Important Discoveries"        
##  [57] "esoph                   Smoking, Alcohol and (O)esophageal Cancer"      
##  [58] "euro                    Conversion Rates of Euro Currencies"            
##  [59] "eurodist                Distances Between European Cities and Between"  
##  [60] "                        US Cities"                                      
##  [61] "faithful                Old Faithful Geyser Data"                       
##  [62] "freeny                  Freeny's Revenue Data"                          
##  [63] "infert                  Infertility after Spontaneous and Induced"      
##  [64] "                        Abortion"                                       
##  [65] "iris                    Edgar Anderson's Iris Data"                     
##  [66] "islands                 Areas of the World's Major Landmasses"          
##  [67] "lh                      Luteinizing Hormone in Blood Samples"           
##  [68] "longley                 Longley's Economic Regression Data"             
##  [69] "lynx                    Annual Canadian Lynx trappings 1821-1934"       
##  [70] "morley                  Michelson Speed of Light Data"                  
##  [71] "mtcars                  Motor Trend Car Road Tests"                     
##  [72] "nhtemp                  Average Yearly Temperatures in New Haven"       
##  [73] "nottem                  Average Monthly Temperatures at Nottingham,"    
##  [74] "                        1920-1939"                                      
##  [75] "npk                     Classical N, P, K Factorial Experiment"         
##  [76] "occupationalStatus      Occupational Status of Fathers and their Sons"  
##  [77] "precip                  Annual Precipitation in US Cities"              
##  [78] "presidents              Quarterly Approval Ratings of US Presidents"    
##  [79] "pressure                Vapor Pressure of Mercury as a Function of"     
##  [80] "                        Temperature"                                    
##  [81] "quakes                  Locations of Earthquakes off Fiji"              
##  [82] "randu                   Random Numbers from Congruential Generator"     
##  [83] "                        RANDU"                                          
##  [84] "rivers                  Lengths of Major North American Rivers"         
##  [85] "rock                    Measurements on Petroleum Rock Samples"         
##  [86] "sleep                   Student's Sleep Data"                           
##  [87] "stackloss               Brownlee's Stack Loss Plant Data"               
##  [88] "state                   US State Facts and Figures"                     
##  [89] "sunspot.month           Monthly Sunspot Data, from 1749 to \"Present\"" 
##  [90] "sunspot.year            Yearly Sunspot Data, 1700-1988"                 
##  [91] "sunspots                Monthly Sunspot Numbers, 1749-1983"             
##  [92] "swiss                   Swiss Fertility and Socioeconomic Indicators"   
##  [93] "                        (1888) Data"                                    
##  [94] "treering                Yearly Treering Data, -6000-1979"               
##  [95] "trees                   Diameter, Height and Volume for Black Cherry"   
##  [96] "                        Trees"                                          
##  [97] "uspop                   Populations Recorded by the US Census"          
##  [98] "volcano                 Topographic Information on Auckland's Maunga"   
##  [99] "                        Whau Volcano"                                   
## [100] "warpbreaks              The Number of Breaks in Yarn during Weaving"    
## [101] "women                   Average Heights and Weights for American Women" 
## 
## [[3]]
## NULL

A continuación elegimos uno

co2 #Concentración de CO2 en Manua Loa en un entre 1959-1997
##         Jan    Feb    Mar    Apr    May    Jun    Jul    Aug    Sep    Oct
## 1959 315.42 316.31 316.50 317.56 318.13 318.00 316.39 314.65 313.68 313.18
## 1960 316.27 316.81 317.42 318.87 319.87 319.43 318.01 315.74 314.00 313.68
## 1961 316.73 317.54 318.38 319.31 320.42 319.61 318.42 316.63 314.83 315.16
## 1962 317.78 318.40 319.53 320.42 320.85 320.45 319.45 317.25 316.11 315.27
## 1963 318.58 318.92 319.70 321.22 322.08 321.31 319.58 317.61 316.05 315.83
## 1964 319.41 320.07 320.74 321.40 322.06 321.73 320.27 318.54 316.54 316.71
## 1965 319.27 320.28 320.73 321.97 322.00 321.71 321.05 318.71 317.66 317.14
## 1966 320.46 321.43 322.23 323.54 323.91 323.59 322.24 320.20 318.48 317.94
## 1967 322.17 322.34 322.88 324.25 324.83 323.93 322.38 320.76 319.10 319.24
## 1968 322.40 322.99 323.73 324.86 325.40 325.20 323.98 321.95 320.18 320.09
## 1969 323.83 324.26 325.47 326.50 327.21 326.54 325.72 323.50 322.22 321.62
## 1970 324.89 325.82 326.77 327.97 327.91 327.50 326.18 324.53 322.93 322.90
## 1971 326.01 326.51 327.01 327.62 328.76 328.40 327.20 325.27 323.20 323.40
## 1972 326.60 327.47 327.58 329.56 329.90 328.92 327.88 326.16 324.68 325.04
## 1973 328.37 329.40 330.14 331.33 332.31 331.90 330.70 329.15 327.35 327.02
## 1974 329.18 330.55 331.32 332.48 332.92 332.08 331.01 329.23 327.27 327.21
## 1975 330.23 331.25 331.87 333.14 333.80 333.43 331.73 329.90 328.40 328.17
## 1976 331.58 332.39 333.33 334.41 334.71 334.17 332.89 330.77 329.14 328.78
## 1977 332.75 333.24 334.53 335.90 336.57 336.10 334.76 332.59 331.42 330.98
## 1978 334.80 335.22 336.47 337.59 337.84 337.72 336.37 334.51 332.60 332.38
## 1979 336.05 336.59 337.79 338.71 339.30 339.12 337.56 335.92 333.75 333.70
## 1980 337.84 338.19 339.91 340.60 341.29 341.00 339.39 337.43 335.72 335.84
## 1981 339.06 340.30 341.21 342.33 342.74 342.08 340.32 338.26 336.52 336.68
## 1982 340.57 341.44 342.53 343.39 343.96 343.18 341.88 339.65 337.81 337.69
## 1983 341.20 342.35 342.93 344.77 345.58 345.14 343.81 342.21 339.69 339.82
## 1984 343.52 344.33 345.11 346.88 347.25 346.62 345.22 343.11 340.90 341.18
## 1985 344.79 345.82 347.25 348.17 348.74 348.07 346.38 344.51 342.92 342.62
## 1986 346.11 346.78 347.68 349.37 350.03 349.37 347.76 345.73 344.68 343.99
## 1987 347.84 348.29 349.23 350.80 351.66 351.07 349.33 347.92 346.27 346.18
## 1988 350.25 351.54 352.05 353.41 354.04 353.62 352.22 350.27 348.55 348.72
## 1989 352.60 352.92 353.53 355.26 355.52 354.97 353.75 351.52 349.64 349.83
## 1990 353.50 354.55 355.23 356.04 357.00 356.07 354.67 352.76 350.82 351.04
## 1991 354.59 355.63 357.03 358.48 359.22 358.12 356.06 353.92 352.05 352.11
## 1992 355.88 356.63 357.72 359.07 359.58 359.17 356.94 354.92 352.94 353.23
## 1993 356.63 357.10 358.32 359.41 360.23 359.55 357.53 355.48 353.67 353.95
## 1994 358.34 358.89 359.95 361.25 361.67 360.94 359.55 357.49 355.84 356.00
## 1995 359.98 361.03 361.66 363.48 363.82 363.30 361.94 359.50 358.11 357.80
## 1996 362.09 363.29 364.06 364.76 365.45 365.01 363.70 361.54 359.51 359.65
## 1997 363.23 364.06 364.61 366.40 366.84 365.68 364.52 362.57 360.24 360.83
##         Nov    Dec
## 1959 314.66 315.43
## 1960 314.84 316.03
## 1961 315.94 316.85
## 1962 316.53 317.53
## 1963 316.91 318.20
## 1964 317.53 318.55
## 1965 318.70 319.25
## 1966 319.63 320.87
## 1967 320.56 321.80
## 1968 321.16 322.74
## 1969 322.69 323.95
## 1970 323.85 324.96
## 1971 324.63 325.85
## 1972 326.34 327.39
## 1973 327.99 328.48
## 1974 328.29 329.41
## 1975 329.32 330.59
## 1976 330.14 331.52
## 1977 332.24 333.68
## 1978 333.75 334.78
## 1979 335.12 336.56
## 1980 336.93 338.04
## 1981 338.19 339.44
## 1982 339.09 340.32
## 1983 340.98 342.82
## 1984 342.80 344.04
## 1985 344.06 345.38
## 1986 345.48 346.72
## 1987 347.64 348.78
## 1988 349.91 351.18
## 1989 351.14 352.37
## 1990 352.69 354.07
## 1991 353.64 354.89
## 1992 354.09 355.33
## 1993 355.30 356.78
## 1994 357.59 359.05
## 1995 359.61 360.74
## 1996 360.80 362.38
## 1997 362.49 364.34

Entonces de estos datos calculamos la asimetría

skewness(co2)
## [1] 0.242693

Tercer caso - Dataframe

Aqui podemos observar dos modos de utilizar un DataFrame, ya sea creando uno, o importandolo mediante un archivo excel DATAFRAME (Ingresando datos)

Creamos una dataframe ingresando las variables “ALUMNOS”, “EDADES”, “PESOS”

df <- data.frame(Alumnos = c("Jose", "María", "Lucas", "Valentina"), Edades = c(16, 14, 20, 18), Peso_kg = c(48, 42, 51, 50))
df 

Entonces calculamos la asimtería de las edades y del peso de los alumnos

skewness(df$Edades)          # ASIMETRÍA DE LAS EDADES
## [1] 0
skewness(df$Peso_kg)         # ASIMETRÍA DE LOS PESOS
## [1] -0.8483207

Dataframe - Ingresando datos

Importamos un dataframe que contiene una base de datos de Excel

library(readxl)
## Warning: package 'readxl' was built under R version 4.3.2
df2 <- data.frame(read_excel("C:/Users/Melissa/Downloads/1000-Registros-de-ventas.xlsx"))
df2

Entonces calculamos la asimetría de las edades y del peso de los alumnos

skewness(df2$Precio.Unitario)          # ASIMETRÍA DE LOS PRECIOS UNITARIOS
## [1] 0.7523503
skewness(df2$Coste.unitario)           # ASIMETRÍA DE LOS COSTOS UNITARIOS
## [1] 0.8813698

Coeficiente de Curtosis

El coeficiente de apuntamiento muestras, tambien conocido como curtosis, es una medida estadística que se utiliza para evaluar la forma de la distribución de un conjunto de datos y, específicamente, para medir cuán “afilada” o “achatada” es la distribución en comparación con una distribución normal. Indica la concentración de valores alrededor de la media y la presencia de valores extremos en la distribución de datos.

Se definen 3 tipos de distribuciones según su grado de curtosis:

Distribución mesocúrtica: Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Los valores extremos o atípicos son menos comunes en este tipo de distribución.La curtosis se aproxima a cero para una distribución mesocúrtica.

imagen.jpg
imagen.jpg

Distribución leptocúrtica: El coeficiente de curtosis es positivo para una distribución leptocúrtica. Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.Las colas de la distribución son más pesadas, lo que significa que los valores extremos son más probables.

imagen.jpg
imagen.jpg

Distribución platicúrtica: Presenta un reducido grado de concentración alrededor de los valores centrales de la variable y sus valores están más dispersos. Tienen una forma achatada con un pico más bajo en el centro y colas menos pronunciadas. El coeficiente de curtosis es negativo para una distribución platicúrtica.

imagen.jpg
imagen.jpg

Formula:

Es el promedio de las desviaciones de los valores de la muestra respecto de la media muestral, elevadas a la cuarta, dividido por la desviación típica a la cuarta y al resultado se le resta 3.

\[\mbox{Curtosis}= \frac{\sum(x_i - \overline{x})^4\cdot 1/N}{s^4} - 3 \]

Donde:

  • \(xi\) : Es cada valor individual en el conjunto de datos.

  • \(x̄\) : Es la media aritmética de los datos.

  • \(N\): Es el numero total de datos de la muestra

  • \(S\) : Es la desviacion estandar de la muestra

Ejemplo 1:

# Datos de alturas
library(e1071)
## Warning: package 'e1071' was built under R version 4.3.2
## 
## Attaching package: 'e1071'
## The following objects are masked from 'package:moments':
## 
##     kurtosis, moment, skewness
alturas <- c(160, 165, 170, 175, 180, 185, 190)

# Cálculo de la curtosis
curtosis <- kurtosis(alturas, type = 1)
curtosis
## [1] -1.25

Del resultado que obtuvimos podemos ver que la curtosis es negativa y no esta cerca de cero, por lo tanto, podemos concluir que estamos hablando de una distribución de datos “platicúrtica”. En otras palabras, la forma de la distribución es un poco más “ancha” o “aplanada” en comparación con una distribución normal. Esto nos dice que los datos se dispersan más alrededor de la media, y no tienden a agruparse tanto.

Ejemplo 2:

# Calificaciones del aula 3ro "C"
df <- data.frame(Alumnos = c("Jose", "María", "Lucas", "Valentina", "Sebastian", "Maria", "Malcolm", "Silvia", "Ernesto", "Juana", "Alex", "Jusan", "Dwayne"), Calificaciones = c(8, 5, 9, 10, 12, 7, 2, 6, 8, 9, 10, 7, 7))
df
# Cálculo de la curtosis
library(moments)
curtosis2 <- kurtosis(df$Calificaciones,type = 1)
curtosis2
## [1] 0.3490127

En este ejemplo, la curtosis es positiva, lo que indica una distribución leptocúrtica. La mayoría de los estudiantes obtienen calificaciones cercanas a la media, pero algunos obtienen calificaciones extremadamente altas, lo que da como resultado colas pesadas en la distribución.

Ejemplo 3:

# Registros de ventas
library(readxl)
df2 <- data.frame(read_excel("C:/Users/Melissa/Downloads/1000-Registros-de-ventas.xlsx"))
library(moments)
curtosis3 <- kurtosis(df2$Importe.venta.total,type = 1)
curtosis3
## [1] 2.448303
curtosis4 <- kurtosis(df2$Importe.Coste.total,type = 1)
curtosis4
## [1] 2.782373

En este ejemplo, las curtosis son positivas, lo que indica que son distribuciones leptocúrticas. La mayoría de las ventas y costes obtienen importes cercanos a la media, pero tambien se obtienen algunos importes extremadamente altos, lo que da como resultado colas pesadas en la distribución.