# Asimetria
Formalmente, decimos que una distribución de frecuencias es simétrica si la media aritmética \(\bar{x}\) es igual a la mediana \(\overline{M}_e\) . Esto significa que, en cualquier otro caso, la distribución es asimétrica.Esto significa que, en cualquier otro caso, la distribución es asimétrica.
Cuando \(\bar{x}<\overline{M}_e\)
decimos que la distribución es Asimétrica a la izquierda, Asimétrica de
cola izquierda o que tiene Asimetría negativa.
Cuando \(\bar{x}>\overline{M}_e\)
decimos que la distribución es Asimétrica a la derecha, Asimétrica de
cola derecha o que tiene Asimetría positiva.
También conocido como el coeficiente de asimetría de Fisher-Pearson, se basa en momentos centrales: \[ asimetría = \frac{m_3}{S^3} \] Donde \(S^3\) es la desviación típica elevada al cubo y \(m_3\) es lo que se conoce como el Momento central de orden r, donde r puede ser cualquier entero positivo y se calcula se la siguiente manera. \[ m_r = \frac{1}{n} \sum_{i=1}^n (x_i - \overline{X})^r \] Interpretacion
Distribución simétrica \[ asimetría=0 \] Distribución asimétrica a la derecha \[ asimetría>0 \] Distribución asimétrica a la izquierda \[ asimetría<0 \] Evidentemente, la varianza también es un momento central, pero de orden 2. Por esto es que decimos que este coeficiente de asimetría está basado en momentos. Es decir, el coeficiente de asimetría es el momento central de orden 3 para los datos estandarizados.
Ingresamos 5 valores, a los cuales llamaremos “Números” y calculamos su coeficiente de asimetría.
## [1] 12 16 20 45 -18
A continuación calculamos la asimetría, utilizando la formula mostrada anteriormente
## [1] -0.2170317
Importamos un dataset, y calculamos su asimetría
# Primero llamamos a la librería y observamos que datasets encontramos
paquetes <- library(help = "datasets")
head(paquetes$info)
## [[1]]
## [1] "Package: datasets"
## [2] "Version: 4.3.1"
## [3] "Priority: base"
## [4] "Title: The R Datasets Package"
## [5] "Author: R Core Team and contributors worldwide"
## [6] "Maintainer: R Core Team <do-use-Contact-address@r-project.org>"
## [7] "Contact: R-help mailing list <r-help@r-project.org>"
## [8] "Description: Base R datasets."
## [9] "License: Part of R 4.3.1"
## [10] "Built: R 4.3.1; ; 2023-06-16 07:35:46 UTC; windows"
##
## [[2]]
## [1] "AirPassengers Monthly Airline Passenger Numbers 1949-1960"
## [2] "BJsales Sales Data with Leading Indicator"
## [3] "BOD Biochemical Oxygen Demand"
## [4] "CO2 Carbon Dioxide Uptake in Grass Plants"
## [5] "ChickWeight Weight versus age of chicks on different diets"
## [6] "DNase Elisa assay of DNase"
## [7] "EuStockMarkets Daily Closing Prices of Major European Stock"
## [8] " Indices, 1991-1998"
## [9] "Formaldehyde Determination of Formaldehyde"
## [10] "HairEyeColor Hair and Eye Color of Statistics Students"
## [11] "Harman23.cor Harman Example 2.3"
## [12] "Harman74.cor Harman Example 7.4"
## [13] "Indometh Pharmacokinetics of Indomethacin"
## [14] "InsectSprays Effectiveness of Insect Sprays"
## [15] "JohnsonJohnson Quarterly Earnings per Johnson & Johnson Share"
## [16] "LakeHuron Level of Lake Huron 1875-1972"
## [17] "LifeCycleSavings Intercountry Life-Cycle Savings Data"
## [18] "Loblolly Growth of Loblolly pine trees"
## [19] "Nile Flow of the River Nile"
## [20] "Orange Growth of Orange Trees"
## [21] "OrchardSprays Potency of Orchard Sprays"
## [22] "PlantGrowth Results from an Experiment on Plant Growth"
## [23] "Puromycin Reaction Velocity of an Enzymatic Reaction"
## [24] "Theoph Pharmacokinetics of Theophylline"
## [25] "Titanic Survival of passengers on the Titanic"
## [26] "ToothGrowth The Effect of Vitamin C on Tooth Growth in"
## [27] " Guinea Pigs"
## [28] "UCBAdmissions Student Admissions at UC Berkeley"
## [29] "UKDriverDeaths Road Casualties in Great Britain 1969-84"
## [30] "UKLungDeaths Monthly Deaths from Lung Diseases in the UK"
## [31] "UKgas UK Quarterly Gas Consumption"
## [32] "USAccDeaths Accidental Deaths in the US 1973-1978"
## [33] "USArrests Violent Crime Rates by US State"
## [34] "USJudgeRatings Lawyers' Ratings of State Judges in the US"
## [35] " Superior Court"
## [36] "USPersonalExpenditure Personal Expenditure Data"
## [37] "VADeaths Death Rates in Virginia (1940)"
## [38] "WWWusage Internet Usage per Minute"
## [39] "WorldPhones The World's Telephones"
## [40] "ability.cov Ability and Intelligence Tests"
## [41] "airmiles Passenger Miles on Commercial US Airlines,"
## [42] " 1937-1960"
## [43] "airquality New York Air Quality Measurements"
## [44] "anscombe Anscombe's Quartet of 'Identical' Simple Linear"
## [45] " Regressions"
## [46] "attenu The Joyner-Boore Attenuation Data"
## [47] "attitude The Chatterjee-Price Attitude Data"
## [48] "austres Quarterly Time Series of the Number of"
## [49] " Australian Residents"
## [50] "beavers Body Temperature Series of Two Beavers"
## [51] "cars Speed and Stopping Distances of Cars"
## [52] "chickwts Chicken Weights by Feed Type"
## [53] "co2 Mauna Loa Atmospheric CO2 Concentration"
## [54] "crimtab Student's 3000 Criminals Data"
## [55] "datasets-package The R Datasets Package"
## [56] "discoveries Yearly Numbers of Important Discoveries"
## [57] "esoph Smoking, Alcohol and (O)esophageal Cancer"
## [58] "euro Conversion Rates of Euro Currencies"
## [59] "eurodist Distances Between European Cities and Between"
## [60] " US Cities"
## [61] "faithful Old Faithful Geyser Data"
## [62] "freeny Freeny's Revenue Data"
## [63] "infert Infertility after Spontaneous and Induced"
## [64] " Abortion"
## [65] "iris Edgar Anderson's Iris Data"
## [66] "islands Areas of the World's Major Landmasses"
## [67] "lh Luteinizing Hormone in Blood Samples"
## [68] "longley Longley's Economic Regression Data"
## [69] "lynx Annual Canadian Lynx trappings 1821-1934"
## [70] "morley Michelson Speed of Light Data"
## [71] "mtcars Motor Trend Car Road Tests"
## [72] "nhtemp Average Yearly Temperatures in New Haven"
## [73] "nottem Average Monthly Temperatures at Nottingham,"
## [74] " 1920-1939"
## [75] "npk Classical N, P, K Factorial Experiment"
## [76] "occupationalStatus Occupational Status of Fathers and their Sons"
## [77] "precip Annual Precipitation in US Cities"
## [78] "presidents Quarterly Approval Ratings of US Presidents"
## [79] "pressure Vapor Pressure of Mercury as a Function of"
## [80] " Temperature"
## [81] "quakes Locations of Earthquakes off Fiji"
## [82] "randu Random Numbers from Congruential Generator"
## [83] " RANDU"
## [84] "rivers Lengths of Major North American Rivers"
## [85] "rock Measurements on Petroleum Rock Samples"
## [86] "sleep Student's Sleep Data"
## [87] "stackloss Brownlee's Stack Loss Plant Data"
## [88] "state US State Facts and Figures"
## [89] "sunspot.month Monthly Sunspot Data, from 1749 to \"Present\""
## [90] "sunspot.year Yearly Sunspot Data, 1700-1988"
## [91] "sunspots Monthly Sunspot Numbers, 1749-1983"
## [92] "swiss Swiss Fertility and Socioeconomic Indicators"
## [93] " (1888) Data"
## [94] "treering Yearly Treering Data, -6000-1979"
## [95] "trees Diameter, Height and Volume for Black Cherry"
## [96] " Trees"
## [97] "uspop Populations Recorded by the US Census"
## [98] "volcano Topographic Information on Auckland's Maunga"
## [99] " Whau Volcano"
## [100] "warpbreaks The Number of Breaks in Yarn during Weaving"
## [101] "women Average Heights and Weights for American Women"
##
## [[3]]
## NULL
A continuación elegimos uno
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct
## 1959 315.42 316.31 316.50 317.56 318.13 318.00 316.39 314.65 313.68 313.18
## 1960 316.27 316.81 317.42 318.87 319.87 319.43 318.01 315.74 314.00 313.68
## 1961 316.73 317.54 318.38 319.31 320.42 319.61 318.42 316.63 314.83 315.16
## 1962 317.78 318.40 319.53 320.42 320.85 320.45 319.45 317.25 316.11 315.27
## 1963 318.58 318.92 319.70 321.22 322.08 321.31 319.58 317.61 316.05 315.83
## 1964 319.41 320.07 320.74 321.40 322.06 321.73 320.27 318.54 316.54 316.71
## 1965 319.27 320.28 320.73 321.97 322.00 321.71 321.05 318.71 317.66 317.14
## 1966 320.46 321.43 322.23 323.54 323.91 323.59 322.24 320.20 318.48 317.94
## 1967 322.17 322.34 322.88 324.25 324.83 323.93 322.38 320.76 319.10 319.24
## 1968 322.40 322.99 323.73 324.86 325.40 325.20 323.98 321.95 320.18 320.09
## 1969 323.83 324.26 325.47 326.50 327.21 326.54 325.72 323.50 322.22 321.62
## 1970 324.89 325.82 326.77 327.97 327.91 327.50 326.18 324.53 322.93 322.90
## 1971 326.01 326.51 327.01 327.62 328.76 328.40 327.20 325.27 323.20 323.40
## 1972 326.60 327.47 327.58 329.56 329.90 328.92 327.88 326.16 324.68 325.04
## 1973 328.37 329.40 330.14 331.33 332.31 331.90 330.70 329.15 327.35 327.02
## 1974 329.18 330.55 331.32 332.48 332.92 332.08 331.01 329.23 327.27 327.21
## 1975 330.23 331.25 331.87 333.14 333.80 333.43 331.73 329.90 328.40 328.17
## 1976 331.58 332.39 333.33 334.41 334.71 334.17 332.89 330.77 329.14 328.78
## 1977 332.75 333.24 334.53 335.90 336.57 336.10 334.76 332.59 331.42 330.98
## 1978 334.80 335.22 336.47 337.59 337.84 337.72 336.37 334.51 332.60 332.38
## 1979 336.05 336.59 337.79 338.71 339.30 339.12 337.56 335.92 333.75 333.70
## 1980 337.84 338.19 339.91 340.60 341.29 341.00 339.39 337.43 335.72 335.84
## 1981 339.06 340.30 341.21 342.33 342.74 342.08 340.32 338.26 336.52 336.68
## 1982 340.57 341.44 342.53 343.39 343.96 343.18 341.88 339.65 337.81 337.69
## 1983 341.20 342.35 342.93 344.77 345.58 345.14 343.81 342.21 339.69 339.82
## 1984 343.52 344.33 345.11 346.88 347.25 346.62 345.22 343.11 340.90 341.18
## 1985 344.79 345.82 347.25 348.17 348.74 348.07 346.38 344.51 342.92 342.62
## 1986 346.11 346.78 347.68 349.37 350.03 349.37 347.76 345.73 344.68 343.99
## 1987 347.84 348.29 349.23 350.80 351.66 351.07 349.33 347.92 346.27 346.18
## 1988 350.25 351.54 352.05 353.41 354.04 353.62 352.22 350.27 348.55 348.72
## 1989 352.60 352.92 353.53 355.26 355.52 354.97 353.75 351.52 349.64 349.83
## 1990 353.50 354.55 355.23 356.04 357.00 356.07 354.67 352.76 350.82 351.04
## 1991 354.59 355.63 357.03 358.48 359.22 358.12 356.06 353.92 352.05 352.11
## 1992 355.88 356.63 357.72 359.07 359.58 359.17 356.94 354.92 352.94 353.23
## 1993 356.63 357.10 358.32 359.41 360.23 359.55 357.53 355.48 353.67 353.95
## 1994 358.34 358.89 359.95 361.25 361.67 360.94 359.55 357.49 355.84 356.00
## 1995 359.98 361.03 361.66 363.48 363.82 363.30 361.94 359.50 358.11 357.80
## 1996 362.09 363.29 364.06 364.76 365.45 365.01 363.70 361.54 359.51 359.65
## 1997 363.23 364.06 364.61 366.40 366.84 365.68 364.52 362.57 360.24 360.83
## Nov Dec
## 1959 314.66 315.43
## 1960 314.84 316.03
## 1961 315.94 316.85
## 1962 316.53 317.53
## 1963 316.91 318.20
## 1964 317.53 318.55
## 1965 318.70 319.25
## 1966 319.63 320.87
## 1967 320.56 321.80
## 1968 321.16 322.74
## 1969 322.69 323.95
## 1970 323.85 324.96
## 1971 324.63 325.85
## 1972 326.34 327.39
## 1973 327.99 328.48
## 1974 328.29 329.41
## 1975 329.32 330.59
## 1976 330.14 331.52
## 1977 332.24 333.68
## 1978 333.75 334.78
## 1979 335.12 336.56
## 1980 336.93 338.04
## 1981 338.19 339.44
## 1982 339.09 340.32
## 1983 340.98 342.82
## 1984 342.80 344.04
## 1985 344.06 345.38
## 1986 345.48 346.72
## 1987 347.64 348.78
## 1988 349.91 351.18
## 1989 351.14 352.37
## 1990 352.69 354.07
## 1991 353.64 354.89
## 1992 354.09 355.33
## 1993 355.30 356.78
## 1994 357.59 359.05
## 1995 359.61 360.74
## 1996 360.80 362.38
## 1997 362.49 364.34
Entonces de estos datos calculamos la asimetría
## [1] 0.242693
Aqui podemos observar dos modos de utilizar un DataFrame, ya sea creando uno, o importandolo mediante un archivo excel DATAFRAME (Ingresando datos)
Creamos una dataframe ingresando las variables “ALUMNOS”, “EDADES”, “PESOS”
df <- data.frame(Alumnos = c("Jose", "María", "Lucas", "Valentina"), Edades = c(16, 14, 20, 18), Peso_kg = c(48, 42, 51, 50))
df
Entonces calculamos la asimtería de las edades y del peso de los alumnos
## [1] 0
## [1] -0.8483207
Importamos un dataframe que contiene una base de datos de Excel
## Warning: package 'readxl' was built under R version 4.3.2
Entonces calculamos la asimetría de las edades y del peso de los alumnos
## [1] 0.7523503
## [1] 0.8813698
El coeficiente de apuntamiento muestras, tambien conocido como curtosis, es una medida estadística que se utiliza para evaluar la forma de la distribución de un conjunto de datos y, específicamente, para medir cuán “afilada” o “achatada” es la distribución en comparación con una distribución normal. Indica la concentración de valores alrededor de la media y la presencia de valores extremos en la distribución de datos.
Se definen 3 tipos de distribuciones según su grado de curtosis:
Distribución mesocúrtica: Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Los valores extremos o atípicos son menos comunes en este tipo de distribución.La curtosis se aproxima a cero para una distribución mesocúrtica.
Distribución leptocúrtica: El coeficiente de curtosis es positivo para una distribución leptocúrtica. Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.Las colas de la distribución son más pesadas, lo que significa que los valores extremos son más probables.
Distribución platicúrtica: Presenta un reducido grado de concentración alrededor de los valores centrales de la variable y sus valores están más dispersos. Tienen una forma achatada con un pico más bajo en el centro y colas menos pronunciadas. El coeficiente de curtosis es negativo para una distribución platicúrtica.
Es el promedio de las desviaciones de los valores de la muestra respecto de la media muestral, elevadas a la cuarta, dividido por la desviación típica a la cuarta y al resultado se le resta 3.
\[\mbox{Curtosis}= \frac{\sum(x_i - \overline{x})^4\cdot 1/N}{s^4} - 3 \]
Donde:
\(xi\) : Es cada valor individual en el conjunto de datos.
\(x̄\) : Es la media aritmética de los datos.
\(N\): Es el numero total de datos de la muestra
\(S\) : Es la desviacion estandar de la muestra
## Warning: package 'e1071' was built under R version 4.3.2
##
## Attaching package: 'e1071'
## The following objects are masked from 'package:moments':
##
## kurtosis, moment, skewness
alturas <- c(160, 165, 170, 175, 180, 185, 190)
# Cálculo de la curtosis
curtosis <- kurtosis(alturas, type = 1)
curtosis
## [1] -1.25
Del resultado que obtuvimos podemos ver que la curtosis es negativa y no esta cerca de cero, por lo tanto, podemos concluir que estamos hablando de una distribución de datos “platicúrtica”. En otras palabras, la forma de la distribución es un poco más “ancha” o “aplanada” en comparación con una distribución normal. Esto nos dice que los datos se dispersan más alrededor de la media, y no tienden a agruparse tanto.
# Calificaciones del aula 3ro "C"
df <- data.frame(Alumnos = c("Jose", "María", "Lucas", "Valentina", "Sebastian", "Maria", "Malcolm", "Silvia", "Ernesto", "Juana", "Alex", "Jusan", "Dwayne"), Calificaciones = c(8, 5, 9, 10, 12, 7, 2, 6, 8, 9, 10, 7, 7))
df
# Cálculo de la curtosis
library(moments)
curtosis2 <- kurtosis(df$Calificaciones,type = 1)
curtosis2
## [1] 0.3490127
En este ejemplo, la curtosis es positiva, lo que indica una distribución leptocúrtica. La mayoría de los estudiantes obtienen calificaciones cercanas a la media, pero algunos obtienen calificaciones extremadamente altas, lo que da como resultado colas pesadas en la distribución.
# Registros de ventas
library(readxl)
df2 <- data.frame(read_excel("C:/Users/Melissa/Downloads/1000-Registros-de-ventas.xlsx"))
library(moments)
curtosis3 <- kurtosis(df2$Importe.venta.total,type = 1)
curtosis3
## [1] 2.448303
## [1] 2.782373
En este ejemplo, las curtosis son positivas, lo que indica que son distribuciones leptocúrticas. La mayoría de las ventas y costes obtienen importes cercanos a la media, pero tambien se obtienen algunos importes extremadamente altos, lo que da como resultado colas pesadas en la distribución.