Modifying factor order

suppressPackageStartupMessages(library("tidyverse"))

package 㤼㸱tidyverse㤼㸲 was built under R version 3.6.3

1. There are some suspiciously high numbers in `tvhours`. Is the mean a good summary?

summary(gss_cat[["tvhours"]])

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
  0.000   1.000   2.000   2.981   4.000  24.000   10146

gss_cat %>%
  filter(!is.na(tvhours)) %>%
  ggplot(aes(x = tvhours)) +
  geom_histogram(binwidth = 1)

Whether the mean is the best summary depends on what you are using it for :-), i.e. your objective. But probably the median would be what most people prefer. And the hours of TV doesn’t look that surprising to me.

2. For each factor in `gss_cat` identify whether the order of the levels is arbitrary or principled.

keep(gss_cat, is.factor) %>% names()

[1] "marital" "race"    "rincome" "partyid" "relig"   "denom"

There are six categorical variables: marital, race, rincome, partyid, relig, and denom.

The ordering of marital is “somewhat principled”. There is some sort of logic in that the levels are grouped “never married”, married at some point (separated, divorced, widowed), and “married”; though it would seem that “Never Married”, “Divorced”, “Widowed”, “Separated”, “Married” might be more natural. I find that the question of ordering can be determined by the level of aggregation in a categorical variable, and there can be more “partially ordered” factors than one would expect.

levels(gss_cat[["marital"]])

[1] "No answer"     "Never married" "Separated"     "Divorced"      "Widowed"      
[6] "Married"

gss_cat %>%
  ggplot(aes(x = marital)) +
  geom_bar()

The ordering of race is principled in that the categories are ordered by count of observations in the data.

levels(gss_cat$race)

[1] "Other"          "Black"          "White"          "Not applicable"

gss_cat %>%
  ggplot(aes(race)) +
  geom_bar() +
  scale_x_discrete(drop = FALSE)

The levels of rincome are ordered in decreasing order of the income; however the placement of “No answer”, “Don’t know”, and “Refused” before, and “Not applicable” after the income levels is arbitrary. It would be better to place all the missing income level categories either before or after all the known values.

levels(gss_cat$rincome)

 [1] "No answer"      "Don't know"     "Refused"        "$25000 or more" "$20000 - 24999"
 [6] "$15000 - 19999" "$10000 - 14999" "$8000 to 9999"  "$7000 to 7999"  "$6000 to 6999" 
[11] "$5000 to 5999"  "$4000 to 4999"  "$3000 to 3999"  "$1000 to 2999"  "Lt $1000"      
[16] "Not applicable"

The levels of relig is arbitrary: there is no natural ordering, and they don’t appear to be ordered by stats within the dataset.

levels(gss_cat$relig)

 [1] "No answer"               "Don't know"              "Inter-nondenominational"
 [4] "Native american"         "Christian"               "Orthodox-christian"     
 [7] "Moslem/islam"            "Other eastern"           "Hinduism"               
[10] "Buddhism"                "Other"                   "None"                   
[13] "Jewish"                  "Catholic"                "Protestant"             
[16] "Not applicable"

gss_cat %>%
  ggplot(aes(relig)) +
  geom_bar() +
  coord_flip()

The same goes for denom.

levels(gss_cat$denom)

 [1] "No answer"            "Don't know"           "No denomination"      "Other"               
 [5] "Episcopal"            "Presbyterian-dk wh"   "Presbyterian, merged" "Other presbyterian"  
 [9] "United pres ch in us" "Presbyterian c in us" "Lutheran-dk which"    "Evangelical luth"    
[13] "Other lutheran"       "Wi evan luth synod"   "Lutheran-mo synod"    "Luth ch in america"  
[17] "Am lutheran"          "Methodist-dk which"   "Other methodist"      "United methodist"    
[21] "Afr meth ep zion"     "Afr meth episcopal"   "Baptist-dk which"     "Other baptists"      
[25] "Southern baptist"     "Nat bapt conv usa"    "Nat bapt conv of am"  "Am bapt ch in usa"   
[29] "Am baptist asso"      "Not applicable"

Ignoring “No answer”, “Don’t know”, and “Other party”, the levels of partyid are ordered from “Strong Republican”" to “Strong Democrat”.

levels(gss_cat$partyid)

 [1] "No answer"          "Don't know"         "Other party"        "Strong republican" 
 [5] "Not str republican" "Ind,near rep"       "Independent"        "Ind,near dem"      
 [9] "Not str democrat"   "Strong democrat"

3. Why did moving “Not applicable” to the front of the levels move it to the bottom of the plot?

Because that gives the level “Not applicable” an integer value of 1.

LS0tDQp0aXRsZTogIk1vZGlmeWluZyBmYWN0b3Igb3JkZXIiDQpvdXRwdXQ6IA0KICBodG1sX25vdGVib29rOg0KICAgIHRvYzogdHJ1ZQ0KICAgIHRvY19mbG9hdDogdHJ1ZQ0KLS0tDQoNCmBgYHtyfQ0Kc3VwcHJlc3NQYWNrYWdlU3RhcnR1cE1lc3NhZ2VzKGxpYnJhcnkoInRpZHl2ZXJzZSIpKQ0KYGBgDQoNCiMjIyAxLiBUaGVyZSBhcmUgc29tZSBzdXNwaWNpb3VzbHkgaGlnaCBudW1iZXJzIGluIGB0dmhvdXJzYC4gSXMgdGhlIG1lYW4gYSBnb29kIHN1bW1hcnk/DQoNCmBgYHtyfQ0Kc3VtbWFyeShnc3NfY2F0W1sidHZob3VycyJdXSkNCmdzc19jYXQgJT4lDQogIGZpbHRlcighaXMubmEodHZob3VycykpICU+JQ0KICBnZ3Bsb3QoYWVzKHggPSB0dmhvdXJzKSkgKw0KICBnZW9tX2hpc3RvZ3JhbShiaW53aWR0aCA9IDEpDQpgYGANCg0KV2hldGhlciB0aGUgbWVhbiBpcyB0aGUgYmVzdCBzdW1tYXJ5IGRlcGVuZHMgb24gd2hhdCB5b3UgYXJlIHVzaW5nIGl0IGZvciA6LSksIGkuZS4geW91ciBvYmplY3RpdmUuIEJ1dCBwcm9iYWJseSB0aGUgbWVkaWFuIHdvdWxkIGJlIHdoYXQgbW9zdCBwZW9wbGUgcHJlZmVyLiBBbmQgdGhlIGhvdXJzIG9mIFRWIGRvZXNu4oCZdCBsb29rIHRoYXQgc3VycHJpc2luZyB0byBtZS4NCg0KIyMjIDIuIEZvciBlYWNoIGZhY3RvciBpbiBgZ3NzX2NhdGAgaWRlbnRpZnkgd2hldGhlciB0aGUgb3JkZXIgb2YgdGhlIGxldmVscyBpcyBhcmJpdHJhcnkgb3IgcHJpbmNpcGxlZC4NCg0KYGBge3J9DQprZWVwKGdzc19jYXQsIGlzLmZhY3RvcikgJT4lIG5hbWVzKCkNCmBgYA0KDQpUaGVyZSBhcmUgc2l4IGNhdGVnb3JpY2FsIHZhcmlhYmxlczogYG1hcml0YWxgLCBgcmFjZWAsIGByaW5jb21lYCwgYHBhcnR5aWRgLCBgcmVsaWdgLCBhbmQgYGRlbm9tYC4NCg0KVGhlIG9yZGVyaW5nIG9mIG1hcml0YWwgaXMg4oCcc29tZXdoYXQgcHJpbmNpcGxlZOKAnS4gVGhlcmUgaXMgc29tZSBzb3J0IG9mIGxvZ2ljIGluIHRoYXQgdGhlIGxldmVscyBhcmUgZ3JvdXBlZCDigJxuZXZlciBtYXJyaWVk4oCdLCBtYXJyaWVkIGF0IHNvbWUgcG9pbnQgKHNlcGFyYXRlZCwgZGl2b3JjZWQsIHdpZG93ZWQpLCBhbmQg4oCcbWFycmllZOKAnTsgdGhvdWdoIGl0IHdvdWxkIHNlZW0gdGhhdCDigJxOZXZlciBNYXJyaWVk4oCdLCDigJxEaXZvcmNlZOKAnSwg4oCcV2lkb3dlZOKAnSwg4oCcU2VwYXJhdGVk4oCdLCDigJxNYXJyaWVk4oCdIG1pZ2h0IGJlIG1vcmUgbmF0dXJhbC4gSSBmaW5kIHRoYXQgdGhlIHF1ZXN0aW9uIG9mIG9yZGVyaW5nIGNhbiBiZSBkZXRlcm1pbmVkIGJ5IHRoZSBsZXZlbCBvZiBhZ2dyZWdhdGlvbiBpbiBhIGNhdGVnb3JpY2FsIHZhcmlhYmxlLCBhbmQgdGhlcmUgY2FuIGJlIG1vcmUg4oCccGFydGlhbGx5IG9yZGVyZWTigJ0gZmFjdG9ycyB0aGFuIG9uZSB3b3VsZCBleHBlY3QuDQoNCmBgYHtyfQ0KbGV2ZWxzKGdzc19jYXRbWyJtYXJpdGFsIl1dKQ0KZ3NzX2NhdCAlPiUNCiAgZ2dwbG90KGFlcyh4ID0gbWFyaXRhbCkpICsNCiAgZ2VvbV9iYXIoKQ0KYGBgDQoNClRoZSBvcmRlcmluZyBvZiByYWNlIGlzIHByaW5jaXBsZWQgaW4gdGhhdCB0aGUgY2F0ZWdvcmllcyBhcmUgb3JkZXJlZCBieSBjb3VudCBvZiBvYnNlcnZhdGlvbnMgaW4gdGhlIGRhdGEuDQoNCmBgYHtyfQ0KbGV2ZWxzKGdzc19jYXQkcmFjZSkNCmdzc19jYXQgJT4lDQogIGdncGxvdChhZXMocmFjZSkpICsNCiAgZ2VvbV9iYXIoKSArDQogIHNjYWxlX3hfZGlzY3JldGUoZHJvcCA9IEZBTFNFKQ0KYGBgDQoNClRoZSBsZXZlbHMgb2YgYHJpbmNvbWVgIGFyZSBvcmRlcmVkIGluIGRlY3JlYXNpbmcgb3JkZXIgb2YgdGhlIGluY29tZTsgaG93ZXZlciB0aGUgcGxhY2VtZW50IG9mIOKAnE5vIGFuc3dlcuKAnSwg4oCcRG9u4oCZdCBrbm934oCdLCBhbmQg4oCcUmVmdXNlZOKAnSBiZWZvcmUsIGFuZCDigJxOb3QgYXBwbGljYWJsZeKAnSBhZnRlciB0aGUgaW5jb21lIGxldmVscyBpcyBhcmJpdHJhcnkuIEl0IHdvdWxkIGJlIGJldHRlciB0byBwbGFjZSBhbGwgdGhlIG1pc3NpbmcgaW5jb21lIGxldmVsIGNhdGVnb3JpZXMgZWl0aGVyIGJlZm9yZSBvciBhZnRlciBhbGwgdGhlIGtub3duIHZhbHVlcy4NCg0KYGBge3J9DQpsZXZlbHMoZ3NzX2NhdCRyaW5jb21lKQ0KYGBgDQoNClRoZSBsZXZlbHMgb2YgYHJlbGlnYCBpcyBhcmJpdHJhcnk6IHRoZXJlIGlzIG5vIG5hdHVyYWwgb3JkZXJpbmcsIGFuZCB0aGV5IGRvbuKAmXQgYXBwZWFyIHRvIGJlIG9yZGVyZWQgYnkgc3RhdHMgd2l0aGluIHRoZSBkYXRhc2V0Lg0KDQpgYGB7cn0NCmxldmVscyhnc3NfY2F0JHJlbGlnKQ0KZ3NzX2NhdCAlPiUNCiAgZ2dwbG90KGFlcyhyZWxpZykpICsNCiAgZ2VvbV9iYXIoKSArDQogIGNvb3JkX2ZsaXAoKQ0KYGBgDQoNClRoZSBzYW1lIGdvZXMgZm9yIGBkZW5vbWAuDQoNCmBgYHtyfQ0KbGV2ZWxzKGdzc19jYXQkZGVub20pDQpgYGANCg0KSWdub3Jpbmcg4oCcTm8gYW5zd2Vy4oCdLCDigJxEb27igJl0IGtub3figJ0sIGFuZCDigJxPdGhlciBwYXJ0eeKAnSwgdGhlIGxldmVscyBvZiBgcGFydHlpZGAgYXJlIG9yZGVyZWQgZnJvbSDigJxTdHJvbmcgUmVwdWJsaWNhbuKAnSIgdG8g4oCcU3Ryb25nIERlbW9jcmF04oCdLg0KDQpgYGB7cn0NCmxldmVscyhnc3NfY2F0JHBhcnR5aWQpDQpgYGANCg0KIyMjIDMuIFdoeSBkaWQgbW92aW5nIOKAnE5vdCBhcHBsaWNhYmxl4oCdIHRvIHRoZSBmcm9udCBvZiB0aGUgbGV2ZWxzIG1vdmUgaXQgdG8gdGhlIGJvdHRvbSBvZiB0aGUgcGxvdD8NCg0KQmVjYXVzZSB0aGF0IGdpdmVzIHRoZSBsZXZlbCDigJxOb3QgYXBwbGljYWJsZeKAnSBhbiBpbnRlZ2VyIHZhbHVlIG9mIDEu

Modifying factor order

1. There are some suspiciously high numbers in tvhours. Is the mean a good summary?

2. For each factor in gss_cat identify whether the order of the levels is arbitrary or principled.

3. Why did moving “Not applicable” to the front of the levels move it to the bottom of the plot?

1. There are some suspiciously high numbers in `tvhours`. Is the mean a good summary?

2. For each factor in `gss_cat` identify whether the order of the levels is arbitrary or principled.