Resources

-Download the following csv files from the gapminder web site (https://www.gapminder.org).

  1. “cholesterol_fat_in_blood_women_mmolperl.csv”
  2. “body_mass_index_infant.mortality_women_kgperm2.csv”
  3. “blood_pressure_sbp_women_mmhg.csv”
  4. “children_per_woman_total_fertility.csv”
  5. “contraceptive_use_percent_of_women_ages_15_49.csv”
  6. “breast_cancer_number_of_female_deaths.csv”
  7. “infant_mortality_rate_per_1000_births.csv”
  8. “maternal_deaths_total_number.csv”
  9. “maternal_mortality_ratio_per_100000_live_births.csv”

Import the csv files to create following datasets

cholesterol_fat_in_blood_women_mmolperl.csv -> fm_tc -> fm_tc_long

fm_tc <- read_csv("cholesterol_fat_in_blood_women_mmolperl.csv")

head(fm_tc, n=3)
country 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
Afghanistan 4.64 4.64 4.63 4.63 4.62 4.61 4.61 4.60 4.58 4.57 4.55 4.53 4.51 4.48 4.45 4.43 4.40 4.38 4.37 4.36 4.33 4.31 4.29 4.28 4.27 4.26 4.25 4.25 4.24
Albania 5.04 5.04 5.03 5.03 5.02 5.02 5.01 5.01 5.00 5.00 4.99 4.97 4.95 4.93 4.93 4.93 4.93 4.92 4.92 4.92 4.92 4.92 4.92 4.92 4.91 4.90 4.89 4.89 4.88
Algeria 4.98 4.97 4.97 4.98 4.98 4.98 4.97 4.97 4.96 4.96 4.95 4.94 4.94 4.93 4.92 4.91 4.90 4.89 4.88 4.87 4.87 4.86 4.85 4.84 4.84 4.83 4.83 4.82 4.82
fm_tc_long <- fm_tc %>% gather('1980':'2008', key="year", value = "tc") %>% arrange(country, year, tc)

head(fm_tc_long, n=3)
country year tc
Afghanistan 1980 4.64
Afghanistan 1981 4.64
Afghanistan 1982 4.63
dim(fm_tc_long)
## [1] 5481    3

body_mass_index_bmi_women_kgperm2.csv -> fm_bmi -> fm_bmi_long

fm_bmi <- read_csv("body_mass_index_bmi_women_kgperm2.csv")

head(fm_bmi, n=3)
country 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
Afghanistan 20.4 20.5 20.5 20.6 20.6 20.6 20.7 20.7 20.7 20.7 20.7 20.7 20.7 20.6 20.6 20.6 20.6 20.6 20.6 20.6 20.6 20.6 20.6 20.7 20.8 20.8 20.9 21.0 21.1
Albania 25.2 25.2 25.2 25.2 25.2 25.2 25.2 25.2 25.2 25.1 25.1 25.1 25.0 24.9 24.9 24.9 25.0 25.0 25.0 25.1 25.1 25.2 25.3 25.3 25.4 25.5 25.5 25.6 25.7
Algeria 23.7 23.8 23.9 24.0 24.1 24.2 24.3 24.4 24.5 24.6 24.7 24.8 24.8 24.9 25.0 25.1 25.1 25.2 25.3 25.4 25.5 25.6 25.7 25.8 25.9 26.0 26.1 26.3 26.4
fm_bmi_long <- fm_bmi %>% gather('1980':'2008', key="year", value = "bmi") %>% arrange(country, year, bmi)

head(fm_bmi_long, n=3)
country year bmi
Afghanistan 1980 20.4
Afghanistan 1981 20.5
Afghanistan 1982 20.5
dim(fm_bmi_long)
## [1] 5481    3

blood_pressure_sbp_women_mmhg.csv -> fm_sbp -> fm_sbp_long

fm_sbp <- read_csv("blood_pressure_sbp_women_mmhg.csv")

head(fm_sbp, n=3)
country 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
Afghanistan 122 122 123 123 123 123 123 123 124 124 124 124 124 124 124 124 124 124 124 124 124 124 124 124 125 125 125 125 125
Albania 132 132 132 132 132 132 132 131 131 131 131 131 130 130 130 129 129 129 129 129 129 129 129 129 129 129 129 129 129
Algeria 131 131 131 131 131 131 131 131 131 131 131 131 131 131 131 131 131 131 131 131 131 130 130 130 130 130 130 130 130
fm_sbp_long <- fm_sbp %>% gather('1980':'2008', key="year", value = "sbp") %>% arrange(country, year, sbp)

head(fm_sbp_long, n=3)
country year sbp
Afghanistan 1980 122
Afghanistan 1981 122
Afghanistan 1982 123
dim(fm_sbp_long)
## [1] 5481    3

children_per_woman_total_fertility -> fm_fertility -> fm_fertility_long

fm_fertility <- read_csv("children_per_woman_total_fertility.csv")

head(fm_fertility, n=3)
country 1800 1801 1802 1803 1804 1805 1806 1807 1808 1809 1810 1811 1812 1813 1814 1815 1816 1817 1818 1819 1820 1821 1822 1823 1824 1825 1826 1827 1828 1829 1830 1831 1832 1833 1834 1835 1836 1837 1838 1839 1840 1841 1842 1843 1844 1845 1846 1847 1848 1849 1850 1851 1852 1853 1854 1855 1856 1857 1858 1859 1860 1861 1862 1863 1864 1865 1866 1867 1868 1869 1870 1871 1872 1873 1874 1875 1876 1877 1878 1879 1880 1881 1882 1883 1884 1885 1886 1887 1888 1889 1890 1891 1892 1893 1894 1895 1896 1897 1898 1899 1900 1901 1902 1903 1904 1905 1906 1907 1908 1909 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924 1925 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937 1938 1939 1940 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
Afghanistan 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.00 7.03 7.05 7.08 7.11 7.14 7.16 7.19 7.21 7.24 7.26 7.29 7.31 7.33 7.36 7.38 7.40 7.42 7.44 7.46 7.48 7.50 7.52 7.54 7.56 7.57 7.56 7.55 7.54 7.53 7.52 7.51 7.49 7.48 7.46 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.45 7.46 7.46 7.46 7.46 7.46 7.46 7.47 7.48 7.50 7.54 7.57 7.61 7.63 7.64 7.62 7.57 7.49 7.39 7.27 7.14 6.99 6.83 6.65 6.46 6.25 6.04 5.82 5.60 5.38 5.17 4.98 4.80 4.64 4.48 4.33
Albania 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.60 4.42 4.25 4.07 3.89 3.72 3.54 3.36 3.57 3.78 3.98 4.19 4.40 4.61 3.75 4.21 3.77 4.43 4.61 4.79 4.96 5.14 5.33 5.51 5.69 5.87 5.97 6.13 6.27 6.37 6.45 6.50 6.53 6.54 6.53 6.49 6.40 6.28 6.13 5.96 5.77 5.58 5.39 5.22 5.06 4.91 4.78 4.64 4.51 4.37 4.24 4.10 3.97 3.84 3.73 3.62 3.53 3.45 3.38 3.32 3.27 3.22 3.16 3.11 3.05 2.98 2.91 2.83 2.75 2.67 2.59 2.51 2.42 2.33 2.25 2.16 2.07 1.98 1.90 1.82 1.75 1.70 1.67 1.65 1.65 1.65 1.67 1.69 1.70 1.71 1.71 1.71 1.71 1.71
Algeria 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 6.99 7.02 7.05 7.07 7.10 7.12 7.15 7.18 7.20 7.22 7.25 7.27 7.29 7.31 7.33 7.35 7.37 7.38 7.40 7.41 7.43 7.44 7.45 7.47 7.48 7.49 7.47 7.44 7.43 7.41 7.41 7.41 7.43 7.45 7.48 7.52 7.57 7.61 7.65 7.67 7.68 7.68 7.67 7.67 7.66 7.64 7.62 7.60 7.56 7.51 7.43 7.34 7.23 7.11 6.96 6.79 6.62 6.43 6.24 6.04 5.84 5.63 5.41 5.19 4.96 4.73 4.48 4.22 3.96 3.70 3.45 3.21 2.99 2.80 2.64 2.51 2.44 2.40 2.41 2.44 2.50 2.58 2.66 2.75 2.83 2.89 2.93 2.94 2.92 2.89 2.84 2.78 2.71 2.64
head(colnames(fm_fertility))
## [1] "country" "1800"    "1801"    "1802"    "1803"    "1804"
tail(colnames(fm_fertility))
## [1] "2013" "2014" "2015" "2016" "2017" "2018"
fm_fertility_long <- fm_fertility %>% gather('1800':'2018', key="year", value = "total_fertility") %>% arrange(country, year, total_fertility)

head(fm_fertility_long, n=3)
country year total_fertility
Afghanistan 1800 7
Afghanistan 1801 7
Afghanistan 1802 7
dim(fm_fertility_long)
## [1] 40296     3

contraceptive_use_percent_of_women_ages_15_49.csv -> fm_contracept_use -> fm_contracept_use_long

fm_contracept_use <- read_csv("contraceptive_use_percent_of_women_ages_15_49.csv")

head(fm_contracept_use, n=3)
country 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Afghanistan NA NA NA NA NA NA NA NA NA NA NA NA 1.6 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 5.3 NA NA 10.3 NA 13.6 18.6 NA 22.8 NA 21.8 21.2 NA NA NA 22.5 NA NA
Albania NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 57.5 NA 75.1 NA NA 60.1 NA NA NA 69.3 NA NA NA NA NA NA NA NA
Algeria NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 35.8 NA NA NA NA 50.9 NA NA 56.9 NA NA NA NA 64.0 NA 57.0 NA NA NA 61.4 NA NA NA NA NA 55.9 57.1 NA NA NA NA
tail(colnames(fm_contracept_use))
## [1] "2012" "2013" "2014" "2015" "2016" "2017"
fm_contracept_use_long <- fm_contracept_use %>%
        gather('1961':'2017', key="year", value = "contraceptive_use_percent") %>% 
        arrange(country, year, contraceptive_use_percent)

head(fm_contracept_use_long, n=3)
country year contraceptive_use_percent
Afghanistan 1961 NA
Afghanistan 1962 NA
Afghanistan 1963 NA
dim(fm_contracept_use_long)
## [1] 10545     3

breast_cancer_number_of_female_deaths.csv -> fm_brstc_death -> fm_brstc_death_long

fm_brstc_death <- read_csv("breast_cancer_number_of_female_deaths.csv")

head(fm_brstc_death, n=3)
country 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016
Afghanistan 761 817 894 989 1090 1180 1240 1290 1340 1400 1470 1550 1620 1700 1790 1880 1960 2020 2090 2150 2220 2280 2340 2420 2510 2600 2690
Albania 100 103 105 108 111 116 120 126 134 143 150 158 167 179 188 196 203 206 212 214 215 215 215 217 219 221 222
Algeria 701 729 789 852 920 999 1010 1040 1060 1110 1150 1190 1270 1340 1430 1560 1650 1700 1760 1840 1910 1980 2060 2150 2240 2320 2390
tail(colnames(fm_brstc_death))
## [1] "2011" "2012" "2013" "2014" "2015" "2016"
fm_brstc_death_long <- fm_brstc_death %>%
        gather('1990':'2016', key="year", value = "breast_cancer_deaths") %>% 
        arrange(country, year, breast_cancer_deaths)

head(fm_brstc_death_long, n=3)
country year breast_cancer_deaths
Afghanistan 1990 761
Afghanistan 1991 817
Afghanistan 1992 894
dim(fm_brstc_death_long)
## [1] 5049    3

infant_mortality_rate_per_1000_births.csv -> infant_mortality -> infant_mortality_long

infant_mortality <- read_csv("infant_mortality_rate_per_1000_births.csv")

tail(infant_mortality, n=3)
country 1800 1801 1802 1803 1804 1805 1806 1807 1808 1809 1810 1811 1812 1813 1814 1815 1816 1817 1818 1819 1820 1821 1822 1823 1824 1825 1826 1827 1828 1829 1830 1831 1832 1833 1834 1835 1836 1837 1838 1839 1840 1841 1842 1843 1844 1845 1846 1847 1848 1849 1850 1851 1852 1853 1854 1855 1856 1857 1858 1859 1860 1861 1862 1863 1864 1865 1866 1867 1868 1869 1870 1871 1872 1873 1874 1875 1876 1877 1878 1879 1880 1881 1882 1883 1884 1885 1886 1887 1888 1889 1890 1891 1892 1893 1894 1895 1896 1897 1898 1899 1900 1901 1902 1903 1904 1905 1906 1907 1908 1909 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924 1925 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937 1938 1939 1940 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
Yemen NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 225.0 269.0 264.0 277.0 271.0 264.0 256.0 248.0 239.0 230.0 221.0 213.0 204.0 197.0 189.0 181.0 173.0 165.0 156.0 148.0 140.0 132.0 124.0 118.0 112 106.0 102.0 97.7 94.3 91.2 88.7 86.4 84.4 82.7 81.1 79.7 78.2 76.5 74.4 71.9 69.0 66.1 63.0 60.1 57.2 54.5 51.9 49.4 47.0 44.7 42.4 40.3 38.4 36.7 35.1 33.8
Zambia NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 141 138 136 133 131.0 128.0 126 123.0 121.0 119.0 117.0 115.0 114.0 113.0 113.0 112.0 111.0 109.0 107.0 104.0 101.0 98.1 96.3 95.3 95.1 95.3 95.6 96.1 97.0 98.3 100.0 103 106.0 108.0 111.0 112.0 113.0 113.0 113.0 112.0 111.0 110.0 108.0 106.0 105.0 103.0 101.0 97.6 92.7 86.5 80.0 73.9 68.7 64.9 61.3 58.7 55.6 52.9 51.1 49.0 46.5 44.7 43.3
Zimbabwe NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 109 107 104 102 99.7 97.4 95 92.6 90.1 87.6 85.3 82.8 80.5 78.3 76.3 74.7 73.4 72.4 71.6 71.1 70.7 70.5 70.3 70.1 69.8 69.2 68.1 66.4 64.2 61.6 58.8 56 53.6 51.7 50.4 49.8 50.2 51.2 52.6 54.5 56.4 58.1 60.1 61.6 62.7 63.3 63.5 63.5 63.2 62.7 61.9 61.5 61.0 60.3 59.9 58.9 57.7 55.8 54.0 49.4 48.8 47.6 46.6
tail(colnames(infant_mortality))
## [1] "2010" "2011" "2012" "2013" "2014" "2015"
infant_mortality_long <- infant_mortality %>%
        gather('1800':'2015', key="year", value = "infant_mortality_rate") %>% 
        arrange(country, year, infant_mortality_rate)

tail(infant_mortality_long, n=3)
country year infant_mortality_rate
Zimbabwe 2013 48.8
Zimbabwe 2014 47.6
Zimbabwe 2015 46.6
dim(infant_mortality_long)
## [1] 41904     3

maternal_deaths_total_number.csv -> maternal_death -> maternal_death_long

maternal_death <- read_csv("maternal_deaths_total_number.csv")

tail(maternal_death, n=3)
country 1800 1801 1802 1803 1804 1805 1806 1807 1808 1809 1810 1811 1812 1813 1814 1815 1816 1817 1818 1819 1820 1821 1822 1823 1824 1825 1826 1827 1828 1829 1830 1831 1832 1833 1834 1835 1836 1837 1838 1839 1840 1841 1842 1843 1844 1845 1846 1847 1848 1849 1850 1851 1852 1853 1854 1855 1856 1857 1858 1859 1860 1861 1862 1863 1864 1865 1866 1867 1868 1869 1870 1871 1872 1873 1874 1875 1876 1877 1878 1879 1880 1881 1882 1883 1884 1885 1886 1887 1888 1889 1890 1891 1892 1893 1894 1895 1896 1897 1898 1899 1900 1901 1902 1903 1904 1905 1906 1907 1908 1909 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924 1925 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937 1938 1939 1940 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
Yemen NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 3610 NA NA NA NA NA NA NA NA NA 2920 NA NA NA NA 2890 NA NA NA NA 2600 NA NA NA NA 2500 NA NA NA NA 2370 NA NA 2100
Zambia NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 1710 NA NA NA NA NA NA NA NA NA 2190 NA NA NA NA 2630 NA NA NA NA 2850 NA NA NA NA 2270 NA NA NA NA 1870 NA NA 1800
Zimbabwe NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 752 NA NA NA NA NA NA NA NA NA 2020 NA NA NA NA 2180 NA NA NA NA 2790 NA NA NA NA 3340 NA NA NA NA 3110 NA NA 2100
tail(colnames(maternal_death))
## [1] "2008" "2009" "2010" "2011" "2012" "2013"
maternal_death_long <- maternal_death %>%
        gather('1800':'2013', key="year", value = "maternal_deaths") %>% 
        arrange(country, year, maternal_deaths)

tail(maternal_death_long, n=4)
country year maternal_deaths
Zimbabwe 2010 3110
Zimbabwe 2011 NA
Zimbabwe 2012 NA
Zimbabwe 2013 2100
dim(maternal_death_long)
## [1] 39162     3

maternal_mortality_ratio_per_100000_live_births.csv -> maternal.mortality.ratio -> maternal.mortality.ratio.long

maternal_mortality_ratio <- read_csv("maternal_mortality_ratio_per_100000_live_births.csv")

tail(maternal_mortality_ratio, n=3)
country 1800 1801 1802 1803 1804 1805 1806 1807 1808 1809 1810 1811 1812 1813 1814 1815 1816 1817 1818 1819 1820 1821 1822 1823 1824 1825 1826 1827 1828 1829 1830 1831 1832 1833 1834 1835 1836 1837 1838 1839 1840 1841 1842 1843 1844 1845 1846 1847 1848 1849 1850 1851 1852 1853 1854 1855 1856 1857 1858 1859 1860 1861 1862 1863 1864 1865 1866 1867 1868 1869 1870 1871 1872 1873 1874 1875 1876 1877 1878 1879 1880 1881 1882 1883 1884 1885 1886 1887 1888 1889 1890 1891 1892 1893 1894 1895 1896 1897 1898 1899 1900 1901 1902 1903 1904 1905 1906 1907 1908 1909 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924 1925 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937 1938 1939 1940 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
Yemen NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 808 NA NA NA NA NA NA NA NA NA 460 NA NA NA NA 420 NA NA NA NA 370 NA NA NA NA 330 NA NA NA NA 290 NA NA 270
Zambia NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 599 NA NA NA NA NA NA NA NA NA 580 NA NA NA NA 630 NA NA NA NA 610 NA NA NA NA 430 NA NA NA NA 320 NA NA 280
Zimbabwe NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 219 NA NA NA NA NA NA NA NA NA 520 NA NA NA NA 550 NA NA NA NA 680 NA NA NA NA 740 NA NA NA NA 610 NA NA 470
tail(colnames(maternal_mortality_ratio))
## [1] "2008" "2009" "2010" "2011" "2012" "2013"
maternal_mortality_ratio_long <- maternal_mortality_ratio %>%
        gather('1800':'2013', key="year", value = "maternal_mortality_ratio") %>% 
        arrange(country, year, maternal_mortality_ratio)

tail(maternal_mortality_ratio_long, n=4)
country year maternal_mortality_ratio
Zimbabwe 2010 610
Zimbabwe 2011 NA
Zimbabwe 2012 NA
Zimbabwe 2013 470
dim(maternal_mortality_ratio_long)
## [1] 40018     3

Inner join

Output: Total rows: 3382 and Total columns: 11

gpm_i <- fm_tc_long %>% 
        inner_join(fm_bmi_long) %>%
        inner_join(fm_sbp_long) %>%
        inner_join(fm_contracept_use_long) %>%
        inner_join(fm_fertility_long) %>%
        inner_join(fm_brstc_death_long) %>%
        inner_join(infant_mortality_long) %>%
        inner_join(maternal_death_long) %>%
        inner_join(maternal_mortality_ratio_long)

head(gpm_i, n=3)
country year tc bmi sbp contraceptive_use_percent total_fertility breast_cancer_deaths infant_mortality_rate maternal_deaths maternal_mortality_ratio
Afghanistan 1990 4.55 20.7 124 NA 7.47 761 123 7520 1200
Afghanistan 1991 4.53 20.7 124 NA 7.48 817 118 NA NA
Afghanistan 1992 4.51 20.7 124 NA 7.50 894 114 NA NA
dim(gpm_i)
## [1] 3382   11

complete cases or omit NA

Output: Total rows: 177 and Total columns: 11

cs_i <- complete.cases(gpm_i)

head(gpm_i[cs_i,], n=3)
country year tc bmi sbp contraceptive_use_percent total_fertility breast_cancer_deaths infant_mortality_rate maternal_deaths maternal_mortality_ratio
Afghanistan 2000 4.33 20.6 124 5.3 7.49 1470 95.4 10700 1100
Afghanistan 2005 4.26 20.8 125 13.6 6.83 1880 84.4 7900 730
Albania 2000 4.92 25.1 129 57.5 2.16 150 23.2 14 28
dim(gpm_i[cs_i,])
## [1] 177  11
head(na.omit(gpm_i), n=3)
country year tc bmi sbp contraceptive_use_percent total_fertility breast_cancer_deaths infant_mortality_rate maternal_deaths maternal_mortality_ratio
Afghanistan 2000 4.33 20.6 124 5.3 7.49 1470 95.4 10700 1100
Afghanistan 2005 4.26 20.8 125 13.6 6.83 1880 84.4 7900 730
Albania 2000 4.92 25.1 129 57.5 2.16 150 23.2 14 28
dim(na.omit(gpm_i))
## [1] 177  11

exclude 3 variables with many missing values from the join

Output: Total rows: 3477 and Total columns: 8

gpm_i_1 <- fm_tc_long %>% 
        inner_join(fm_bmi_long) %>%
        inner_join(fm_sbp_long) %>%
        inner_join(fm_fertility_long) %>%
        inner_join(fm_brstc_death_long) %>%
        inner_join(infant_mortality_long)

head(gpm_i_1, n=3)
country year tc bmi sbp total_fertility breast_cancer_deaths infant_mortality_rate
Afghanistan 1990 4.55 20.7 124 7.47 761 123
Afghanistan 1991 4.53 20.7 124 7.48 817 118
Afghanistan 1992 4.51 20.7 124 7.50 894 114
dim(gpm_i_1)
## [1] 3477    8

complete cases or omit NA

Output: Total rows: 3477 and Total columns: 8

cs_i_1 <- complete.cases(gpm_i_1)

head(gpm_i_1[cs_i_1,], n=3)
country year tc bmi sbp total_fertility breast_cancer_deaths infant_mortality_rate
Afghanistan 1990 4.55 20.7 124 7.47 761 123
Afghanistan 1991 4.53 20.7 124 7.48 817 118
Afghanistan 1992 4.51 20.7 124 7.50 894 114
dim(gpm_i_1[cs_i_1,])
## [1] 3477    8
head(na.omit(gpm_i_1[cs_i_1,]), n=3)
country year tc bmi sbp total_fertility breast_cancer_deaths infant_mortality_rate
Afghanistan 1990 4.55 20.7 124 7.47 761 123
Afghanistan 1991 4.53 20.7 124 7.48 817 118
Afghanistan 1992 4.51 20.7 124 7.50 894 114
dim(na.omit(gpm_i_1))
## [1] 3477    8

Left join

Output: Total rows: 5481 and Total columns: 8

gpm_l <- fm_tc_long %>% 
        left_join(fm_bmi_long) %>%
        left_join(fm_sbp_long) %>%
        left_join(fm_fertility_long) %>%
        left_join(fm_brstc_death_long) %>%
        left_join(infant_mortality_long)

head(gpm_l, n=3)
country year tc bmi sbp total_fertility breast_cancer_deaths infant_mortality_rate
Afghanistan 1980 4.64 20.4 122 7.45 NA 166
Afghanistan 1981 4.64 20.5 122 7.45 NA 162
Afghanistan 1982 4.63 20.5 123 7.45 NA 158
dim(gpm_l)
## [1] 5481    8

Right join

Output: Total rows: 41904 and Total columns: 8

gpm_r <- fm_tc_long %>% 
        right_join(fm_bmi_long) %>%
        right_join(fm_sbp_long) %>%
        right_join(fm_fertility_long) %>%
        right_join(fm_brstc_death_long) %>%
        right_join(infant_mortality_long)

tail(gpm_r, n=3)
country year tc bmi sbp total_fertility breast_cancer_deaths infant_mortality_rate
Zimbabwe 2013 NA NA NA 3.96 770 48.8
Zimbabwe 2014 NA NA NA 3.90 819 47.6
Zimbabwe 2015 NA NA NA 3.84 841 46.6
dim(gpm_r)
## [1] 41904     8

Full join

Output: Total rows: 42459 and Total columns: 8

gpm_f <- fm_tc_long %>% 
        full_join(fm_bmi_long) %>%
        full_join(fm_sbp_long) %>%
        full_join(fm_fertility_long) %>%
        full_join(fm_brstc_death_long) %>%
        full_join(infant_mortality_long)

head(gpm_f, n=3)
country year tc bmi sbp total_fertility breast_cancer_deaths infant_mortality_rate
Afghanistan 1980 4.64 20.4 122 7.45 NA 166
Afghanistan 1981 4.64 20.5 122 7.45 NA 162
Afghanistan 1982 4.63 20.5 123 7.45 NA 158
dim(gpm_f)
## [1] 42459     8

complete cases or omit NA

Output: Total rows: 3477 and Total columns: 8

cs_f <- complete.cases(gpm_f)

head(gpm_f[cs_f,], n=3)
country year tc bmi sbp total_fertility breast_cancer_deaths infant_mortality_rate
Afghanistan 1990 4.55 20.7 124 7.47 761 123
Afghanistan 1991 4.53 20.7 124 7.48 817 118
Afghanistan 1992 4.51 20.7 124 7.50 894 114
dim(gpm_f[cs_f,])
## [1] 3477    8
head(na.omit(gpm_f), n=3)
country year tc bmi sbp total_fertility breast_cancer_deaths infant_mortality_rate
Afghanistan 1990 4.55 20.7 124 7.47 761 123
Afghanistan 1991 4.53 20.7 124 7.48 817 118
Afghanistan 1992 4.51 20.7 124 7.50 894 114
dim(na.omit(gpm_f))
## [1] 3477    8

Objects created

ls()
##  [1] "cs_f"                          "cs_i"                         
##  [3] "cs_i_1"                        "fm_bmi"                       
##  [5] "fm_bmi_long"                   "fm_brstc_death"               
##  [7] "fm_brstc_death_long"           "fm_contracept_use"            
##  [9] "fm_contracept_use_long"        "fm_fertility"                 
## [11] "fm_fertility_long"             "fm_sbp"                       
## [13] "fm_sbp_long"                   "fm_tc"                        
## [15] "fm_tc_long"                    "gpm_f"                        
## [17] "gpm_i"                         "gpm_i_1"                      
## [19] "gpm_l"                         "gpm_r"                        
## [21] "infant_mortality"              "infant_mortality_long"        
## [23] "maternal_death"                "maternal_death_long"          
## [25] "maternal_mortality_ratio"      "maternal_mortality_ratio_long"