Overview of Project 3

Description:

Create a short document, with the names of group members. You should briefly describe your collaboration tool(s) you'll use as a group, including for communication, code sharing, and project documentation. You should have identified your data sources, where the data can be found, and how to load it. And you should have created at least a logical model for your normalized database, and produced an Entity-Relationship (ER) diagram documenting your database design.

Packages needed:

library(tidyverse)
library(stringr)
library(dplyr)
library(ggplot2)
library(knitr)

Collaboration Tools:

Communication tools:

Slack channel specifically for project 3
- Within the slack channel Michael Robinson and I have talked about initial ideas, methods and meeting times for the project.
Zoom
- In addition to slack, we have met over zoom to discuss where we wanted to head with the project, also our immediate plans for getting the project moving.
- Zoom and slack will likely be our main sources of communication moving forward as we start the data collection and coding.

Code sharing:

GitHub
- For this project we intend to use a GitHub repository and add one of us as a collaborator to a personal repo.
- This will allow for the seamless transfer of data sources, code and any other things that come up during the process.
Slack
- Slack will again be utilized for sharing links to methods, data sources and helpful videos.
  - Methodology pages have already been shared in our slack channel for this.

Project Documentation:

RMD documentation

Data Sources:

Kaggle Link 1 <- https://www.kaggle.com/datasets/discdiver/data-scientist-general-skills-2018-revised Kaggle Link 2 <- https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023/ Google Docs where our raw csv data originated: “https://docs.google.com/spreadsheets/d/1lac1H2IgCDCs9LLTQL6yb6MUPN1u4C5fJv_6YjipIaM/edit#gid=1072460513”

Zip Recruter - Data Scientist Must-Have Resume Skills and Keywords https://www.ziprecruiter.com/career/Data-Scientist/Resume-Keywords-and-Skills

skills <- read.csv("https://raw.githubusercontent.com/jonburns2454/Project-3-DATA607/main/ds_general_skills_revised.csv")

software <- read.csv("https://raw.githubusercontent.com/jonburns2454/Project-3-DATA607/main/Data%20Science%20Career%20Terms%20-%20ds%20software.csv")

glimpse(skills)

## Rows: 30
## Columns: 5
## $ Keyword     <chr> "machine learning", "analysis", "statistics", "computer sc…
## $ LinkedIn    <chr> "5,701", "5,168", "4,893", "4,517", "3,404", "2,605", "1,8…
## $ Indeed      <chr> "3,439", "3,500", "2,992", "2,739", "2,344", "1,961", "1,4…
## $ SimplyHired <chr> "2,561", "2,668", "2,308", "2,093", "1,791", "1,497", "1,1…
## $ Monster     <chr> "2,340", "3,306", "2,399", "1,900", "2,053", "1,815", "1,2…

glimpse(software)

## Rows: 42
## Columns: 12
## $ Keyword                        <chr> "Python", "R", "SQL", "Spark", "Hadoop"…
## $ LinkedIn                       <chr> "6,347", "4,553", "3,879", "2,169", "2,…
## $ Indeed                         <chr> "3,818", "3,106", "2,628", "1,551", "1,…
## $ SimplyHired                    <chr> "2,888", "2,393", "2,056", "1,167", "1,…
## $ Monster                        <chr> "2,544", "2,365", "1,841", "1,062", "1,…
## $ LinkedIn..                     <chr> "74%", "53%", "45%", "25%", "25%", "23%…
## $ Indeed..                       <chr> "74%", "60%", "51%", "30%", "31%", "27%…
## $ SimplyHired..                  <chr> "75%", "62%", "54%", "30%", "30%", "28%…
## $ Monster..                      <chr> "68%", "63%", "49%", "28%", "32%", "27%…
## $ Avg..                          <chr> "73%", "60%", "50%", "29%", "30%", "26%…
## $ GlassDoor.Self.Reported...2017 <chr> "72%", "64%", "51%", "27%", "39%", "33%…
## $ Difference                     <chr> "1%", "-4%", "-1%", "2%", "-9%", "-7%",…

Plan:

The plan for this project is to utilize a few different data sources to get the best analysis on data science skills. The first kaggle link is to a data set that features overall data science skills from 2018 which has both the skills and software scraped from Monster, Indeed, SimplyHired, and Linkedin. This first data set from JEFF HALE will allow for some solid EDA focusing in specifically on data science skills. The second Kaggle link looks at data science salaries and will provide us with a more up-to-date view into the industry. This specific data set combines experience levels, and job title data which will be helpful in further insights and analysis into how skills and seniority translate to salary level.

Entity-Relationship (ER) Diagram:

Entity-Relationship(ER)

LS0tDQp0aXRsZTogIk92ZXJ2aWV3IG9mIFByb2plY3QgMyINCmF1dGhvcjogIk1pY2hhZWwgUm9iaW5zb24gJiBKb25hdGhhbiBCdXJucyAmIEZyZWRlcmljayBKb25lcyINCmRhdGU6ICJgciBTeXMuRGF0ZSgpYCINCm91dHB1dDogb3BlbmludHJvOjpsYWJfcmVwb3J0DQotLS0NCg0KIyMjIERlc2NyaXB0aW9uOg0KDQpDcmVhdGUgYSBzaG9ydCBkb2N1bWVudCwgd2l0aCB0aGUgbmFtZXMgb2YgZ3JvdXAgbWVtYmVycy4gWW91IHNob3VsZCBicmllZmx5IGRlc2NyaWJlIHlvdXIgY29sbGFib3JhdGlvbiB0b29sKHMpIHlvdVwnbGwgdXNlIGFzIGEgZ3JvdXAsIGluY2x1ZGluZyBmb3IgY29tbXVuaWNhdGlvbiwgY29kZSBzaGFyaW5nLCBhbmQgcHJvamVjdCBkb2N1bWVudGF0aW9uLiBZb3Ugc2hvdWxkIGhhdmUgaWRlbnRpZmllZCB5b3VyIGRhdGEgc291cmNlcywgd2hlcmUgdGhlIGRhdGEgY2FuIGJlIGZvdW5kLCBhbmQgaG93IHRvIGxvYWQgaXQuIEFuZCB5b3Ugc2hvdWxkIGhhdmUgY3JlYXRlZCBhdCBsZWFzdCBhIGxvZ2ljYWwgbW9kZWwgZm9yIHlvdXIgbm9ybWFsaXplZCBkYXRhYmFzZSwgYW5kIHByb2R1Y2VkIGFuIEVudGl0eS1SZWxhdGlvbnNoaXAgKEVSKSBkaWFncmFtIGRvY3VtZW50aW5nIHlvdXIgZGF0YWJhc2UgZGVzaWduLg0KDQpQYWNrYWdlcyBuZWVkZWQ6DQoNCmBgYHtyIGxvYWQtcGFja2FnZXMsIG1lc3NhZ2U9RkFMU0V9DQpsaWJyYXJ5KHRpZHl2ZXJzZSkNCmxpYnJhcnkoc3RyaW5ncikNCmxpYnJhcnkoZHBseXIpDQpsaWJyYXJ5KGdncGxvdDIpDQpsaWJyYXJ5KGtuaXRyKQ0KYGBgDQoNCiMjIyBDb2xsYWJvcmF0aW9uIFRvb2xzOg0KDQpDb21tdW5pY2F0aW9uIHRvb2xzOg0KDQotICAgU2xhY2sgY2hhbm5lbCBzcGVjaWZpY2FsbHkgZm9yIHByb2plY3QgMw0KDQogICAgLSAgIFdpdGhpbiB0aGUgc2xhY2sgY2hhbm5lbCBNaWNoYWVsIFJvYmluc29uIGFuZCBJIGhhdmUgdGFsa2VkIGFib3V0IGluaXRpYWwgaWRlYXMsIG1ldGhvZHMgYW5kIG1lZXRpbmcgdGltZXMgZm9yIHRoZSBwcm9qZWN0Lg0KDQotICAgWm9vbQ0KDQogICAgLSAgIEluIGFkZGl0aW9uIHRvIHNsYWNrLCB3ZSBoYXZlIG1ldCBvdmVyIHpvb20gdG8gZGlzY3VzcyB3aGVyZSB3ZSB3YW50ZWQgdG8gaGVhZCB3aXRoIHRoZSBwcm9qZWN0LCBhbHNvIG91ciBpbW1lZGlhdGUgcGxhbnMgZm9yIGdldHRpbmcgdGhlIHByb2plY3QgbW92aW5nLg0KDQogICAgLSAgIFpvb20gYW5kIHNsYWNrIHdpbGwgbGlrZWx5IGJlIG91ciBtYWluIHNvdXJjZXMgb2YgY29tbXVuaWNhdGlvbiBtb3ZpbmcgZm9yd2FyZCBhcyB3ZSBzdGFydCB0aGUgZGF0YSBjb2xsZWN0aW9uIGFuZCBjb2RpbmcuDQoNCkNvZGUgc2hhcmluZzoNCg0KLSAgIEdpdEh1Yg0KDQogICAgLSAgIEZvciB0aGlzIHByb2plY3Qgd2UgaW50ZW5kIHRvIHVzZSBhIEdpdEh1YiByZXBvc2l0b3J5IGFuZCBhZGQgb25lIG9mIHVzIGFzIGEgY29sbGFib3JhdG9yIHRvIGEgcGVyc29uYWwgcmVwby4NCg0KICAgIC0gICBUaGlzIHdpbGwgYWxsb3cgZm9yIHRoZSBzZWFtbGVzcyB0cmFuc2ZlciBvZiBkYXRhIHNvdXJjZXMsIGNvZGUgYW5kIGFueSBvdGhlciB0aGluZ3MgdGhhdCBjb21lIHVwIGR1cmluZyB0aGUgcHJvY2Vzcy4NCg0KLSAgIFNsYWNrDQoNCiAgICAtICAgU2xhY2sgd2lsbCBhZ2FpbiBiZSB1dGlsaXplZCBmb3Igc2hhcmluZyBsaW5rcyB0byBtZXRob2RzLCBkYXRhIHNvdXJjZXMgYW5kIGhlbHBmdWwgdmlkZW9zLg0KDQogICAgICAgIC0gICBNZXRob2RvbG9neSBwYWdlcyBoYXZlIGFscmVhZHkgYmVlbiBzaGFyZWQgaW4gb3VyIHNsYWNrIGNoYW5uZWwgZm9yIHRoaXMuDQoNClByb2plY3QgRG9jdW1lbnRhdGlvbjoNCg0KLSAgIFJNRCBkb2N1bWVudGF0aW9uDQoNCiMjIyBEYXRhIFNvdXJjZXM6DQoNCkthZ2dsZSBMaW5rIDEgPC0gaHR0cHM6Ly93d3cua2FnZ2xlLmNvbS9kYXRhc2V0cy9kaXNjZGl2ZXIvZGF0YS1zY2llbnRpc3QtZ2VuZXJhbC1za2lsbHMtMjAxOC1yZXZpc2VkDQpLYWdnbGUgTGluayAyIDwtIGh0dHBzOi8vd3d3LmthZ2dsZS5jb20vZGF0YXNldHMvYXJuYWJjaGFraS9kYXRhLXNjaWVuY2Utc2FsYXJpZXMtMjAyMy8NCkdvb2dsZSBEb2NzIHdoZXJlIG91ciByYXcgY3N2IGRhdGEgb3JpZ2luYXRlZDogImh0dHBzOi8vZG9jcy5nb29nbGUuY29tL3NwcmVhZHNoZWV0cy9kLzFsYWMxSDJJZ0NEQ3M5TExUUUw2eWI2TVVQTjF1NEM1Zkp2XzZZamlwSWFNL2VkaXQjZ2lkPTEwNzI0NjA1MTMiDQoNClppcCBSZWNydXRlciAtIERhdGEgU2NpZW50aXN0IE11c3QtSGF2ZSBSZXN1bWUgU2tpbGxzIGFuZCBLZXl3b3Jkcw0KaHR0cHM6Ly93d3cuemlwcmVjcnVpdGVyLmNvbS9jYXJlZXIvRGF0YS1TY2llbnRpc3QvUmVzdW1lLUtleXdvcmRzLWFuZC1Ta2lsbHMNCg0KYGBge3J9DQpza2lsbHMgPC0gcmVhZC5jc3YoImh0dHBzOi8vcmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbS9qb25idXJuczI0NTQvUHJvamVjdC0zLURBVEE2MDcvbWFpbi9kc19nZW5lcmFsX3NraWxsc19yZXZpc2VkLmNzdiIpDQoNCnNvZnR3YXJlIDwtIHJlYWQuY3N2KCJodHRwczovL3Jhdy5naXRodWJ1c2VyY29udGVudC5jb20vam9uYnVybnMyNDU0L1Byb2plY3QtMy1EQVRBNjA3L21haW4vRGF0YSUyMFNjaWVuY2UlMjBDYXJlZXIlMjBUZXJtcyUyMC0lMjBkcyUyMHNvZnR3YXJlLmNzdiIpDQoNCmdsaW1wc2Uoc2tpbGxzKQ0KZ2xpbXBzZShzb2Z0d2FyZSkNCg0KYGBgDQojIyMgUGxhbjoNClRoZSBwbGFuIGZvciB0aGlzIHByb2plY3QgaXMgdG8gdXRpbGl6ZSBhIGZldyBkaWZmZXJlbnQgZGF0YSBzb3VyY2VzIHRvIGdldCB0aGUgYmVzdCBhbmFseXNpcyBvbiBkYXRhIHNjaWVuY2Ugc2tpbGxzLiBUaGUgZmlyc3Qga2FnZ2xlIGxpbmsgaXMgdG8gYSBkYXRhIHNldCB0aGF0IA0KZmVhdHVyZXMgb3ZlcmFsbCBkYXRhIHNjaWVuY2Ugc2tpbGxzIGZyb20gMjAxOCB3aGljaCBoYXMgYm90aCB0aGUgc2tpbGxzIGFuZCBzb2Z0d2FyZSBzY3JhcGVkIGZyb20gTW9uc3RlciwgSW5kZWVkLCBTaW1wbHlIaXJlZCwgYW5kIExpbmtlZGluLiBUaGlzIGZpcnN0IGRhdGEgc2V0DQpmcm9tIEpFRkYgSEFMRSB3aWxsIGFsbG93IGZvciBzb21lIHNvbGlkIEVEQSBmb2N1c2luZyBpbiBzcGVjaWZpY2FsbHkgb24gZGF0YSBzY2llbmNlIHNraWxscy4gIFRoZSBzZWNvbmQgS2FnZ2xlIGxpbmsgbG9va3MgYXQgZGF0YSBzY2llbmNlIHNhbGFyaWVzIGFuZCB3aWxsIHByb3ZpZGUgdXMgd2l0aCBhIG1vcmUgdXAtdG8tZGF0ZSANCnZpZXcgaW50byB0aGUgaW5kdXN0cnkuIFRoaXMgc3BlY2lmaWMgZGF0YSBzZXQgY29tYmluZXMgZXhwZXJpZW5jZSBsZXZlbHMsIGFuZCBqb2IgdGl0bGUgZGF0YSB3aGljaCB3aWxsIGJlIGhlbHBmdWwgaW4gZnVydGhlciBpbnNpZ2h0cyBhbmQgYW5hbHlzaXMgaW50byBob3cgc2tpbGxzIGFuZCBzZW5pb3JpdHkgdHJhbnNsYXRlIHRvIHNhbGFyeSBsZXZlbC4NCg0KDQojIyMgRW50aXR5LVJlbGF0aW9uc2hpcCAoRVIpIERpYWdyYW06DQohW0VudGl0eS1SZWxhdGlvbnNoaXAoRVIpXShDOlxVc2Vyc1xqYXNoYlxEb3dubG9hZHNcUXVpY2tEQkQtZXhwb3J0LnBuZykNCg0K