Andres Villagran PAD 6833 - Research Paper Data Selection

setwd("~/Desktop/My Class Stuff/Project Data")
library(readxl)
library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.6
## ✔ forcats   1.0.1     ✔ stringr   1.6.0
## ✔ ggplot2   4.0.1     ✔ tibble    3.3.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.2
## ✔ purrr     1.2.1     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(stargazer)

## 
## Please cite as: 
## 
##  Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.3. https://CRAN.R-project.org/package=stargazer

#Data
project_data <- read_excel("texas federal funds.xlsx")
head(project_data)

## # A tibble: 6 × 913
##   Time  21ST CENTURY COMMUNITY L…¹ ABANDONED MINE HAZAR…² ABANDONED MINE LAND …³
##   <chr>                      <dbl>                  <dbl>                  <dbl>
## 1 1996                       87500                     NA                -105034
## 2 1997                          NA                     NA               15783912
## 3 1998                          NA                     NA                1374585
## 4 1999                          NA                     NA                1852204
## 5 2000                          NA                     NA                1466444
## 6 2001                          NA                     NA                2175101
## # ℹ abbreviated names: ¹`21ST CENTURY COMMUNITY LEARNING CENTERS`,
## #   ²`ABANDONED MINE HAZARD MITIGATION - RECOVERY`,
## #   ³`ABANDONED MINE LAND RECLAMATION PROGRAM`
## # ℹ 909 more variables: `ABSTINENCE EDUCATION` <dbl>,
## #   `ACADEMIC COMPETITIVENESS GRANTS` <dbl>,
## #   `ACADEMIC RESEARCH ENHANCEMENT AWARD` <dbl>,
## #   `ACQUIRED IMMUNODEFICIENCY SYNDROME (AIDS) ACTIVITY` <dbl>, …

#Summary
#summary(project_data)

#str(project_data)

#projectsummary<-as.data.frame(project_data)
#stargazer(projectsummary,type="text",summary.stat = c("n","mean","median","sd","min","max"))

#Homework Assignments

#Variable Creation and Dropping NA values
adoption <- project_data %>% filter(`ADOPTION ASSISTANCE`>0)
foster_care <- project_data %>% filter(`FOSTER CARE TITLE IV E`>0)

# 1) Summary of Charter Schools
summary(project_data$`ADOPTION ASSISTANCE`)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## 16987415 32879470 55047928 51542821 62132532 91995699

# 2) Continuous Variable Summary
hist(project_data$`ADOPTION ASSISTANCE`)

# 3) Plot
plot(project_data$`ADOPTION ASSISTANCE`, project_data$`FOSTER CARE TITLE IV E`)

# 4) Correlation between Adoption Assistance and Foster Care State Funding
cor(project_data$`ADOPTION ASSISTANCE`, project_data$`FOSTER CARE TITLE IV E`)

## [1] 0.9620067

compare_two<-project_data %>% select(`ADOPTION ASSISTANCE`, `FOSTER CARE TITLE IV E`) %>% drop_na() 
view(compare_two)

#Potential Questions for Project
# - What is the correlation bewteen adoption assistance and foster care funding?
# - Do education programs and health care programs have a correlational relationship? Will they both increase alongside one another?
# - As arts/culture program funding has decreased, have necessity (food/healthcare) programs increased? 

#Challenges with this Dataset
# - Not all programs have values for every year - will need to be selective for program selection
# - Years are in char format
# - Long column title names

Andres Villagran PAD 6833 - Research Paper Data Selection

Andres Villagran

2026-02-22