Skip to content

hyangminj/bank

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

bank

인구 밀도와 시설 밀도의 관계를 데이터 기반으로 분석하는 연구 레포지토리입니다. 본 프로젝트는 dataset.tsv를 사용해 전처리, KMeans 기반 군집 탐색, 그리고 분류 모델 평가를 수행합니다.

선행연구 (Prior Study)

이 저장소의 연구 방향은 아래 논문을 선행연구로 참고합니다.

  • Um, J., Son, S.-W., Lee, S.-I., Jeong, H., & Kim, B. J. (2009). Scaling laws between population and facility densities. Proceedings of the National Academy of Sciences of the United States of America, 106(34), 14236-14240. https://doi.org/10.1073/pnas.0901898106

핵심 배경:

  • 시설 밀도 D와 인구 밀도 rho 사이에는 양의 상관관계가 보고됨
  • 단일 고정 지수만으로 설명되기보다 시설 유형에 따라 D ~ rho^alphaalpha가 달라질 수 있음
  • 논문은 상업시설(수익 중심)과 공공시설(사회적 비용 중심)에서 서로 다른 스케일링 양상을 제시함

프로젝트 목표

  • 범주형/연속형 특성을 함께 전처리해 시설 관련 목표 변수를 분류
  • 인구 및 사회경제 특성을 바탕으로 군집 구조를 탐색
  • 모델별 교차검증 성능을 비교해 데이터 구조를 해석

데이터

  • 파일: dataset.tsv
  • 형식: 탭(\t) 구분, 헤더 없는 16개 컬럼
  • 인코딩: UTF-8 가정 (한국어 범주값 포함 가능)

실행 방법

1) 환경 준비

python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

2) 기본 실행

python3 bank.py

3) 옵션 실행

python3 bank.py --data dataset.tsv --k-list 3,4,5,6 --cv 5 --seed 42 --output results.json

주요 옵션:

  • --data: 입력 TSV 경로
  • --k-list: KMeans에서 탐색할 k 목록(쉼표 구분)
  • --cv: 교차검증 fold 수
  • --seed: 난수 시드
  • --output: 결과 JSON 저장 경로

현재 파이프라인

  1. 데이터 로드 및 컬럼 개수 검증
  2. 범주형(one-hot) + 연속형(min-max) 전처리
  3. 초기 특성(앞 8개 컬럼) 기반 KMeans 군집 탐색
  4. 전체 특성(목표 제외 15개 컬럼) 기반 분류 모델 평가
    • Decision Tree
    • Random Forest
    • Extra Trees

해석 시 유의사항

  • 성능 수치는 데이터 분할/시드/전처리 정의에 따라 달라질 수 있음
  • 본 코드는 연구용 재현 실험을 위한 기준 구현이며, 운영 환경 최적화가 목적은 아님

License

이 프로젝트는 학술 연구(academic research) 목적으로만 사용 가능합니다. 상업적 사용 및 비학술 목적 사용은 허용되지 않습니다. 자세한 내용은 LICENSE 파일을 참고하세요.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages