- HEALTH STATISTICS?
- FACULTY
보건/생물 통계학
대부분의 자연/사회현상은 일정한 규칙에 따라 요약이 가능한 일관성(consistency)과 그 규칙을 정의할 수 없는 확률성(randomness)이 혼합된 데이터로 표현할 수 있습니다. 통계학(Statistics)은 수리과학적 방법론을 활용하여 데이터가 가진 일관된 규칙을 발견해내고자 하는 학문입니다. 보건/생물 통계학은 의학/보건 등의 연구에서 생성되는 데이터에 적용될 수 있는 통계적 이론을 개발하고, 통계 분석하여 얻어진 결과를 활용하여 통계적으로 합리적인 의사결정을 내리는 학문입니다.
활동분야
- Epidemiology
- Public Health
- Genetics/Bioinformatics
- Clinical trial
- Environment

환경/보건 통계 연구실

지도교수 - 김호
홈페이지 - http://healthstat.snu.ac.kr/hokim
연락처 - 02. 880.2711
이메일 - hokim@snu.ac.kr
연구실 - 220동 706호
연구분야 - 환경통계, 대기오염역학, 혼합효과모형, 경시적자료분석, 기후변화와 건강, 통계상담
의학/유전 통계 연구실

지도교수 - 원성호
홈페이지 - http://healthstat.snu.ac.kr/swon
연락처 - 02.880.2714
이메일 - won1@snu.ac.kr
연구실 - 220동 707호
연구분야 - Statistical Genetics, Bioinformatics, Linear Model, Missing Data
- 보건통계학개론
![]() |
이 책에서는 보건학, 의학분야의 자료를 요약하고 표본을 이용하여 모집단의 특성을 추론하는데 필요한 통계적 개념을 소개하였다.
또한 대부분의 예제 및 연습문제는 보건학, 의학 분야에서 주로 발생하는 내용을 이용하여 구성하였으며, 모든 분석은 통계 소프트웨어 R을 이용하여 수행하였다.
R은 http://www.r-project.org 에서 설치파일을 내려받을 수 있고, 데이터와 R코드는 이 홈페이지에서 내려받기 바란다. |
- PROJECTS
- SOFTWARE
- CONFERENCES
- 국제공동연구 글로벌연구실사업-기후변화와 대기오염에 의한 건강영향 평가 (PI: 김호교수)
- 본 과제는 기후 변화에 따른 도시대기환경 중 대기오염물질의 생성과 거동 및 건강영향을 파악하고 이를 근거로 기후변화 대응 완화 및 적응 대책을 제시하며, 기후변화와 대기질 간의 상호 인과관계를 파악하여 우리나라 기후변화를 야기하는 온실가스 및 에어로졸 성분을 파악하고 상대적 중요성을 판단하여 기후 변화로 인해 변화되는 대기질의 변동을 파악하는 것을 목표로 한다. 첫째, 기후변화에 따른 동북아지역의 대도시 대기환경 중 대기오염물질의 특성을 파악한다. 둘째, 기후변화에 따른 동북아지역의 오염물질 거동을 평가한다. 마지막으로 동북아지역의 기후 변동 및 대기질 변동에 따른 건강위해성을 평가한다.
- 기후변화에 의한 건강영향 평가: 아시아와 미국의 비교 및 통합모형 제시(PI: 김호교수)
- 본 과제는 기온-사망의 농도-반응 관계에 대해 아시아 및 미국의 여러 도시의 연구를 통해 regional and global scale의 모형을 도출하고 지역연구 및 국제연구를 통한 건강 위험도 산출을 목표로 한다. 기후변화 추세를 고려한 건강영향 최소화 방안제시 및 기후변화 건강적응 정책연구 및 과학적 증거에 근거에 정책제시 및 미래 기후변화 시나리오를 이용하여 미래의 건강부담을 추계를 내용으로 한다. 본 연구의 결과로 기후변화에 의한 건강부담의 크기를 보다 정밀히 추정할 수 있고 궁극적으로 기후변화에 의한 건강영향을 최소화하는 정책의 수립에 사용될 수 있다.
- 기후변화 영향 및 취약성 통합 평가 모형 요소 기술개발: 통합, 건강, 물관리 부문 (PI: 김호교수)
- 기후변화에 따른 직·간접적인 영향을 포괄적으로 고려한 분야 간의 건강 영향 및 취약성 평가를 위한 통합 모형 개발을 목표로 1~2년 차, 건강 부문 내 기후변화의 위험 요인을 폭염, 대기오염, 매개체 질환을 선정, 각각의 요인 별 기후변화로 인한 건강부문에서의 영향을 정량화 하는 분석방법 및 모형 개발과 DB를 구축한다. 3~4년 차에서는 시·공간적 분석의 결과를 동일한 단위로 보여줌으로써 각 위험 요인의 영향을 비교 가능한 결과로 제시할 것이다. 5~6년 차에는 여러 부문과의 연계 및 통합을 위한 부문 별 분석 결과물인 입출력 자료를 이용하여 건강 영향 및 취약성 평가 모형 개발 및 모듈화를 수행하여 7차년도에는 이러한 통합 모형을 통한 결과를 리스크로 산출함으로써 기후변화 적응 정책 마련에 근거를 제시한다.
- 지역사회건강조사 질관리 모니터링 및 평가 (PI: 김호교수)
- 전국 시·군·구 254개 보건소에서 매년 실시하는 지역사회건강조사는 실제 주민들의 건강에 대해 직접적인 측정이나 임상검사 없이 면접조사로 수행되기 때문에 설문조사 과정에서 주민들로부터 정확하고 객관적인 답변을 얻는 것이 지역사회건강조사의 정확성과 신뢰성을 위해서 가장 중요한 요소 중 하나이다. 지역사회건강조사 자료에 대한 객관적 검증체계를 구축하여 지역사회건강조사의 정확성과 신뢰성을 확보하는 것을 목적으로 지역사회건강조사를 수행하는 주체인 책임 대학교, 보건소 및 조사원의 조사수행 과정을 모니터링하고 질관리 정도를 평가함으로써 지역사회건강조사의 조사준비, 조사과정, 결과 산출의 모든 과정의 정확성과 신뢰성을 확보하고자 한다.
- 가족 데이터를 이용한 전장 유전체 종합 연관 분석 방안 개발
- Genetic Epidemiology의 중요한 연구 방법으로 널리 알려진 전장 유전체 연관 분석(genome-wide association analysis)은 주변 연관(marginal effect) 검정, 유전자간 상호 작용 검정 두 가지 측면에서 이루어진다. 주변 연관 검정은 표지 유전자의 대립 유전자들이 빈도가 높은 경우와 낮은 경우 두 가지 경우를 동시에 고려해야 하고, 유전자간 상호 작용 검정은 표지 유전자의 수가 현재 백만개까지 되고 있다는 현실을 고려할 때 계산양이 쉬운 통계적 분석 방법을 필요로 한다. 그러나 가족 데이터는 population stratification과 같은 교란 요인에 로버스트(robust)함에도 불구하고 사례-대조 연구에 비하여 검정력이 상대적으로 좋지 않고, 계산양이 많아 전장 유전체 연관 분석에서 그 효용은 제한적이었다. 본 연구팀은 이번 연구를 통하여 가족 데이터를 이용한 전장 유전체 연관 분석을 활성화를 위한 효율적인 통계 분석 방법 및 소프트웨어의 개발을 목표로 한다. 첫째, 다양한 형태의 교란 요인에 로버스트하고 동시에 검정력도 적절한 검정 통계량을 마련할 것이다. 둘째, 가족 데이터를 위한 정확도 검정법을 마련하여, 대립 유전자의 빈도가 적거나 개체의 수가 적은 경우에도 통계적 분석을 가능하게 할 것이다. 마지막으로 유전자간 상호 작용을 검정할 수 있는 통계기법을 개발하여 가족 데이터를 이용한 전장 유전체 연관 분석을 다양화할 것이다.
- 차세대유전체자료를 활용한 통합 유전 연관 분석도구의 개발 (PI: 원성호교수)
- Missing heritability 등의 연구 결과는 희소 유전자들의 유전적 중요한 역할을 하고 있음을 보여주었다. 또한 next generation sequencing(NGS) 의 비용이 감소하여 NGS 자료를 활용한 희소 유전자 유전 연구들이 최근 활성화되고 있다. 본 연구에서는 가족자료 기반 NGS자료를 활용한 유전자 연관 분석을 위한 통계 분석 방법을 개발하고자 한다. 희소유전자 분석, 유전자간 교호작용, copy number variation기반 연관 분석 등 다양한 NGS자료 통계 분석 방법을 개발할 것이다. 또한 C/C++ 기반 소프트웨어를 개발할 예정이며, 현재 유전체 분석에서 활용되고 있는 소프트웨어들(S.A.G.E., FBAT)의 통계 분석 함수들을 지원함으로써 다양한 기능을 갖는 통합 유전체 분석 소프트웨어를 개발할 것이다
- 복합질환 예측 모형 개발 알고리즘 개발 및 한국인 유전체정보 컨텐츠 확립 (PI: 원성호교수)
- 전장 유전체 자료를 활용하여 질환 예측 모형을 개발할 수 있는 통계 분석 방법 및 소프트웨어의 개발을 목표로 한다. 첫째, missing heritability를 해결하기 위하여 가족력 정보를 활용한 질환 예측 모형을 개발할 것이다. 각 유전자들이 효과크기를 고려하여 missing heritability를 추정하고 이를 바탕으로 가족력 정보를 효율적으로 활용할 수 있는 방안을 마련할 수 있다. 둘째, population stratification이 존재하는 경우 penalized regression방안을 마련함으로써 다양한 형태의 자료에 적용 가능한 예측 모형을 개발할 것이다. 마지막으로 한국인 전장 유전체 자료를 활용하여 확보한 복합질환 및 형질 연관 분석 자료에 기반한 질병 예측 모형을 개발할 것이다.
- NGS를 이용한 인간 유전체 자료 분석을 위한 상용 소프트웨어 개발 (Sub PI: 원성호교수)
- 본 과제를 통하여 생명정보학 소프트웨어 개발 환경 구축을 위한 생명정보 소비자 및 개발자용 Private Cloud 제품(Bio-App store) 개발할 것이다.

- R mirror site
- http://healthstat.snu.ac.kr/CRAN/
R mirror site operated by Graduate School of Public Health, Seoul National University - BALLI: Bartlett-Adjusted Likelihood-based LInear mixed model
- http://healthstat.snu.ac.kr/software/balli/
Statistical analyses with RNA-seq data often suffer from small sample sizes, and global variance estimates of RNA expression levels have been utilized as prior distributions for gene-specific variance estimates, making it difficult to generalize the methods to more complicated settings. We herein proposed a Bartlett-Adjusted Likelihood based LInear mixed model approach (BALLI) to analyze more complicated RNA-seq data. The proposed method estimates the technical and biological variances with a linear mixed effect model, with and without adjusting small sample bias using Bartlett’s corrections. - SNP-chip variant calling algorithm
- http://healthstat.snu.ac.kr/software/SNPcalling/
R package for adjusting batch effects when SNP genotypes are called in SNP-chip data - FARVAT: a family-based rare variant association test.
- http://healthstat.snu.ac.kr/software/farvat/
Software for FAmily-based Rare Variant Association Test (FARVAT) with whole exome data or whole genome sequence data. Implemeted by Prof Won's group. - FARVATX: a family-based X-linked rare variant association test.
- http://healthstat.snu.ac.kr/software/farvatx/
Software for FAmily-based X-linked Rare Variant Association Test (FARVAT) with whole exome data or whole genome sequence data. Implemeted by Prof Won's group. - WISARD: A workbench for family-based genetic analysis with next-generation DNA sequencing data.
- http://statgen.snu.ac.kr/wisard/
Workbench for Integrated Superfast Association studies for Related Data(WISARD) with SNP, and NGS data. Implemeted by Prof Won's group. - MFQLS: multivariate family-based quasi-likelihood score test.
- http://healthstat.snu.ac.kr/software/mfqls/
Software for Family-based quasi-likelihood score test for joint analysis of multiple SNPs and phenotypes with SNP-chip data. Implemeted by Prof Won's group. - PedCNV: Association analysis of CNV with family-based sample
- http://cran.r-project.org/web/packages/PedCNV/
R package for Family-based score test with copy number variants. Implemeted by Prof Won's group. - R code for MZ/DZ twin analyses
- http://health.snu.ac.kr/software/calSIZE/
Software for Ascertaining Cases and Controls with Family History of Diseases. Implemeted by Prof Won's group. - R codes for selecting informative cases and controls using conditional expectation(CE)
- http://healthstat.snu.ac.kr/software/selSAMPLE
Supplementary R codes for an article, entitled as, "Selecting cases and controls for DNA sequencing studies using family histories of disease." Implemeted by Prof Won's group. - R codes for revealing missing heritability of T2D
- http://healthstat.snu.ac.kr/software/revealing_MH/
Supplementary R codes for an article, entitled as, "Incorporating family history of disease into the prediction model with large-scale genetic data can dissolve the missing heritability of complex diseases." Implemented by Prof. Won's group.

CONFERENCES Links | |
---|---|
![]() |
한국통계학회 |
![]() |
미국통계학회 |
![]() |
국제환경역학회 |
![]() |
국제생물통계학회 |
![]() |
한국기후변화학회 |
![]() |
한국보건정보통계학회 |
![]() |
국제 유전역학 학회 |
![]() |
미국 유전체 학회 |
![]() |
국제전산생물학회 |
![]() |
한국유전체학회 |

- PRELIMINARY
- ADVANCED
- DEGREES
Advanced
논문자격시험
석사(통계전공) 통계수학/수리 통계 I/자료분석론
(기타전공) 보건통계학개론/자료분석론
박사
(통계전공) 고급이론/범주형자료분석/선형모형
(기타전공) 보건통계학개론/자료분석론
졸업 논문
석사 : SCI급 저널 1편 투고박사 : SCI급 저널 2편 이상 게재
논문자격시험 자료실 Reference Board