[GBD数据库发掘] 1.数据的下载与整合

分享
源代码 2024-9-18 23:20:57 25 0 来自 中国
接待关注R语言数据分析指南

迩来有观众老爷在做GBD数据库发掘问小编一些数据处理处罚的标题,恰好客岁也写过相干的代码,既然观众老爷们有需求那么就写一些文档来先容一下,数据代码已经上传VIP群,请自行下载
正文

数据库主页(https://www.healthdata.org/)
该数据库详细内容各位可以自行相识,下面让我们直接来到数据下载的页面举行数据下载,近期大概由于改版缘故下载数据须要举行账号注册,小编客岁是不须要登录账号就能下载数据
数据下载

https://vizhub.healthdata.org/gbd-results/
数据选择

可以看到左侧有许多选项,一样寻常小编做如下选择
GBD Estimate (Cause of death or inijury)  
Measure (Deaths,DALYs,Incidence)   
Metric (Number,Percent,Rate)  
Cause (这个选本身须要研究的)  
Location (select all)  
Age (select all)  
Sex (select all)  
year (select all)
数据下载

实验完选择后点Download网站就会开始为我们准备数据,准备完成后克看到如下画面
3.png 批量下载数据

如果数据量较大,体系会自动帮我们切割成许多个文件,大概几十个之多;固然你也可以点击 Download 一个一个下载,如果要批量下载数据复制下载链接终端举行下载即可,由于这份数据只有两个以是为 {1..2};请不要实验这个输入你本身的网址即可
for i in {1..2}do    wget "https://dl.healthdata.org/gbd-api-2019-public/2e492f56c96451fce3d1ac_files/IHME-GBD_2019_DATA-8c0d0ff4-$i.zip"done批量解压缩

由于下载的都为压缩文件,如果数据量较大会有几十个之多;以是还是批量处理处罚来的愉快
for z in *.zip; do unzip "$z"; done批量归并数据

library(tidyverse)list.files(path = "~/liver-cancer/data",           pattern = "*.csv", full.names=TRUE) %>%   lapply(read_csv) %>% bind_rows() %>% write_csv(.,file="liver_cancer.csv",quote="none")
颠末上面的步调,我们就顺遂的下载好了后续须要举行数据发掘的文件,背面就是一系列的数据统计分析内容了,本节只是简单先容一下数据下载仅此而已;喜欢的观众老爷接待分享转发
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-10-19 02:20, Processed in 0.169387 second(s), 35 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表