在ImmuneAccess这个网站,首先找到病人信息(标签)的表格。
![](https://img.haomeiwen.com/i27100867/c60d4dcdb239cc82.png)
筛选“covid_category”这一列,得到具有症状“Acute、Exposed、Recovered”的病人数据,共157个样本。
![](https://img.haomeiwen.com/i27100867/8a4f494578f769ac.png)
先下载了72位受试者(1G)的数据,解压后是9.12G,但是里面所有的病人都不是带症状信息的那一百多人。
![](https://img.haomeiwen.com/i27100867/fd872da261f32979.png)
下载1414位受试者数据,买来5T的硬盘,下载两天内出现不明原因一直下载到一半中断。以为是下载到外接硬盘比较慢,但发现下载到本地也是同样速度,并且中断。
![](https://img.haomeiwen.com/i27100867/fef59b8016221a3a.png)
没有办法,让同学帮我下载了传给我,但是23G的大小我们还不知道用什么能传输(邮箱最高3G),他的网速快,显示下载需要8小时,我需要3天。
他建议我试试用迅雷下,我下载了迅雷,下载相同的数据,同时他那边也帮我下着,以防我这边下载出问题。
他又给我推荐了motrix,也是个下载工具,说是不限速的,可能比迅雷快一点,但是因为迅雷已经在下了,所以就不用这个了,一起下会变慢。
他网速快的原因可能是他用有线/网线,我用学校WIFI。我的工位附近没有网线接口,不知道我的电脑能不能用网线。
他下载完了,但是没有办法传给我,由于是一个压缩包有这么大,不能分开很多个3G传。
![](https://img.haomeiwen.com/i27100867/082c004671854de9.png)
但是经过一个晚上,我的迅雷也下载完了,解压要40分钟,他那边就把压缩包删了。
![](https://img.haomeiwen.com/i27100867/75d03cb8750abe89.jpg)
但是解压完以后,没有得到期望的结果,生成了一个“ARIA2”文件,不知道是什么。
![](https://img.haomeiwen.com/i27100867/01d5d215316abd4c.jpg)
因为一开始用7z解压没有出现东西,所以下载了360压缩试一下。
![](https://img.haomeiwen.com/i27100867/d9c6899d85095347.jpg)
同样解压不成功,尝试解压会出现“读写失败”并闪退。
![](https://img.haomeiwen.com/i27100867/f7b796e8fc998ece.jpg)
下载了winRAR。
看样子winRAR真的可以,马上卸载360。解压所需2小时。
![](https://img.haomeiwen.com/i27100867/e7883299fee13592.jpg)
但是winRAR最后也显示失败了:压缩文件已损坏。
![](https://img.haomeiwen.com/i27100867/9edc8548bfcbfe47.jpg)
这个时候我只有最后一个办法。
![](https://img.haomeiwen.com/i27100867/534c7da1c1c863e5.png)
让我同学再帮我下载一次,解压完了分批发给我。
我还有没有学上就寄托在他能不能成功了
![](https://img.haomeiwen.com/i27100867/f04b59538ce3318a.jpg)
早上7点半就来“催”情况,结果给我带来一个“好消息”。。。
![](https://img.haomeiwen.com/i27100867/51db81f98f0f5e95.png)
![](https://img.haomeiwen.com/i27100867/efb6693491c77529.jpg)
但是后续不知道找到什么方法,处在解压过程中。解压2个半小时
![](https://img.haomeiwen.com/i27100867/245365aecea2d2df.jpg)
解压了80%已经155G了,产生1116个文件,根据邮箱一次只能传3G,要分50多次发。。。并且同学的电脑也不能支撑接下来解压出来的文件的存放空间了。
![](https://img.haomeiwen.com/i27100867/9417926d36ca2c55.jpg)
![](https://img.haomeiwen.com/i27100867/93e700d6a6576adc.jpg)
发给我文件不现实。他让我在找找之前压缩文件损坏的原因。但是百度的修复压缩文件的方式并没有效。
由于解压出来的许多病人数据是我不需要的(我只需要157个),故让他删除一部分数据,只保留我需要的,与其找修复文件的方式(可能不成功),不如只发给我所需的内容反而是最快的。
我筛选得到157个病人的sample_id都是INCOV开头,以及在另一个标签xls里面,是ADIRP开头。都是157个,感觉可能是同样的数据用了不同的id(但是在解压完的文件里面是不同的)
![](https://img.haomeiwen.com/i27100867/07244613b7b0a300.png)
![](https://img.haomeiwen.com/i27100867/693f6deebdc4cf4d.png)
解压完的文件里,I有157个,A有161个。都压缩(20分钟)后邮箱发与我。A开头的太多了要分两次发。并且我要下载(16分钟)完后他才能继续上传。
![](https://img.haomeiwen.com/i27100867/2ea9193874e2e1d2.png)
![](https://img.haomeiwen.com/i27100867/2d6e2787fbcb7a71.png)
打开一个tsv,里面是如下的样子,可以在immunarch里用repLoad函数作为immunoseq格式加载。
![](https://img.haomeiwen.com/i27100867/0ffbc1f673cd9dbe.png)
然后下午我发现了一件细思极恐的事。
![](https://img.haomeiwen.com/i27100867/c78405a184948ee5.jpg)
![](https://img.haomeiwen.com/i27100867/aeb5dcdbe283b117.png)
电脑上有一个203G的文件,一开始不知道是什么因为我确定没下过这么大的数据。然后推测,可能一开始解压成功了,只不过解压到了迅雷的下载文件夹中。
(我宁愿没有发现这件事)
好在得到数据了,都值得。
网友评论