练习1:猪流感病毒株数据
练习2:病毒疫情快速判断
2013年初,在杭州的肉菜市场中突发急性呼吸道传染病疫情,从病人症状初步判断,病原体是病毒,但何种病毒并不清楚。用病毒培养方法和快速测序手段,得到两条疑似病毒的序列:
序列1:
ATGAGTCTTCTAACCGAGGTCGAAACGTACGTTCTCTCTATCATTCCATCAGGCCCCCTCAAAGCCGAGATCGCACAGAGACTTGAGGATGTTTTTGCAGGGAAGAACGCAGATCTCGAGGCTCTCATGGAGTGGATAAAGACAAGACCAATCCTGTCACCTCTGACTAAGGGGATTTTAGGGTTTGTGTTCACGCTCACCGTGCCCAGTGAGCGAGGACTGCAGCGTAGACGGTTTGTCCAAAACGCCCTAAATGGGAATGGAGACCCAAACAACATGGACAAGGCGGTTAAATTATACAAGAAACTGAAGAGGGAAATGACATTTCATGGAGCAAAGGAAGTTGCACTCAGTTACTCAACTGGTGCGCTTGCCAGCTGCATGGGTCTCATATACAACAGAATGGGGACTGTGACCGCAGAAGGGGCTCTTGGACTAGTATGTGCCACTTGTGAGCAGATTGCTGACGCACAACATCGGTCCCACAGGCAGATGGCGAC
序列2:
GCGGAATTGACAAGGAAGCAATGGGATTCACATACAGTGGAATAAGAACTAATGGAGCAACCAGTGCATGTAGGAGATCAGGATCTTCATTCTATGCAGAAATGAAATGGCTCCTGTCAAACACAGATAATGCTGCATTCCCGCAGATGACTAAGTCATATAAAAATACAAGAAAAAGCCCAGCTCTAATAGTATGGGGGATCCATCATTCCGTATCAACTGCAGAGCAAACCAAGCTATATGGGAGTGGAAACAAACTGGTGACAGTTGGGAGTTCTAATTATCAACAATCTTTTGTACCGAGTCCAGGAGCGAGACCACAAGTTAATGGTATATCTGGAAGAATTGACTTTCATTGGCTAATGCTAAATCCCAATGATACAGTCACTTTCAGTTTCAATGGGGCTTTCATAGCTCCAGACCGTGCAAGCTTCCTGAGAGGAAAATCTATGGGAATCCAGAGTGGAGTACAGGTTGATGCCAATTGTGAAGGGGACTGCTATCATAGTGGAGGGACAATAATAAGTAACTTGCCATTTCAGAACATAGATAGCAGGGCAGTTGGAAAATGTCCGAGATATGTTAAGCAAAGGAGTCTGCTGCTAGCAACAGGGATGAAGAATGTTCCTGAGATTCCAAAGGGAAGAGGCCTATTTGGTGCTATAGCGGGTTTCATTGAAAATGGATGGGAAGGCCTAATTGATGGTTGGTATGGTTTCAGACACCAGAATGCACAGGGAGAGGGAACTGCTGCAGATTACAAAAGCACTCAATCGGCAATTGATCAAATAACAGGAAAATTAAACCGGCTTATAGAAAAAACCAACCAACAATTTGAGTTGATCGACAATGAATTCAATGAGGTAGAGAAGCAAATCGGTAATGTGATAAATTGGACCAGAGATTCTAT
请用这两条序列的信息来判断:
1. 病原体是哪种病毒?病毒分型如何?
2. 由于此前该地区并未发生大规模的呼吸道疾病疫情,从流行病学角度基本排除人传人的可能性,又因该病病人都在肉菜市场工作,高度怀疑该病毒是由动物传染人。请问是什么种类的动物传染给人的?
练习1:tRNA的序列保守性
Genomic tRNA database 数据库里收录了许多物种的tRNA序列。我们知道tRNA的结构是高度保守的,那么它们的序列是否也有高度相似性呢?
这里,我们下载大肠杆菌和人的tRNA序列,进行多序列比对。大肠杆菌tRNA序列(FASTA),人tRNA序列(hg19, FASTA)
这些序列之间是否具有相似性?
人的tRNA序列和大肠杆菌的tRNA序列间是否有相似性?
练习2:非典病毒的来源
2003年,中国发生了著名的“非典”疫情。非典病毒很快被归为冠状病毒科(Coronavirus),某些专家宣称其是由果子狸上的某种已知冠状 病毒自然变异而来。然而,2003年4月13日香港《大公报》援引俄罗斯院士的观点,指出非典病毒是美国制造的生物武器,并非自然变异而来。中国国内的部 分科学家也持类似观点,认为非典病毒不能由冠状病毒自然突变而来。究竟哪种观点正确?如果非典病毒不是由已知冠状病毒种类自然突变而来,那它最有可能由什么病毒人工改造而来?
请通过对以下序列的分析来得出结论。
广东分离并测序出的第一株SARS毒株GD01全基因组序列:NCBI数据库号为 AY278489
北京分离并测序出的第一株SARS毒株BJ01全基因组序列:NCBI数据库号为 AY278488
请比对其差异,看看非典病毒在传播过程中的自然变异率。
当时已知的冠状病毒科有三大类,即三个Group。这里为简便起见,分别给出三个Group的模式代表病毒全基因组序列:
Group1 代表病毒 HCoV-229E: NC_002645
Group2 代表病毒 BCoV: NC_003045
Group3 代表病毒 IBV: NC_001451
大规模测序云分析平台:深圳承启生物公司主页
客户端软件下载:http://www.chi-biotech.com/technology.html?ty=ypt
免费教学账号将于课上公布
大文本阅读器 LTFViewer (用这个可以看FASTQ等超大文件!)
点此下载测试用的测序数据集:
转录组测序数据集:
基因组测序数据集:
点此下载人hg19基因组对应的RefSeq-RNA全库(2015年3月17日版本),9.98MB压缩包
1. 下载这些数据集,统计一下各数据集的读长分布、每一位的碱基质量分布,看看这些测序仪有没有在质量上作假。
2. 对比2012年和2017年Ion torrent测HBE的数据,该测序仪的性能是否有提高?
3. 看看Illumina和Ion torrent的测序结果,mRNA定量上是否有可比性?
4. 对比A549和HBE,找出癌细胞上调和下调的基因,分析他们的通路。
5. A549相对于HBE上调的基因,其长度分布与所有基因长度分布之间有没有显著差异?如果有,可能的生物学原因是什么?
6. 请找出上面胰腺癌病人的somatic mutations。
7. 请为上面那个肺腺癌病人寻找合适的靶向药。
问题1:
这里收集了一系列生活在寒冷区域的生物的抗冻蛋白(点此下载FASTA格式文件),请试着用多序列比对方法和alignment-free的静态统计方法来对这些生物抗冻蛋白进行聚类分析,并对你的结果进行生物学解读。
问题2:
这是一个早期的基因芯片分析结果,研究 Saccharomyces cerevisiae (酿酒酵母) 从发酵转为呼吸的代谢改变时,各种基因mRNA表达的时序变化。数据点此下载:Excel表格,MATLAB工作区文件。
请做聚类分析,看在代谢模式改变时,基因的表达变化是否有一定的规律。
注:此研究的数据来源于以下文章:
DeRisi, J.L., Iyer, V.R., and Brown, P.O. (1997). Exploring the metabolic and genetic control of gene expression on a genomic scale. Science 278, 680–686s.
问题3:
肝癌细胞系Hep3B, LM3, LM6, 97H 四株细胞,有三株细胞来源于同一个中国人,请指出是哪三个,为什么。(提示:转录组测序数据上面有)
Excel表格数据点击这里下载,包含两个情景。
第一个情景是一些中学生的各科学习成绩,用主成分分析看学生学习的特点,判断偏科和全面的学生,区分学霸和学渣。
第二个情景是一些股票的相应公司经营数据,通过主成分分析来选择值得购买的股票
下表列出了青岛市1995-2007年的各项主要经济数据,其中收入和产值以亿元为单位。
Excel表格下载地址
问题:哪些因素共同决定了财政收入?哪些因素与财政收入无关,仅仅是伴随着整体经济的增长而被动增长的?
关于新冠疫情,复旦大学沈逸教授在公开演讲中有一个很著名的论断:“医疗资源越高、越民主,死的人就越多”
为了验证沈逸老师的这一论断,下表列出了2020全球各国新冠疫情状况以及各相关指标。新冠疫情数据统一选取2020.11.20.的数据。所有数据来源均为 Our World in Data,其所有数据源均在网站上有明确标注。
Excel表格下载
因变量共10项:
自变量共16项:
根据上面的数据,看看各疫情指标与什么因素相关?是否如沈逸老师所说的那样?
安德森鸢尾花卉数据集(Anderson’s Iris data set),包含三种鸢尾花的150个样本,每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征(见下图)。现在要建立一个分类器,输入这几项特征的数值后,自动区分这个花是山鸢尾(Iris setosa)、变色鸢尾(Iris versicolor)还是维吉尼亚鸢尾(Iris virginica)。