Teaching Resources
教学资源

 

双序列比对

练习1猪流感病毒株数据

 

练习2:病毒疫情快速判断

2013年初,在杭州的肉菜市场中突发急性呼吸道传染病疫情,从病人症状初步判断,病原体是病毒,但何种病毒并不清楚。用病毒培养方法和快速测序手段,得到两条疑似病毒的序列:

序列1:
ATGAGTCTTCTAACCGAGGTCGAAACGTACGTTCTCTCTATCATTCCATCAGGCCCCCTCAAAGCCGAGATCGCACAGAGACTTGAGGATGTTTTTGCAGGGAAGAACGCAGATCTCGAGGCTCTCATGGAGTGGATAAAGACAAGACCAATCCTGTCACCTCTGACTAAGGGGATTTTAGGGTTTGTGTTCACGCTCACCGTGCCCAGTGAGCGAGGACTGCAGCGTAGACGGTTTGTCCAAAACGCCCTAAATGGGAATGGAGACCCAAACAACATGGACAAGGCGGTTAAATTATACAAGAAACTGAAGAGGGAAATGACATTTCATGGAGCAAAGGAAGTTGCACTCAGTTACTCAACTGGTGCGCTTGCCAGCTGCATGGGTCTCATATACAACAGAATGGGGACTGTGACCGCAGAAGGGGCTCTTGGACTAGTATGTGCCACTTGTGAGCAGATTGCTGACGCACAACATCGGTCCCACAGGCAGATGGCGAC

序列2:
GCGGAATTGACAAGGAAGCAATGGGATTCACATACAGTGGAATAAGAACTAATGGAGCAACCAGTGCATGTAGGAGATCAGGATCTTCATTCTATGCAGAAATGAAATGGCTCCTGTCAAACACAGATAATGCTGCATTCCCGCAGATGACTAAGTCATATAAAAATACAAGAAAAAGCCCAGCTCTAATAGTATGGGGGATCCATCATTCCGTATCAACTGCAGAGCAAACCAAGCTATATGGGAGTGGAAACAAACTGGTGACAGTTGGGAGTTCTAATTATCAACAATCTTTTGTACCGAGTCCAGGAGCGAGACCACAAGTTAATGGTATATCTGGAAGAATTGACTTTCATTGGCTAATGCTAAATCCCAATGATACAGTCACTTTCAGTTTCAATGGGGCTTTCATAGCTCCAGACCGTGCAAGCTTCCTGAGAGGAAAATCTATGGGAATCCAGAGTGGAGTACAGGTTGATGCCAATTGTGAAGGGGACTGCTATCATAGTGGAGGGACAATAATAAGTAACTTGCCATTTCAGAACATAGATAGCAGGGCAGTTGGAAAATGTCCGAGATATGTTAAGCAAAGGAGTCTGCTGCTAGCAACAGGGATGAAGAATGTTCCTGAGATTCCAAAGGGAAGAGGCCTATTTGGTGCTATAGCGGGTTTCATTGAAAATGGATGGGAAGGCCTAATTGATGGTTGGTATGGTTTCAGACACCAGAATGCACAGGGAGAGGGAACTGCTGCAGATTACAAAAGCACTCAATCGGCAATTGATCAAATAACAGGAAAATTAAACCGGCTTATAGAAAAAACCAACCAACAATTTGAGTTGATCGACAATGAATTCAATGAGGTAGAGAAGCAAATCGGTAATGTGATAAATTGGACCAGAGATTCTAT

请用这两条序列的信息来判断:

1. 病原体是哪种病毒?病毒分型如何?

2. 由于此前该地区并未发生大规模的呼吸道疾病疫情,从流行病学角度基本排除人传人的可能性,又因该病病人都在肉菜市场工作,高度怀疑该病毒是由动物传染人。请问是什么种类的动物传染给人的?

 

多序列比对

练习1:tRNA的序列保守性

Genomic tRNA database 数据库里收录了许多物种的tRNA序列。我们知道tRNA的结构是高度保守的,那么它们的序列是否也有高度相似性呢?

这里,我们下载大肠杆菌和人的tRNA序列,进行多序列比对。大肠杆菌tRNA序列(FASTA)人tRNA序列(hg19, FASTA)

这些序列之间是否具有相似性?
人的tRNA序列和大肠杆菌的tRNA序列间是否有相似性?

练习2:非典病毒的来源

2003年,中国发生了著名的“非典”疫情。非典病毒很快被归为冠状病毒科(Coronavirus),某些专家宣称其是由果子狸上的某种已知冠状 病毒自然变异而来。然而,2003年4月13日香港《大公报》援引俄罗斯院士的观点,指出非典病毒是美国制造的生物武器,并非自然变异而来。中国国内的部 分科学家也持类似观点,认为非典病毒不能由冠状病毒自然突变而来。究竟哪种观点正确?如果非典病毒不是由已知冠状病毒种类自然突变而来,那它最有可能由什么病毒人工改造而来?

请通过对以下序列的分析来得出结论。

广东分离并测序出的第一株SARS毒株GD01全基因组序列:NCBI数据库号为 AY278489
北京分离并测序出的第一株SARS毒株BJ01全基因组序列:NCBI数据库号为 AY278488
请比对其差异,看看非典病毒在传播过程中的自然变异率。

当时已知的冠状病毒科有三大类,即三个Group。这里为简便起见,分别给出三个Group的模式代表病毒全基因组序列:
Group1 代表病毒 HCoV-229E: NC_002645
Group2 代表病毒 BCoV: NC_003045
Group3 代表病毒 IBV: NC_001451

 

大规模测序分析

大规模测序云分析平台:深圳承启生物公司主页

客户端软件下载:http://www.chi-biotech.com/technology.html?ty=ypt

免费教学账号将于课上公布

大文本阅读器 LTFViewer (用这个可以看FASTQ等超大文件!)

点此下载测试用的测序数据集:

转录组测序数据集:
Description Year Sequencer Download link Password
正常肺上皮细胞系HBE的mRNA测序 2012 Illumina GAIIx 898d
正常肺上皮细胞系HBE的mRNA测序
     (因为测序质量很差所以截取前75nt)
2012 Ion torrent Proton ur5y
正常肺上皮细胞系HBE的mRNA测序 2017 Ion torrent Proton 3oq3
肺癌细胞A549的mRNA测序 2012 Illumina GAIIx f2pt
肝癌细胞系Hep3B, LM3, LM6, 97H mRNA测序 2013 Illumina HiSeq 2000 5xkb

 

基因组测序数据集:

Description Year Sequencer Download link Password
胰腺癌病人的癌细胞及外周血全基因组测序,双端测序,所以同一样本会有 _R1, _R2 两个文件。

癌细胞测序数据:带有_ca的两个文件。
外周血测序数据:带有_blood的两个文件。

2015 Illumina NextSeq-500 6s5h
肺腺癌病人癌组织全外显子组测序
Agilent SureSelect 51M 外显子组捕获试剂盒捕获
2015 Illumina HiSeq-2500 ntsk

 

点此下载人hg19基因组对应的RefSeq-RNA全库(2015年3月17日版本),9.98MB压缩包

作业:

1. 下载这些数据集,统计一下各数据集的读长分布、每一位的碱基质量分布,看看这些测序仪有没有在质量上作假。
2. 对比2012年和2017年Ion torrent测HBE的数据,该测序仪的性能是否有提高?
3. 看看Illumina和Ion torrent的测序结果,mRNA定量上是否有可比性?
4. 对比A549和HBE,找出癌细胞上调和下调的基因,分析他们的通路。
5. A549相对于HBE上调的基因,其长度分布与所有基因长度分布之间有没有显著差异?如果有,可能的生物学原因是什么?
6. 请找出上面胰腺癌病人的somatic mutations。
7. 请为上面那个肺腺癌病人寻找合适的靶向药。

高级统计-聚类分析

问题1:

这里收集了一系列生活在寒冷区域的生物的抗冻蛋白(点此下载FASTA格式文件),请试着用多序列比对方法和alignment-free的静态统计方法来对这些生物抗冻蛋白进行聚类分析,并对你的结果进行生物学解读。

 

问题2:

这是一个早期的基因芯片分析结果,研究 Saccharomyces cerevisiae (酿酒酵母) 从发酵转为呼吸的代谢改变时,各种基因mRNA表达的时序变化。数据点此下载:Excel表格MATLAB工作区文件
请做聚类分析,看在代谢模式改变时,基因的表达变化是否有一定的规律。

注:此研究的数据来源于以下文章:
DeRisi, J.L., Iyer, V.R., and Brown, P.O. (1997). Exploring the metabolic and genetic control of gene expression on a genomic scale. Science 278, 680–686s.

 

问题3:

肝癌细胞系Hep3B, LM3, LM6, 97H 四株细胞,有三株细胞来源于同一个中国人,请指出是哪三个,为什么。(提示:转录组测序数据上面有)

 

高级统计-主成分分析

Excel表格数据点击这里下载,包含两个情景。

第一个情景是一些中学生的各科学习成绩,用主成分分析看学生学习的特点,判断偏科和全面的学生,区分学霸和学渣。

第二个情景是一些股票的相应公司经营数据,通过主成分分析来选择值得购买的股票

 

高级统计-逐次回归

青岛市财政收入分析

下表列出了青岛市1995-2007年的各项主要经济数据,其中收入和产值以亿元为单位。
Excel表格下载地址
问题:哪些因素共同决定了财政收入?哪些因素与财政收入无关,仅仅是伴随着整体经济的增长而被动增长的?

新冠疫情影响因素

关于新冠疫情,复旦大学沈逸教授在公开演讲中有一个很著名的论断:“医疗资源越高、越民主,死的人就越多”


为了验证沈逸老师的这一论断,下表列出了2020全球各国新冠疫情状况以及各相关指标。新冠疫情数据统一选取2020.11.20.的数据。所有数据来源均为 Our World in Data,其所有数据源均在网站上有明确标注。

Excel表格下载

 

因变量共10项:

  • population: 总人口
  • total_cases: 新冠累积确诊数
  • new_cases_smoothed: 新增确诊数(7日平均)
  • total_deaths: 新冠累积死亡数
  • new_deaths_smoothed: 新增死亡数(7日平均)
  • total_cases_per_million:每百万人确诊数
  • new_cases_smoothed_per_million: 每百万人新增确诊数 (7日平均)
  • total_deaths_per_million:每百万人死亡数
  • new_deaths_smoothed_per_million:每百万人新增死亡数(7日平均)
  • reproduction_rate:传播率(每一个病人平均能传染几个人,>1为疫情扩大,<1为疫情逐步平息)

自变量共16项:

  • stringency_index: 封锁政策严格程度(越大说明封锁越严格,根据9项指标综合计算而来:学校关闭,工作场所关闭,取消公众活动,限制公共场所聚集,关闭公共交通,居家令,公共信息宣传,限制境内人口流动,限制国际旅行)
  • population_density: 人口密度
  • median_age:年龄中位数
  • aged_65_older:65+人口比例
  • aged_70_older:70+人口比例
  • cardiovasc_death_rate:心血管死亡率
  • diabetes_prevalence:糖尿病发病率
  • hospital_beds_per_thousand:每千人病床数
  • life_expectancy:预期寿命
  • human_development_index:人类发展指数
  • DALY(2017) - Burden of disease:伤残生命调整年(2017),反映疾病负担,越高表明人们越处于患病状态
  • gdp_per_capita:人均GDP
  • Health expenditure per capita 2014, PPP (constant 2011 international $):人均健康花费2014年数据,按购买力平价计算
  • Liberal democracy index 2017:自由民主指数2017年数据
  • Physicians (per 1,000 people):每千人医生数量
  • Nurses and midwives (per 1,000 people):每千人护士数量(含助产士)

 

根据上面的数据,看看各疫情指标与什么因素相关?是否如沈逸老师所说的那样?

支持向量机(SVM)

安德森鸢尾花卉数据集(Anderson’s Iris data set),包含三种鸢尾花的150个样本,每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征(见下图)。现在要建立一个分类器,输入这几项特征的数值后,自动区分这个花是山鸢尾(Iris setosa)、变色鸢尾(Iris versicolor)还是维吉尼亚鸢尾(Iris virginica)。

Iris数据集下载(excel)