Teaching Resources
教学资源

 

双序列比对

练习1猪流感病毒株数据

 

练习2:病毒疫情快速判断

2013年初,在杭州的肉菜市场中突发急性呼吸道传染病疫情,从病人症状初步判断,病原体是病毒,但何种病毒并不清楚。用病毒培养方法和快速测序手段,得到两条疑似病毒的序列:

序列1:
ATGAGTCTTCTAACCGAGGTCGAAACGTACGTTCTCTCTATCATTCCATCAGGCCCCCTCAAAGCCGAGATCGCACAGAGACTTGAGGATGTTTTTGCAGGGAAGAACGCAGATCTCGAGGCTCTCATGGAGTGGATAAAGACAAGACCAATCCTGTCACCTCTGACTAAGGGGATTTTAGGGTTTGTGTTCACGCTCACCGTGCCCAGTGAGCGAGGACTGCAGCGTAGACGGTTTGTCCAAAACGCCCTAAATGGGAATGGAGACCCAAACAACATGGACAAGGCGGTTAAATTATACAAGAAACTGAAGAGGGAAATGACATTTCATGGAGCAAAGGAAGTTGCACTCAGTTACTCAACTGGTGCGCTTGCCAGCTGCATGGGTCTCATATACAACAGAATGGGGACTGTGACCGCAGAAGGGGCTCTTGGACTAGTATGTGCCACTTGTGAGCAGATTGCTGACGCACAACATCGGTCCCACAGGCAGATGGCGAC

序列2:
GCGGAATTGACAAGGAAGCAATGGGATTCACATACAGTGGAATAAGAACTAATGGAGCAACCAGTGCATGTAGGAGATCAGGATCTTCATTCTATGCAGAAATGAAATGGCTCCTGTCAAACACAGATAATGCTGCATTCCCGCAGATGACTAAGTCATATAAAAATACAAGAAAAAGCCCAGCTCTAATAGTATGGGGGATCCATCATTCCGTATCAACTGCAGAGCAAACCAAGCTATATGGGAGTGGAAACAAACTGGTGACAGTTGGGAGTTCTAATTATCAACAATCTTTTGTACCGAGTCCAGGAGCGAGACCACAAGTTAATGGTATATCTGGAAGAATTGACTTTCATTGGCTAATGCTAAATCCCAATGATACAGTCACTTTCAGTTTCAATGGGGCTTTCATAGCTCCAGACCGTGCAAGCTTCCTGAGAGGAAAATCTATGGGAATCCAGAGTGGAGTACAGGTTGATGCCAATTGTGAAGGGGACTGCTATCATAGTGGAGGGACAATAATAAGTAACTTGCCATTTCAGAACATAGATAGCAGGGCAGTTGGAAAATGTCCGAGATATGTTAAGCAAAGGAGTCTGCTGCTAGCAACAGGGATGAAGAATGTTCCTGAGATTCCAAAGGGAAGAGGCCTATTTGGTGCTATAGCGGGTTTCATTGAAAATGGATGGGAAGGCCTAATTGATGGTTGGTATGGTTTCAGACACCAGAATGCACAGGGAGAGGGAACTGCTGCAGATTACAAAAGCACTCAATCGGCAATTGATCAAATAACAGGAAAATTAAACCGGCTTATAGAAAAAACCAACCAACAATTTGAGTTGATCGACAATGAATTCAATGAGGTAGAGAAGCAAATCGGTAATGTGATAAATTGGACCAGAGATTCTAT

请用这两条序列的信息来判断:

1. 病原体是哪种病毒?病毒分型如何?

2. 由于此前该地区并未发生大规模的呼吸道疾病疫情,从流行病学角度基本排除人传人的可能性,又因该病病人都在肉菜市场工作,高度怀疑该病毒是由动物传染人。请问是什么种类的动物传染给人的?

 

多序列比对

练习1:tRNA的序列保守性

Genomic tRNA database 数据库里收录了许多物种的tRNA序列。我们知道tRNA的结构是高度保守的,那么它们的序列是否也有高度相似性呢?

这里,我们下载大肠杆菌和人的tRNA序列,进行多序列比对。大肠杆菌tRNA序列(FASTA)人tRNA序列(hg19, FASTA)

这些序列之间是否具有相似性?
人的tRNA序列和大肠杆菌的tRNA序列间是否有相似性?

练习2:非典病毒的来源

2003年,中国发生了著名的“非典”疫情。非典病毒很快被归为冠状病毒科(Coronavirus),某些专家宣称其是由果子狸上的某种已知冠状 病毒自然变异而来。然而,2003年4月13日香港《大公报》援引俄罗斯院士的观点,指出非典病毒是美国制造的生物武器,并非自然变异而来。中国国内的部 分科学家也持类似观点,认为非典病毒不能由冠状病毒自然突变而来。究竟哪种观点正确?如果非典病毒不是由已知冠状病毒种类自然突变而来,那它最有可能由什么病毒人工改造而来?

请通过对以下序列的分析来得出结论。

广东分离并测序出的第一株SARS毒株GD01全基因组序列:NCBI数据库号为 AY278489
北京分离并测序出的第一株SARS毒株BJ01全基因组序列:NCBI数据库号为 AY278488
请比对其差异,看看非典病毒在传播过程中的自然变异率。

当时已知的冠状病毒科有三大类,即三个Group。这里为简便起见,分别给出三个Group的模式代表病毒全基因组序列:
Group1 代表病毒 HCoV-229E: NC_002645
Group2 代表病毒 BCoV: NC_003045
Group3 代表病毒 IBV: NC_001451

 

大规模测序分析

大规模测序云分析平台:深圳承启生物公司主页

客户端软件下载:http://www.chi-biotech.com/technology.html?ty=ypt

免费教学账号:

  • jnu201901@chitest.com
  • jnu201902@chitest.com
  • jnu201903@chitest.com
  • jnu201904@chitest.com
  • jnu201905@chitest.com
  • 密码都是 cq2019

    大文本阅读器 LTFViewer (用这个可以看FASTQ等超大文件!)

    点此下载测试用的测序数据集:

    转录组测序数据集:
    Description Year Sequencer Download link Password
    正常肺上皮细胞系HBE的mRNA测序 2012 Illumina GAIIx 898d
    正常肺上皮细胞系HBE的mRNA测序
         (因为测序质量很差所以截取前75nt)
    2012 Ion torrent Proton ur5y
    正常肺上皮细胞系HBE的mRNA测序 2017 Ion torrent Proton 3oq3
    肺癌细胞A549的mRNA测序 2012 Illumina GAIIx f2pt
    肝癌细胞系Hep3B, LM3, LM6, 97H mRNA测序 2013 Illumina HiSeq 2000 5xkb

     

    基因组测序数据集(抱歉之前上传的数据和描述有问题,现在修复):

    Description Year Sequencer Download link Password
    胰腺癌病人的癌细胞及外周血全基因组测序,双端测序,所以同一样本会有 _R1, _R2 两个文件。

    癌细胞测序数据:带有_ca的两个文件。
    外周血测序数据:带有_blood的两个文件。

    2015 Illumina NextSeq-500 6s5h
    肺腺癌病人癌组织全外显子组测序
    Agilent SureSelect 51M 外显子组捕获试剂盒捕获
    2015 Illumina HiSeq-2500 ntsk

     

    点此下载人hg19基因组对应的RefSeq-RNA全库(2015年3月17日版本),9.98MB压缩包

    作业:

    1. 下载这些数据集,统计一下各数据集的读长分布、每一位的碱基质量分布,看看这些测序仪有没有在质量上作假。
    2. 对比2012年和2017年Ion torrent测HBE的数据,该测序仪的性能是否有提高?
    3. 看看Illumina和Ion torrent的测序结果,mRNA定量上是否有可比性?
    4. 对比A549和HBE,找出癌细胞上调和下调的基因,分析他们的通路。
    5. A549相对于HBE上调的基因,其长度分布与所有基因长度分布之间有没有显著差异?如果有,可能的生物学原因是什么?
    6. 请为上面那个肺腺癌病人寻找合适的靶向药。

    高级统计-聚类分析

    问题1:

    这里收集了一系列生活在寒冷区域的生物的抗冻蛋白(点此下载FASTA格式文件),请试着用多序列比对方法和alignment-free的静态统计方法来对这些生物抗冻蛋白进行聚类分析,并对你的结果进行生物学解读。

     

    问题2:

    这是一个早期的基因芯片分析结果,研究 Saccharomyces cerevisiae (酿酒酵母) 从发酵转为呼吸的代谢改变时,各种基因mRNA表达的时序变化。数据点此下载:Excel表格MATLAB工作区文件
    请做聚类分析,看在代谢模式改变时,基因的表达变化是否有一定的规律。

    注:此研究的数据来源于以下文章:
    DeRisi, J.L., Iyer, V.R., and Brown, P.O. (1997). Exploring the metabolic and genetic control of gene expression on a genomic scale. Science 278, 680–686s.

     

    问题3:

    肝癌细胞系Hep3B, LM3, LM6, 97H 四株细胞,有三株细胞来源于同一个中国人,请指出是哪三个,为什么。(提示:转录组测序数据上面有)

     

    高级统计-主成分分析

    Excel表格数据点击这里下载,包含两个情景。

    第一个情景是一些中学生的各科学习成绩,用主成分分析看学生学习的特点,判断偏科和全面的学生,区分学霸和学渣。

    第二个情景是一些股票的相应公司经营数据,通过主成分分析来选择值得购买的股票

     

    高级统计-逐次回归

    青岛市财政收入分析

    下表列出了青岛市1995-2007年的各项主要经济数据,其中收入和产值以亿元为单位。
    Excel表格下载地址
    问题:哪些因素共同决定了财政收入?哪些因素与财政收入无关,仅仅是伴随着整体经济的增长而被动增长的?