Head banner

本科版生物信息学 课程资料

双序列比对

练习1猪流感病毒株数据

 

练习2:病毒疫情快速判断

2013年初,在杭州的肉菜市场中突发急性呼吸道传染病疫情,从病人症状初步判断,病原体是病毒,但何种病毒并不清楚。用病毒培养方法和快速测序手段,得到两条疑似病毒的序列:

序列1:
ATGAGTCTTCTAACCGAGGTCGAAACGTACGTTCTCTCTATCATTCCATCAGGCCCCCTCAAAGCCGAGATCGCACAGAGACTTGAGGATGTTTTTGCAGGGAAGAACGCAGATCTCGAGGCTCTCATGGAGTGGATAAAGACAAGACCAATCCTGTCACCTCTGACTAAGGGGATTTTAGGGTTTGTGTTCACGCTCACCGTGCCCAGTGAGCGAGGACTGCAGCGTAGACGGTTTGTCCAAAACGCCCTAAATGGGAATGGAGACCCAAACAACATGGACAAGGCGGTTAAATTATACAAGAAACTGAAGAGGGAAATGACATTTCATGGAGCAAAGGAAGTTGCACTCAGTTACTCAACTGGTGCGCTTGCCAGCTGCATGGGTCTCATATACAACAGAATGGGGACTGTGACCGCAGAAGGGGCTCTTGGACTAGTATGTGCCACTTGTGAGCAGATTGCTGACGCACAACATCGGTCCCACAGGCAGATGGCGAC

序列2:
GCGGAATTGACAAGGAAGCAATGGGATTCACATACAGTGGAATAAGAACTAATGGAGCAACCAGTGCATGTAGGAGATCAGGATCTTCATTCTATGCAGAAATGAAATGGCTCCTGTCAAACACAGATAATGCTGCATTCCCGCAGATGACTAAGTCATATAAAAATACAAGAAAAAGCCCAGCTCTAATAGTATGGGGGATCCATCATTCCGTATCAACTGCAGAGCAAACCAAGCTATATGGGAGTGGAAACAAACTGGTGACAGTTGGGAGTTCTAATTATCAACAATCTTTTGTACCGAGTCCAGGAGCGAGACCACAAGTTAATGGTATATCTGGAAGAATTGACTTTCATTGGCTAATGCTAAATCCCAATGATACAGTCACTTTCAGTTTCAATGGGGCTTTCATAGCTCCAGACCGTGCAAGCTTCCTGAGAGGAAAATCTATGGGAATCCAGAGTGGAGTACAGGTTGATGCCAATTGTGAAGGGGACTGCTATCATAGTGGAGGGACAATAATAAGTAACTTGCCATTTCAGAACATAGATAGCAGGGCAGTTGGAAAATGTCCGAGATATGTTAAGCAAAGGAGTCTGCTGCTAGCAACAGGGATGAAGAATGTTCCTGAGATTCCAAAGGGAAGAGGCCTATTTGGTGCTATAGCGGGTTTCATTGAAAATGGATGGGAAGGCCTAATTGATGGTTGGTATGGTTTCAGACACCAGAATGCACAGGGAGAGGGAACTGCTGCAGATTACAAAAGCACTCAATCGGCAATTGATCAAATAACAGGAAAATTAAACCGGCTTATAGAAAAAACCAACCAACAATTTGAGTTGATCGACAATGAATTCAATGAGGTAGAGAAGCAAATCGGTAATGTGATAAATTGGACCAGAGATTCTAT

请用这两条序列的信息来判断:

1. 病原体是哪种病毒?病毒分型如何?

2. 由于此前该地区并未发生大规模的呼吸道疾病疫情,从流行病学角度基本排除人传人的可能性,又因该病病人都在肉菜市场工作,高度怀疑该病毒是由动物传染人。请问是什么种类的动物传染给人的?

 

多序列比对

练习1:tRNA的序列保守性

Genomic tRNA database 数据库里收录了许多物种的tRNA序列。我们知道tRNA的结构是高度保守的,那么它们的序列是否也有高度相似性呢?

这里,我们下载大肠杆菌和人的tRNA序列,进行多序列比对。大肠杆菌tRNA序列(FASTA)人tRNA序列(hg19, FASTA)

这些序列之间是否具有相似性?
人的tRNA序列和大肠杆菌的tRNA序列间是否有相似性?

练习2:非典病毒的来源

2003年,中国发生了著名的“非典”疫情。非典病毒很快被归为冠状病毒科(Coronavirus),某些专家宣称其是由果子狸上的某种已知冠状 病毒自然变异而来。然而,2003年4月13日香港《大公报》援引俄罗斯院士的观点,指出非典病毒是美国制造的生物武器,并非自然变异而来。中国国内的部 分科学家也持类似观点,认为非典病毒不能由冠状病毒自然突变而来。究竟哪种观点正确?如果非典病毒不是由已知冠状病毒种类自然突变而来,那它最有可能由什么病毒人工改造而来?

请通过对以下序列的分析来得出结论。

广东分离并测序出的第一株SARS毒株GD01全基因组序列:NCBI数据库号为 AY278489
北京分离并测序出的第一株SARS毒株BJ01全基因组序列:NCBI数据库号为 AY278488
请比对其差异,看看非典病毒在传播过程中的自然变异率。

当时已知的冠状病毒科有三大类,即三个Group。这里为简便起见,分别给出三个Group的模式代表病毒全基因组序列:
Group1 代表病毒 HCoV-229E: NC_002645
Group2 代表病毒 BCoV: NC_003045
Group3 代表病毒 IBV: NC_001451

 

大规模测序分析

大规模测序云分析平台:深圳承启生物公司主页

客户端软件下载:http://www.chi-biotech.com/cloud/Download_cn.aspx

大文本阅读器 LTFViewer (用这个可以看FASTQ等超大文件!)

点此下载测试用的测序数据集:

癌症病人全基因组测序数据集    密码:6s5h
正常肺上皮细胞系HBE的mRNA测序数据集
肺癌细胞A549的mRNA测序数据集
高转移性肺癌细胞H1299的mRNA测序数据集

点此下载人hg19基因组对应的RefSeq-RNA全库(2015年3月17日版本),9.98MB压缩包

 

高级统计-聚类分析

问题1:

这里收集了一系列生活在寒冷区域的生物的抗冻蛋白(点此下载FASTA格式文件),请试着用多序列比对方法和alignment-free的静态统计方法来对这些生物抗冻蛋白进行聚类分析,并对你的结果进行生物学解读。

 

问题2:

这是一个早期的基因芯片分析结果,研究 Saccharomyces cerevisiae (酿酒酵母) 从发酵转为呼吸的代谢改变时,各种基因mRNA表达的时序变化。数据点此下载:Excel表格MATLAB工作区文件
请做聚类分析,看在代谢模式改变时,基因的表达变化是否有一定的规律。

注:此研究的数据来源于以下文章:
DeRisi, J.L., Iyer, V.R., and Brown, P.O. (1997). Exploring the metabolic and genetic control of gene expression on a genomic scale. Science 278, 680–686s.

 

高级统计-主成分分析

Excel表格数据点击这里下载,包含两个情景。

第一个情景是一些中学生的各科学习成绩,用主成分分析看学生学习的特点,判断偏科和全面的学生,区分学霸和学渣。

第二个情景是一些股票的相应公司经营数据,通过主成分分析来选择值得购买的股票

 

高级统计-逐次回归

青岛市财政收入分析

下表列出了青岛市1995-2007年的各项主要经济数据,其中收入和产值以亿元为单位。
Excel表格下载地址
问题:哪些因素共同决定了财政收入?哪些因素与财政收入无关,仅仅是伴随着整体经济的增长而被动增长的?

 

2015-2016第一学期期末考试试题+数据

随着云平台的逐步完善,考试也越来越高大上了。今年的考试要求大家每个人考试时都能联网,不会消耗你多少流量的。每人在云平台上会给大家建立一个考试账号,考试当天公布。每个人都有自己的数据集(预先已传好到云平台上),问题也是有细微差别的,所以想抄袭的同学们可以省省了。你需要根据问题在云平台上进行正确的操作,然后等待一段时间(最多一小时)下载云平台的分析结果,进行后续分析。在等待云平台分析完成的时间里,还有另外的试题需要现场完成。

 

2014-2015第二学期期末考试试题+数据

试题和所需数据点这里下载

压缩包用winRAR解压,有密码,密码在考试现场公布。

经测试,9年前的淘汰机型(1.6G双核,2G内存)可以顺利完成所有的解题过程。考试全程都可以不用联网。

请事先安装好MATLAB, edgeR等软件,当然你用其他的软件进行解题也是可以的。

最终答卷以PDF形式现场提交以避免乱码和篡改,文件名请统一命名为“学号-姓名.pdf”,例如 2013042213-张三.pdf。不按此格式命名文件名者将一律没有成绩!
考试完毕,请用U盘将写好的报告PDF文档拷到监考老师的电脑上。

 

2014-2015第一学期期末考试数据集

11个人细胞系的mRNA测序数据集,希望对其转录组进行定量比较研究:

细胞系 下载地址
LM3 下载 提取码 fd64
LM6 下载
97H 下载
Hep3B 下载 提取码 4e9f
HepG2 下载
HBE 下载(与之前课程练习中相同)
A549 下载(与之前课程练习中相同)
H358 下载
H1299 下载(与之前课程练习中相同)
HeLa 下载
C-33A 下载

 

可以使用云平台进行分析。请将数据集和转录组定量结果带至考场。