本科版生物信息学 课程资料
双序列比对
练习1:猪流感病毒株数据
练习2:病毒疫情快速判断
2013年初,在杭州的肉菜市场中突发急性呼吸道传染病疫情,从病人症状初步判断,病原体是病毒,但何种病毒并不清楚。用病毒培养方法和快速测序手段,得到两条疑似病毒的序列:
序列1:
ATGAGTCTTCTAACCGAGGTCGAAACGTACGTTCTCTCTATCATTCCATCAGGCCCCCTCAAAGCCGAGATCGCACAGAGACTTGAGGATGTTTTTGCAGGGAAGAACGCAGATCTCGAGGCTCTCATGGAGTGGATAAAGACAAGACCAATCCTGTCACCTCTGACTAAGGGGATTTTAGGGTTTGTGTTCACGCTCACCGTGCCCAGTGAGCGAGGACTGCAGCGTAGACGGTTTGTCCAAAACGCCCTAAATGGGAATGGAGACCCAAACAACATGGACAAGGCGGTTAAATTATACAAGAAACTGAAGAGGGAAATGACATTTCATGGAGCAAAGGAAGTTGCACTCAGTTACTCAACTGGTGCGCTTGCCAGCTGCATGGGTCTCATATACAACAGAATGGGGACTGTGACCGCAGAAGGGGCTCTTGGACTAGTATGTGCCACTTGTGAGCAGATTGCTGACGCACAACATCGGTCCCACAGGCAGATGGCGAC
序列2:
GCGGAATTGACAAGGAAGCAATGGGATTCACATACAGTGGAATAAGAACTAATGGAGCAACCAGTGCATGTAGGAGATCAGGATCTTCATTCTATGCAGAAATGAAATGGCTCCTGTCAAACACAGATAATGCTGCATTCCCGCAGATGACTAAGTCATATAAAAATACAAGAAAAAGCCCAGCTCTAATAGTATGGGGGATCCATCATTCCGTATCAACTGCAGAGCAAACCAAGCTATATGGGAGTGGAAACAAACTGGTGACAGTTGGGAGTTCTAATTATCAACAATCTTTTGTACCGAGTCCAGGAGCGAGACCACAAGTTAATGGTATATCTGGAAGAATTGACTTTCATTGGCTAATGCTAAATCCCAATGATACAGTCACTTTCAGTTTCAATGGGGCTTTCATAGCTCCAGACCGTGCAAGCTTCCTGAGAGGAAAATCTATGGGAATCCAGAGTGGAGTACAGGTTGATGCCAATTGTGAAGGGGACTGCTATCATAGTGGAGGGACAATAATAAGTAACTTGCCATTTCAGAACATAGATAGCAGGGCAGTTGGAAAATGTCCGAGATATGTTAAGCAAAGGAGTCTGCTGCTAGCAACAGGGATGAAGAATGTTCCTGAGATTCCAAAGGGAAGAGGCCTATTTGGTGCTATAGCGGGTTTCATTGAAAATGGATGGGAAGGCCTAATTGATGGTTGGTATGGTTTCAGACACCAGAATGCACAGGGAGAGGGAACTGCTGCAGATTACAAAAGCACTCAATCGGCAATTGATCAAATAACAGGAAAATTAAACCGGCTTATAGAAAAAACCAACCAACAATTTGAGTTGATCGACAATGAATTCAATGAGGTAGAGAAGCAAATCGGTAATGTGATAAATTGGACCAGAGATTCTAT
请用这两条序列的信息来判断:
1. 病原体是哪种病毒?病毒分型如何?
2. 由于此前该地区并未发生大规模的呼吸道疾病疫情,从流行病学角度基本排除人传人的可能性,又因该病病人都在肉菜市场工作,高度怀疑该病毒是由动物传染人。请问是什么种类的动物传染给人的?
多序列比对
练习1:tRNA的序列保守性
Genomic tRNA database 数据库里收录了许多物种的tRNA序列。我们知道tRNA的结构是高度保守的,那么它们的序列是否也有高度相似性呢?
这里,我们下载大肠杆菌和人的tRNA序列,进行多序列比对。大肠杆菌tRNA序列(FASTA),人tRNA序列(hg19, FASTA)
这些序列之间是否具有相似性?
人的tRNA序列和大肠杆菌的tRNA序列间是否有相似性?
练习2:非典病毒的来源
2003年,中国发生了著名的“非典”疫情。非典病毒很快被归为冠状病毒科(Coronavirus),某些专家宣称其是由果子狸上的某种已知冠状 病毒自然变异而来。然而,2003年4月13日香港《大公报》援引俄罗斯院士的观点,指出非典病毒是美国制造的生物武器,并非自然变异而来。中国国内的部 分科学家也持类似观点,认为非典病毒不能由冠状病毒自然突变而来。究竟哪种观点正确?如果非典病毒不是由已知冠状病毒种类自然突变而来,那它最有可能由什么病毒人工改造而来?
请通过对以下序列的分析来得出结论。
广东分离并测序出的第一株SARS毒株GD01全基因组序列:NCBI数据库号为 AY278489
北京分离并测序出的第一株SARS毒株BJ01全基因组序列:NCBI数据库号为 AY278488
请比对其差异,看看非典病毒在传播过程中的自然变异率。
当时已知的冠状病毒科有三大类,即三个Group。这里为简便起见,分别给出三个Group的模式代表病毒全基因组序列:
Group1 代表病毒 HCoV-229E: NC_002645
Group2 代表病毒 BCoV: NC_003045
Group3 代表病毒 IBV: NC_001451
大规模测序分析
大规模测序云分析平台:深圳承启生物公司主页
客户端软件下载:http://www.chi-biotech.com/cloud/Download_cn.aspx
大文本阅读器 LTFViewer (用这个可以看FASTQ等超大文件!)
点此下载测试用的测序数据集:
癌症病人全基因组测序数据集 密码:6s5h
正常肺上皮细胞系HBE的mRNA测序数据集
肺癌细胞A549的mRNA测序数据集
高转移性肺癌细胞H1299的mRNA测序数据集
点此下载人hg19基因组对应的RefSeq-RNA全库(2015年3月17日版本),9.98MB压缩包
高级统计-聚类分析
问题1:
这里收集了一系列生活在寒冷区域的生物的抗冻蛋白(点此下载FASTA格式文件),请试着用多序列比对方法和alignment-free的静态统计方法来对这些生物抗冻蛋白进行聚类分析,并对你的结果进行生物学解读。
问题2:
这是一个早期的基因芯片分析结果,研究 Saccharomyces cerevisiae (酿酒酵母) 从发酵转为呼吸的代谢改变时,各种基因mRNA表达的时序变化。数据点此下载:Excel表格,MATLAB工作区文件。
请做聚类分析,看在代谢模式改变时,基因的表达变化是否有一定的规律。
注:此研究的数据来源于以下文章:
DeRisi, J.L., Iyer, V.R., and Brown, P.O. (1997). Exploring the metabolic and genetic control of gene expression on a genomic scale. Science 278, 680–686s.
高级统计-主成分分析
Excel表格数据点击这里下载,包含两个情景。
第一个情景是一些中学生的各科学习成绩,用主成分分析看学生学习的特点,判断偏科和全面的学生,区分学霸和学渣。
第二个情景是一些股票的相应公司经营数据,通过主成分分析来选择值得购买的股票
高级统计-逐次回归
青岛市财政收入分析
下表列出了青岛市1995-2007年的各项主要经济数据,其中收入和产值以亿元为单位。
Excel表格下载地址
问题:哪些因素共同决定了财政收入?哪些因素与财政收入无关,仅仅是伴随着整体经济的增长而被动增长的?
2015-2016第一学期期末考试试题+数据
随着云平台的逐步完善,考试也越来越高大上了。今年的考试要求大家每个人考试时都能联网,不会消耗你多少流量的。每人在云平台上会给大家建立一个考试账号,考试当天公布。每个人都有自己的数据集(预先已传好到云平台上),问题也是有细微差别的,所以想抄袭的同学们可以省省了。你需要根据问题在云平台上进行正确的操作,然后等待一段时间(最多一小时)下载云平台的分析结果,进行后续分析。在等待云平台分析完成的时间里,还有另外的试题需要现场完成。
2014-2015第二学期期末考试试题+数据
压缩包用winRAR解压,有密码,密码在考试现场公布。
经测试,9年前的淘汰机型(1.6G双核,2G内存)可以顺利完成所有的解题过程。考试全程都可以不用联网。
请事先安装好MATLAB, edgeR等软件,当然你用其他的软件进行解题也是可以的。
最终答卷以PDF形式现场提交以避免乱码和篡改,文件名请统一命名为“学号-姓名.pdf”,例如 2013042213-张三.pdf。不按此格式命名文件名者将一律没有成绩!
考试完毕,请用U盘将写好的报告PDF文档拷到监考老师的电脑上。
2014-2015第一学期期末考试数据集
11个人细胞系的mRNA测序数据集,希望对其转录组进行定量比较研究:
细胞系 | 下载地址 |
---|---|
LM3 | 下载 提取码 fd64 |
LM6 | 下载 |
97H | 下载 |
Hep3B | 下载 提取码 4e9f |
HepG2 | 下载 |
HBE | 下载(与之前课程练习中相同) |
A549 | 下载(与之前课程练习中相同) |
H358 | 下载 |
H1299 | 下载(与之前课程练习中相同) |
HeLa | 下载 |
C-33A | 下载 |
可以使用云平台进行分析。请将数据集和转录组定量结果带至考场。