生物信息學是運用生物學、數(shù)學、計算機科學等多學科技術(shù)與手段進行生物信息的獲取、貯存、分析、利用的一門交叉學科,是目前生物學研究熱門領(lǐng)域之一。本書內(nèi)容包括兩個篇章:一是Windows系統(tǒng)下進行文獻檢索、數(shù)據(jù)庫使用、引物設計、核酸蛋白質(zhì)序列分析、進化分析、蛋白質(zhì)結(jié)構(gòu)分析、miRNA分析等理論與方法及相關(guān)軟件使用介紹;二是linux系統(tǒng)下面對于基因組測序、RNAseq、miRNAseq等二代測序數(shù)據(jù)組裝、基因預測、注釋、表達分析等操作流程及相關(guān)軟件介紹。
馮世鵬,中科院廣州生物醫(yī)藥與健康研究院生物化學與分子生物學專業(yè)博士畢業(yè),海南大學農(nóng)學院講師,擔任海南大學本科及研究生的《生物信息學》、《分子生物學》等課程教學任務,承擔過多項重點科研或教研項目。
第0章 緒論 1
0.1 生物信息學的發(fā)展歷史 1
0.1.1 Bioinfomatics的來源 1
0.1.2 生物信息學的定義 1
0.1.3 人類基因組計劃 1
0.1.4 生物信息學發(fā)展重要人物及
大事 2
0.2 生物信息學的研究內(nèi)容 4
0.2.1 生物分子數(shù)據(jù)的收集與管理 4
0.2.2 數(shù)據(jù)庫搜索及序列比較 5
0.2.3 基因組序列分析 5
0.2.4 基因表達數(shù)據(jù)的分析與處理 5
0.2.5 蛋白質(zhì)結(jié)構(gòu)預測 6
0.2.6 非編碼RNA研究 6
0.2.7 表觀遺傳學研究 7
0.3 生物信息學的生物學基礎知識 7
0.3.1 遺傳定律 7
0.3.2 DNA分子結(jié)構(gòu) 8
0.3.3 基因結(jié)構(gòu) 8
0.3.4 中心法則 9
0.3.5 密碼子表 9
0.3.6 蛋白質(zhì)結(jié)構(gòu)與功能 9
0.3.7 PCR技術(shù) 9
參考文獻 10
Windows篇
第1章 文獻信息檢索 12
1.1 文獻資源的分類 12
1.1.1 根據(jù)出版形式進行分類 12
1.1.2 綜合分類法 13
1.1.3 標識碼及編號 14
1.2 文獻的格式 15
1.3 文獻檢索 17
1.3.1 文獻檢索詞的來源 17
1.3.2 搜索數(shù)據(jù)庫選擇 18
1.3.3 檢索式構(gòu)建 19
1.3.4 檢索結(jié)果的處理 21
1.3.5 CNKI數(shù)據(jù)庫查詢舉例 21
1.3.6 Elsevier數(shù)據(jù)庫檢索舉例 25
1.4 文獻信息的價值判斷及閱讀 27
1.4.1 文獻的價值判斷 27
1.4.2 文獻有效閱讀 29
1.5 科技查新 29
習題 31
參考文獻 31
第2章 生物信息數(shù)據(jù)資源 32
2.1 核酸序列數(shù)據(jù)庫 32
2.1.1 GenBank數(shù)據(jù)庫及其分類 33
2.1.2 Entrz Nucleotide數(shù)據(jù)庫及
其分類 34
2.1.3 NCBI其他數(shù)據(jù)庫 34
2.1.4 GenBank數(shù)據(jù)格式 35
2.1.5 GenBank數(shù)據(jù)訪問方式 35
2.1.6 基因數(shù)據(jù)庫記錄格式及搜索 38
2.2 蛋白質(zhì)序列數(shù)據(jù)庫 39
2.2.1 UniProt數(shù)據(jù)庫介紹 39
2.2.2 Uniprot數(shù)據(jù)獲得方式 41
2.2.3 UniProt數(shù)據(jù)庫記錄格式 42
2.3 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫 43
2.3.1 PDB數(shù)據(jù)庫發(fā)展歷史 43
2.3.2 RCSB PDB數(shù)據(jù)庫介紹 44
2.3.3 RCSB PDB數(shù)據(jù)庫搜索 45
2.3.4 RCSB PDB數(shù)據(jù)記錄 46
2.4 物種基因組數(shù)據(jù)庫 47
2.4.1 小鼠基因組數(shù)據(jù)庫 47
2.4.2 擬南芥基因組數(shù)據(jù)庫 49
2.5 代謝通路數(shù)據(jù)庫 52
2.5.1 在KEGG數(shù)據(jù)庫搜索 53
2.5.2 主頁快速鏈接 54
2.5.3 KEGG通路圖及其元素意義 55
2.6 基因組瀏覽器 57
2.6.1 基因組數(shù)據(jù)展示內(nèi)容 58
2.6.2 BLAT搜索 61
2.7 非編碼RNA數(shù)據(jù)庫 62
2.7.1 miRNA數(shù)據(jù)庫 62
2.7.2 NONCODE數(shù)據(jù)庫 63
習題 66
參考文獻 66
第3章 序列比對 68
3.1 比對程序介紹 68
3.2 比對序列相似性的統(tǒng)計特性 69
3.3 在線BLAST序列比對 72
3.4 本地運行BLAST 75
3.4.1 BLAST程序的下載和安裝 75
3.4.2 搜索數(shù)據(jù)庫的索引格式化 75
3.4.3 運行BLAST程序,搜索本地
序列數(shù)據(jù)庫 76
3.5 多序列比對 77
3.5.1 ClustalX的使用 77
習題 80
參考文獻 80
第4章 核酸序列分析 81
4.1 基因閱讀框的識別 81
4.2 基因其他結(jié)構(gòu)區(qū)預測 82
4.2.1 CpG島的預測 82
4.2.2 轉(zhuǎn)錄終止信號預測 84
4.2.3 啟動子區(qū)域的預測 84
4.2.4 密碼子偏好性計算 86
4.3 引物設計 88
4.3.1 引物設計的基本原則 88
4.3.2 Primer 5引物設計 88
4.3.3 利用Primer 5進行酶切位點
分析 91
4.4 核酸序列的其他轉(zhuǎn)換 92
習題 93
參考文獻 93
第5章 蛋白質(zhì)序列分析 94
5.1 蛋白質(zhì)理化性質(zhì)和一級結(jié)構(gòu)
分析 94
5.1.1 蛋白質(zhì)理化性質(zhì)分析 94
5.1.2 蛋白質(zhì)理化性質(zhì)分布圖 95
5.1.3 蛋白質(zhì)信號肽預測 97
5.2 蛋白質(zhì)二級結(jié)構(gòu)分析 99
5.2.1 蛋白質(zhì)跨膜結(jié)構(gòu)區(qū)分析 99
5.2.2 蛋白質(zhì)卷曲螺旋分析 101
5.2.3 蛋白質(zhì)二級結(jié)構(gòu)預測分析 103
5.3 蛋白質(zhì)三維結(jié)構(gòu)預測分析 104
習題 105
參考文獻 105
第6章 基因表達分析 106
6.1 qPCR數(shù)據(jù)分析 106
6.1.1 絕對定量分析方法 107
6.1.2 相對定量方法分析 108
6.2 基因芯片數(shù)據(jù)分析 111
6.2.1 從GEO上下載基因芯片表達
譜數(shù)據(jù) 111
6.2.2 將表達譜數(shù)據(jù)導入MATLAB
軟件 112
6.2.3 對soft格式文件的標準化 113
6.2.4 差異表達基因篩選 114
習題 114
參考文獻 115
第7章 進化分析 116
7.1 進化理論介紹 116
7.1.1 種群是生物進化的基本單位 116
7.1.2 可遺傳的變異是生物進化的
原始材料 116
7.1.3 分子進化中性學說 117
7.2 進化分析(以MEGA為例) 117
7.2.1 序列準備 118
7.2.2 序列比對 119
7.2.3 建樹計算 119
7.2.4 進化樹的調(diào)整 121
習題 121
參考文獻 122
第8章 非編碼miRNA分析 123
8.1 miRNA簡介 123
8.1.1 miRNA的生物合成 123
8.1.2 miRNA調(diào)控基因表達的機理 124
8.1.3 miRNA的生理調(diào)節(jié)作用 125
8.2 miRNA靶基因預測 125
8.2.1 miRNA靶基因的預測原理 125
8.2.2 miRNA靶基因的預測軟件 126
8.2.3 miRNA靶基因的預測步驟 127
8.3 調(diào)控靶基因的miRNA預測 130
8.4 miRBase數(shù)據(jù)庫的使用 131
8.4.1 miRBase數(shù)據(jù)庫的搜索 131
8.4.2 miRBase數(shù)據(jù)庫批量下載 132
8.4.3 miRNA記錄信息 133
習題 134
參考文獻 134
Linux篇
第9章 Linux系統(tǒng) 138
9.1 Linux簡介 138
9.1.1 什么是Linux系統(tǒng) 138
9.1.2 為什么要學習Linux系統(tǒng) 139
9.1.3 如何學習Linux系統(tǒng) 140
9.2 Linux系統(tǒng)安裝 140
9.2.1 Linux系統(tǒng)下載 140
9.2.2 系統(tǒng)安裝盤制作 142
9.2.3 CentOS 6.5操作系統(tǒng)安裝 144
9.2.4 更新yum源 154
9.3 Linux命令行模式――終端 155
9.4 Linux系統(tǒng)開關(guān)機 156
9.5 Linux系統(tǒng)文件 157
9.5.1 Linux文件夾及其主要作用
(以CentOS 6.5為例) 157
9.5.2 Linux的文件信息的意義 158
9.5.3 Linux命令幫助文件 159
9.6 幾個重要的快捷鍵 161
9.7 Linux系統(tǒng)的命令 161
9.7.1 Linux系統(tǒng)命令的輸入格式 161
9.7.2 常用命令及其常用選項介紹 161
9.7.3 數(shù)據(jù)流重定向 167
9.7.4 管道命令 168
9.7.5 vim編輯器工具 168
9.7.6 其他命令 170
習題 177
參考文獻 177
第10章 Perl語言 178
10.1 Perl版本 178
10.2 Perl標量數(shù)據(jù) 179
10.2.1 Perl運算符 180
10.2.2 標量變量 180
10.2.3 數(shù)字及字符串的比較
運算符 181
10.3 列表與數(shù)組 182
10.3.1 數(shù)組及其賦值操作 182
10.3.2 數(shù)組元素的引用 182
10.3.3 數(shù)組相關(guān)的幾個命令 183
10.4 哈希 183
10.4.1 哈希賦值 184
10.4.2 哈希的相關(guān)函數(shù) 184
10.5 判斷式及循環(huán)控制結(jié)構(gòu) 185
10.5.1 if條件判斷式 185
10.5.2 while循環(huán)結(jié)構(gòu) 185
10.5.3 until循環(huán)結(jié)構(gòu) 186
10.5.4 foreach循環(huán)結(jié)構(gòu) 186
10.5.5 each控制結(jié)構(gòu) 186
10.6 正則表達式 187
10.6.1 正則表達式相關(guān)符號 187
10.6.2 捕獲變量 188
10.6.3 正則表達式中特殊字符
的意義 188
10.7 Perl的排序 189
10.7.1 sort命令 189
10.7.2 sort與比較運算符及默認
函數(shù)的連用 189
10.8 Perl默認的函數(shù)的總結(jié) 189
10.9 程序精解 190
10.9.1 實例一:從fasta文件中
尋找特定的序列 190
10.9.2 實例二:文本內(nèi)容分類
統(tǒng)計功能 193
10.9.3 實例三:統(tǒng)計文件內(nèi)容
是否有重復 195
10.9.4 實例四:Scaffolds序列
的排序 196
習題 196
參考文獻 197
第11章 測序方法及數(shù)據(jù)處理 198
11.1 測序技術(shù)的發(fā)展 198
11.1.1 第一代測序方法 198
11.1.2 二代測序方法 201
11.1.3 測序文庫插入片段大小
選擇 205
11.1.4 測序類型 205
11.1.5 測序方法的搭配 206
11.1.6 測序質(zhì)量值 206
11.2 測序數(shù)據(jù)處理 207
11.3 測序數(shù)據(jù)質(zhì)量分析 208
11.3.1 用FastQC軟件對測序數(shù)據(jù)
進行評估 208
11.3.2 NGSQCToolKit對測序
Reads的處理 213
11.3.3 FASTX_Toolkit對測序
Reads的處理 216
11.4 深度測序數(shù)據(jù)上傳SRA
數(shù)據(jù)庫 218
11.4.1 材料準備 220
11.4.2 注冊項目信息 221
11.4.3 提供技術(shù)信息 224
11.4.4 上傳數(shù)據(jù) 227
11.4.5 數(shù)據(jù)傳輸完畢狀態(tài) 230
習題 231
參考文獻 231
第12章 基因組組裝 232
12.1 Velvet拼裝軟件 233
12.1.1 Velvet軟件安裝 234
12.1.2 Velvet參數(shù)介紹 234
12.1.3 Velvet命令運行 237
12.1.4 Velvet運行結(jié)果解讀 237
12.2 SOAPdenovo軟件拼裝 238
12.2.1 軟件的安裝 239
12.2.2 參數(shù)介紹 239
12.2.3 SOAPdenovo命令運行 241
12.2.4 SOAPdenovo運行結(jié)果
解讀 242
12.3 ABySS軟件拼裝 242
12.3.1 ABySS的安裝 242
12.3.2 ABySS主要參數(shù)介紹 243
12.3.3 ABySS命令運行 245
12.3.4 ABySS運行命令結(jié)果解讀 245
12.4 ALLPATH-LG軟件拼裝 245
12.4.1 ALLPATH-LG的安裝 246
12.4.2 ALLPATH-LG的主要參數(shù) 246
12.4.3 ALLPATH-LG測試數(shù)據(jù)
運行過程解讀 249
12.4.4 運行結(jié)果解讀 252
12.5 Gaps修補 252
12.5.1 GapFiller軟件安裝 252
12.5.2 相關(guān)參數(shù)介紹 253
12.5.3 程序運行命令 254
12.5.4 運行結(jié)果解讀 254
12.6 基因組組裝效果評估 254
習題 254
參考文獻 255
第13章 小RNA測序數(shù)據(jù)分析 256
13.1 小RNA測序簡介 256
13.2 小RNA測序數(shù)據(jù)質(zhì)控 257
13.3 miRNA的識別 259
習題 263
參考文獻 263
第14章 RNA-seq數(shù)據(jù)分析 264
14.1 轉(zhuǎn)錄組序列比對 265
14.1.1 數(shù)據(jù)準備 265
14.1.2 比對數(shù)據(jù)庫 265
14.1.3 TopHat軟件下載及安裝 266
14.1.4 Bowtie軟件和SAMtools
軟件下載及安裝 266
14.1.5 常用TopHat參數(shù)介紹 266
14.1.6 基因組數(shù)據(jù)庫序列索引 267
14.1.7 TopHat使用實例 267
14.1.8 輸出文件說明 267
14.2 轉(zhuǎn)錄本組的組裝 268
14.2.1 cufflinks的安裝 268
14.2.2 cufflinks的參數(shù) 269
14.2.3 cufflinks的輸出結(jié)果 269
14.3 合并轉(zhuǎn)錄組 269
14.3.1 用cuffmerge合并轉(zhuǎn)錄本
的命令 270
14.4 基因表達差異分析 270
14.4.1 用cuffquant計算表達譜 270
14.4.2 用cuffdiff計算不同樣本
表達譜的差異 271
14.5 差異表達結(jié)果的熱圖表示 272
習題 273
參考文獻 273
第15章 基因預測 275
15.1 GeneMark軟件序列 275
15.1.1 GeneMarkS的安裝 275
15.1.2 相關(guān)參數(shù)介紹 276
15.1.3 GeneMarkS命令運行 279
15.1.4 GeneMarkS運行結(jié)果解釋 280
15.2 Glimmer軟件 280
15.2.1 Glimmer軟件安裝 280
15.2.2 相關(guān)命令參數(shù)介紹 281
15.2.3 程序運行 284
15.2.4 結(jié)果解讀 286
15.3 AUGUSTUS 286
15.3.1 AUGUSTUS軟件安裝 286
15.3.2 相關(guān)參數(shù)介紹 286
15.3.3 訓練AUGUSTUS 287
15.4 PASA 291
15.4.1 PASA軟件安裝 291
15.4.2 相關(guān)命令參數(shù)介紹 293
15.4.3 命令運行 294
15.4.4 運行結(jié)果解讀 296
15.5 EVM(EVidenceModeler) 296
15.5.1 EVM軟件下載安裝 296
15.5.2 相關(guān)參數(shù)介紹 297
15.5.3 EVM軟件的運行 298
習題 300
參考文獻 300
第16章 基因注釋及功能分析 302
16.1 BLAST軟件介紹 302
16.1.1 BLAST軟件安裝 302
16.1.2 相關(guān)命令參數(shù)介紹 303
16.2 NR注釋 308
16.2.1 NR數(shù)據(jù)庫制備過程 308
16.2.2 NR注釋過程 309
16.3 COG注釋 310
16.3.1 COG數(shù)據(jù)庫準備過程 310
16.3.2 COG命令注釋過程 311
16.4 Swiss-Prot注釋 311
16.4.1 數(shù)據(jù)庫準備 312
16.4.2 Swiss-Prot注釋過程 312
16.4.3 InterPro注釋 312
16.5 KEGG注釋 314
16.6 GO注釋 317
習題 320
參考文獻 321
附錄A 生物信息學文件格式 322