1.唯一標識符概念
globally unique identifier(GUID——全局唯一標識符)
GUID 是一個 128 位整數(16 字節),可用于所有需要唯一標識符的計算機和網絡。此標識符重復的可能性非常小。
它是由網卡上的標識數字(每個網卡都有唯一的標識號)以及 CPU 時鐘的唯一數字生成的的一個 16 字節的二進制值。
GUID 的格式為“xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx”,其中每個 x 是 0-9 或 a-f 范圍內的一個十六進制的數字。例如:6F9619FF-8B86-D011-B42D-00C04FC964FF 即為有效的 GUID 值。世界上的任何兩臺計算機都不會生成重復的 GUID 值。GUID 主要用于在擁有多個節點、多臺計算機的網絡或系統中,分配必須具有唯一性的標識符。在 Windows 平臺上,GUID 應用非常廣泛:注冊表、類及接口標識、數據庫、甚至自動生成的機器名、目錄名等。
2.計算機網絡資源的唯一標識符是什么
發展簡史 200px-First_Web_*最早的網絡構想可以追溯到遙遠的1980年蒂姆·伯納斯-李構建的ENQUIRE項目。這是一個類似維基百科的超文本在線編輯數據庫。盡管這與我們現在使用的萬維網大不相同,但是它們有許多相同的核心思想,甚至還包括一些伯納斯-李的萬維網之后的下一個項目語義網中的構想。
1989年3月,伯納斯-李撰寫了《關于信息化管理的建議》一文,文中提及 ENQUIRE 并且描述了一個更加精巧的管理模型。1990年11月12日他和羅伯特·卡里奧(Robert Cailliau)合作提出了一個更加正式的關于萬維網的建議。。在1990年11月13日他在一臺NeXT工作站上寫了第一個網頁以實現他文中的想法。
在那年的圣誕假期,伯納斯-李制作了要一個網絡工作所必須的所有工具[6]:第一個萬維網瀏覽器(同時也是編輯器)和第一個網頁服務器。
1991年8月6日,他在*ext新聞組上貼了萬維網項目簡介的文章。這一天也標志著因特網上萬維網公共服務的首次亮相。
萬維網中至關重要的概念超文本起源于1960年代的幾個從前的項目。譬如泰德·尼爾森(Ted Nelson)的仙那都項目(Project Xanadu)和道格拉斯·英格巴特(Douglas Engelbart)的NLS。而這兩個項目的靈感都是來源于萬尼瓦爾·布什在其1945年的論文《和我們想得一樣》中為微縮膠片設計的“記憶延伸”(memex)系統。
蒂姆·伯納斯-李的另一個才華橫溢的突破是將超文本嫁接到因特網上。在他的書《編織網絡》中,他解釋說他曾一再向這兩種技術的使用者們建議它們的結合是可行的,但是卻沒有任何人響應他的建議,他最后只好自己解決了這個計劃。他發明了一個全球網絡資源唯一認證的系統:統一資源標識符。
萬維網和其他超文本系統有很多不同之處:
* 萬維網上需要單項連接而不是雙向連接,這使得任何人可以在資源擁有者不作任何行動情況下鏈接該資源。和早期的網絡系統相比,這一點對于減少實現網絡服務器和網絡瀏覽器的困難至關重要,但它的副作用是產生了壞鏈的慢性問題。
* 萬維網不像某些應用軟件如HyperCard,它不是私有的,這使得服務器和客戶端能夠獨立地發展和擴展,而不受許可限制。
1993年4月30日,歐洲核子研究組織宣布萬維網對任何人免費開放,并不收取任何費用。兩個月之后Gopher宣布不再免費,造成大量用戶從Gopher轉向萬維網。萬維網聯盟(World Wide Web Consortium,簡稱W3C),又稱W3C理事會。1994年10月在麻省理工學院計算機科學實驗室成立。建立者是萬維網的發明者蒂姆·伯納斯-李。
世紀40年代以來人們就夢想能擁有一個世界性的信息庫。在這個數據庫中數據不僅能被全球的人們存取,而且應該能輕松地鏈接其它地方的信息,以便用戶可以方便快捷地獲得重要的信息。它引發了第五次信息革命。
隨著科學技術的迅猛發展,人們的這個夢想已經變成了現實。目前正在使用的最流行的系統叫"環球信息網WWW"(World Wide Web)。它的正式定義是"WWW is a wide-area hypermedia information retrieval initiative to give universal access to large universe of documents."簡而言之,WWW是一個以Internet為基礎的計算機網絡,它允許用戶在一臺計算機通過Internet存取另一臺計算機上的信息。從技術角度上說,環球信息網是Internet上那些支持WWW協議和超文本傳輸協議HTTP(Hyper Text Transport Protocol)的客戶機與服務器的集合,透過它可以存取世界各地的超媒體文件,內容包括文字、圖形、聲音、動畫、資料庫、以及各式各樣的軟件。
理論上說來,環球信息網包括整個兩億人以上的Internet世界,它包含所有的Web站點、Gopher信息站、FTP檔案庫、Telnet公共存取帳號、News新聞討論區以及Wais資料庫。所以環球信息網可以說是當今全世界最大的電子資料世界,已經可以把World Wide Web當成是Internet 的同義詞了。事實上,一般我們日常所說的"上Internet",其實指的就是連上World Wide Web 。WWW是World Wide Web (環球信息網)的縮寫,也可以簡稱為Web,中文名字為“萬維網”。
3.唯一標識符概念
globally unique identifier(GUID——全局唯一標識符) GUID 是一個 128 位整數(16 字節),可用于所有需要唯一標識符的計算機和網絡。
此標識符重復的可能性非常小。 它是由網卡上的標識數字(每個網卡都有唯一的標識號)以及 CPU 時鐘的唯一數字生成的的一個 16 字節的二進制值。
GUID 的格式為“xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx”,其中每個 x 是 0-9 或 a-f 范圍內的一個十六進制的數字。例如:6F9619FF-8B86-D011-B42D-00C04FC964FF 即為有效的 GUID 值。
世界上的任何兩臺計算機都不會生成重復的 GUID 值。GUID 主要用于在擁有多個節點、多臺計算機的網絡或系統中,分配必須具有唯一性的標識符。
在 Windows 平臺上,GUID 應用非常廣泛:注冊表、類及接口標識、數據庫、甚至自動生成的機器名、目錄名等。
4.說明 GenBank, RefSeq, UniProt 的異同
GenBank 是一個有來自于70,000多種生物的核苷酸序列的數據庫。
每條紀錄都有編碼區(CDS)特征的注釋,還包括氨基酸的翻譯。GenBank屬于一個序列數據庫的國際合作組織,包括EMBL和DDBJ。
完整的GenBank數據庫包括序列文件,索引文件以及其它有關文件。索引文件是根據數據庫中作者、參考文獻等建立的,用于數據庫查詢。
GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列數據庫,其數據格式為FastA。GenBank中最常用的是序列文件。
序列文件的基本單位是序列條目,包括核苷酸堿基排列順序和注釋兩部分。目前,許多生物信息資源中心通過計算機網絡提供該數據庫文件。
下面,我們介紹序列文件的結構。GenBank序列文件由單個的序列條目組成。
序列條目由字段組成,每個字段由關鍵字起始,后面為該字段的具體說明。有些字段又分若干次子字段,以次關鍵字或特性表說明符開始。
每個序列條目以雙斜杠“//”作結束標記。序列條目的格式非常重要,關鍵字從第一列開始,次關鍵字從第三列開始,特性表說明符從第五列開始。
每個字段可以占一行,也可以占若干行。若一行中寫不下時,繼續行以空格開始。
[鏈接1.2.3.1.1-1]。序列條目的關鍵字包括LOCUS (代碼),DEFINITION (說明),ACCESSION (編號),NID符(核酸標識),KEYWORDS (關鍵詞),SOURCE (數據來源),REFERENCE (文獻),FEATURES (特性表),BASE COUNT (堿基組成)及ORIGIN (堿基排列順序)。
先版的核酸序列數據庫將引入新的關鍵詞SV (序列版本號),用“編號.版本號”表示,并取代關鍵詞NID。LOCUS (代碼):是該序列條目的標記,或者說標識符,蘊涵這個序列的功能。
例如,圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該字段還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。
說明字段是有關這一序列的簡單描述,如本例為人環氧化酶-2的mRNA全序列。ACCESSION (編號):具有唯一性和永久性,如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列,在文獻中引用這個序列時,應該以此編號為準。
KEYWORDS (關鍵詞)字段:由該序列的提交者提供,包括該序列的基因產物以及其它相關信息,如本例中環氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 SOURCE (數據來源)字段:說明該序列是從什么生物體、什么組織得到的,如本例中人臍帶血(umbilical vein)。
次關鍵字ORGANISM (種屬)指出該生物體的分類學地位,如本例人、真核生物等等(詳見圖4.1)。REFERENCE (文獻)字段:說明該序列中的相關文獻,包括AUTHORS (作者),TITLE (題目)及JOURNAL (雜志名)等,以次關鍵詞列出。
該字段中還列出醫學文獻摘要數據庫MEDLINE的代碼。該代碼實際上是個超文本鏈接,點擊它可以直接調用上述文獻摘要。
一個序列可以有多篇文獻,以不同序號表示,并給出該序列中的哪一部分與文獻有關。FEATURES (特性表):具有特定的格式,用來詳細描述序列特性。
特性表中帶有'/db-xref/'標志的字符可以連接到其它數據庫,如本例中的分類數據庫(taxon 9606),以及蛋白質序列數據庫(PID:g181254)。序列中各部分的位置都在表中標明,5'非編碼區(1-97),編碼區(98-1912),3'非編碼區(1913-3387),多聚腺苷酸重復區域(3367-3374),等等。
翻譯所得信號肽以及最終蛋白質產物也都有所說明。當然,這個例子只是特性表的部分注釋信息,但已經足以說明其詳細程度。
接下來是堿基含量字段,給出序列中的堿組成,如本例中1010個A,712個C,633個G,1032個T。ORIGIN行是序列的引導行,接下來便是堿基序列,以雙斜杠行“//”結束。
http://**pages/* RefSeq和LocusLink是基于NCBI和其他組織合作的校正的數據庫。兩者都使用由人類基因命名委員會定義的術語,并且包括了官方的基因符號和可選的符號。
GenBank是一個公共可獲得的序列記錄備份,由數據發現者提供,它不是一個校正的數據庫。GenBank記錄提交者保有對他們記錄的編輯權并可以決定使用那個基因符號。
有些作者同相關物種命名委員會討論,從那里得到他們測序基因的那個物種的官方基因符號。其他作者可能沒有那么做。
因此,那有可能一個基因的GenBank記錄會使用不同的基于符號。 RefSeq NM_xxxxxx和GenBank Afxxxxxx看起來是重復的,但RefSeq和GenBank是分開的數據庫,而且兩者都是可以通過在Entrez nucleotide中輸入各自的ACCESSION獲得。
開始時臨時的RefSeq記錄與GenBank記錄非常相似。但是,當RefSeq記錄被專家review以后,新增的序列數據、生物學注解、和參考文獻常被加入。
那時,RefSeq條目(即序列)代表一個來自不同實驗室的綜合信息,這時二者可以非常不同。 GenBank是一個多種序列的存儲池,對每個基因都含有許多序列。
而RefSeq數據庫被設計成每個人類位點挑出一個代表序列來減少重復,是NCBI提供的校正的序列數。
5.測序結果中的物種profiling柱狀圖怎么看
測序結果中的物種profiling柱狀圖怎么看
a) 提取、分裝后的樣本應能通過信息系統追溯到原始樣本并與其信息相關聯;
b) 每份樣本在信息系統中應有且僅有唯一一個或者一組識別符號(數字或條形碼);
c)樣本從采集到處理、儲存、配送運輸、使用后剩余返回重新儲存等的全過程都應被有效記錄;
d) 生物樣本的轉移應被及時記錄,信息系統能追溯到每一個樣本儲存位置的變更。
生物樣本庫系統的價值 聽語音
在和大量客戶接觸和交流的過程中,發現越來越多的臨床科研工作者意識到樣本資源對于科研工作的重要性,開始重視臨床生物樣本的大量收集和規范化管理工作,一個優秀的生物樣本庫信息化管理體系的建立
*數據庫的GenBank
大型數據庫分成若干子庫,有許多好處。
首先,可以把數據庫查詢限定在某一特定部分,以便加快查詢速度。其次,基因組計劃快速測序得到的大量序列尚未加以注釋,將它們單獨分類,有利于數據庫查詢和搜索時“有的放矢”。
GenBank將這些數據按高通量基因組序列(High Throughput Genomic Sequences,HTG)、表達序列標記(Expressed Sequence Tags,EST)、序列標記位點(Sequence Tagged Sites,STS)和基因組概覽序列(Genome Survey Sequences,GSS)單獨分類。盡管這些數據尚未加以注釋,它們依然是GenBank的重要組成部分。
可通過Entrez數據庫查詢系統對GenBank進行查詢。這個系統將核酸、蛋白質序列和基因圖譜、蛋白質結構數據庫整合在一起。
此外,通過該系統的文獻摘要數據庫MEDLINE,可獲取有關序列的進一步信息。在萬維網上,進入NCBI的主頁,可以用BLAST程序對GenBank數據庫進行未知序列的同源性搜索(詳見第六章)。
完整的GenBank數據庫包括序列文件,索引文件以及其它有關文件。索引文件是根據數據庫中作者、參考文獻等子段建立的,用于數據庫查詢。
GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列數據庫,其數據格式為FastA。GenBank曾以CD-ROM光盤的形式分發,價格比較便宜。
隨著數據庫容量的增長,一套最新版的GenBank需要12張光盤存放,不僅生產成本很高,也不便于使用。現在,光盤分發的方式已經停止,可以通過網絡下載GenBank數據庫。
GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核甘酸堿基排列順序和注釋兩部分。
目前,許多生物信息資源中心通過計算機網絡提供該數據庫文件。下面,我們介紹序列文件的結構。
序列文件由單個的序列條目組成。序列條目由字段組成,每個字段由關鍵字起始,后面為該字段的具體說明。
有些字段又分若干次子字段,以次關鍵字或特性表說明符開始。每個序列條目以雙斜杠“//”作結束標記。
序列條目的格式非常重要,關鍵字從第一列開始,次關鍵字從第三列開始,特性表說明符從第五列開始。每個字段可以占一行,也可以占若干行。
若一行中寫不下時,繼續行以空格開始。序列條目的關鍵字包括代碼(LOCUS),說明(DEFINITION), 編號(ACCESSION),核酸標識符(NID),關鍵詞(KEYWORDS),數據來源(SOURCE),文獻(REFERENCE),特性表(FEATURES),堿基組成(BASE COUNT)及堿基排列順序(ORIGIN)。
代碼LOCUS是該序列條目的標記,或者說標識符,蘊涵這個序列的功能。例如,圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。
該字段還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。說明字段是有關這一序列的簡單描述,如本例為人環氧化酶-2的mRNA全序列。
序列代碼具有唯一性和永久性,如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列,在文獻中引用這個序列時,應該以此代碼為準。核酸標識符NID對序列信息的當前版本提供?關鍵詞字段由該序列的提交者提供,包括該序列的基因產物以及其它相關信息,如本例中還氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。
數據來源字段說明該序列是從什么生物體、什么組織得到的,如本例中人臍帶血管(umbilical vein)。次關鍵字種屬(ORGANISM)指出該生物體的分類學地位,如本例人、真核生物等等。
文獻字段說明該序列中的相關文獻,包括作者(AUTHORS),題目(TITLE)及雜志名(JOURNAL)等,以次關鍵詞列出。該字段中還列出醫學文獻摘要數據庫MEDLINE的代碼。
該代碼實際上是個網絡鏈接指針,點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,并給出該序列中的哪一部分與文獻有關。
FEATURES是具有自己的一套結構,用來詳細描述序列特性的一個表格。在這個表格內,帶有'/db-xref/'標志的字符可以連接到其它數據庫內(本例,您看到的是一個分類數據庫(taxon 9606),以及一個蛋白質數據庫(PID:g181254));序列中各部分的位置都加以標明,5'非編碼區(1-97),編碼區(98-1912),3非編碼區(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白質翻譯的信號肽及最終的多肽也都有所說明。
這個例子不能說很全面,但已經足以說明特性表給出信息的詳細程度。接下來是BASE COUNT記錄,計算出不同堿基在整個序列中出現的次數(1010A,712個C,633個G,1032個T)。
ORIGIN那一行,指出了序列第一個堿基在基因組中可能的位置。最后,核酸的序列全部列出,并以//作為結尾。
轉載請注明出處華閱文章網 » 測序庫的簡短唯一標識符