為了避免基因名被Excel自動糾正,遺傳學界更改了命名規則

2020-08-09     煎蛋

原標題:為了避免基因名被Excel自動糾正,遺傳學界更改了命名規則

人類的遺傳物質中存在大量的基因片段。為了研究它們,就需要先區分它們。所以科學家編制了一整套基因命名規則。每個基因都有一個名稱和字母數字代碼。畢竟只有遵循同一套術語體系,科學才有互相交流的可能。

另一方面,Excel是電子表格界中的大哥大,雖然它本身並非專門為科研開發,但早已是科學工作者難以捨棄的工具。

現在問題來了。

隨著被標記命名的基因越來越多,那些字符串有時看起來像是某種有意義語段的錯誤拼寫。而Excel的自動格式匹配和拼寫檢查功能會把它們自動改成「正確的」形式。

例如,當用戶在Excel中輸入名為MARCH1的基因編號時,Excel會將其轉換為日期:3月1日。

這是極其令人沮喪的,甚至是危險的和有破壞性的善意,科學家必須手動恢復。同時,稍有疏忽,就會造成數據錯誤。2016年的一項研究檢查了3597篇已發表論文共享的遺傳數據,發現大約五分之一受到了Excel拼寫糾錯功能的影響。

「簡直煩死個人。」英國Quadram研究所的系統生物學家Dezső Módos告訴The Verge。莫多斯(Módos)的工作涉及分析新近測序的遺傳數據,他說Excel的問題一直存在,這僅僅是因為該軟體通常是科學家處理數值數據時的首選。他說:「它是一種被廣泛使用的工具,嗨,如果您搞不了理論物理,又想做科學工作,那麼您就離不開這玩意。」

沒有簡單的解決方法。Excel沒有提供關閉此自動格式審查的選項,唯一避免這種情況的方法是更改各個列的數據類型。即使這樣,一旦有其他人直接打開同一電子表格,錯誤將再次發生。

所以,本周,HGNC發布了有關基因命名的新指南,包括「影響數據處理和檢索的符號」。從現在開始,人類的基因及其表達的蛋白質將用Excel的自動格式命名。這意味著符號MARCH1現在已變為MARCHF1,而SEPT1已變為SEPTIN1,依此類推。HGNC將保留舊符號和名稱的記錄,以方便將來索引。

HGNC的協調員Elspeth Bruford告訴媒體,到目前為止,大約修改了27個基因名,但是正式指南直到本周才宣布。「我們諮詢了各個研究領域的學者,討論了擬議的更新,並且還通知了研究人員。」

公告發布之後,科研社區反響十分熱烈。據說有遺傳學家喜極而涕。有匿名用戶宣稱要開香檳慶祝,因為這是今年最偉大的新聞!

當然,也有用戶表達了不滿:為啥是我們遺傳學家做出改變,難道不是應該讓微軟修改Excel的設置嗎?

Bruford解釋說:「考慮到微軟的行事風格,很難想像他們會為了遺傳學研究的方便,特意升級Excel。畢竟這隻涉及很小一部分用戶的需求。」

她甚至安撫道:「大家不要為了這點小事不開心。想一想,微軟本身不過是歷史長河中的一朵浪花,轉瞬即逝。但遺傳科學將永世長存,直到文明的盡頭!大家看開一點,這種讓步算不了什麼。」

文章來源: https://twgreatdaily.com/zh-cn/4Oh3z3MBd8y1i3sJeZF0.html