核心提示:AI 及其對(duì)合成生物學(xué)的影響
與AI在合成生物領(lǐng)域的潛力相比,它在合成生物領(lǐng)域的影響有限。
我們已經(jīng)看到了AI的成功應(yīng)用,但
AI 及其對(duì)合成生物學(xué)的影響
與AI在合成生物領(lǐng)域的潛力相比,它在合成生物領(lǐng)域的影響有限。
我們已經(jīng)看到了AI的成功應(yīng)用,但仍然局限于特定的數(shù)據(jù)集和研究問(wèn)題。AI在該領(lǐng)域目前面對(duì)的挑戰(zhàn),仍然是對(duì)更廣泛的應(yīng)用程序和其他數(shù)據(jù)集來(lái)說(shuō)有多大的通用性。
數(shù)據(jù)挖掘、統(tǒng)計(jì)和機(jī)械建模目前是該領(lǐng)域計(jì)算生物學(xué)和生物信息學(xué)的主要驅(qū)動(dòng)因素,但這些技術(shù)與人工智能/機(jī)器學(xué)習(xí)之間的界限往往是模糊的。例如,聚類(lèi)是一種數(shù)據(jù)挖掘技術(shù),可以識(shí)別基因表達(dá)數(shù)據(jù)中的模式和結(jié)構(gòu),這些模式可以表明工程修改是否會(huì)導(dǎo)致細(xì)胞的毒性結(jié)果。這些聚類(lèi)技術(shù)還可以作為無(wú)監(jiān)督學(xué)習(xí)模型,在未標(biāo)記的數(shù)據(jù)集中找到結(jié)構(gòu)。這些正在開(kāi)發(fā)中的經(jīng)典技術(shù)和新的AI/ML(機(jī)器學(xué)習(xí))方法將在未來(lái)的領(lǐng)域合成生物中發(fā)揮更大的作用和影響,因?yàn)閷脮r(shí)人們對(duì)于更大的數(shù)據(jù)集將習(xí)以為常。轉(zhuǎn)錄組數(shù)據(jù)量每7個(gè)月翻一番,蛋白質(zhì)組學(xué)和代謝組學(xué)的高通量工作流程越來(lái)越可用。
此外,實(shí)驗(yàn)室工作微流控芯片的逐步自動(dòng)化和小型化預(yù)示著未來(lái)數(shù)據(jù)處理和分析將使得合成生物學(xué)的生產(chǎn)力倍增。DARPA的協(xié)同發(fā)現(xiàn)和設(shè)計(jì)(SD2, 2018–2021) 計(jì)劃專(zhuān)注于構(gòu)建人工智能模型,旨在拉近AI與合成生物學(xué)需求的差距。這一點(diǎn)在一些采用該領(lǐng)域SoTA技術(shù)的公司中也很明顯(例如Amyris、Zymergen或Ginkgo Bioworks)。
AI和合成生物學(xué)在一些方面存在重疊,比如將現(xiàn)有AI/ML應(yīng)用于現(xiàn)有數(shù)據(jù)集;生成新的數(shù)據(jù)集(例如即將到來(lái)的NIH Bridge2AI);并創(chuàng)造新的AI/ML技術(shù)來(lái)應(yīng)用于新的或現(xiàn)有的數(shù)據(jù)。雖然SD2在最后一項(xiàng)中有所貢獻(xiàn),但其仍有一定潛力,未來(lái)也有較長(zhǎng)的路要走。
人工智能可以幫助合成生物學(xué)克服一個(gè)大挑戰(zhàn),即預(yù)測(cè)生物工程方法對(duì)生物主體和環(huán)境的影響。由于無(wú)法預(yù)測(cè)生物工程的結(jié)果,合成生物學(xué)的細(xì)胞工程目標(biāo)(即逆設(shè)計(jì))只能通過(guò)大量的試錯(cuò)來(lái)實(shí)現(xiàn)。人工智能提供了一個(gè)利用公開(kāi)數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)來(lái)預(yù)測(cè)對(duì)生物主體和環(huán)境影響的機(jī)會(huì)。
為細(xì)胞編程設(shè)計(jì)遺傳結(jié)構(gòu)。 許多合成生物學(xué)領(lǐng)域的研究都集中在基因結(jié)構(gòu)/基因線路的工程上,這與設(shè)計(jì)電子電路面臨著的挑戰(zhàn)大相徑庭。
人工智能技術(shù)結(jié)合了已知的生物物理、機(jī)器學(xué)習(xí)和強(qiáng)化學(xué)習(xí)模型,能夠有效預(yù)測(cè)結(jié)構(gòu)對(duì)主體的影響,反之亦然,雖然已經(jīng)頗為強(qiáng)大,但仍然有改進(jìn)空間。而在機(jī)器輔助基因線路設(shè)計(jì)方面,已有各種人工智能技術(shù)投入應(yīng)用,其中包括專(zhuān)家系統(tǒng)、多智能體系統(tǒng)、約束推理、啟發(fā)式搜索、優(yōu)化和機(jī)器學(xué)習(xí)。
基于序列的模型和圖卷積網(wǎng)絡(luò)在工程生物系統(tǒng)領(lǐng)域也得到了關(guān)注。因子-圖神經(jīng)網(wǎng)絡(luò)已被用于將生物知識(shí)納入深度學(xué)習(xí)模型。圖卷積網(wǎng)絡(luò)已被用于從蛋白質(zhì)與蛋白質(zhì)相互作用網(wǎng)絡(luò)中預(yù)測(cè)蛋白質(zhì)的功能;谛蛄械木矸e和遞歸神經(jīng)網(wǎng)絡(luò)模型已被用于識(shí)別蛋白質(zhì)的潛在結(jié)合位點(diǎn)、基因的表達(dá)和新的生物結(jié)構(gòu)的設(shè)計(jì)。人工智能最有用之處是應(yīng)用于開(kāi)發(fā)綜合模型,而這將減少需要進(jìn)行的實(shí)驗(yàn)或設(shè)計(jì)的數(shù)量。
代謝工程。在代謝工程中,人工智能已經(jīng)應(yīng)用到生物工程過(guò)程的幾乎所有階段,例如人工神經(jīng)網(wǎng)絡(luò)已被用于預(yù)測(cè)翻譯起始位點(diǎn),注釋蛋白質(zhì)功能,預(yù)測(cè)合成途徑,優(yōu)化多個(gè)外源基因的表達(dá)水平,預(yù)測(cè)調(diào)控元件的強(qiáng)度,預(yù)測(cè)質(zhì)粒表達(dá),優(yōu)化營(yíng)養(yǎng)濃度和發(fā)酵條件,預(yù)測(cè)酶動(dòng)力學(xué)參數(shù),了解基因型與表型的關(guān)聯(lián),預(yù)測(cè)CRISPR的指導(dǎo)效果等階段。聚類(lèi)已被用于發(fā)現(xiàn)次生代謝物生物合成基因聚類(lèi)和識(shí)別催化特定反應(yīng)的酶。集合方法已被用于預(yù)測(cè)途徑動(dòng)態(tài)、最優(yōu)生長(zhǎng)溫度,并在定向進(jìn)化方法中找到賦予更高適應(yīng)度的蛋白質(zhì)。支持向量機(jī)已被用于優(yōu)化核糖體結(jié)合位點(diǎn)序列和預(yù)測(cè)CRISPR引導(dǎo)RNA的行為。在代謝工程的各階段中,人工智能最有希望被應(yīng)用于流程放大,這是該領(lǐng)域的一個(gè)重大瓶頸,以及下游處理(例如從發(fā)酵液中系統(tǒng)提取所產(chǎn)生的分子)。
實(shí)驗(yàn)自動(dòng)化。在幫助自動(dòng)化實(shí)驗(yàn)室工作和推薦實(shí)驗(yàn)設(shè)計(jì)方面,人工智能的影響已經(jīng)遠(yuǎn)遠(yuǎn)超出了DBTL周期的“學(xué)習(xí)”階段。自動(dòng)化正逐漸在實(shí)踐中變得十分重要,因?yàn)樽詣?dòng)化是獲得訓(xùn)練人工智能算法所需的高質(zhì)量、大容量、低偏差數(shù)據(jù)的最可靠的方式,自動(dòng)化還使得可預(yù)測(cè)的生物工程成為可能。自動(dòng)化提供了將復(fù)雜協(xié)議快速轉(zhuǎn)移和擴(kuò)展到其他實(shí)驗(yàn)室的機(jī)會(huì)。例如,液體處理機(jī)器人站構(gòu)成了生物鑄造廠和云實(shí)驗(yàn)室的支柱。這些鑄造廠已經(jīng)能夠看到在未來(lái)自身會(huì)被機(jī)器人和規(guī)劃算法顛覆,從而獲得快速迭代通過(guò)DBTL周期的能力。語(yǔ)義網(wǎng)絡(luò)、本體和模式徹底改變了設(shè)計(jì)和協(xié)議的表示、通信和交換。這些工具支持快速實(shí)驗(yàn),并以結(jié)構(gòu)化、可查詢的格式生成更多的數(shù)據(jù)。在一個(gè)大多數(shù)內(nèi)容要么丟失,要么被人工記錄在實(shí)驗(yàn)室筆記中的領(lǐng)域,人工智能的前景推動(dòng)領(lǐng)域發(fā)生重大變化,從而減少生成數(shù)據(jù)的障礙。
微流體是宏觀液體處理的替代品,具有更高的通量、更少的試劑消耗和更便宜的結(jié)垢。事實(shí)上,微流體可能是實(shí)現(xiàn)自動(dòng)駕駛實(shí)驗(yàn)室的關(guān)鍵技術(shù),它有望通過(guò)使用人工智能增強(qiáng)自動(dòng)化實(shí)驗(yàn)平臺(tái),大大加快研發(fā)過(guò)程。自動(dòng)駕駛實(shí)驗(yàn)室涉及完全自動(dòng)化的DBTL周期,其中人工智能算法會(huì)根據(jù)之前的實(shí)驗(yàn)結(jié)果進(jìn)行假設(shè),積極尋找有前景的實(shí)驗(yàn)程序。因此這可能是合成生物領(lǐng)域人工智能研究人員的最大機(jī)會(huì)。雖然自動(dòng)DBTL回路已經(jīng)在液體處理機(jī)器人工作站中得到了證明,但微流控芯片提供的可擴(kuò)展性、高通量能力和制造靈活性可能會(huì)提供最終的技術(shù)飛躍,使人工智能成為現(xiàn)實(shí)。
我們已經(jīng)看到了AI的成功應(yīng)用,但仍然局限于特定的數(shù)據(jù)集和研究問(wèn)題。AI在該領(lǐng)域目前面對(duì)的挑戰(zhàn),仍然是對(duì)更廣泛的應(yīng)用程序和其他數(shù)據(jù)集來(lái)說(shuō)有多大的通用性。
數(shù)據(jù)挖掘、統(tǒng)計(jì)和機(jī)械建模目前是該領(lǐng)域計(jì)算生物學(xué)和生物信息學(xué)的主要驅(qū)動(dòng)因素,但這些技術(shù)與人工智能/機(jī)器學(xué)習(xí)之間的界限往往是模糊的。例如,聚類(lèi)是一種數(shù)據(jù)挖掘技術(shù),可以識(shí)別基因表達(dá)數(shù)據(jù)中的模式和結(jié)構(gòu),這些模式可以表明工程修改是否會(huì)導(dǎo)致細(xì)胞的毒性結(jié)果。這些聚類(lèi)技術(shù)還可以作為無(wú)監(jiān)督學(xué)習(xí)模型,在未標(biāo)記的數(shù)據(jù)集中找到結(jié)構(gòu)。這些正在開(kāi)發(fā)中的經(jīng)典技術(shù)和新的AI/ML(機(jī)器學(xué)習(xí))方法將在未來(lái)的領(lǐng)域合成生物中發(fā)揮更大的作用和影響,因?yàn)閷脮r(shí)人們對(duì)于更大的數(shù)據(jù)集將習(xí)以為常。轉(zhuǎn)錄組數(shù)據(jù)量每7個(gè)月翻一番,蛋白質(zhì)組學(xué)和代謝組學(xué)的高通量工作流程越來(lái)越可用。
此外,實(shí)驗(yàn)室工作微流控芯片的逐步自動(dòng)化和小型化預(yù)示著未來(lái)數(shù)據(jù)處理和分析將使得合成生物學(xué)的生產(chǎn)力倍增。DARPA的協(xié)同發(fā)現(xiàn)和設(shè)計(jì)(SD2, 2018–2021) 計(jì)劃專(zhuān)注于構(gòu)建人工智能模型,旨在拉近AI與合成生物學(xué)需求的差距。這一點(diǎn)在一些采用該領(lǐng)域SoTA技術(shù)的公司中也很明顯(例如Amyris、Zymergen或Ginkgo Bioworks)。
AI和合成生物學(xué)在一些方面存在重疊,比如將現(xiàn)有AI/ML應(yīng)用于現(xiàn)有數(shù)據(jù)集;生成新的數(shù)據(jù)集(例如即將到來(lái)的NIH Bridge2AI);并創(chuàng)造新的AI/ML技術(shù)來(lái)應(yīng)用于新的或現(xiàn)有的數(shù)據(jù)。雖然SD2在最后一項(xiàng)中有所貢獻(xiàn),但其仍有一定潛力,未來(lái)也有較長(zhǎng)的路要走。
人工智能可以幫助合成生物學(xué)克服一個(gè)大挑戰(zhàn),即預(yù)測(cè)生物工程方法對(duì)生物主體和環(huán)境的影響。由于無(wú)法預(yù)測(cè)生物工程的結(jié)果,合成生物學(xué)的細(xì)胞工程目標(biāo)(即逆設(shè)計(jì))只能通過(guò)大量的試錯(cuò)來(lái)實(shí)現(xiàn)。人工智能提供了一個(gè)利用公開(kāi)數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)來(lái)預(yù)測(cè)對(duì)生物主體和環(huán)境影響的機(jī)會(huì)。
為細(xì)胞編程設(shè)計(jì)遺傳結(jié)構(gòu)。 許多合成生物學(xué)領(lǐng)域的研究都集中在基因結(jié)構(gòu)/基因線路的工程上,這與設(shè)計(jì)電子電路面臨著的挑戰(zhàn)大相徑庭。
人工智能技術(shù)結(jié)合了已知的生物物理、機(jī)器學(xué)習(xí)和強(qiáng)化學(xué)習(xí)模型,能夠有效預(yù)測(cè)結(jié)構(gòu)對(duì)主體的影響,反之亦然,雖然已經(jīng)頗為強(qiáng)大,但仍然有改進(jìn)空間。而在機(jī)器輔助基因線路設(shè)計(jì)方面,已有各種人工智能技術(shù)投入應(yīng)用,其中包括專(zhuān)家系統(tǒng)、多智能體系統(tǒng)、約束推理、啟發(fā)式搜索、優(yōu)化和機(jī)器學(xué)習(xí)。
基于序列的模型和圖卷積網(wǎng)絡(luò)在工程生物系統(tǒng)領(lǐng)域也得到了關(guān)注。因子-圖神經(jīng)網(wǎng)絡(luò)已被用于將生物知識(shí)納入深度學(xué)習(xí)模型。圖卷積網(wǎng)絡(luò)已被用于從蛋白質(zhì)與蛋白質(zhì)相互作用網(wǎng)絡(luò)中預(yù)測(cè)蛋白質(zhì)的功能;谛蛄械木矸e和遞歸神經(jīng)網(wǎng)絡(luò)模型已被用于識(shí)別蛋白質(zhì)的潛在結(jié)合位點(diǎn)、基因的表達(dá)和新的生物結(jié)構(gòu)的設(shè)計(jì)。人工智能最有用之處是應(yīng)用于開(kāi)發(fā)綜合模型,而這將減少需要進(jìn)行的實(shí)驗(yàn)或設(shè)計(jì)的數(shù)量。
代謝工程。在代謝工程中,人工智能已經(jīng)應(yīng)用到生物工程過(guò)程的幾乎所有階段,例如人工神經(jīng)網(wǎng)絡(luò)已被用于預(yù)測(cè)翻譯起始位點(diǎn),注釋蛋白質(zhì)功能,預(yù)測(cè)合成途徑,優(yōu)化多個(gè)外源基因的表達(dá)水平,預(yù)測(cè)調(diào)控元件的強(qiáng)度,預(yù)測(cè)質(zhì)粒表達(dá),優(yōu)化營(yíng)養(yǎng)濃度和發(fā)酵條件,預(yù)測(cè)酶動(dòng)力學(xué)參數(shù),了解基因型與表型的關(guān)聯(lián),預(yù)測(cè)CRISPR的指導(dǎo)效果等階段。聚類(lèi)已被用于發(fā)現(xiàn)次生代謝物生物合成基因聚類(lèi)和識(shí)別催化特定反應(yīng)的酶。集合方法已被用于預(yù)測(cè)途徑動(dòng)態(tài)、最優(yōu)生長(zhǎng)溫度,并在定向進(jìn)化方法中找到賦予更高適應(yīng)度的蛋白質(zhì)。支持向量機(jī)已被用于優(yōu)化核糖體結(jié)合位點(diǎn)序列和預(yù)測(cè)CRISPR引導(dǎo)RNA的行為。在代謝工程的各階段中,人工智能最有希望被應(yīng)用于流程放大,這是該領(lǐng)域的一個(gè)重大瓶頸,以及下游處理(例如從發(fā)酵液中系統(tǒng)提取所產(chǎn)生的分子)。
實(shí)驗(yàn)自動(dòng)化。在幫助自動(dòng)化實(shí)驗(yàn)室工作和推薦實(shí)驗(yàn)設(shè)計(jì)方面,人工智能的影響已經(jīng)遠(yuǎn)遠(yuǎn)超出了DBTL周期的“學(xué)習(xí)”階段。自動(dòng)化正逐漸在實(shí)踐中變得十分重要,因?yàn)樽詣?dòng)化是獲得訓(xùn)練人工智能算法所需的高質(zhì)量、大容量、低偏差數(shù)據(jù)的最可靠的方式,自動(dòng)化還使得可預(yù)測(cè)的生物工程成為可能。自動(dòng)化提供了將復(fù)雜協(xié)議快速轉(zhuǎn)移和擴(kuò)展到其他實(shí)驗(yàn)室的機(jī)會(huì)。例如,液體處理機(jī)器人站構(gòu)成了生物鑄造廠和云實(shí)驗(yàn)室的支柱。這些鑄造廠已經(jīng)能夠看到在未來(lái)自身會(huì)被機(jī)器人和規(guī)劃算法顛覆,從而獲得快速迭代通過(guò)DBTL周期的能力。語(yǔ)義網(wǎng)絡(luò)、本體和模式徹底改變了設(shè)計(jì)和協(xié)議的表示、通信和交換。這些工具支持快速實(shí)驗(yàn),并以結(jié)構(gòu)化、可查詢的格式生成更多的數(shù)據(jù)。在一個(gè)大多數(shù)內(nèi)容要么丟失,要么被人工記錄在實(shí)驗(yàn)室筆記中的領(lǐng)域,人工智能的前景推動(dòng)領(lǐng)域發(fā)生重大變化,從而減少生成數(shù)據(jù)的障礙。
微流體是宏觀液體處理的替代品,具有更高的通量、更少的試劑消耗和更便宜的結(jié)垢。事實(shí)上,微流體可能是實(shí)現(xiàn)自動(dòng)駕駛實(shí)驗(yàn)室的關(guān)鍵技術(shù),它有望通過(guò)使用人工智能增強(qiáng)自動(dòng)化實(shí)驗(yàn)平臺(tái),大大加快研發(fā)過(guò)程。自動(dòng)駕駛實(shí)驗(yàn)室涉及完全自動(dòng)化的DBTL周期,其中人工智能算法會(huì)根據(jù)之前的實(shí)驗(yàn)結(jié)果進(jìn)行假設(shè),積極尋找有前景的實(shí)驗(yàn)程序。因此這可能是合成生物領(lǐng)域人工智能研究人員的最大機(jī)會(huì)。雖然自動(dòng)DBTL回路已經(jīng)在液體處理機(jī)器人工作站中得到了證明,但微流控芯片提供的可擴(kuò)展性、高通量能力和制造靈活性可能會(huì)提供最終的技術(shù)飛躍,使人工智能成為現(xiàn)實(shí)。