Il riso è un candidato ideale per lo studio della genomica, non solo perché è una delle colture alimentari più importanti del mondo, ma anche perché secoli di incroci hanno creato differenze uniche e geograficamente indotte. Con il potenziale di crescita della popolazione globale e i cambiamenti climatici che incidono sui raccolti, lo studio di questo genoma ha importanti ricadute sociali. Per questo Google, con il contributo di Allen Day e Ryan Poplin, ha deciso di contribuire a rendere possibile l’identificazione e l’analisi delle diverse mutazioni del genoma del riso con uno strumento chiamato DeepVariant. Per fare ciò, è stata eseguita una nuova analisi del set di dati di Rice 3K, messa a disposizione i dati come parte della pre-pubblicazione del Programma dei dati pubblici di Google Cloud e secondo i termini della Dichiarazione di Toronto.
E’ possibile migliorare la sicurezza alimentare – spiega Google – accelerando la valorizzazione genetica per aumentare la resa delle colture di riso. Secondo l’Organizzazione delle Nazioni Unite per l’alimentazione e l’agricoltura delle Nazioni Unite, l’incremento del 20% della domanda di riso entro il 2030 dovrebbe aumentare l’impatto dei cambiamenti climatici e la perdita di terre arabili.
Perché catalogare la variazione genetica per il riso su Google Cloud?
Nel marzo 2018, Google AI ha dimostrato che le reti neurali convoluzionali profonde (reti neurali artificiali) possono identificare variazioni genetiche nei dati allineati di sequenza del DNA. Questo approccio, chiamato DeepVariant, supera i metodi esistenti sui dati umani . E’ stato dimostrato che è effettivo nel richiedere cambiamenti in una pianta, dimostrando così l’efficacia dell’apprendimento del trasferimento di rete neurale profondo nella genomica.
Nell’aprile 2018, tre istituti di ricerca – l’Accademia cinese delle scienze agricole (CAAS), l’Istituto genomico di Pechino (BGI) di Shenzhen e l’Istituto internazionale di ricerca sul riso (IRRI) – hanno ridotto i risultati di una collaborazione per sequenziare e caratterizzare la variazione genomica di il set di dati Rice 3K, che consiste in genomi di 3.024 varietà di riso provenienti da 89 paesi. Le varianti utilizzate in questa pubblicazione sono state identificate con un genoma di riferimento Nipponbare utilizzando le migliori pratiche e sono disponibili dal database SNP-Seek (Mansueto et al, 2017). E’ stata rinominata la variazione genomica dell’insieme di dati di Riso 3K con DeepVariant. I risultati preliminari indicano un numero maggiore di varianti scoperte a un tasso di errore simile o inferiore rispetto a quelle rilevate dalle migliori pratiche convenzionali, ad esempio GATK. In totale, il set di dati DeepVariant di Rice3K contiene circa 12 miliardi di varianti a circa 74 milioni di posizioni genomiche (SNP e Indel). Sono disponibili in una tabella da 1,5 terabyte (TB) che utilizza lo schema delle varianti di BigQuery. Anche con questa dimensione, è possibile comunque eseguire analisi interattive, grazie al design scalabile di BigQuery. Le domande presentate di seguito vengono eseguite nell’ordine di alcuni secondi. La velocità conta, perché i dati genomici sono spesso interconnessi con i dati generati da altre tecnologie di agricoltura di precisione. Per leggere l’articolo completo e avere alcuni esempi e visualizzazioni di come interrogare e analizzare il set di dati di Rice 3K, clicca QUI.