Ce document vous présente la démarche et la réflexion pour analyser un jeu de données de métabarcoding avec l’outil FROGS [1]. Les analyses ont été effectuées sur l’instance Galaxy de la plateforme Migale avec la version 3.1.0.
Galaxy propose des tutoriels pour découvrir l’interface ou apprendre à utiliser certains outils. Ce tutoriel vous explique comment utiliser l’interface, importer des données et comment les organiser.
Connectez-vous sur l’instance Galaxy de la plateforme Migale : galaxy.migale.inrae.fr. Votre identifiant et votre mot de passe vous ont été communiqués dans le mail d’activation de votre compte sur la plateforme.
Créer les historiques 16S
, ITS
et
MULTIPLEXED
et les remplir avec les fichiers associés :
Importez l’historique 16S ALL FASTQ
présent dans
l’instance dans Données partagées / Historiques
Il s’agit de résultats issus du travail de Chaillou et al., 2015 comparant les communautés bactériennes de produits de la mer et de produits carnés.
Les séquences que vous allez analyser sont des données simulées générées à partir des abondances estimées dans le papier.
Vous avez à dispostion un fichier de métadonnées :
et une archive contenant les 64x2=128 fichiers FASTQ compressés.
Dans cet historique, vous retrouverez les 128 fichiers FASTQ hors de leur archive.
Vous avez ici un jeu de données ITS de fromages (real) et de communautés synthétiques. Il contient une archive contenant les fichiers FASTQ et les métadonnées associées :
Ce sont des données issues du projet INRAE MEM METABARFOOD (PRJNA685292) dont l’objectif est d’évaluer la pertinence des marqueurs eucaryotes classiquement utilisés pour caractériser les communautés des écosystèmes alimentaires d’intérêt à INRAE.
Déplacez-vous dans l’historique MULTIPLEXED
.
L’historique MULTIPLEXED
contient un fichier FASTQ
contenant des reads appartenant à différents échantillons. La
correspondance est indiquée dans le fichier barcode.tabular
:
Sample | 5’ seq | 3’ seq |
---|---|---|
MgArd0001 | ACAGCGT | TGTACGT |
MgArd0009 | ACAGTAG | TGTACGT |
MgArd0017 | ACGTCAG | TGTACGT |
MgArd0029 | ACTCAGT | TGTACGT |
MgArd0038 | ACTCGTC | TGTACGT |
MgArd0046 | AGCAGTC | TGTACGT |
MgArd0054 | AGCTATG | TGTACGT |
MgArd0062 | AGCTCGC | TGTACGT |
MgArd0073 | AGTATCT | TGTACGT |
MgArd0081 | AGTCTGC | TGTACGT |
La 1ère colonne correspond au nom de l’échantillon, la seconde à la séquence de barcode sur l’extrémité 5’, la troisième à la séquence du barcode sur l’extrémité 3’.
Exemple :
AGCTATGACTGGGTGTAAGAGCTGTGATTGCTAACACTGTGGCCGGGCCAGGGCACCTGGATAAATCGGATTAGATACCCGGGTATGTACGT
À quel échantillon sera assignée cette séquence ?
Lancez l’outil FROGS - demultiplex reads et choisir les paramètres adaptés.
Pourquoi n’y a-t-il pas 10 fichiers FASTQ en sortie ?
Que deviennent les séquences dont les barcodes ne sont pas retrouvés ?
Pourquoi n’y a-t-il aucune séquence ambigous ?
Placez-vous dans l’historique 16S ALL FASTQ
Lancez FastQC [2] pour analyser la qualité des 64 échantillons (128 fichiers)
Lancez MultiQC [3] pour obtenir une rapport synthétique
Quel est le principal atout de cet outil ?
Voilà un rapport sur de vraies données qui va vous permettre d’être confrontés à des informations réelles.
Est-ce que tous les reads sont de la même longueur ? Qu’est-ce que cela signifie ?
La qualité des bases vous semble-t-elle correcte ?
FROGS a besoin que tous les fichiers d’entrée lui soient fournis, mais contrairement aux collections, l’outil ne doît pas être lancé sur chaque fichier. Sans archive, il faut donc entrer tous les échantillons les uns après les autres. C’est fastidieux et peut causer des erreurs.
Une archive est une sorte de fichier qui contient plein de fichiers.
Cette archive doit avoir les propriétés suivantes :
En ligne de commande :
Ce document explique comment créer une archive sous Windows.
Pour utiliser une archive dans FROGS
preprocess il faut qu’elle soit uploadée au format
tar
(Datatype). Il suffit alors, dans le formulaire de
choisir Archive dans la section Input type
.
Switchez dans l’historique 16S
Lancez FROGS preprocess. Utilisez les informations que nous vous avons fournies pour déterminer quels paramètres utiliser, ainsi que la documentation en bas du formulaire de soumission.
Explorez le rapport HTML généré.
Quelle taille d’amplicons choisir ?
Lisez la documentation de l’outil (bas du formulaire) pour comprendre ce qui a été fait
Quelles informations sont présentes dans le fichier FASTA ?
Quelles informations sont présentes dans le fichier TSV ?
Est-ce attendu que certaines paires de reads ne contiguent pas ?
Qu’est-ce que la déréplication ?
Lancez l’outil FROGS clustering en spécidiant une valeur de d=1 et en ne réalisant pas l’étape de denoising.
Quelles informations sont contenues dans les datasets générés ?
Qu’est-ce que l’étape de denoising ?
Lancez l’outil FROGS clusters stat
Explorez le rapport HTML généré.
Combien de séquences sont contenues dans le plus gros OTU ?
Combien de clusters sont composés d’une seule séquence ?
Quel pourcentage du total des OTUs représentent-ils ?
Lancez l’outil FROGS remove chimera pour supprimer les éventuelles chimères que pourrait détecter vsearch [4].
Explorez le rapport HTML généré.
Combien d’OTUs ont été supprimés ?
Combien cela représente-t-il de séquences ?
Qu’en concluez-vous ?
Quelle est la plus grande abondance d’OTU chimérique détecté ?
Lancez l’outil FROGS filters pour ne garder que les OTUs avec une abondance supérieure à 0.005% et présents dans au moins 4 échantillons. Utilisez également la détection des séquences phiX.
Explorez le rapport HTML généré.
Combien d’OTUs ont été supprimés et combien représentent-ils de séquences ?
Quelle information est présente dans le fichier excluded.tsv ?
Quel(s) est (sont) le(s) filtre(s) qui a (ont) permis de supprimer le plus d’OTUs ?
Ces échantillons étaient-ils contaminés par des séquences de phiX restantes ?
Lancez l’outil FROGS affiliation OTU pour effectuer une affiliation Blast avec la base de données 16S_SILVA_138.1.
Le détail des banques disponibles dans FROGS est disponible ici.
Explorez le rapport HTML généré.
Est-ce que tous les OTUs ont été affiliés à une séquence présente dans la base de référence utilisée ?
Que feriez-vous des OTUs qui ne seraient pas affiliés ?
Expliquez le graphique
Blast multi-affiliation summary
Le nombre de
multi-affiliations au rang Species
vous paraît-il
surprenant ? Pourquoi ?
Lancez l’outil FROGS affiliation stats .
Explorez le rapport HTML généré.
Qu’est-ce qu’une courbe de raréfaction ? Quel est son intérêt principal ?
À quoi vous ferait penser un OTU affilié avec un % de couverture inférieur à 80% ?
Que conclure si les % d’identité de vos OTUs les plus abondants sont faibles ?
Lancez l’outil FROGS biom to tsv en demandant l’extraction des mulit-affiliations et la présence des séquences dans le fichier de sortie.
Explorez les datasets générés
Combien de séquences possède le plus gros OTU ?
Combien de séquences possède le moins gros OTU ?
Pourquoi le Cluster_1 a plusieurs affiliations dans le fichier multi-affiliations sans pour autant être multi-affilié ?
Que pensez-vous des affiliations du Cluster_3 ?
Pour vous faciliter la vie, nous avons développé une interface web : AffiliationExplorer qui vous permet de modifier certaines multi-affiliations si nécessaire. Pour cela, il vous faudra télécharger sur votre ordinateur le fichier BIOM et le fichier de multi-affiliations, ainsi que le FASTA si vous avez éventuellement besoin de la séquence pour faire vos modifications.
Lancez l’outil FROGS tree
Explorez le rapport HTML généré.
Que faire si certains OTUs ne sont pas inclus dans l’arbre ?
Switchez dans l’historique 16S
Lancez FROGS preprocess. Utilisez les informations que nous vous avons fournies pour déterminer quels paramètres utiliser, ainsi que la documentation en bas du formulaire de soumission.
Quelle taille d’amplicons choisir ?
Explorez le rapport HTML généré.
Lancez ensuite FROGS clustering, FROGS clusters stats, FROGS remove chimera et FROGS filters avec la même réflexion que pour les données 16S.
Explorez les rapports HTML générés pour vérifier que tout s’est bien passé.
Lancez FROGS ITSx sans utiliser l’option permettant de tronquer les séquences de SSU et de 5.8S.
Explorez le rapport HTML généré.
Lancez FROGS Affiliation OTU en
spécifiant la base de données ITS_UNITE_Fungi_8.0
et sans
faire d’assignation RDP.
Explorez le rapport HTML généré.
Lancez ensuite FROGS Affiliations stats et FROGS Biom to TSV avec la même réflexion que pour les données 16S.
Explorez le rapport HTML généré.
Comment expliquez-vous les statistiques d’alignement représentées dans le graphique Alignment distribution du rapport HTML de FROGS Affiliations Stats ?
Comment jugez-vous l’affiliation de l’OTU majoritaire (Cluster_1) ?
Est-ce que de longs ITS sont retrouvés ?
A work by Migale Bioinformatics Facility
https://migale.inrae.fr
Our two affiliations to cite us:
Université Paris-Saclay, INRAE, MaIAGE, 78350, Jouy-en-Josas, France
Université Paris-Saclay, INRAE, BioinfOmics, MIGALE bioinformatics facility, 78350, Jouy-en-Josas, France