Ce document vous présente la démarche et la réflexion pour analyser un jeu de données de métabarcoding avec l’outil FROGS [1]. Les analyses ont été effectuées sur l’instance Galaxy de la plateforme Migale avec la version 3.1.0.


1 Introduction à Galaxy

1.1 TP de découverte / rappels

Galaxy propose des tutoriels pour découvrir l’interface ou apprendre à utiliser certains outils. Ce tutoriel vous explique comment utiliser l’interface, importer des données et comment les organiser.

1.2 Instance Galaxy de Migale

Connectez-vous sur l’instance Galaxy de la plateforme Migale : galaxy.migale.inrae.fr. Votre identifiant et votre mot de passe vous ont été communiqués dans le mail d’activation de votre compte sur la plateforme.

Si vous oubliez vos identifiants/mdp:
Solution pas à pas

2 Préparer les historiques

Créer les historiques 16S, ITS et MULTIPLEXED et les remplir avec les fichiers associés :

Solution pas à pas

Importez l’historique 16S ALL FASTQ présent dans l’instance dans Données partagées / Historiques

Solution pas à pas

2.1 Contenu de l’historique MULTIPLEXED

2.2 Contenu de l’historique 16S

Il s’agit de résultats issus du travail de Chaillou et al., 2015 comparant les communautés bactériennes de produits de la mer et de produits carnés.

Les séquences que vous allez analyser sont des données simulées générées à partir des abondances estimées dans le papier.

  • Les 64 échantillons correspondent à 8 réplicats des 8 produits différents, générés sur la région 16S V1-V3.
  • Les primers sont 27F (5’-AGAGTTTGATCCTGGCTCAG-3’) 534R (5’-ATTACCGCGGCTGCTGG-3’)
  • Des reads de 2x300 bp ont été générés
  • Des erreurs ont été ajoutés dans les séquences suivant le modèle d’erreur Illumina classique
  • 10% de séquences chimériques ont été ajoutées

Vous avez à dispostion un fichier de métadonnées :

et une archive contenant les 64x2=128 fichiers FASTQ compressés.

2.3 Contenu de l’historique 16S ALL FASTQ

Dans cet historique, vous retrouverez les 128 fichiers FASTQ hors de leur archive.

2.4 Contenu de l’historique ITS

Vous avez ici un jeu de données ITS de fromages (real) et de communautés synthétiques. Il contient une archive contenant les fichiers FASTQ et les métadonnées associées :

Ce sont des données issues du projet INRAE MEM METABARFOOD (PRJNA685292) dont l’objectif est d’évaluer la pertinence des marqueurs eucaryotes classiquement utilisés pour caractériser les communautés des écosystèmes alimentaires d’intérêt à INRAE.

  • Il s’agit ici d’échantillons de fromages réels (echantillon*), de MOCKs simples à complexes d’espèces d’intérêt
  • Les primers sont ITS1-F (5’-CTTGGTCATTTAGAGGAAGTAA-3’) ITS2 (5’-GCTGCGTTCTTCATCGATGC-3’)
  • Des reads de 2x250 bp ont été produits par Illumina Miseq

3 MULTIPLEXED

3.1 FROGS Demultiplex

Déplacez-vous dans l’historique MULTIPLEXED.

L’historique MULTIPLEXED contient un fichier FASTQ contenant des reads appartenant à différents échantillons. La correspondance est indiquée dans le fichier barcode.tabular :

Sample 5’ seq 3’ seq
MgArd0001 ACAGCGT TGTACGT
MgArd0009 ACAGTAG TGTACGT
MgArd0017 ACGTCAG TGTACGT
MgArd0029 ACTCAGT TGTACGT
MgArd0038 ACTCGTC TGTACGT
MgArd0046 AGCAGTC TGTACGT
MgArd0054 AGCTATG TGTACGT
MgArd0062 AGCTCGC TGTACGT
MgArd0073 AGTATCT TGTACGT
MgArd0081 AGTCTGC TGTACGT

La 1ère colonne correspond au nom de l’échantillon, la seconde à la séquence de barcode sur l’extrémité 5’, la troisième à la séquence du barcode sur l’extrémité 3’.

Exemple :

AGCTATGACTGGGTGTAAGAGCTGTGATTGCTAACACTGTGGCCGGGCCAGGGCACCTGGATAAATCGGATTAGATACCCGGGTATGTACGT

À quel échantillon sera assignée cette séquence ?

Lancez l’outil FROGS - demultiplex reads et choisir les paramètres adaptés.

Solution pas à pas

Pourquoi n’y a-t-il pas 10 fichiers FASTQ en sortie ?

Que deviennent les séquences dont les barcodes ne sont pas retrouvés ?

Pourquoi n’y a-t-il aucune séquence ambigous ?

4 16S

4.1 Quality control

4.1.1 Vérifier la qualité des données de séquençage

Placez-vous dans l’historique 16S ALL FASTQ

Lancez FastQC [2] pour analyser la qualité des 64 échantillons (128 fichiers)

Il est possible de choisir plusieurs datasets en même temps pour leur appliquer la même action ou de créer une collection !
Solution

Lancez MultiQC [3] pour obtenir une rapport synthétique

Solution

Quel est le principal atout de cet outil ?

Voilà un rapport sur de vraies données qui va vous permettre d’être confrontés à des informations réelles.

Est-ce que tous les reads sont de la même longueur ? Qu’est-ce que cela signifie ?

La qualité des bases vous semble-t-elle correcte ?

4.2 Préparer une archive pour FROGS

4.2.1 Pourquoi ?

FROGS a besoin que tous les fichiers d’entrée lui soient fournis, mais contrairement aux collections, l’outil ne doît pas être lancé sur chaque fichier. Sans archive, il faut donc entrer tous les échantillons les uns après les autres. C’est fastidieux et peut causer des erreurs.

4.2.2 Créer une archive

Une archive est une sorte de fichier qui contient plein de fichiers.

Cette archive doit avoir les propriétés suivantes :

  • Elle ne doit contenir que les fichiers FASTQ, pas de dossiers ni d’autres fichiers
  • Les fichiers FASTQ peuvent être compressés
  • Les fichiers FASTQ doivent être suffixés, si les données sont pairées, par *_R1.fastq.gz* et *_R2.fastq.gz*
  • Le nom de l’échantillon est construit à partir des chaines de caractères précédant ces suffixes.

En ligne de commande :

Ce document explique comment créer une archive sous Windows.

Pour utiliser une archive dans FROGS preprocess il faut qu’elle soit uploadée au format tar (Datatype). Il suffit alors, dans le formulaire de choisir Archive dans la section Input type.

4.3 FROGS Preprocess

Switchez dans l’historique 16S

Lancez FROGS preprocess. Utilisez les informations que nous vous avons fournies pour déterminer quels paramètres utiliser, ainsi que la documentation en bas du formulaire de soumission.

Solution pas à pas

Explorez le rapport HTML généré.

Quelle taille d’amplicons choisir ?

Lisez la documentation de l’outil (bas du formulaire) pour comprendre ce qui a été fait

Quelles informations sont présentes dans le fichier FASTA ?

Quelles informations sont présentes dans le fichier TSV ?

Est-ce attendu que certaines paires de reads ne contiguent pas ?

Qu’est-ce que la déréplication ?

4.4 FROGS Clustering

Lancez l’outil FROGS clustering en spécidiant une valeur de d=1 et en ne réalisant pas l’étape de denoising.

Solution pas à pas

Quelles informations sont contenues dans les datasets générés ?

Qu’est-ce que l’étape de denoising ?

Lancez l’outil FROGS clusters stat

Solution pas à pas

Explorez le rapport HTML généré.

Combien de séquences sont contenues dans le plus gros OTU ?

Combien de clusters sont composés d’une seule séquence ?

Quel pourcentage du total des OTUs représentent-ils ?

4.5 FROGS Remove chimera

Lancez l’outil FROGS remove chimera pour supprimer les éventuelles chimères que pourrait détecter vsearch [4].

Solution pas à pas

Explorez le rapport HTML généré.

Combien d’OTUs ont été supprimés ?

Combien cela représente-t-il de séquences ?

Qu’en concluez-vous ?

Quelle est la plus grande abondance d’OTU chimérique détecté ?

4.6 FROGS Filters

Lancez l’outil FROGS filters pour ne garder que les OTUs avec une abondance supérieure à 0.005% et présents dans au moins 4 échantillons. Utilisez également la détection des séquences phiX.

Solution pas à pas

Explorez le rapport HTML généré.

Combien d’OTUs ont été supprimés et combien représentent-ils de séquences ?

Quelle information est présente dans le fichier excluded.tsv ?

Quel(s) est (sont) le(s) filtre(s) qui a (ont) permis de supprimer le plus d’OTUs ?

Ces échantillons étaient-ils contaminés par des séquences de phiX restantes ?

4.7 FROGS Affiliation OTU

Lancez l’outil FROGS affiliation OTU pour effectuer une affiliation Blast avec la base de données 16S_SILVA_138.1.

Le détail des banques disponibles dans FROGS est disponible ici.

Solution pas à pas

Explorez le rapport HTML généré.

Est-ce que tous les OTUs ont été affiliés à une séquence présente dans la base de référence utilisée ?

Que feriez-vous des OTUs qui ne seraient pas affiliés ?

Expliquez le graphique Blast multi-affiliation summary

Le nombre de multi-affiliations au rang Species vous paraît-il surprenant ? Pourquoi ?

Lancez l’outil FROGS affiliation stats .

Solution pas à pas

Explorez le rapport HTML généré.

Qu’est-ce qu’une courbe de raréfaction ? Quel est son intérêt principal ?

À quoi vous ferait penser un OTU affilié avec un % de couverture inférieur à 80% ?

Que conclure si les % d’identité de vos OTUs les plus abondants sont faibles ?

4.8 FROGS Biom to TSV

Lancez l’outil FROGS biom to tsv en demandant l’extraction des mulit-affiliations et la présence des séquences dans le fichier de sortie.

Solution pas à pas

Explorez les datasets générés

Combien de séquences possède le plus gros OTU ?

Combien de séquences possède le moins gros OTU ?

Pourquoi le Cluster_1 a plusieurs affiliations dans le fichier multi-affiliations sans pour autant être multi-affilié ?

Que pensez-vous des affiliations du Cluster_3 ?

Pour vous faciliter la vie, nous avons développé une interface web : AffiliationExplorer qui vous permet de modifier certaines multi-affiliations si nécessaire. Pour cela, il vous faudra télécharger sur votre ordinateur le fichier BIOM et le fichier de multi-affiliations, ainsi que le FASTA si vous avez éventuellement besoin de la séquence pour faire vos modifications.

Demonstration pour choisir une affiliation parmi les multi-affiliations
Demonstration pour modifier une affiliation existante

4.9 FROGS Tree

Lancez l’outil FROGS tree

Solution pas à pas

Explorez le rapport HTML généré.

Que faire si certains OTUs ne sont pas inclus dans l’arbre ?

5 ITS

5.1 FROGS Preprocess

Switchez dans l’historique 16S

Lancez FROGS preprocess. Utilisez les informations que nous vous avons fournies pour déterminer quels paramètres utiliser, ainsi que la documentation en bas du formulaire de soumission.

Quelle taille d’amplicons choisir ?

Solution pas à pas

Explorez le rapport HTML généré.

Lancez ensuite FROGS clustering, FROGS clusters stats, FROGS remove chimera et FROGS filters avec la même réflexion que pour les données 16S.

Explorez les rapports HTML générés pour vérifier que tout s’est bien passé.

5.2 FROGS ITSx

Lancez FROGS ITSx sans utiliser l’option permettant de tronquer les séquences de SSU et de 5.8S.

Solution pas à pas

Explorez le rapport HTML généré.

5.3 FROGS Affiliation OTU

Lancez FROGS Affiliation OTU en spécifiant la base de données ITS_UNITE_Fungi_8.0 et sans faire d’assignation RDP.

Solution pas à pas

Explorez le rapport HTML généré.

Lancez ensuite FROGS Affiliations stats et FROGS Biom to TSV avec la même réflexion que pour les données 16S.

Explorez le rapport HTML généré.

Comment expliquez-vous les statistiques d’alignement représentées dans le graphique Alignment distribution du rapport HTML de FROGS Affiliations Stats ?

Comment jugez-vous l’affiliation de l’OTU majoritaire (Cluster_1) ?

Est-ce que de longs ITS sont retrouvés ?

Références

1. Escudié F, Auer L, Bernard M, Mariadassou M, Cauquil L, Vidal K, et al. FROGS: Find, Rapidly, OTUs with Galaxy Solution. Bioinformatics. 2018;34:1287–94. doi:10.1093/bioinformatics/btx791.
2. Andrews S. FastQC a quality control tool for high throughput sequence data. http://www.bioinformatics.babraham.ac.uk/projects/fastqc/. http://www.bioinformatics.babraham.ac.uk/projects/fastqc/.
3. Ewels P, Magnusson M, Lundin S, Käller M. MultiQC: Summarize analysis results for multiple tools and samples in a single report. Bioinformatics. 2016;32:3047–8.
4. Rognes T, Flouri T, Nichols B, Quince C, Mahé F. VSEARCH: A versatile open source tool for metagenomics. PeerJ. 2016;4:e2584.
 

A work by Migale Bioinformatics Facility

https://migale.inrae.fr

Our two affiliations to cite us:

Université Paris-Saclay, INRAE, MaIAGE, 78350, Jouy-en-Josas, France

Université Paris-Saclay, INRAE, BioinfOmics, MIGALE bioinformatics facility, 78350, Jouy-en-Josas, France