Le séquençage ChIP-Seq, également connu en tant que séquençageChIP, est une méthode utilisée pour analyser les interactions entre protéines et l'ADN.
Description
Le ChIP-Seq est une technique permettant d’étudier les interactions ADN/protéine à l’échelle du génome. Il s'agit d'une approche basée sur une technique innovante de séquençage qui permet de déterminer rapidement la séquence des fragments immunoprécipités par immunoprécipitation de chromatine (ChIP). Cette technique, dite de ChIP-Seq, fut publiée en 2007 par l’équipe du Prof. Keji Zhao au NIH[1].
Les fragments immunoprécipités sont fixés par l’intermédiaire d’un adaptateur sur une puce et sont amplifiés en phase solide. Chaque échantillon peut être séquencé suivant quatre méthodes dites « Next Generation » : le séquençage par synthèse, le pyroséquençage, le séquençage par ligation, et le séquençage simple-molécule, Cette dernière approche est intéressante car elle utilise peu de matériel et ne nécessite pas la construction de librairie par concaténation, comme dans le cas du ChIP-PET ou
du ChIP-SAGE, la préparation des librairies étant équivalente, en principe, à l’étape d’amplification WGA effectuée en ChIP on chip.
Séquençage par synthèse
Le séquençage par synthèse est utilisé par la plateforme Illumina. Cette technique est basée sur l’utilisation de quatre dideoxynucleotide triphosphates (ddNTP) terminateurs marqués par un fluorochrome différent. La lecture de la plaque est réalisée après excitation par un laser. Une courte séquence est obtenue pour chaque fragment après plusieurs cycles d’addition des ddNTPs et, est localisée sur la séquence génomique afin de permettre l’identification du site de liaison de la protéine[2].
Séquençage par ligature
La méthode de séquençage par ligation repose quant à elle sur l’hybridation spécifique par une ligase de courtes sondes oligonucléotidiques, marquées par un fluorochrome à chaque paire de base ou par couple de paires de bases, comme c’est le cas pour la plateforme SOLiD (Applied Biosystems), à une séquence ancrée à une séquence connue. L’avantage de cette technique réside en un très faible nombre de mismatches du à la forte spécificité de la ligase lors de l’hybridation, du fait de la double lecture des tags[3].
Pyroséquençage
Enfin, la technique de pyroséquençage est basée sur la méthode de séquençage par synthèse, à la différence que dans ce cas seule la polymérase est marquée, où l’activité de polymérisation, en ajoutant une base déterminée à chaque fragment de séquence capturé sur des millions de billes, produit une fluorescence détectable par stimulation au laser. Un atout majeur de cette technique est la taille des fragments séquencés, de l’ordre de 300 à 500 pb, comparé à un ordre de 25 à 90 pb dans le cas des séquençages par synthèse et par ligature[4].
Séquençage simple-molécule
Cette technique est utilisée par les séquenceurs de type HeliScope. Le principal avantage de cette technique est la possibilité de séquencer sans amplification préalable[3],[5].
Cette prouesse est permise par imagerie des nucléotides fluorescents à l’échelle moléculaire, rendant donc l’amplification clonale optionnelle. Le principe de séquençage repose sur le séquençage par synthèse. Ce système a permis le séquençage, par exemple, d’une seule molécule d’ADN viral[5].
Traitement de données ChIP-Seq
Tout comme le ChIP-chip, le ChIP-Seq fait appel à des processus de nanoexcitation laser, ce qui implique également un traitement d’image. À chaque cycle, une image de la puce est en effet « prise » par fluorescence à la suite d'une excitation, et dépendant de la taille des tags utilisés, ce processus résulte
en la superposition d’au moins 25 images jusqu’à environ 110 selon les techniques de séquençage par synthèse et par ligation, et jusqu’à 500 pour les techniques de pyroséquençage. De manière similaire au ChIP-chip, chaque « read » est lu tour à tour, sauf que dans le cas du séquençage il existe au moins quatre fluorochromes.
Chaque flash de chaque read correspondant à une base (ou encore à un dinucléotide, comme utilisé par Applied Biosystems), la séquence de chaque read est d’abord matérialisée en un format connu sous le nom de BCL ou Fasta (ou encore Colorspace Fasta, dans le cas de la plateforme SOLiD, un format Fasta standard avec une couleur au lieu d’une base/acide aminé). Ces reads sont ensuite alignés au génome de référence, soit en Colorspace Fasta pour la plateforme SOLiD, soit en Fasta générique pour la plateforme Illumina. Cette étape d’alignement est en général suivie d’un traitement sur l’asymétrie et/ou sur la longueur des fragments. Une étape importante s’ensuit alors, la suppression des artéfacts. Les reads de chaque réplique technique sont ensuite en général combinés, puis fenêtrés par comptage dans n intervalles (ramenés par pb). Une étape de soustraction de l’Input (déplété d’artefacts) est ensuite préférable, plutôt que la normalisation par ratio des signaux ChIP/Input. L’étape finale est, comme en ChIP-chip, la détection de pics. À noter que ces étapes sont également utilisées pour l'analyse d'autres techniques à haut débit telles que le FAIRE-Seq et le DNase-Seq (à part la soustraction de l'Input pour ce dernier).
Alignement au génome de référence
Cette étape est cruciale car elle permet l’assignation d’un read à une position chromosomique sur un génome de référence. Les techniques à haut débit présentent cependant le désavantage que la fiabilité de séquençage décroît beaucoup plus vite que lors du séquençage classique, avec lequel on peut séquencer en toute confiance jusqu’à 600pb. La fiabilité de lecture du séquençage à haut débit varie selon la technique utilisée, mais dans le cas du séquençage par synthèse et par ligation, sur une longueur typique de 25pb séquencées, la fiabilité est de 90%, ce qui résulte en un nombre moyen de
2.5 mismatches pour des tags de 25 pb. De plus, les tags alignés peuvent correspondre à des régions répétées du génome, dont la position ne peut être estimée avec confiance.
Le cas échéant, ces tags sont donc considérés comme non alignés. L’alignement est donc paramétré selon ces considérations, on permet en général une occurrence de 2 mismatches sur 25pb[6].
Ces paramètres résultent en général en l’alignement d’environ 60-80% des reads[3]. Plusieurs
programmes d’alignement sont utilisés à cet effet : dans le cas d’Illumina, le logiciel Eland est
fourni, de même que AppliedAligner dans le cas de séquençage SOLiD. Un logiciel open source existe néanmoins, la suite Bowtie[7].
Décalage des reads
Sachant qu’il existe un décalage de la position des reads entre les brins Crick et Watson correspondant à la taille des fragments immunoprécipités, une technique simple consiste en un décalage des reads de la moitié de cette taille en 3’ pour chaque brin. Le résultat est alors un chevauchement des reads. Cette technique est utilisée par de nombreux logiciels, notamment Cisgenome[8] et ChIP-peak (ainsi qu’une méthode développée par Chen et al[9]. ainsi que
d’autres revus par Pepke et al, et Wilbannks et al. [10],[11] Cette technique
simple est bien adaptée aux facteurs de transcription, puisque dans ce cas le maximum du pic est la région d’intérêt. Cependant elle n’est pas optimisée puisqu’en réalité, le
maximum du pic devrait être représenté par un chevauchement de plus de séquences, les tags ne correspondant qu’aux extrémités 5’ des fragments séquencés. Elle est en outre incorrecte dans le ChIP réalisé sur des modifications d’histones, ou encore dans le cas de MNase, puisque dans ces conditions on s’attend à une longueur de fragment de 147pb, ce qui n’est pas reflété par ce traitement. Il est donc nécessaire dans ces exemples de procéder à une étape d’élongation.
Élongation des reads
Cette technique consiste à ramener les tags à la longueur réelle des fragments immunoprécipités. En général, la coupure sur gel est approximative, et ce même avec la meilleure précision, et génère donc des fragments de taille hétérogène dans une fenêtre de taille dépendant de la précision de la coupure. De plus, la sonication résulte en une hétérogénéité des tailles des fragments. On peut cependant estimer que l’hétérogénéité globale suivra une loi normale, et donc élonguer les fragments de la taille de coupure sur gel moins la taille des adaptateurs (91pb chez Illumina) avec une confiance relative. Cette méthode est utilisée par un nombre croissant de suites de traitement des données ChIP-Seq, dont FindPeaks[12] et Useq[13]. L’optimisation de cette étape est l’estimation de la taille des fragments in silico. Elle est très simple dans le cas du PET, puisque les extrémités 5’ des reads seront alors séparées de la taille d’un fragment donné[12]. Dans le cas contraire, elle peut cependant être estimée par une élongation itérative des tags et une estimation du chevauchement correspondant à chaque itération. Cette étape doit toutefois être effectuée chromosome par chromosome, les bruits de
fond moyens variant d’un chromosome à l’autre pour une raison encore inexpliquée. La taille d’élongation à effectuer correspond alors à la moyenne des tailles estimées in silico par chromosome. L’algorithme MACS[14] fonctionne de manière similaire, en détectant le décalage moyen entre les brins positifs et négatifs, effectuant une extension des tags d'une taille correspondant à la longueur des fragments déterminée in silico.
Suppression des artéfacts
On distingue deux types d’artéfacts : ceux liés au séquençage, ainsi ceux liés à un biais dans la quantité d’ADN extrait à un endroit donné, ce dernier pouvant être dû à des répétitions non caractérisées, ou à des duplications/répétitions d’éléments propres à un individu ou une variété. Ce dernier phénomène est particulièrement exacerbé dans le cas de lignées cellulaires. Une étape de suppression des artéfacts est préférable à une correction Log2 ratio ChIP/Input. L'algorithme MACS estime également le nombre de tags permis par coordonnée génomique donnée par le biais d'une loi binomiale, supprimant ainsi les artéfacts du a une amplification clonale des reads lors de la préparation des librairies de séquençage.
Fenêtrage des profondeurs de lecture
Ce traitement est nécessaire avant toute méta-analyse, car seules les coordonnées contenant des profondeurs de lecture non nulles sont obtenues, et n’incluent donc pas les régions non séquencées, qui sont donc considérées comme non enrichies, aussi bien dans l’Input que dans le ChIP. Le fenêtrage, ou binning, s’effectue par la division des coordonnées chromosomiques en intervalles réguliers de k pb. Le nombre de fragments commençant, chevauchant ou finissant dans un intervalle donné est compté et ramené à k pb, ce qui résulte en une valeur moyenne par pb sur chaque intervalle.
Soustraction de l’Input
La relation entre les signaux ChIP et Input n’est pas linéaire. Une normalisation par la médiane ne peut donc pas être effectuée. De plus, une normalisation lowess n’est pas pratique dans ce cas au vu du nombre même des signaux à prendre en compte. Une solution consiste donc en l’estimation des signaux moyens Input sur un intervalle de k pb, alors retranchés au signal ChIP.
Il est à noter que la normalisation via le ratio du nombre total de lectures entre deux profils est couramment utilisée mais comporte des biais notamment lorsqu'il y a une grande différence entre le rapport signal/bruit entre ces deux profils. Il existe un algorithme prenant en compte ces paramètres. Dans un premier temps, les régions à faible densité ne sont pas considérées, puis un rapport de normalisation est calculé pour chaque profil et chacune des régions restantes. Enfin, les valeurs médianes des ratios sont utilisés en tant que facteurs de normalisation. De cette façon, une estimation robuste et relativement impartiale peut être utilisé pour la normalisation[15].
Détection de pics
Ce processus utilise un principe analogue à celui utilisé en ChIP-chip. Certains algorithmes, comme MACS[14] ou ChIP-peak, optimisés pour le traitement de données ChIP-Seq issues d’études portant aux facteurs de transcription, estiment un pic par le calcul du chevauchement maximum des tags décalés, selon un score minimum significatif défini[6].
Cette approche est intéressante car rapide, et permet d’isoler les maxima locaux, qui correspondent souvent, mais pas toujours[16], au site de fixation du facteur de transcription recherché. La suite Useq effectue la recherche de pics de manière analogue, mais à la suite de l’élongation des tags.
Liens Externes
ReMap 2018 catalogue: Une analyse integrative de données ChIP-Seq chez l'homme de 485 régulateurs transcriptionnel (et facteurs de transcription), donnant lieu a un catalogue de 80 millions de peaks. Le detail de l'analyse ainsi que les données sont dans ces papiers[17],[18]
Notes et références
↑(en) Barski, A, « High-resolution profiling of histone methylations in the human genome », Cell, no 129, , p. 823-837
↑(en) chones, D. E, « Genome-wide approaches to studying chromatin modifications », Nat Rev Genet, no 9, , p. 179-191
↑ ab et c(en) Park, P. J., « ChIP-seq: advantages and challenges of a maturing technology », Nat Rev Genet, no 10, , p. 669-680
↑(en) Shendure, J, « Next-generation DNA sequencing », Nat Biotechnol, no 26, , p. 1135-1145
↑ a et b(en) Harris, T. D., « Single-molecule DNA sequencing of a viral genome », Science, no 320, , p. 106-109
↑ a et b(en) Wang, Z., « Combinatorial patterns of histone acetylations and methylations in the human genome », Nat Genet, no 40, , p. 897-903
↑(en) Lanmead, B., « Ultrafast and memory-efficient alignment of short DNA sequences to the human genome », Genome Biol, no 10, , R25
↑(en) Ji, H., « An integrated software system for analyzing ChIP-chip and ChIP-seq data », Nat Biotechnol, no 26, , p. 1293-1300
↑(en) Chen, K.B., « A varying threshold method for ChIP peak-calling using multiple sources of information », Bioinformatics, no 26, , i504-510
↑(en) Pepke, S., « Computation for ChIP-seq and RNA-seq studies », Nat Methods, no 6, , S22-32
↑(en) Wilbanks, E.G., « Evaluation of algorithm performance in ChIP-seq peak detection », PLoS One, no 5, , e11471
↑ a et b(en) Fejes, A.P., « FindPeaks 3.1: a tool for identifying areas of enrichment from massively parallel short-read sequencing technology », Bioinformatics, no 24, , p. 1729-1730
↑(en) Nix, D.A., « Empirical methods for controlling false positives and estimating confidence in ChIP-Seq peaks », BMC Bioinformatics, no 9, , p. 523
↑ a et b(en) Zhang, Y., « Model-based analysis of ChIP-Seq (MACS) », Genome Biol, no 9, , R137
↑(en) Johnson, D.S., « Genome-wide mapping of in vivo protein-DNA interactions », Science, no 316, , p. 1497-1502
↑(en) Aurélien Griffon, Quentin Barbier, ... ... et Benoît Ballester, « Integrative analysis of public ChIP-seq experiments reveals a complex multi-cell regulatory landscape », Nucleic Acids Research, vol. 43, no 4, , e27–e27 (ISSN0305-1048, DOI10.1093/nar/gku1280, lire en ligne, consulté le )
↑Jeanne Chèneby, Marius Gheorghe, Marie Artufel et Anthony Mathelier, « ReMap 2018: an updated atlas of regulatory regions from an integrative analysis of DNA-binding ChIP-seq experiments », Nucleic Acids Research, (DOI10.1093/nar/gkx1092, lire en ligne, consulté le )