Транскрипто́мика одино́чных кле́ток (англ. single-cell transcriptomics) — область биологических исследований, в которой основным инструментом служат методы количественного анализа экспрессии генов в индивидуальных клетках. Изучение транскриптома отдельных клеток позволяет решить проблему «усреднённых» данных, которые получаются при анализе тотальной РНК, выделенной из образца[1]. Секвенирование РНК одиночных клеток сделало возможными анализ клеточного многообразия в популяциях клеток, считавшихся ранее однородными, например, были получены новые данные в областях иммунологических, эмбриологических и онкологических исследований[2][3][4]. Развитие технологий с 2009 года, когда впервые было произведено секвенирование транскриптома одиночных клеток, по наше время позволило увеличить производительность эксперимента от единиц до сотен тысяч клеток, что существенно повысило точность получаемых данных[5].
Количественная ПЦР применяется для анализа транскриптома единичных клеток реже, чем секвенирование. Для проведения эксперимента требуется выделение одиночных клеток, их лизис, обратная транскрипция РНК. Этот метод достаточно чувствительный, он может быть использован на микрофлюидных технологиях, однако он не позволяет исследовать весь транскриптом, а только детектировать количество конкретных транскриптов, к которым подобраны зонды или праймеры. При этом уровень экспрессии изучаемых генов определяется не абсолютно, а относительно референсного[англ.] гена[10][11].
Количественная ПЦР может также применяться для валидации данных секвенирования РНК[12][13].
Общий алгоритм секвенирования РНК одиночных клеток включает в себя 8 последовательных этапов[9]:
Различные методы подготовки библиотек для секвенирования РНК одиночных клеток отличаются по своей специфичности, точности, стоимости и другим параметрам. Например, Smart-seq2 отличается высокой чувствительностью, а Drop-seq и другие микрофлюидные технологии с использованием микрочастиц очень высокопроизводительны[14][9].
Перед разделением клеток нужно прервать контакты между ними и избавиться от межклеточного вещества. Это может быть достигнуто с помощью ферментирования образца ткани, а также путём специфических манипуляций, таких как, например, лазерная захватывающая микродиссекция[6], которая позволяет выделять клетки из образца твёрдой ткани с помощью лазера. После получения клеточной суспензии клетки разделяют с помощью различных методов[7].
Клетки обычно лизируют химически, помещая их в лизирующий буфер[англ.]. Лизирующие буферы могут различаться по качеству сохранения содержимого клетки и эффективности дальнейших процедур, проводимых с лизатом[16]. Оптимальные протоколы лизиса одиночных клеток эукариот и прокариот также различны, так как требуется разрушить массивную и часто покрытую защитными оболочками клеточную стенку прокариот, при этом не повредив выделяемый материал[17].
Выделение РНК при подготовке образцов происходит не отдельным техническим этапом, а получается за счёт использования специальных праймеров для инициации обратной транскрипции[1].
После выделения РНК необходимо получить из неё комплементарную ДНК (кДНК) с помощью обратной транскрипции[6]. Первая цепь кДНК синтезируется при помощи специально спроектированной версии обратной транскриптазы вируса лейкемии мышей M-MuLV[18]. Для инициации синтеза используются праймеры, имеющие в своей последовательности баркоды, иногда уникальные молекулярные идентификаторы[англ.] и последовательности, позволяющие отобрать интересующую нас фракцию РНК. Обычно нужно избавиться от рРНК и тРНК, которые составляют до 95 % выделенной тотальной РНК клетки. Этого можно достичь, используя праймеры с поли(dT)-участком, что позволяет выделить полиаденилированную фракцию. Однако при этом теряется неполиаденилированная РНК (длинные некодирующие РНК и другие), поэтому в ряде протоколов, например, SUPeR-seq, в последовательности праймеров после поли(dT)-участка добавляется несколько (5—6) случайных нуклеотидов.
Синтез второй цепи кДНК осуществляется различными способами. Часто используется метод смены матрицы[англ.] (англ. template switching), например, в технологиях STRT, Smart-seq и Smart-seq2. Он основан на свойстве ревертазы M-MuLV добавлять на 3’-конец синтезируемой цепи нематричные остатки цитозина. Соответственно, это делает возможным синтез второй цепи с поли(dG)-праймеров[18].
Технология высокопроизводительного секвенирования предполагает совместное секвенирование библиотек[англ.], полученных из разных клеток. Поэтому для различения транскриптов, пришедших из каждой конкретной клетки, используются уникальные клеточные баркоды[7][9] . В экспериментах по дифференциальной экспрессии помимо баркодов используются так называемые уникальные молекулярные идентификаторы (англ. unique molecular identifiers, UMIs). UMI представляет собой последовательность из 4—8 случайных нуклеотидов (например, 5 нуклеотидов дают 45=1024 уникальные последовательности). Сочетание UMI и клеточного баркода статистически получается уникальным для каждого транскрипта, что позволяет сравнивать уровни экспрессии генов по количеству UMI, «пришитых» к транскриптам определённого типа. Баркоды и уникальные молекулярные идентификаторы вносятся в образец на этапе обратной транскрипции, так как составляют часть праймера для синтеза первой цепи кДНК[7].
В ряд технологий, таких как MARS-seq, CEL-seq и CEL-seq2, для амплификации кДНК используется in vitro транскрипция (англ. in vitro transcription, IVT)[6]. Это способ основан на транскрипции кДНК фаговой полимеразой Т7[англ.] и повторении этапа обратной транскрипции. Для осуществления in vitro транскрипции в поли(dT)-праймер вносится промотор Т7. Увеличение количества кДНК в данном случае происходит линейно[6].
Амплификация кДНК может также осуществляться с помощью полимеразной цепной реакции (ПЦР), например, в Drop-seq, SCRB-seq, SMART-seq и SMART-seq2. Однако этот метод часто вносит искажения в отношение количества транскриптов. С этими искажениями позволяет бороться использование уникальных молекулярных идентификаторов[7].
Для работы с прокариотическими клетками используются также специальные методы, такие как амплификация по типу катящегося кольца[17].
В зависимости от способа подготовки библиотеки происходит секвенирование полноразмерных транскриптов, или фракции, обогащённой 3’- или 5’-фрагментами[6][7]. Обогащение полноразмерными транскриптами (технологии SMART-seq, SMART-seq2) требуется при изучении альтернативного сплайсинга и однонуклеотидных полиморфизмов, тогда как секвенирование 3’-фрагментов (технологии CEL- seq, CEL-seq2, MARS-seq) и 5’-фрагментов (технология STRT) подходят для выявления дифференциальной экспрессии. Эти методы, как правило, используют уникальные молекулярные идентификаторы. Подготовленные библиотеки обрабатывают методами секвенирования нового поколения (англ. next generation sequencing, NGS), часто используется секвенирование на платформе Illumina. Полученные «сырые» прочтения обрабатывают методами биоинформатики[7].
Первоочередной задачей при биоинформатическом анализе результатов секвенирования РНК одиночных клеток является получение матрицы экспрессий генов из прочтений секвенатора. После получения такой матрицы имеют место несколько направлений анализа[7]:
Стандартный протокол обработки прочтений, получаемых при секвенировании, включает в себя несколько шагов (в скобках приведены программы, использующиеся на каждом этапе)[19]:
При картировании обеспечивается контроль качества прочтения транскриптома каждой клетки, клетки с низким качеством прочтения исключаются из дальнейшего анализа[27]. Для контроля качества могут использоваться разные метрики:
Последовательно выполняются следующие шаги[28]:
С целью выявления клеточных субпопуляций обычно проводится кластеризация клеток по схожести их профилей экспрессии генов[29]. Эта кластеризация может проводиться многими способами: методом k-средних[30], с использованием графа ближайших соседей[31], иерархической кластеризацией[32] и некоторыми другими. Несмотря на обилие подходов, кластеризация получается не всегда: структура данных может скрываться за техническим шумом или систематическими ошибками[33][34]; также анализ затрудняется из-за проклятия размерности. Для сглаживания этих эффектов размерность транскриптомного пространства, элементами которого являются клетки, понижается[29].
При выполнении формальных математических операций классификации, поиска корреляций принимается, что каждая клетка — это вектор в n-мерном пространстве, где n соответствует числу анализируемых генов, а координаты клетки — это уровни экспрессий соответствующих генов в ней[35]. Как уже было сказано, снижение размерности может помочь восстановить структуру данных и уменьшить шумы, и потому размерность векторов экспрессий имеет смысл понижать (при помощи метода главных компонент[36], t-SNE[37], многомерного шкалирования[38], UMAP[39] и других).
Важной задачей является поиск дифференциально экспрессирующихся генов, то есть таких генов, которые статистически достоверно экспрессируются в разных группах клеток с разной силой. Такие гены часто характеризуют особенности рассматриваемых клеток и являются их маркерами[19]. Сначала для идентификации дифференциальной экспрессии использовали инструменты, созданные для работы с транскриптомикой тканей и органов; сейчас существует ряд методов (MAST[40], SCDE[41]), созданных для поиска дифференциальной экспрессии в данных секвенирования именно отдельных клеток.
Генная регуляторная сеть[англ.] — это совокупность молекулярных регуляторов, взаимодействующих друг с другом и другими веществами в клетке, регулируя уровни экспрессии[42]. Эти регуляторы играют центральную роль в морфогенезе частей тела и органов живых организмов и являются одним из центральных предметов изучения эволюционной биологии развития. Генную регуляторную сеть можно представить как граф, в котором вершины — это гены, а рёбра — это их ко-регуляция. Существуют методы, определяющие регуляторные сети при помощи поиска корреляций между экспрессиями генов, однако такой подход не позволяет детектировать нелинейные взаимодействия, поэтому сейчас возникли подходы, основанные на машинном обучении[43], вероятностных моделях[44], а также теории информации[45].
Клетки постоянно находятся в динамических процессах и реагируют на различные воздействия окружающей среды. Эти процессы сопровождаются и изменением профиля транскрипции клетки. Сама постановка эксперимента по секвенированию РНК одиночных клеток позволяет захватывать клетки в их разные стадии дифференцировки. Когда промежуточных стадий отсеквенировано достаточно много, можно отследить путь дифференцировки клетки в транскриптомном пространстве в течение «псевдовремени»[46]. Этот инструментарий помогает изучать механизмы онтогенеза в частности и формирования различий в общем. Сейчас существует множество различных подходов к реконструкции таких траекторий[47].
Отличия между отдельными клетками — фундаментальная характеристика популяций стволовых клеток, но эти отличия размываются при традиционном анализе ансамблей клеток. Секвенирование РНК одиночных клеток позволяет выявлять эти отличия и обнаруживать различные фенотипы стволовых клеток даже в пределах «однородной» популяции[5].
Так, были выявлены значительные различия между долгоживущими и короткоживущими гематопоэтическими стволовыми клетками мыши и определено, что основной вклад в эти различия вносят гены, отвечающие за клеточный цикл[48][49]. Секвенирование РНК одиночных клеток было применено для изучения лёгких мыши[50] и позволило найти ранее неизвестные маркеры, специфичные для различных подтипов клеток. Были также исследованы нейронные стволовые клетки[англ.] различных видов и их траектории развития[51]. В другом исследовании было проведено сравнение смен стадий нейронных стволовых клеток у здоровых мышей и мышей, перенёсших ишемию головного мозга[англ.][52].
Процесс эмбрионального развития можно рассматривать как переход от уровня отдельных клеток к уровню организма. Для изучения ранних стадий эмбрионального развития необходимы методы, способные работать с небольшим количеством доступных клеток. С помощью секвенирования РНК одиночных клеток удалось провести общий анализ раннего развития млекопитающих[53][54][55]. Были получены профили экспрессии генов для клеток человека и мыши периода предимплантационного развития[56][57], а также для первичных половых клеток человека в период перехода от стадии миграции к стадии гонад[58]. На клетках мышиных эмбрионов были изучены изменения экспрессии генов в период материнско-зиготического перехода[англ.][59][60] (процесс замены зародышем материнских мРНК на свои собственные). Было показано, что в эмбрионе мыши активация зиготического генома происходит на стадии 4 клеток, у человека — между четырёх- и восьмиклеточной стадиями[57]. Для нематоды Caenorhabditis elegans был составлен молекулярный атлас её эмбрионального развития с клеточным разрешением[61].
Изучение транскриптома всех клеток ткани даёт возможность узнать больше о иерархии клеточных линий с высокой точностью. Параллельные исследования транскриптомики отдельных клеток селезёнки без предварительного отбора клеток, основанного на заранее выбранных клеточных маркерах, в сочетании с иерархической кластеризацией позволило воссоздать общую структуру взаимоотношений клеточных линий селезёнки[62].
Ткань злокачественной опухоли обычно состоит из нескольких популяций клеток, отличающихся друг от друга функционально и фенотипически. Согласно современным представлениям, процесс развития опухоли может иметь в своей основе не только клональную эволюцию мутировавших клеток исходной ткани, но и иерархическую дифференцировку так называемых раковых стволовых клеток[англ.] (РСК). Согласно концепции РСК, любое злокачественное новообразование развивается из одной клетки-предшественника популяции РСК, а опухоль устроена иерархически, то есть разные типы раковых клеток обладают разной способностью к делению[63]. Секвенирование РНК одиночных клеток позволяет выявлять отдельные РСК, а также анализировать различные популяции клеток, находящиеся в одной опухоли[63].
Так, недавно были проанализированы транскриптомные профили сотен отдельных опухолевых клеток пяти пациентов с глиобластомой, что позволило выявить дифференциальную экспрессию генов, связанных с онкогенным сигнализированием, пролиферацией, комплементным и иммунным ответом и гипоксией. Также были обнаружены клетки с фенотипами, промежуточными между мезенхимальным и эпителиальным, что не соответствует классической модели эпителиально-мезенхимального перехода с двумя дискретными состояниями клеток. Кроме того, был получен набор генов «стволовости», и клетки также распределялись по непрерывной, а не дискретной шкале уровней экспрессии этих генов, что отражает сложный характер системы стволовых клеток в опухоли[64].
На данный момент существует несколько моделей метастазирования, таких как позднее распространение, ранний сев и самосев, однако до сих пор сложно объяснить ими метастазирование в большинстве видов рака у человека. Трудности заключаются как в упомянутой выше гетерогенности клеток в пределах самой опухоли, так и в сложности анализа ключевых агентов метастазирования — циркулирующих опухолевых клеток[англ.](ЦОК): эти клетки исключительно редко встречаются в крови (одна на миллион)[65].
Тем не менее, в недавнем исследовании с помощью секвенирования РНК одиночных клеток удалось выявить три различные генетические подписи в ЦОК, ассоциированные с метастазированием, у пациентов с меланомой[66] . В другом исследовании изучалось распространение отдельных циркулирующих опухолевых клеток и их кластеров в метастатическом раке молочной железы человека, в том числе с использованием мышиных моделей. Было показано, что кластеры имеют повышенный метастатический потенциал по сравнению с отдельными ЦОК, а также что плакоглобин[англ.] регулирует образование таких кластеров[67]. Исследование отдельных ЦОК метастатического рака поджелудочной железы показало, что эти клетки экспрессируют особые собственные белки внеклеточного матрикса[68]. Подобные результаты позволяют лучше понять функционирование РСК и генетические взаимосвязи между клетками исходной опухоли и метастазов.
Отдельная тема онкологических исследований — приобретение клетками опухоли устойчивости к химиотерапии. Этот процесс также до сих пор плохо изучен для большинства видов рака у человека. В одном из последних исследований были проанализированы транскриптомные профили нескольких сотен отдельных клеток клеточной линии аденокарциномы лёгкого и выявлены новые сигнальные пути, ассоциированные с устойчивостью к определённым компонентам химиотерапии[69]. Исследование ЦОК рака предстательной железы выявило активацию неканонического сигнального пути Wnt, способствующую устойчивости к лекарствам на основе антиандрогена[70].
Большинство генов эукариот подвержены альтернативному сплайсингу — явлению, позволяющему комбинировать экзоны гена в разных комбинациях, вследствие чего с одного гена появляется возможность производить различные транскрипты и, следовательно, различные белки с потенциально разными функциями. Несмотря на то, что некоторые методы секвенирования РНК одиночных клеток (например, SMART-Seq) имеют близкое к полному покрытие[англ.] транскриптома, анализ альтернативных изоформ затруднён из-за перечисленных ранее ограничений методов. Например, транскрипты, присутствующие в малом количестве, могут быть не обнаружены из-за неотличимости от биологического шума. Однако, уже разрабатываются модели, учитывающие распределения транскриптов в объединённом множестве отдельно секвенированных клеток[71][72]. Они позволят точнее предсказывать число различных изоформ в отдельных клетках[71].
Секвенирование РНК одиночных клеток может использоваться для эффективного анализа иммунного ответа клеток одной популяции, находящихся в разных условиях. Так, в недавнем исследовании изучалась динамика взаимодействия макрофагов сальмонеллы с клетками-хозяевами c различными модификациями липополисахаридов (основного компонента клеточной стенки)[73]. В другом исследовании изучалась реакция на липополисахариды дендритных клеток костного мозга мышей[74].
{{cite journal}}