banner

Новости

Apr 09, 2024

Прямой вывод и контроль генетической структуры популяции на основе данных секвенирования РНК

Биология связи, том 6, Номер статьи: 804 (2023) Цитировать эту статью

2275 Доступов

21 Альтметрика

Подробности о метриках

Данные RNAseq могут использоваться для вывода о генетических вариантах, однако их использование для оценки генетической структуры популяции остается недостаточно изученным. Здесь мы создаем свободно доступный вычислительный инструмент (RGStraP) для оценки основных генетических компонентов на основе RNAseq (RG-PC) и оценки того, можно ли использовать RG-PC для контроля структуры популяции в анализе экспрессии генов. Используя образцы цельной крови из недостаточно изученных популяций Непала и исследование Geuvadis, мы показываем, что RG-PC имели сопоставимые результаты с парными генотипами на основе массивов, с высокой конкордантностью генотипов и высокими корреляциями основных генетических компонентов, охватывая субпопуляции в наборе данных. При анализе дифференциальной экспрессии генов мы обнаружили, что включение RG-PC в качестве ковариат снижает инфляцию тестовой статистики. Наша статья демонстрирует, что генетическую структуру популяции можно напрямую выводить и контролировать с помощью данных RNAseq, что способствует улучшению ретроспективного и будущего анализа транскриптомных данных.

Секвенирование РНК (RNAseq) произвело революцию в нашем понимании транскриптома, предложив как точный метод количественного определения экспрессии генов, так и идентификацию специфических альтернативных сайтов сплайсинга и транскриптов, специфичных для конкретного типа клеток1,2. Его применение распространяется на клинические условия, что позволяет нам дополнительно выяснять сложные заболевания и идентифицировать перспективные биомаркеры как инфекционных, так и неинфекционных заболеваний3.

Тем не менее, исследования с использованием RNAseq редко учитывают генетические вариации зародышевой линии, также содержащиеся в наборах прочтений RNAseq. Исследования, которые не используют эту информацию, могут быть подвержены предвзятости и искажениям, таким как расслоение населения, которое может повлиять на транскрипцию между группами4,5,6,7. Чтобы решить эту проблему, исследователи обычно полагаются на данные полногеномного массива или данные полногеномной последовательности (WGS), сопоставленные для одних и тех же людей с RNAseq. Это позволяет исследователям применять подходы к контролю за стратификацией населения, такие как расчет главных генетических компонентов (PC) и их использование в качестве ковариат в последующих моделях статистических ассоциаций8,9,10. Генетические PC представляют собой скрытую генетическую структуру внутри популяций и между ними, что вносит помехи из-за различий в социальной среде11 или (в случае дифференциальной экспрессии генов) из-за гетерогенности локусов количественных признаков между группами. Однако необходимость в полногеномном массиве или WGS для сопоставления с данными RNAseq потенциально не нужна и действительно может быть невозможна в условиях ограниченности ресурсов, таких как страны с низким и низким средним уровнем дохода (LMIC) с очень разнообразным и недостаточно изученным населением.

Было продемонстрировано, что вызовы генотипов могут быть сделаны на основе данных RNAseq с использованием таких инструментов, как GATK12,13,14. Подход использования данных RNAseq для определения генетической структуры применялся в животноводстве и сельском хозяйстве15,16,17,18, например, для изучения структуры популяции, истории и адаптации одомашненного ячменя (Hordeum vulgare)17. Хотя подтверждение концепции и последующая применимость генотипов на основе RNAseq были продемонстрированы, например, для тканеспецифичных вариантов19, их применение для определения структуры человеческой популяции многообещающе, но остается относительно недостаточно изученным20.

Цели этого исследования состоят в том, чтобы (i) продемонстрировать, что генотипы на основе RNAseq могут отражать генетическую популяционную структуру разнообразной, но недостаточно изученной популяции человека, и (ii) показать, что использование основных генетических компонентов на основе RNAseq (RG-PC) может эффективно контролировать структуру населения при анализе ассоциаций. Здесь мы набрали и получили данные РНКсек цельной крови 376 человек из Непала, страны, не имеющей выхода к морю, расположенной в Гималаях, с населением более 125 этнических групп21,22. Мы разработали конвейер анализа RNAseq (RGStraP) для расчета основных генетических компонентов непосредственно на основе данных RNAseq, а затем проверили эффективность RGStraP с помощью полногеномных данных генотипов тех же непальских индивидуумов. Мы также протестировали конвейер на образцах консорциума Geuvadis, который содержит 465 образцов с парными данными генотип-РНКсек из пяти из 1000 популяций геномов23. Наконец, мы показываем обоснованность корректировки RG-PC в ассоциативном анализе для выявления экспрессии генов, специфичных для пола. В целом, наше исследование показывает, что структуру человеческой популяции, особенно из малоизученной, но разнообразной популяции, можно эффективно фиксировать и контролировать непосредственно с использованием данных RNAseq.

0.05 and a pairwise LD threshold of r2 < 0.05 struck the optimal balance of offering the most variants for analysis and the highest correlation between RNAseq- and array-based genetic PCs (Supplementary Fig. 2). From the total of 4,921,472 genetic variants, 152,072 SNPs passed the MAF filter (MAF > 0.05), and 36,440 SNPs further passed the LD filter (LD < 0.05). Genetic variants from paired genomic data are available for 299 out of the initial 376 individuals; a total of 552,758 SNPs were identified and passed initial quality control filters (Methods), of which 315,615 SNPs and 29,943 SNPs then passed MAF > 0.05 and further LD < 0.05 filters, respectively. Out of the 299 samples with both RNAseq and paired array genotypes, 280 of them passed quality control and were used for further downstream analyses./p>0.90 concordances. b Canonical correlation analysis between ten RG-PCs and ten array PCs showed significant (Wilks’ Lambda, p-value < 0.05) correlations for the first 7 canonical variates (CVs) between the two sets. The first 3 CVs from 10 RG-PCs strongly captured the genetic information from array PCs (Rc1 = 0.946, Rc2 = 0.864, Rc3 = 0.853), in which the cumulative proportion of shared variance between the two sets reached up to 0.956 from just the 3 CVs./p> 0.05) variants, of which 4887 passed the LD filter (LD < 0.05) and were used to calculate RG-PCs. We also calculated genetic PCs from the 29,943 paired genotype array SNPs as a measure of true genetic structure to be compared against RG-PCs. To assess the consistency of inferred population structure between the two approaches, we calculated Spearman correlation between genetic PCs from paired genotype array SNPs and the RG-PCs. PC1 of both RNAseq and array sets correlated strongly with each other (|ρ| = 0.93), followed by RG-PC3 and PC2 from array data (|ρ| = 0.61) and RG-PC2 and PC3 from array data (|ρ| = 0.6) (Supplementary Fig. 4). As expected, the genetic PCs of one approach do not exclusively correspond to only one PC of the other approach, as can be seen with significant correlations of a single array PC with several RG-PCs. To investigate this further, we performed canonical correlation analysis between the top 10 array PCs and the RG-PCs and found that the RG-PCs fully explained the variance of the top 10 array PCs (Fig. 2b)./p> 0.05) to account for differences in sequencing depths. Only autosomal genes were included in the analyses./p> 1) in the set without considering genetic PCs, and the number decreased to 3 when including either array or RG-PCs. This demonstrates how RG-PCs control for population stratification in downstream RNAseq analysis similar to the genetic PCs calculated from paired array genotypes, reducing significant associations that reflected variations in population structure instead of the biology of interest./p>38.5 °C temperature or history of fever for >72 h. From the total blood sample volumes (≤16 mL for patients >16 years of age, ≤7 mL for ≤16 years), aliquots were subjected to (i) bacteriological culture to identify presence of Salmonella enterica serovars Typhi (S. Typhi); (ii) storage in PAXgene tubes for later RNA extraction; and (iii) DNA extraction and subsequent human genotyping. Blood was also collected from healthy participants in the serosurvey (≤8 mL for patients >16 years of age, ≤7 mL for ≤16 years), from which aliquots were also subjected to (i) serological analysis; (ii) PAXgene storage for RNA analysis; and (iii) DNA extraction./p> 0.05 in at least 20% of the samples from the analyses. Differential gene expression (DGE) analyses was done contrasting males and females using edgeR43,44, taking into account age, disease group, and sequencing batches; we ran the analyses with and without populations structure PCs as an additional covariate to then compare how genetic structure may stratify gene expression. From both results, we also plotted the Q-Q plot and calculated the systematic inflation (m), which is the ratio of the median of the empirically observed chi-squared test statistics (in our case, results of DGE analysis with RG-PCs) to the expected median chi-squared test statistics (results of DGE analysis without RG-PCs), to quantify the stratification due to population structure in gene expression data./p>

ДЕЛИТЬСЯ