ارزیابی ژنومی روش ماشین بردار پشتیبانی و روش‌های رایج پیش‌بینی ژنومی در بروز متفاوت فنوتیپ آستانه‌ای مطالعه شبیه‌سازی

نوع مقاله: مقاله پژوهشی

نویسنده

عضو هیات علمی تمام وقت دانشگاه آزاد اسلامی واحد آستارا

چکیده

سابقه و هدف: بسیاری از صفات برجسته در دام‌های اهلی شامل: مقاومت به بیمارها و سختی زایش مشمول یک توزیع طبقه ‌بندی از فنوتیپ هستند. این صفات به‌ علت اهمیت در آسایش حیوان و گرایشات انسانی به تولیدات با کیفیت بالا و سالم از اهمیت ویژه‌ای در اصلاح دام برخوردار می‌باشند. بنابراین شناسایی و تشخیص واریانت ‌های ژنتیکی موثر بر صفات آستانه‌‌ای اعم از مقاومت به بیماری یکی از اهداف اصلی در ژنتیک حیوانی است. در این رأستا گزینش ژنومی می‌تواند نقش مهمی در افزایش پیشرفت ژنتیکی صفات آستانه‌ای ایفا کند. هدف از تحقیق حاضر، ارزیابی سطح زیر منحنی مشخصه عملکرد (AUROC) ژنومی روش‌های ماشین بردار پشتیبانی (SVM)، GBLUP و بیز لاسو (LASSO) برای نرخ مختلف توزیع فنوتیپ دودویی در جمعیت مرجع بود.
مواد و روش‌ها: یک جمعیت پایه 1000 رأسی برای 1000 نسل با استفاده از نرم افزار QMSimشبیه‌‌سازی شد. جمعیت‌های ژنومی برای سطوح مختلف وراثت‌پذیری (05/0 و 2/0)، عدم تعادل پیوستگی (221/0 و 435/0) و تعداد متفاوت جایگاه صفات کمی (100 و 1000) بر روی 29 کروموزوم شبیه‌سازی شدند. جهت ایجاد نسبت‌های مختلف فنوتیپ آستانه‌ای دودویی، فنوتیپ افراد جمعیت مرجع وابسته به این که باقی‌مانده آنها کمتر از میانگین باقی‌مانده (e ̅ : رویکرد اول)، e ̅〖-1SD〗_e (رویکرد دوم) یا e ̅〖+1SD〗_e باشد کد یک (فنوتیپ نامطلوب) و سایر حیوانات کد صفر (فنوتیپ مطلوب) اختصاص داده شدند. جهت آنالیز داده‌های شبیه‌سازی شده سه مدل آماری شامل: SVM، بیز لاسو و GBLUP به کار گرفته شد.
نتایج: بهترین نرخ آستانه جمعیت مرجع هنگامی بود که فنوتیپ نامطلوب این مجموعه نسبتی نزدیک به شرایط واقعی داشت (1〖SD〗_e-e ̅) و منجر به ایجاد بیشترین سطح زیر منحنی مشخصه عملکرد در روش‌های ماشین بردار پشتیبانی، بیز لاسو و GBLUP شد. بیشترین (813/0) و کمترین (521/0) میزان سطح زیر منحنی مشخصه عملکرد برای روش ماشین بردار پشتیبانی مشاهده شد. به طور کلی وراثت پذیری صفت عاملی مؤثر بر سطح زیر منحنی مشخصه عملکرد ژنومی روش‌های آماری ماشین بردار پشتیبانی، بیز لاسو و GBLUP بود. به طوری که با افزایش وراثت پذیری سطح زیر منحنی مشخصه عملکرد ژنومی در هر سه روش آماری افزایش یافت. میانگین LDبرای جمعیت‌های LLD و HLD در فاصله 05/0 سانتی مورگان به ترتیب 221/0 و 435/0 بود و سطح زیر منحنی مشخصه عملکرد ناشی از روش‌های GBLUP، بیز LASSO و ماشین بردار پشتیبانی با افزایش سطح عدم تعادل پیوستگی افزایش یافت. نتایج این تحقیق نشان داد که سطح بالای LD میان QTLها و نشانگرها، باعث افزایش احتمال نمونه‌گیری نشانگرهای مجاور در روش‌های باز نمونه‌گیری می‌شود، که این امر عملکرد مثبت ماشین بردار پشتیبانی را به همراه داشت.با وجود سطح زیر منحنی مشخصه عملکرد ژنومی بالاتر بیز لاسو و GBLUP در جمعیت‌های مختلف، هنگامی که صفات گسسته توسط تعداد زیادی QTL کنترل شدند، روش ماشین بردار پشتیبانی عملکرد بهتری داشت.
نتیجه‌گیری: علی‌رغم نقش مهم نرخ توزیع فنوتیپ دودویی در جمعیت مرجع، بهترین پیش‌بینی سطح زیر منحنی مشخصه عملکرد ژنومی صفات گسسته دودویی روش ماشین بردار پشتیبانی به ساختار ژنتیکی جمعیت مورد آنالیز و پارامتر جریمه وابسته بود.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Genomic evaluation of support vector machine and common genomic prediction methods in different prevalence of threshold phenotype- A simulation study

چکیده [English]

Background and objectives: Many prominent traits in livestock including disease resistance and dystocia, present a classification distribution of phenotypes. These traits are important in animal breeding due to importance of animal welfare and human tendency for healthy and high quality products. Therefore, identifying and characterizing the genetic variants that impact threshold traits, ranging from disease susceptibility, is one of the central objectives of animal genetics. In this regard, genomic selection can have an important role in increasing the genetic progress of the threshold traits. The objective of current study was genomic evaluation of area under receiver operating characteristic curve (AUROC) of support vector machine (SVM), GBLUP and Bayes LASSO methods for different rates of binary phenotype distribution in training set.
Materials and methods: A population of 1000 animals genotyped for 10,000 markers was simulated using QMSim software. Genomic population were simulated to reflect variations in heritability (0.05 and 0.2), number of QTL (100 and 1000) and linkage disequilibrium (low and high) for 29 chromosomes. In order to create different rates of discrete phenotype, the animal’s phenotype of training set was coded as 1 (inappropriate phenotype) depending on whether their phenotype residuals was less than the average of residuals (e ̅), e ̅- 1〖SD〗_eor e ̅+ 1〖SD〗_efor the first, second and third approaches, respectively, and other individuals was defined as code 0 (appropriate phenotype). Three statistical models were implemented to analyze the simulated data including SVM, GBLUP and Bayes LASSO methods.
Results: Optimal training sets were characterized by inappropriate phenotype rate that were similar to the population real, leading to the highest AUROC in SVM, GBLUP and Bayes LASSO methods, in which concluded for e ̅- 1〖SD〗_e threshold point to the training set. The highest (0.813)and lowest(0.521) AUROC were observed for SVM method.Generally, heritability of trait was a factor affecting on genomic AUROC of SVM, GBLUP and Bayes LASSO methods; so that we recognized an increase in genomic AUROC with increase in heritability in all three statistical methods. Average r2 in the low and high LD scenarios was 0.221 and 0.435 at distances of 0.05 cM and the results showed an increase in genomic AUROC using GBLUP, Bayes LASOO and SVM methods with increasing in linkage disequilibrium. The result of current study showed that high level of LD between SNP and QTLs increased the probability of adjacent markers sampling for re-sampling methods. Therefore, this resulted in a positive performance of SVM. Despite of the higher AUROC of GBLUP and Bayes LASSO methods at different scenarios, SVM method showed a better performance when discrete traits were controlled by a large number of QTLs.
Conclusions: Despite the important role of different rates of binary phenotype distribution in training set, SVM method to predict genomic AUROC of discrete traits depends on genetic basis of the population analyzed and cost parameter.

کلیدواژه‌ها [English]

  • Bayes LASSO
  • Area under receiver operating characteristic
  • Genomic accuracy
  • Machine learning