##plugins.themes.bootstrap3.article.main##

یوسف نادری

چکیده

تنظیم اولیه و بهینه‌سازی پارامترهای ورودی روش‌های یادگیری ماشین گامی اساسی جهت دستیابی به حداکثر صحت پیش‌بینی ژنومی می‌باشد.  در این تحقیق، جمعیت‌های ژنومی برای سطوح مختلف وراثت‌پذیری (05/0 و 2/0)، عدم تعادل پیوستگی (پایین و بالا) و تعداد متفاوت جایگاه صفات کمی (200 و 600) بر روی 29 کروموزوم شبیه‌سازی شد. جهت ایجاد نسبت‌های مختلف فنوتیپ آستانه‌ای دودویی، فنوتیپ افراد جمعیت مرجع وابسته به اینکه باقی‌مانده آنها کمتر از ē-1SDe (رویکرد اول) یا 50 درصد افراد جمعیت (رویکرد دوم) باشد کد یک (فنوتیپ نامطلوب) و سایر حیوانات کد صفر (فنوتیپ مطلوب) اختصاص داده شد. برای بهینه‌سازی پارامترهای ورودی مدل، سطوح مختلف تعداد SNP نمونه‌گیری‌شده (100، 1000 و 2000=mtry)، تعداد بوت استراپ (500، 1000 و 2000=ntree) و حداقل اندازه گره پایانی (1 و 5=node size) برای جنگل تصادفی و سطوح مختلف تعداد درخت (100، 1000 و 2000=ntree)، عمق درخت (1، 5 و 10=tc) و نرخ یادگیری (1/0 و 05/0=lc) برای Boosting در نظر گرفته شد. کمترین میزان خطای خارج از کیسه برای mtry برابر با 2000، ntree برابر با 1000 و node size برابر با 1 و کمترین خطای اعتبارسنجی در روش Boosting برای ntree، tc و lr به ترتیب 1000، 10 و 05/0 مشاهده شد. صحت پیش‌بینی ژنومی روش‌های جنگل تصادفی و Boosting با کاهش فنوتیپ نامطلوب (رویکرد اول) افزایش یافت. بطور کلی در تمام سناریوها روش Boosting عملکرد بهتری نسبت به روش جنگل تصادفی داشت که دلیل این امر را می‌توان لحاظ کردن اثرات متقابل بین نشانگرها، خود ترمیمی و قدرت بالای این روش در کاهش خطای مدل دانست.

جزئیات مقاله

کلمات کلیدی

اعتبارسنجی, صفات آستانه‌ای, عدم تعادل پیوستگی, وراثت‌پذیری, یادگیری ماشین

مراجع
1. Abdollahi-Arpanahi, R., A. Pakdel, A. Nejati-Javaremi, and M. M. Shahrbabak. 2013. Comparison of genomic evaluation methods in complex traits with different genetic architecture. Journal of Animal Production, 15:65-77.
2. Andonov, S., D. Lourenco, B. Fragomeni, Y. Masuda, I. Pocrnic, S. Tsuruta, and I. Misztal. 2017. Accuracy of breeding values in small genotyped populations using different sources of external information—A simulation study. Journal of Dairy Science, 100(1):395-401.
3. Bo, Z., J.-J. Zhang, N. Hong, G. Long, G. Peng, L.-Y. Xu, C. Yan, L.-P. Zhang, H.-J. Gao, and G. Xue. 2017. Effects of marker density and minor allele frequency on genomic prediction for growth traits in Chinese Simmental beef cattle. Journal of Integrative Agriculture, 16(4):911-920.
4. Boulesteix, A. L., S. Janitza, J. Kruppa, and I. R. König. 2012. Overview of random forest methodology and practical guidance with emphasis on computational biology and bioinformatics. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2(6):493-507.
5. Breiman, L. 2001. Random forests. Machine Learning, 45(1):5-32.
6. Daetwyler, H., J. Hickey, J. Henshall, S. Dominik, B. Gredler, J. Van der Werf, and B. Hayes. 2010. Accuracy of estimated genomic breeding values for wool and meat traits in a multi-breed sheep population. Animal Production Science, 50(12):1004-1010.
7. Daetwyler, H. D., M. P. Calus, R. Pong-Wong, G. de los Campos, and J. M. Hickey. 2013. Genomic prediction in animals and plants: simulation of data, validation, reporting, andbenchmarking. Genetics, 193(2):347-365.
8. Egger-Danner, C., J. Cole, J. Pryce, N. Gengler, B. Heringstad, A. Bradley, and K. F. Stock. 2015. Invited review: overview of new traits and phenotyping strategies in dairy cattle with a focus on functional traits. Animal, 9(2):191-207.
9. Garrick, D. 2017. The role of genomics in pig improvement. Animal Production Science, 57(12):2360-2365.
10. Ghafouri-Kesbi, F., G. Rahimi-Mianji, M. Honarvar, and A. Nejati-Javaremi. 2016. Tuning and application of random forest algorithm in genomic evaluation. Research on Animal Production, 7(13):178-185 (In Persian).
11. Ghafouri-Kesbi, F., G. Rahimi-Mianji, M. Honarvar, and A. Nejati-Javaremi. 2017. Predictive ability of Random Forests, Boosting, Support Vector Machines and Genomic BestLinear Unbiased Prediction in different scenarios of genomic evaluation. Animal Production Science, 57(2):229-236.
12. Goddard, M. 2009. Genomic selection: prediction of accuracy and maximisation of long term response. Genetica, 136(2):245-257.
13. Goldstein, B.A., A. E. Hubbard, A. Cutler, and L. F. Barcellos. 2010. An application of Random Forests to a genome-wide association dataset: methodological considerations & new findings. BMC Genetics, 11(1):49.
14. González-Recio, O., and S. Forni. 2011. Genome-wide prediction of discrete traits using Bayesian regressions and machine learning. Genetics Selection Evolution, 43(1):7.
15. Gorgani Firozjah, N., H. Atashi, M. Dadpasand, and M. Zamiri. 2014. Effect of marker density and trait heritability on the accuracy of genomic prediction over three generations. Journal of Livestock Science and Technologies, 2(2):53-58.
16. Habier, D., R. L. Fernando, and J. C. Dekkers. 2009. Genomic selection using low-density marker panels. Genetics, 182(1):343-353.
17. Hayes, B., and M. E. Goddard.2001. The distribution of the effects of genes affecting quantitative traits in livestock. Genetics Selection Evolution, 33(3):209.
18. Hill, W., and A. Robertson. 1968. Linkage disequilibrium in finite populations. TAG Theoretical and Applied Genetics, 38(6): 226-231.
19. Jónás, D., V. Ducrocq, and P. Croiseau. 2017. The combined use of linkage disequilibrium–based haploblocks and allele frequency–based haplotype selection methods enhances genomic evaluation accuracy in dairy cattle. Journal of Dairy Science, 10(4): 2905-2908.
20. Ke, X., S. Hunt, W. Tapper, R. Lawrence, G. Stavrides, J. Ghori, P. Whittaker, A. Collins, A. P. Morris, and D. Bentley. 2004. The impact of SNP density on fine-scale patterns of linkage disequilibrium. Human Molecular Genetics, 13(6):577-588.
21. Mc Hugh, N., T. Meuwissen, A. Cromie, and A. Sonesson. 2011. Use of female information in dairy cattle genomic breeding programs. Journal of Dairy Science, 94(8):4109-4118.
22. Meuwissen, T., B. Hayes, and M. Goddard. 2001. Prediction of total genetic value using genome-wide dense marker maps. Genetics, 157(4):1819-1829.
23. Muir, W. 2007. Comparison of genomic and traditional BLUP‐estimated breeding value accuracy and selection response under alternative trait and genomic parameters. Journal of Animal Breeding and Genetics, 124(6):342-355.
24. Naderi, S., M. Bohlouli, T. Yin, and S. König. 2018. Genomic breeding values, SNP effects and gene identification for disease traits in cow training sets. Animal Genetics, 49(3):178-192.
25. Naderi, S., T. Yin, and S. König. 2016. Random forest estimation of genomic breeding values for diseasesusceptibility over different disease incidences and genomic architectures in simulated cow calibration groups. Journal of Dairy Science, 99(9):7261-7273.
26. Naderi, Y. 2018. Evaluation ofgenomic prediction accuracy in different genomic architectures of quantitative and threshold traits with the imputation of simulated genomic data using random forest method. Research on Animal Production, 9(20):129-138 (In Persian).
27. Naderi, Y. 2018. Impact of genotype imputation and different genomic architectures on the performance of random forest and threshold Bayes A methods for genomic prediction. Iranian Journal of Animal Science, 49(1):145-157 (In Persian).
28. Naderi, Y. 2018. Investigation of genotype× environment interaction with considering imputation in simulated genomic data via different animal models. Animal Production, 20(3):375-387 (In Persian).
29. Neves, H. H., R. Carvalheiro, and S. A. Queiroz. 2012. A comparison of statistical methods for genomic selection in a mice population. BMC Genetics, 13(1):100.
30. Pimentel, E. C., M. Wensch-Dorendorf, S. König, and H. H. Swalve. 2013. Enlarging a training set for genomic selection by imputation of un-genotyped animals in populations of varying genetic architecture. Genetics Selection Evolution, 45(1):12.
31. Purcell, S., B. Neale, K. Todd-Brown, L. Thomas, M. A. Ferreira, D. Bender, J. Maller, P. Sklar, P. I. De Bakker, and M. J. Daly. 2007. PLINK: a tool set for whole-genome association and population-based linkage analyses. The American Journal of Human Genetics, 81(3):559-575.
32. Ridgeway, G. 2017. Package ‘gbm’, the R project for statistical computing.
33. Sadeghi, S., S. A. Rafat, and S. Alijani. 2018. Evaluation of imputed genomic data in discrete traits using Random forest and Bayesian threshold methods. Acta Scientiarum. Animal Sciences, 40: e39007.
34. Sargolzaei, M., and F. S. Schenkel. 2009. QMSim: a large-scale genome simulator for livestock. Bioinformatics, 25(5):680-681.
35. Sun, X., R. Fernando, and J. Dekkers. 2016. Contributions of linkage disequilibrium and co-segregation information to the accuracy of genomic prediction. Genetics Selection Evolution, 48(1):77.
36. Wang, C., X. Ding, J. Wang, J. Liu, W. Fu, Z. Zhang, Z. Yin, and Q. Zhang. 2013. Bayesian methods for estimating GEBVs of threshold traits. Heredity, 110(3):213-219.
37. Wang, C., X. Li, R. Qian, G. Su, Q. Zhang, and X. Ding. 2017. Bayesian methods for jointly estimating genomic breeding values of one continuous and one threshold trait. PloS One, 12(4):e0175448.
38. Wang, Q., Y. Yu, J. Yuan, X. Zhang, H. Huang, F. Li, and J. Xiang. 2017. Effects of marker density and population structure on the genomic prediction accuracy for growth trait in Pacific white shrimp Litopenaeus vannamei. BMC Genetics, 18(1):45.
39. Wientjes, Y. C., M. P. Calus, M. E. Goddard, and B. J. Hayes. 2015. Impact of QTL properties on the accuracy of multi-breed genomic prediction. Genetics Selection Evolution, 47(1):42.
40. Yáñez, J. M., R. D. Houston, and S. Newman. 2014. Genetics and genomics of disease resistance in salmonid species. Frontiers in Genetics, 5:415.
41. Yang, P., Y. Hwa Yang, B. B Zhou, and A. Y Zomaya. 2010. A review of ensemble methods in bioinformatics. Current Bioinformatics, 5(4):296-308.
42. Yin, T., E. Pimentel, U. K. v. Borstel, and S. König. 2014. Strategy for the simulation and analysis of longitudinal phenotypic and genomic data in the context of a temperature humidity-dependent covariate. Journal of Dairy Science, 97(4):2444-2454.
43. Zhang, Z., Q. Zhang, and X. Ding. 2011. Advances in genomic selection in domestic animals. Chinese Science Bulletin, 56(26): 2655-2663.
ارجاع به مقاله
نادریی. (2019). بهینه‌سازی پارامترهای روش‌های یادگیری ماشین بر ارزیابی ژنومی صفات گسسته دودویی با در نظر گرفتن ساختار جمعیت و توزیع‌های متفاوت فنوتیپ در جمعیت مرجع. پژوهشهای علوم دامی ایران, 12(1), 113-124. https://doi.org/10.22067/ijasr.v12i1.78810
نوع مقاله
علمی پژوهشی- ژنتیک و اصلاح دام و طیور