@article { author = {دهقان زاده, هوشنگ and میرحسینی, سید ضیاء الدین and قادری زفره ای, مصطفی and توکلی, حسن and اسماعیل خانیان, سعید}, title = {Possibility of application of relative entropy in clustering of some milk governing genes in dairy cattle}, journal = {Journal of Ruminant Research}, volume = {5}, number = {3}, pages = {69-86}, year = {2017}, publisher = {Gorgan University of Agricultural Sciences and Natural Resources}, issn = {2345-4253}, eissn = {2345-4261}, doi = {10.22069/ejrr.2017.13707.1570}, abstract = {Abstract Background and objectives: Apart from the fact that milk plays an important role in human nutrition, increasing milk production or changing its composition has attracted the attention of animal breeders, therefore, it is crucial to study and evaluate the genes underpinning milk production and its composition. Information theory is a branch of mathematics that overlaps with communications, biology, and medical engineering. Entropy is a measure of uncertainty in the set of information. In his famous article in 1948, Shannon introduced this concept and used its results in a number of basic issues of coding and data transferring theory, which forms the basis of new information theory. Information theory is used in genetic and bioinformatics analyses and can be used for many analyses related to the structures and sequences. Bio-computational grouping of genes facilitates genetic analysis, sequencing and structural-based analyses Materials and methods: DNA sequence of 30 genes involved with milk protein production were extracted ad hoc from NCBI genome database and stored in FASTA format. In this study, for each gene and its exons sets, the entropy was calculated in orders one to four. In this way, the Markov chain up to order 3 was used. Based on the relative entropy of genes and exons, kullback-Leibler divergence was calculated. After obtaining the kullback-Leibler distance for genes and exons sets, the results were entered as input into 7 clustering algorithms: Single, Complete, Average, Weighted, Centroid, Median and K-Means. In order to aggregate the results of clustering, AdaBoost algorithm was used. Finally, the results of AdaBoost algorithm were investigated by GeneMANIA prediction server to explore the results from gene annotation point of view. All calculations were performed using the MATLAB Engineering Software (2015) Results: By investigating the results of genes metabolic pathways based on their gene annotations, it was turned out that proposed clustering method, yielded correct, logical and fast results. This method at the same that that hadn't had the disadvantages of aligning allowed the genes with actual length and content to be considered and also didn't require high memory for large-length sequences. Conclusion: It can be concluded that the performance of the proposed method could be used with other competitive gene clustering methods to group biologically relevant set of genes Also, the proposed method can be seen as a predictive method for those genes bearing up weak genomic annotations. Key words: Information theory, Dairy cattle, Kullback-Leibler divergence, Gene clustering}, keywords = {Information theory,Dairy Cattle,Kullback-Leibler divergence,Gene clustering}, title_fa = {امکان سنجی آنتروپی نسبی در خوشه بندی تعدادی از ژن‌های موثر بر تولید شیر در گاو شیری}, abstract_fa = {چکیده سابقه و هدف: جدا از اینکه شیر نقش مهمی در تغذیه انسان ایفا می‌نماید، افزایش تولید شیر و یا تغییر در میزان ترکیبات آن بیشترین توجه اصلاحگران گاو شیری را به خود اختصاص داده است به همین علت پژوهش و بررسی ژنهایی که روی تولید و ترکیب شیر نقش موثری دارند، بسیار با اهمیت است. نظریه‌ اطلاعات، شاخه‌ای از ریاضیات است که با مهندسی ارتباطات، زیست شناسی و پزشکی همپوشانی دارد. آنتروپی اندازه‌ای از عدم قطعیت در مجموعه اطلاعات است. شانون در مقاله مشهور خود در سال 1948 این مفهوم را معرفی کرده و نتایج آن را در تعدادی از مسائل پایه‌ای نظریه‌ کدگذاری و انتقال داده‌ها مورد استفاده قرار داد که پایه‌ نظریه‌ اطلاعات جدید را تشکیل می‌دهد. از تئوری اطلاعات در تجزیه و تحلیل های ژنتیکی و بیوانفورماتیکی استفاده گردیده و میتوان از آن جهت بسیاری از آنالیز‌های مربوط به ساختارها و توالی‌های زیستی استفاده نمود. مواد و روشها‌: توالی 30DNA ژن مربوط به تولید پروتئین شیر به صورت جداگانه از پایگاه داده ژنوم NCBI استخراج و در فرمت FASTA ذخیره شد. در این پژوهش برای هر مجموعه ژن و اگزون‌های آن فراسنجه آنتروپی در مراتب یک الی چهار محاسبه شد. در این راستا از زنجیره مارکف تا رتبه 3 استفاده گردید. بر اساس آنتروپی نسبی حاصله برای ژن‌ها و اگزون‌ها، واگرایی کولبک – لیبلر برای ژن‌ها و اگزون‌ها تعریف و محاسبه گردید. سپس ماتریس واگرایی کولبک – لیبلر ژنها و اگزونها به عنوان ورودی 7 روش معمول خوشه بندی Single ، Complete،Average ، Weighted،Centroid ، MedianوK-Means در نظر گرفته شد. برای تجمیع نتایج حاصل از خوشه بندی‌های مختلف، از الگوریتم AdaBoost استفاده گردید. در پایــان جهت تایید نتایج حاصل از AdaBoost و پیش بینی عملکرد ژن‌ها و ارتباط بین آنها، با مراجعه به GeneMANIA prediction server نتایج بر اساس حاشیه نویسی ژنومی آن‌ها مورد بررسی و مقایسه قرار گرفت. همه محاسبات با استفاده از نرم افزار مهندسی متلب نسخه 2015 انجام گردید. یافته ها‌: با بررسی نتایج در GeneMANIA prediction server ، ارتباط متقابل و مسیرهای متابولیکی مشترک ژن‌ها براساس حاشیه نویسی ژنومی آن‌ها، روش خوشه بندی ارایه شده را روشی صحیح، منطقی و در عین حال سریع نشان داد. این روش علاوه بر اینکه زمانبر بودن حاصل از همتراز نمودن ژن‌ها را نداشته، محتوا و اندازه واقعی ژن‌ها را مورد بررسی قرار داده و نیاز به حافظه بالا برای پردازش فایل‌های همردیف توالی‌های با طول بزرگ را ندارد. نتیجه گیری: نتـایج نشـان داد که روش پیشنـهادی جهت خوشه بنـدی مجموعه‌ای از ژن ها به لحاظ زیستی بسیار جـذاب به نظر می رسد. اعتقاد بر این است که روش ارائه شده می‌تواند با سایر روش‌ها از جهت خوشه بندی مجموعه‌ای از ژنها رقابت نماید. روش یاد شده می‌تواند به عنوان یک روش پیش بینی عملکرد زیستی ژن‌هایی با داده‌های حاشیه نویسی ژنومی ضعیف نیز در نظر گرفته شود.}, keywords_fa = {تئوری اطلاعات,واگرایی کولبک- لیبلر,گاو شیری,خوشه بندی ژن}, url = {https://ejrr.gau.ac.ir/article_3989.html}, eprint = {https://ejrr.gau.ac.ir/article_3989_e0c5b72767ce96fb42d2574dfa4b0195.pdf} }