Tıp Bilişimi III
Makine Öğrenmesi Algoritmaları ile Miyeloproliferatif Neoplazi Patogenezinde Etkili Genlerin Analizi
Nada Misk, Cemal Çağıl Koçana, Asiye Bilgili, Çiğdem Selçukcan ErolMiyeloproliferatif neoplazi (MPN), kemik iliğinde kan hücrelerinin aşırı artmasıyla görülen nadir bir kan kanseri türüdür. MPN oluşumu hematopoetik kök hücrelerde oluşan somatik varyasyonlar ile gözlemlenir. Özellikle JAK2, CALR ve/veya MPL genlerinde varyasyonlarla sıklıkla karşılaşılmaktadır. Ancak bu varyasyonlar kesin tanı için kullanılamamaktadır. Philadelphia kromozomu (Ph), MPN sınıflandırması için kritiktir. Ph negatif olan grupta sıklıkla üç alt grup görülmektedir: Polisitemi Vera (PV), Esansiyel Trombositemi (ET) ve Primer Miyelofibroz (PMF). Bu çalışma, PV, ET ve PMF alt gruplarının oluşumunda etkili genleri belirlemeyi ve mikrodizi veri setinden bu alt grupları tahmin etmeyi amaçlamaktadır. Bu amaçla, çalışmada NCBI Gene Expression Omnibus veri tabanında GSE54646 referans kodu ile yer alan mikrodizi veri setine makine öğrenmesi algoritmaları uygulanmıştır. Önişleme aşamasında filtreleme işlemi (“max-min>100” ve “max-min>300”) iki farklı şekilde gerçekleştirilmiş olup, filtrelemenin ikinci aşamasında ise aralarında yüksek oranda (0.90’dan fazla) ilişki bulunan gen ekspresyonları çıkartılmıştır. 104 örnekten oluşan mikrodizi veri setine hem normalizasyon yapılmadan hem de min-max normalizasyonu yapılarak denemeler gerçekleştirilmiştir. Gaussian Naive Bayes, Lineer Destek Vektör Makineleri (LDVM), Karar Ağacı, Rasgele Orman olmak üzere dört sınıflandırma algoritmasının performans değerlendirilmesi için veri seti, hold-out yöntemine göre %70 eğitim- %30 test, %75 eğitim - %25 test ve %80 eğitim - %20 test olmak üzere üç farklı şekilde bölünmüştür. Test veri setinde algoritmaların performansları doğruluk, duyarlılık, kesinlik ve F-Ölçütü kriterlerine göre değerlendirilmiştir. Sonuç olarak, farklı oranlarda eğitim veri setlerine uygulanan algoritmalarda çok büyük bir fark görülmese de normalizasyon ile %80 eğitim veri seti alt grupları değerlendirmede diğerlerine göre özellikle LDVM’nin %86 doğrulukla tüm MPN alt gruplarında en iyi performansı gösterdiği tespit edilmiştir. Çalışma kapsamında, ısı haritası ile görselleştirilerek etkin genler belirlenmeye çalışılmış olup, ısı haritasından çıkarılan genler içinde, MPN ve/veya hematolojik bir malignite ile ilişkilendirilmiş 8 gen bulunmaktadır. İlgili genler: GDI1, TGOLN2, SRPK1, KAT6A, CAPZA1, MAPK14, DUSP1 ve IRAK1BP1’dir. Bu genlerin dışında anlamlı anlatım farkı görülen genlerden biri CAB39 genidir. Bu gen hematolojik maligniteler ile ilişkilendirilmiş CAB39L geninin önemli bir paraloğudur.
Analysis of Influential Genes in the Pathogenesis of Myeloproliferative Neoplasia with Machine Learning Algorithms
Nada Misk, Cemal Çağıl Koçana, Asiye Bilgili, Çiğdem Selçukcan ErolMyeloproliferative neoplasia (MPN) is a rare type of blood cancer that occurs when blood cells are excessively increased in the bone marrow. MPN formation is observed with somatic variations in hematopoietic stem cells. Variations in JAK2, CALR and/or MPL genes are frequently encountered. However, these variations cannot be used for definitive diagnosis. The Philadelphia chromosome (Ph) is critical for MPN classification. Three subgroups are frequently observed in the pH-negative group: Polycythemia Vera (PV), Essential Thrombocythemia (ET), and Primary Myelofibrosis (PMF). This study aims to identify the genes involved in the formation of PV, ET and PMF subgroups and to predict these subgroups from the microarray dataset. For this purpose, machine learning algorithms were applied to the microarray data set in the NCBI Gene Expression Omnibus database with the reference code GSE54646. In the preprocessing stage, the filtering process (“max-min>100” and “max-min>300”) was carried out in two different ways. In the second stage of the filtering, gene expressions that were highly correlated (more than 0.90) were extracted. Experiments were carried out on the microarray data set consisting of 104 samples, both without normalization and by performing min-max normalization. According to the hold-out method, the data set was divided into three different ways: 70% training - 30% test, 75% training - 25% test, and 80 training - 20% testing for performance evaluation of four classification algorithms: Gaussian Naive Bayes, Linear Support Vector Machines (LDVM), Decision Tree, Random Forest. In the test dataset, the performances of the algorithms were evaluated according to accuracy, sensitivity, precision, and F-Score criteria. As a result, although there was no significant difference in the algorithms applied to the training datasets at different rates, it was found that LDVM performed the best in all MPN subgroups, using normalized dataset with 80% training - 20% test with an accuracy of 86%. Within the scope of the study, active genes were tried to be determined by visualizing them with the heat map. Eight genes extracted from the heat map are associated with MPN and/or hematological malignancy. The genes involved are GDI1, TGOLN2, SRPK1, KAT6A, CAPZA1, MAPK14, DUSP1, and IRAK1BP1. Apart from these genes, one of the genes with significant expression differences is the CAB39 gene. This gene is an important paralog of the CAB39L gene, which has been associated with hematological malignancies.