CHAPTER


DOI :10.26650/B/ET07.2023.005.21   IUP :10.26650/B/ET07.2023.005.21    Full Text (PDF)

Analysis of Influential Genes in the Pathogenesis of Myeloproliferative Neoplasia with Machine Learning Algorithms

Nada MiskCemal Çağıl KoçanaAsiye BilgiliÇiğdem Erol

Myeloproliferative neoplasia (MPN) is a rare type of blood cancer that occurs when blood cells are excessively increased in the bone marrow. MPN formation is observed with somatic variations in hematopoietic stem cells. Variations in JAK2, CALR and/or MPL genes are frequently encountered. However, these variations cannot be used for definitive diagnosis. The Philadelphia chromosome (Ph) is critical for MPN classification. Three subgroups are frequently observed in the pH-negative group: Polycythemia Vera (PV), Essential Thrombocythemia (ET), and Primary Myelofibrosis (PMF). This study aims to identify the genes involved in the formation of PV, ET and PMF subgroups and to predict these subgroups from the microarray dataset. For this purpose, machine learning algorithms were applied to the microarray data set in the NCBI Gene Expression Omnibus database with the reference code GSE54646. In the preprocessing stage, the filtering process (“max-min>100” and “max-min>300”) was carried out in two different ways. In the second stage of the filtering, gene expressions that were highly correlated (more than 0.90) were extracted. Experiments were carried out on the microarray data set consisting of 104 samples, both without normalization and by performing min-max normalization. According to the hold-out method, the data set was divided into three different ways: 70% training - 30% test, 75% training - 25% test, and 80 training - 20% testing for performance evaluation of four classification algorithms: Gaussian Naive Bayes, Linear Support Vector Machines (LDVM), Decision Tree, Random Forest. In the test dataset, the performances of the algorithms were evaluated according to accuracy, sensitivity, precision, and F-Score criteria. As a result, although there was no significant difference in the algorithms applied to the training datasets at different rates, it was found that LDVM performed the best in all MPN subgroups, using normalized dataset with 80% training - 20% test with an accuracy of 86%. Within the scope of the study, active genes were tried to be determined by visualizing them with the heat map. Eight genes extracted from the heat map are associated with MPN and/or hematological malignancy. The genes involved are GDI1, TGOLN2, SRPK1, KAT6A, CAPZA1, MAPK14, DUSP1, and IRAK1BP1. Apart from these genes, one of the genes with significant expression differences is the CAB39 gene. This gene is an important paralog of the CAB39L gene, which has been associated with hematological malignancies.


DOI :10.26650/B/ET07.2023.005.21   IUP :10.26650/B/ET07.2023.005.21    Full Text (PDF)

Makine Öğrenmesi Algoritmaları ile Miyeloproliferatif Neoplazi Patogenezinde Etkili Genlerin Analizi

Nada MiskCemal Çağıl KoçanaAsiye BilgiliÇiğdem Erol

Miyeloproliferatif neoplazi (MPN), kemik iliğinde kan hücrelerinin aşırı artmasıyla görülen nadir bir kan kanseri türüdür. MPN oluşumu hematopoetik kök hücrelerde oluşan somatik varyasyonlar ile gözlemlenir. Özellikle JAK2, CALR ve/veya MPL genlerinde varyasyonlarla sıklıkla karşılaşılmaktadır. Ancak bu varyasyonlar kesin tanı için kullanılamamaktadır. Philadelphia kromozomu (Ph), MPN sınıflandırması için kritiktir. Ph negatif olan grupta sıklıkla üç alt grup görülmektedir: Polisitemi Vera (PV), Esansiyel Trombositemi (ET) ve Primer Miyelofibroz (PMF). Bu çalışma, PV, ET ve PMF alt gruplarının oluşumunda etkili genleri belirlemeyi ve mikrodizi veri setinden bu alt grupları tahmin etmeyi amaçlamaktadır. Bu amaçla, çalışmada NCBI Gene Expression Omnibus veri tabanında GSE54646 referans kodu ile yer alan mikrodizi veri setine makine öğrenmesi algoritmaları uygulanmıştır. Önişleme aşamasında filtreleme işlemi (“max-min>100” ve “max-min>300”) iki farklı şekilde gerçekleştirilmiş olup, filtrelemenin ikinci aşamasında ise aralarında yüksek oranda (0.90’dan fazla) ilişki bulunan gen ekspresyonları çıkartılmıştır. 104 örnekten oluşan mikrodizi veri setine hem normalizasyon yapılmadan hem de min-max normalizasyonu yapılarak denemeler gerçekleştirilmiştir. Gaussian Naive Bayes, Lineer Destek Vektör Makineleri (LDVM), Karar Ağacı, Rasgele Orman olmak üzere dört sınıflandırma algoritmasının performans değerlendirilmesi için veri seti, hold-out yöntemine göre %70 eğitim- %30 test, %75 eğitim - %25 test ve %80 eğitim - %20 test olmak üzere üç farklı şekilde bölünmüştür. Test veri setinde algoritmaların performansları doğruluk, duyarlılık, kesinlik ve F-Ölçütü kriterlerine göre değerlendirilmiştir. Sonuç olarak, farklı oranlarda eğitim veri setlerine uygulanan algoritmalarda çok büyük bir fark görülmese de normalizasyon ile %80 eğitim veri seti alt grupları değerlendirmede diğerlerine göre özellikle LDVM’nin %86 doğrulukla tüm MPN alt gruplarında en iyi performansı gösterdiği tespit edilmiştir. Çalışma kapsamında, ısı haritası ile görselleştirilerek etkin genler belirlenmeye çalışılmış olup, ısı haritasından çıkarılan genler içinde, MPN ve/veya hematolojik bir malignite ile ilişkilendirilmiş 8 gen bulunmaktadır. İlgili genler: GDI1, TGOLN2, SRPK1, KAT6A, CAPZA1, MAPK14, DUSP1 ve IRAK1BP1’dir. Bu genlerin dışında anlamlı anlatım farkı görülen genlerden biri CAB39 genidir. Bu gen hematolojik maligniteler ile ilişkilendirilmiş CAB39L geninin önemli bir paraloğudur.



References

  • Bedre, R. (2020). Reneshbedre/Bioinfokit: Bioinformatics Data Analysis and Visualization Toolkit. https://doi. org/10.5281/zenodo.3965241 google scholar
  • Campo, E., Harris, N. L., Jaffe, E. S., Pileri, S. A., Stein, H., Thiele, J., & Vardiman, J. W. (2008). WHO classification of tumours of haematopoietic and lymphoid tissues (Vol. 2, p. 439). S. H. Swerdlow (Ed.). Lyon, France: International agency for research on cancer. google scholar
  • de Freitas, R. M., & da Costa Maranduba, C. M. (2015). Myeloproliferative neoplasms and the JAK/STAT signaling pathway: An overview. RevistaBrasileira deHematologia eHemoterapia, 37(5), 348-353. http:// doi.org/10.1016/j.bjhh.2014.10.001 google scholar
  • Diaz-Uriarte, R., & De Andres, S. A. (2006). Gene selection and classification of microarray data using random forest. BMC bioinformatics, 7(1), 1-13. google scholar
  • Evan, G. I., & Vousden, K. H. (2001). Proliferation, cell cycle and apoptosis in cancer. nature, 411(6835), 342348. http://doi.org/10.1038/35077213. google scholar
  • George, G., & Raj, V. C. (2011). Review on feature selection techniques and the impact of SVM for cancer classification using gene expression profile. arXiv preprint arXiv:1109.1062. google scholar
  • Hanahan, D., & Weinberg, R. A. (2000). The hallmarks of cancer. Cell, 100(1), 57-70. https://doi.org/10.1016/ s0092-8674(00)81683-9 google scholar
  • Hanahan, D., & Weinberg, R. A. (2011). Hallmarks of cancer: The next generation. Cell, 144(5), 646- 674. http:// doi.org/10.1016/j.cell.2011.02.013 google scholar
  • Kirsten, M. L., Baron, R. A., Seabra, M. C., & Ces, O. (2013). Rab1a and Rab5a preferentially bind to binary lipid compositions with higher stored curvature elastic energy. Molecular membrane biology, 30(4), 303-314. google scholar
  • Kurzrock, R., Kantarjian, H. M., Druker, B. J., & Talpaz, M. (2003). Philadelphia chromosomepositive leukemias: from basic mechanisms to molecular therapeutics. Annals of internal medicine, 138(10), 819-830. http:// doi.org/10.7326/0003-4819-138-10-200305200-00010 google scholar
  • Ianotto, J. C., Curto-Garcia, N., Lauermanova, M., Radia, D., Kiladjian, J. J., & Harrison, C. N. (2019). Characteristics and outcomes of patients with essential thrombocythemia or polycythemia vera diagnosed before 20 years of age: a systematic review. haematologica, 104(8), 1580. http://doi.org/10.3324/haema-tol.2018.200832 google scholar
  • Larocque, G., La-Borde, P. J., Clarke, N. I., Carter, N. J., & Royle, S. J. (2020). Tumor protein D54 defines a new class of intracellular transport vesicles. Journal of Cell Biology, 219(1). google scholar
  • Lu, Y., & Han, J. (2003). Cancer classification using gene expression data. Information Systems, 28(4), 243-268. google scholar
  • Meggendorfer, M., Walter, W., Haferlach, C., Kern, W., & Haferlach, T. (2017). Deep learning algorithms support distinction of PV, PMF, and ET based on clinical and genetic markers. Blood, 130(Supplement 1), 4223-4223. google scholar
  • Morgan, M. (2019). BiocManager: access the bioconductor project package repository. R package version 1.30. 10. google scholar
  • Özkan, Y., & Erol, Ç. S. (2015). Biyoenformatik DNA mikrodizi: veri madenciliği. Papatya Yayıncılık Eğitim. google scholar
  • Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., ... & Duchesnay, E. (2011). Sci-kit-learn: Machine learning in Python. the Journal of machine Learning research, 12, 2825-2830. google scholar
  • Sanidas, I., Kotoula, V., Ritou, E., Daans, J., Lenz, C., Mairhofer, M., ... & Nikolakaki, E. (2010). The ratio of SRPK1/SRPK1a regulates erythroid differentiation in K562 leukaemic cells. Biochimica et Biophysica Acta (BBA)-Molecular Cell Research, 1803(12), 1319-1331. http://doi.org/10.1016/j.bbamcr.2010.07.008 google scholar
  • Stetka, J., Vyhlidalova, P., Lanikova, L., Koralkova, P., Gursky, J., Hlusi, A., ... & Divoky, V. (2019). Addiction to DUSP1 protects JAK2V617F-driven polycythemia vera progenitors against inflammatory stress and DNA damage, allowing chronic proliferation. Oncogene, 38(28), 5627-5642. http://doi.org/10.1038/ s41388-019-0813-7 google scholar
  • Xie, W., Hu, S., Xu, J., Chen, Z., Medeiros, L. J., & Tang, G. (2019). Acute myeloid leukemia with t (8; 16) (p11. 2; p13.3) /KAT6A-CREBBP in adults. Annals of hematology, 98(5), 1149-1157. http://doi.org/10.1007/ s00277-019-03637-7 google scholar
  • Zhuang, S., Xia, S., Huang, P., Wu, J., Qu, J., Chen, R., ... & Wang, X. (2021). Targeting P2RX1 alleviates renal ischemia/reperfusion injury by preserving mitochondrial dynamics. Pharmacological Research, 105712. google scholar


SHARE




Istanbul University Press aims to contribute to the dissemination of ever growing scientific knowledge through publication of high quality scientific journals and books in accordance with the international publishing standards and ethics. Istanbul University Press follows an open access, non-commercial, scholarly publishing.