BÖLÜM


DOI :10.26650/B/ET07.2021.003.01   IUP :10.26650/B/ET07.2021.003.01    Tam Metin (PDF)

Veri Bilimi

Serra Çelik

Günümüzde veri kelimesi hemen her alanda kendine yer bulmuştur. Hemen hemen her alanda toplanması, saklanması ve işlenmesi hayati önem taşımaktadır. Veri tek başına hiçbir şey ifade etmez iken ancak işlenmeye başladığında konuşmaya başlar. Önemli olan nasıl işleneceğini bilmektir. Amaç; veri analizi yoluyla karar vermeyi geliştirmeye odaklanmaktır. Bu bağlamda bölümde ilk önce veri ve veri bilimi tanımları yapılmış, veri bilimi, makine öğrenmesi ve veri madenciliği arasındaki ilişki irdelenmiştir. Ardından veri bilimi problemleri ele alınmıştır. Veri bilimi problemleri tanımlayıcı, öngörücü ve pekiştirmeli olarak üç ana başlıkta toplanabilmekle beraber bu bölümde ilk ikisi incelenmiştir. Veri bilimini bir süreç olarak tanımlamak yanlış olmayacaktır. Bu süreç özetle, hedef seçimi, veri ön işleme, model oluşturma ve sonuçların analizi aşamalarından oluşur. Hedef seçimi veri bilimi sürecinin en önemli aşamasıdır. İhtiyacı anlamaya ve problem çözmeye odaklanılmalıdır. Veri ön işleme ise sürecin en çok zaman alan ve en çok dikkatli olunması gereken aşamasıdır. Uygun veri setinin elde edilerek amaca ulaşmada kullanılacak yöntemlere hazır hale getirilmesi bu aşamada gerçekleştirilir. Model oluşturma aşaması ön işlenmiş veriye bilgi çıkarım algoritmalarının uygulanması olup son aşama olan sonuçların analizi aşamasında algoritma sonuçları değerlendirilir. Bazı veri bilimi problemleri tanımlayıcı ya da öngörücü olarak sınıflandırılamayabilir. Standart dışı problemler olarak adlandırılan bu tarz problemler; türev problemler ve hibrit problemler olarak iki sınıfta incelenebilir. Bölümde bu problemlere örnekler de verilmiştir. Veri biliminde önyargı ve etik gibi insanlığı doğrudan ilgilendiren konulara da bölümde yer verilmiş olup, tıbbi veri bilimi ile bölüm sonlandırılmıştır. Bu bağlamda bu bölümde verinin anlamlı bilgiye dönüşmesi üzerine bir yolculuğa çıkılacak olup bu çalışma, veri bilimi ile yeni tanışacaklar için bir rehber olma özelliği taşımaktadır.


Anahtar Kelimeler: Veriveri bilimitıbbi veri bilimi
DOI :10.26650/B/ET07.2021.003.01   IUP :10.26650/B/ET07.2021.003.01    Tam Metin (PDF)

Data Science

Serra Çelik

Today, data have found and secured its place in almost every field. It is vital to collect, store, and process data in nearly every area. Although data alone mean nothing, data only begin to speak when processed. The most important thing is to know how to process data. The goal of this chapter is to focus on improving decision-making through data analysis. In this context, this chapter first defines data and data science, and discusses the relationship among data science, machine learning, and data mining. Then, it explores data science problems. Data science problems can be grouped under three main titles, namely descriptive, predictive, and reinforcement, of which the first two are examined in this chapter. It would not be wrong to define data science as a process. This process comprises goal selection, data preprocessing, model construction, and analysis of results. Goal selection is the most crucial step of the data science process. The focus should be on understanding the need and solving problems. In contrast, data preprocessing is the most time consuming procedure and must be monitored throughout the process. At this step, the appropriate data set is obtained and prepared for the methods to be used in achieving the goal. The model construction step is the application of information extraction algorithms to the pre-processed data. The algorithms results are evaluated in the final step, which is the analysis of the results. Some data science problems may not be classified as either descriptive or predictive. These problems are called non-standard problems, which can be examined in two classes, namely derivative and hybrid problems. This chapter provides the examples of these problems. It also includes issues directly related to humanity, such as bias and ethics in data science. The chapter has been finalized with medical data science. In summary, this chapter takes a journey to transform data into meaningful information, and will guide those who will be newly discovering data science.


Anahtar Kelimeler: Datadata sciencemedical data science

Referanslar

  • Aggarwal, C. C. (2015). Data mining: The textbook. Springer Inc., Cham. google scholar
  • Bach, F. (2018). Foundations of machine learning, 2nd edition, The MIT Press Cambridge, Massachusetts London, England. google scholar
  • Baesens, B., Vlasselaer, V. V. ve Verbeke, W. (2015). Fraud analytics using descriptive, predictive, and social network techniques a guide to data science for fraud deteciton, John Wiley & Sons, Inc. google scholar
  • Beynon-Davies, P. (2007). Informatics and the inca, International Journal of Information Management, 27 (2007) 306-318. google scholar
  • Bramer, M. (2016). Principles of data mining, 3rd edition, Springer. google scholar
  • Budak, B. (2018). Bilmeniz gerekenler: Cambridge Analytica hikayesi, Facebook ve büyük veri, Erişim tarihi 8 Ocak 2020, https://webrazzi.com/2018/03/22/cambridge-analytica-hikayesi-facebook-ve-buyuk-veri/ google scholar
  • Candela, J. Q., Sugiyama, M., Schwaighofer, A. ve Lawrence, N. D. (2009). Dataset shift in machine learning. The MIT Press, Cambridge. google scholar
  • Chawla, N. V. (2005). Data mining for imbalanced datasets: an overview. In: Maimon, O. Z., Rokach, L. (eds.) Data Mining and Knowledge Discovery Handbook, pp. 853-867. Springer, New York. google scholar
  • Corea, F. (2019). An introduction to data everything you need to know about ai, big data and data science, Springer. google scholar
  • Dinov, I. D. (2018). Data science and predictive analytics: Biomedical and health applications using r, Springer. google scholar
  • Economist. (2017). The world’s most valuable resource is no longer oil, but data, https://www.economist.com/ leaders/2017/05/06/the-worlds-most-valuable-resource-is-no-longer-oil-but-data, May 6th 2017. google scholar
  • Fernandez, A., Garda, S., Galar, M., Prati, R .C., Krawczyk, B. ve Herrera, F. (2018). Learning from imbalanced data sets, Springer Nature Switzerland. google scholar
  • Ford, G. (2018). 4 human-caused biases we need to fix for machine learning, Erişim tarihi 8 Ocak 2020, https:// thenextweb.com/contributors/2018/10/27/4-human-caused-biases-machine-learning/ google scholar
  • Grey, CGP. (2012). Is pluto a planet?, Erişim tarihi 8 Ocak 2020, https://www.youtube.com/watch?v=Z_2gb-GXzFbs. google scholar
  • Han, J. (2011). Data mining: Concepts and techniques. Morgan Kaufmann Publishers Inc., San Francisco. google scholar
  • Igual, L. ve Segd, S. (2017). Introduction to data science, Springer. google scholar
  • Johansson, L. G. (2016). Philosophy of science for scientists. Springer. google scholar
  • Junque de Fortuny, E., Martens, D. ve Provost, F. (2013). Predictive modeling with big data: Is bigger really better?. Big Data, 1(4), 215-226. google scholar
  • Kelleher, J. D. ve Tierney, B. (2018). Data Science, The MIT Press Cambridge, Massachusetts London. google scholar
  • Nisbet, R. (2018). Handbook of statıstıcal analysis and data mining applications, 2nd edition, Elsevier Inc. google scholar
  • Pan, S. J. ve Yang, Q. (2010). A survey on transfer learning. IEEE Trans. Knowl. Data Eng. 22(10), 1345-1359. Pathak, M. A. (2014). Beginning Data Science with R, Springer. google scholar
  • Patil, D. J. (2012). Data jujitsu: The art of turning data into product. O’Reilly Radar. google scholar
  • SINTEF. (2013). Big Data, for better or worse: 90% of world’s data generated over last two years. ScienceDaily. Erişim tarihi 8 Ocak 2020, www.sciencedaily.com/releases/2013/05/130522085217.htm google scholar
  • Skiena, S. S. (2017). The data science design manual, Springer. google scholar
  • Stanton, J. (2013). Version 2: An introduction to data science, Syracuse University’s School of Information Studies, http://jsresearch.net/wiki/projects/teachdatascience google scholar
  • Steele, B., Chandler, J. ve Reddy, S. (2017). Algorithms for data science, 1st edition, Springer Berlin/Heidelberg. google scholar
  • Witten, I. H., Frank, E. ve Hall, M. A. (2011). Data mining: Practical machine learning tools and techniques, 3rd edition, Elsevier Inc. google scholar


PAYLAŞ




İstanbul Üniversitesi Yayınları, uluslararası yayıncılık standartları ve etiğine uygun olarak, yüksek kalitede bilimsel dergi ve kitapların yayınlanmasıyla giderek artan bilimsel bilginin yayılmasına katkıda bulunmayı amaçlamaktadır. İstanbul Üniversitesi Yayınları açık erişimli, ticari olmayan, bilimsel yayıncılığı takip etmektedir.