Comparison of Feature Selection Methods to Improve Breast Cancer Prediction

Main Article Content

Ajjima Montaphan

Abstract

          The objective of this research was to study the comparison of the features selection techniques for improving breast cancer prediction. By using features selection from 7 techniques, including Correlation Based Feature Selection, Information Gain, Gain Ratio, Chi-Square, Forward Selection, Backward Elimination and Evolutionary Selection. The leading results from each technique were calculated the effectiveness of the forecast of breast cancer by using Support Vector Machine.  The results showed that the percentage of accuracy in breast cancer prediction, based on the number of all 30 attributes, was 91.39 while the Evolutionary Selection gave the best results by reducing the important attributes  to only 16 attributes and giving the accuracy of the forecasting results was             95.26 %.

Article Details

Section
Special Articles

References

1. ธีรวุฒิ คูหะเปรมะ. (9 เมษายน 2561 ). “BDMS แนะตรวจ “เต้านม” ด้วยตัวเอง คัดกรองมะเร็งเบื้องต้น
ได้”. MGR Online. สืบค้นเมื่อ 14 เมษายน 2562, https://www.dmh.go.th/news-dmh/view.asp?id=27795
2. ภัทราวุฒิ แสงศิริ. 2553. “การคัดแยกประเภทของมะเร็งเม็ดเลือดขาวโดยใช้วิธีการจัดอันดับร่วมกับเทคนิคซัพพอร์ตเวกเตอร์
แมชชีน.”, วารสารวิจัย มข. (บศ.) 10(2):เม.ย.-มิ.ย.2553, หน้า 10-7.
3. นิภาพร ชนะมาร และพรรณี สิทธิเดช. 2557. “การวิเคราะห์ปัจจัยการเรียนรู้ด้วยการคัดเลือกคุณสมบัติและการพยากรณ์.”,
วารสารมหาวิทยาลัยราชภัฏสกลนคร 6(12),31-45.
4. พฤฒิพงศ์ เพ็งศิริ และคณะ. 2557. “การลดมิติข้อมูลการวิเคราะห์ความสัมพันธ์และการประยุกต์สําหรับวิเคราะห์ข้อมูลพื้นฐานการใช้
งานสมาร์ทโฟน.”, ประชุมวิชาการระดับชาติด้านคอมพิวเตอร์และเทคโนโลยีสารสนเทศ ครั้งที่ 10. 8 - 9 พฤษภาคม 2557
ณ มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือภูเก็ต, หน้า 528–34.
5. น้ำทิพย์ มากนคร และมาลีรัตน์ โสดานิล. 2557. “การเปรียบเทียบวิธีการเลือกคุณลักษณะที่เหมาะสมเพื่อการจัดหมวดหมู่เว็บเพจผิด
กฎหมายโดยใช้เทคนิคการทำเหมืองข้อมูล.”, ประชุมวิชาการระดับชาติด้านคอมพิวเตอร์และเทคโนโลยีสารสนเทศ ครั้งที่ 10. 8 - 9
พฤษภาคม 2557 ณ มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ ภูเก็ต, หน้า 168-73.
6. นิธินันท์ มาตา และคณะ. 2558. “การค้นหาปัจจัยเพื่อสร้างโมเดลสำหรับพยากรณ์การควบคุมประตูระบายน้ำ.”, การประชุมวิชาการ
ระดับประเทศด้านเทคโนโลยีสารสนเทศ ครั้งที่ 7. ระหว่างวันที่ 29-30 ตุลาคม 2558 ณ สถาบันเทคโนโลยีพระจอมเกล้า
เจ้าคุณทหารลาดกระบังหน้า 352-7.
7. Galavotti, L., Sebastiani, F. and Simi, M. 2000. “Feature Selection and Negative Evidence in
Automated Text Categorization.”, Proceedings of KDD-00, 2000.


8. Bing Xue, Mengjie Zhang, Will N. Browne. 2016. “A Survey on Evolutionary Computation Approaches to Feature
Selection.” IEEE Transactions on Evolutionary Computation, Volume: 20 Issue: 4, Aug. 2016
9. William H. Wolberg, W. Nick Street, and Olvi L. Mangasarian. (1995-11-01). “Breast Cancer Wisconsin (Diagnostic)
Data Set.” UCI Machine Learning Repository. [online] Available:https://archive.ics.uci.edu/ml/datasets/ breast+cancer+wisconsin+%28diagnostic%29, [Accessed : 14/04/2017]
10. ชัชวาล วรวิทย์รัตนกุล และสุรศักดิ์ มังสิงห์. 2557. “การยืนยันลายเซ็นด้วยวิธีซัพพอร์ตเวกเตอร์แมชชีน.”, การประชุมวิชาการ
ระดับประเทศด้านเทคโนโลยีสารสนเทศ (National Conference on Information Technology: NCIT) ครั้งที่ 6, 27-28 กุมภาพันธ์
2557.
11. จิรา แก้วสุวรรณ์. 2006. “การตรวจจับและการแก้ไขการวางตัวของภาพโดยใช้ซัพพอร์ตเวกเตอร์แมชชีน.”, วิทยานิพนธ์ปริญญา
มหาบัณฑิต สาขาเทคโนโลยีคอมพิวเตอร์ คณะครุศาสตร์อุตสาหกรรม สถาบันเทคโนโลยีพระจอมเกล้าพระนครเหนือ.
12. ทรงศักดิ์ ภูสีอ่อน. 2554. การประยุกต์ใช้ SPSS วิเคราะห์ข้อมูลงานวิจัย. มหาสารคาม : มหาวิทยาลัยมหาสารคาม. เอกสิทธิ์ พัชร
วงศ์ศักดา. 2557. การวิเคราะห์ข้อมูลด้วยเทคนิค ดาต้า ไมน์นิ่ง เบื้องต้น (An Introduction to Data Mining Techniques).
กรุงเทพฯ, หน้า 53-7.
13. เอกสิทธิ์ พัชรวงศ์ศักดา. 2559. Advanced Predictive Modeling with R & RapidMiner Studio 7. พิมพ์ครั้งที่ 6.
กรุงเทพฯ: เอเชีย ดิจิตอลการพิมพ์.
14. Brian S. Everitt. 2010. Multivariable Modeling and Multivariate Analysis for The Behavioral
Sciences. Taylor & Francis Group, LLC.
15. Colin Shearer. 2000. “The CRISP-DM Model : The New Blueprint for Data Mining.” JOURNAL OF DATA
WAREHOUSING, Volume 5 Number 4, Fall 2000 : p13
16. Jaiwei Han, Micheline Kamber, and Jian Pei. 2012. Data Mining Concepts and Techniques.
New York: Elsevier Inc., page 104.
17. Majid Bahrepour. 2018. “The Forgotten Step in CRISP-DM and ASUM-DM Methodologies.”
[online] Available: https://sharing.luminis.eu/blog/the-forgotten-step-in-crisp-dm-and-asum-
dm-methodologies/, [Accessed : 14/01/2019]
18. Mark A. Hall. 1999. “Correlation-based Feature Selection for Machine Learning.” Doctor of
Philosophy. Department of Computer Science, The University of Waikato, Hamilton,
New Zealand.
19. P.-N. Tan, M. Steinbach, and V. Kumar. 2006. Introduction to data mining. vol. 1: Pearson
Addison Wesley Boston, 2006.