TDG Tech Talk Statistics VS. Machine Learning สองอย่างนี้เหมือนและต่างอย่างไร

Employee Stories
|
18 ก.พ. 2020
Table of Content
True Digital
True Digital
TDG Tech Talk Statistics VS. Machine Learning สองอย่างนี้เหมือนและต่างอย่างไร
Table of Content

TDG Tech Talk Statistics VS. Machine Learning สองอย่างนี้เหมือนและต่างอย่างไร


ปฏิเสธไม่ได้ว่าปัจจุบัน Data Analytics เป็นสิ่งที่หลายๆ คนสนใจและเป็นทักษะที่หลายคนต้องการพัฒนาเพื่อนำมาใช้กับงานต่างๆ ไม่ว่าจะเป็นด้านภาษาศาสตร์ การแพทย์ การนำไปใช้ในเชิงธุรกิจเพื่อการตัดสินใจ รวมไปถึงการประยุกต์ใช้กับวิทยาศาสตร์สาขาต่างๆ ไม่ว่าจะเป็นทั้งในด้าน ฟิสิกส์ เคมี หรือชีววิทยา ซึ่งวิชาที่หลายคนจะคุ้นเคยกันดีคือวิชาสถิติ(Statistics) และ Machine Learning

ระหว่างประชุมงานในทีม พี่ในทีมได้ถามคำถามที่น่าสนใจขึ้นมาว่า “คิดว่า Statistics กับ Machine Learning มันต่างกันยังไง ทั้งๆ มันก็คือ Math เหมือนกัน” จริงๆ คำถามข้างบนนี้เป็นอะไรที่ว่ากันด้วยพื้นฐานกันจริงๆ ครับ เพราะยอมรับกันตรงๆ ว่าสายงานที่ค่อนข้างใกล้เคียงกับงาน Data Analytics ที่สุดคือ สถิติและ Computer Science ทั้งนี้ จะขอเล่าในมุมสถิติก่อนครับ

ในสมัยก่อนเวลาเรียนสถิตินั้น ทุกคนจะได้เรียนแต่การออกแบบการเก็บข้อมูลจนไปถึงการแปรผล ไม่ว่าจะเป็นการออกแบบการทดลอง(Design Experiment) การเก็บตัวอย่าง(Sampling) รวมถึงสิ่งสำคัญอีกสองสิ่ง คือ การประมาณค่า และการทดสอบสมมติฐานของข้อมูลเพื่อนำพฤติกรรมที่ได้ของกลุ่มตัวอย่างไปอธิบายประชากร เนื่องจากสมัยก่อนนั้นการเก็บข้อมูลขนาดใหญ่นั้นมีต้นทุนสูงมาก โดยเฉพาะการเก็บตัวอย่าง ลองนึกภาพง่ายๆ นะครับ สมมติการจะเก็บข้อมูลสำมะโนประชากร จะต้องส่งคนไปทำแบบสำรวจเยอะมาก รวมถึงพวกเอกสารต่างๆ เพราะมันคือการเก็บข้อมูลครั้งใหญ่ เพราะฉะนั้น สถิติในหลายๆ ครั้งจึงเน้นการประมาณค่าบางอย่างเช่น ค่าเฉลี่ย การกระจายตัวของข้อมูลจากกลุ่มตัวอย่างไปหาประชากรรวมถึงอธิบายพฤติกรรมประชากรจากกลุ่มตัวอย่าง

ส่วน Machine Learning ในมุมมองผู้เขียนนั้น มองว่าสิ่งที่ Machine Learning สนใจคือระดับ Algorithm ไม่ว่าจะเป็น เราจะหาค่าพารามิเตอร์ในตัวแบบอย่างไร Optimizer ของเราเป็นอย่างไร รวมถึงการออกแบบโมเดล ถ้ายกตัวอย่างให้เห็นภาพให้ง่ายขึ้นคือเหมือนเราพยายามสร้าง Deep Neural Network ที่เราเอาแต่ละ Layer มาประกอบกัน

ถ้าจะยกภาพให้เห็นภาพง่ายขึ้น เช่น การทำ Regression ซึ่งเป็นสิ่งที่ทั้งสถิติและ Machine Learning ใช้เป็นตัวพื้นฐานในการทำ Predictive Model นั้น ในทางสถิติเราจะสนใจเรื่องสมมติฐานของ Regression ว่าข้อมูลตรงตามสมมติฐานหรือไม่ หลังจากได้สมการแล้วจะมีการประมาณค่าสถิติรวมถึงทดสอบสมมติฐานบางอย่าง เช่น พารามิเตอร์ตัวนี้มีความสัมพันธ์เชิงเส้นตรงกับตัวแปรตามหรือไม่ รวมถึงดูว่า Model ที่เราได้มานั้นสามารถอธิบายความแปรปรวนได้กี่ % จากในข้อมูลทั้งหมด(R-sq) แต่ในมุม Machine เราจะเรียนในส่วนของ Algorithm เป็นหลัก ว่าการที่เราจะหาพารามิเตอร์ที่ดีที่สุดนั้นทำอย่างไร รวมถึง Algorithm ที่ช่วยให้เรา Optimize Parameter ได้ดีขึ้น(Gradient Descent)

จริงๆ สิ่งที่เกิดขึ้นนั้น ทั้ง Advisor ของผมและคนที่ถามคำถามนี้มองตรงกันคือ แม้ว่าสถิติและ Machine Learning นั้นจะอาศัยคณิตศาสตร์เป็นเครื่องมือเหมือนกัน แต่มุมมองในการมองข้อมูล รวมถึงการไปถึงเป้าหมายนั้นต่างกัน ซึ่งทั้งสองแนวคิดนี้ไม่มีใครผิดใครถูกหรอกครับ เพราะสุดท้ายแล้วการไปถึงเป้าหมายนั้นเหมือนกัน แต่ต่างแค่กระบวนการคิดแค่นั้น ซึ่งเป็นหน้าที่ของ Data Scientist ที่จะหยิบว่าเมื่อเจอโจทย์แบบนี้จะต้องจัดการอย่างไร รวมถึงโจทย์แนวทางนี้ควรจะวิเคราะห์ข้อมูลไปทางไหน

ที่มา:

A First Course in Machine Learning by Simon Rogers & Mark Girolami

https://towardsdatascience.com/the-actual-difference-betwee…

http://www.edvancer.in/machine-learning-vs-statistics/

https://machinelearningmastery.com/relationship-between-ap…/

Hashtag

#Statistics

#MachineLearning

#TrueAnalytics

#TDGTechTalk

True Digital
True Digital

Related Article

VIEW ALL