the-witch-data-mining

The Witch EP.3-4 Data Mining จะไขปริศนาหาความจริงเรื่องแม่มดได้อย่างไร?

เพราะตัวเลขไม่เคยโกหก และแม่มดไม่เคยมีอยู่จริง? 

เป็นอีกครั้งที่ซีรีส์ The Witch สวยต้องสาป อีพีเลขคี่ จะเล่าเรื่องผ่านมุมมองของ อีดงจิน โดยใน EP.3 พาเราไปสำรวจชีวิตของเขาระหว่างปี 2013 ถึงช่วงปัจจุบันในซีรีส์ ดงจินเรียนต่อมหาวิทยาลัยด้านสถิติเพราะ ‘มีโจทย์ชีวิตที่ต้องใช้สถิติแก้’ จนในที่สุด เขาได้ทำงานเป็น Data Mining เรื่องของมีจองค่อยๆ เลือนหายไปตามกาลเวลา ก่อนที่เขาจะกลับมาพบมีจองอีกครั้ง

ส่วน EP.4 เราก็ได้เห็นชีวิตของมีจอง การทำงาน ฝันร้ายที่ยังตามหลอกหลอน และแรงใจในการจะมีชีวิตอยู่ต่อแต่ละวัน

สิ่งหนึ่งที่ EP.3-4 ทำได้ดีมาก คือการทำให้คนดูเชื่อว่า ข้อมูลขนาดใหญ่/เหมืองข้อมูล หรือ Data Mining จะช่วยไขปริศนาบางอย่างได้ เพราะ ‘ตัวเลขจะไม่เคยโกหก’ ขณะเดียวกัน แม้ว่าตัวเลขไม่โกหก ด้วยความเถรตรงนั้นอาจไปทำร้ายจิตใจผู้คนที่ไม่เคยตรงแหน่วแบบนั้น มันมีบิดบ้าง งอเป็น ยืดหยุ่นได้ ซึ่งเรื่องราวสะท้อนสังคมทุนนิยมออกมาได้อย่างน่าสนใจ

ดูซีรีส์สองอีพีนี้จบแล้วก็สนใจสายงานนี้มากๆ บทความนี้ ดูซีรีส์ให้ซีเรียส จึงรวบรวมความรู้ความเข้าใจเกี่ยวกับสายงาน Data Mining มาให้อ่านประกอบ พร้อมคำกล่าวของดงจินที่อ้างอิงถึง Pascal นักคณิตศาสตร์คนสำคัญจากศตวรรษที่ 17 และการที่ซีรีส์เลือกนำข้อมูลมาเป็นตัวพิสูจน์เรื่องเหนือธรรมชาติ สุดท้ายมันจะทำได้จริงไหม

the-witch-jin-young

Data Mining จะไขปริศนาหาความจริงในความเชื่อและความศรัทธาได้อย่างไร

Data Mining ที่เราได้เห็นในซีรีส์ คือกระบวนการในการค้นหารูปแบบความสัมพันธ์ ความผิดปกติที่เกิดขึ้นในข้อมูลขนาดใหญ่ เพื่อใช้คาดการณ์และพยากรณ์สิ่งที่จะเกิดขึ้น

คำถามก็คือเรื่องราวในซีรีส์ The Witch สวยต้องสาป Data Mining และเทคนิคทางสถิติ รวมถึง AI จะช่วยเราในการเบลอเส้นแบ่งระหว่างความเชื่อ (เรื่องแม่มด) ความน่าจะเป็น (ทางคณิตศาสตร์) และความจริงได้หรือไม่?

Data Mining ทำงานอย่างไร?
Date Mining คือกระบวนการวิเคราะห์ข้อมูลจำนวนมากเพื่อค้นหารูปแบบ ความสัมพันธ์ และข้อมูลเชิงลึก เพราะฉะนั้นการทำเหมืองข้อมูลจะต้องมีความเชี่ยวชาญในด้านต่าง ดังนี้
▪️คณิตศาสตร์และสถิติ ซึ่งเป็นรากฐานของการตรวจจับรูปแบบ
▪️การเขียนโปรแกรม (Python, R, SQL) จำเป็นสำหรับการทำงานกับชุดข้อมูลขนาดใหญ่
▪️การเรียนรู้ของเครื่องและ AI ซึ่งเป็นแนวหน้าของการทำ Data Mining สมัยใหม่
เทคโนโลยีข้อมูลขนาดใหญ่ (Hadoop, Spark) ที่สามารถจัดการกับชุดข้อมูลขนาดมหึมาอย่างมีประสิทธิภาพ

สมองของ AI 
Machine Learning หรือส่วนการเรียนรู้ของ AI จะดึงความหมายจากข้อมูลดิบเพื่อนำมาใช้ช่วยตัดสินใจได้ โดยการทำงานของเครื่องมือจะมีหลากหลาย เช่น 
▪️การวิเคราะห์ถดถอย (Regression Analysis) คาดการณ์ความสัมพันธ์ระหว่างตัวแปร (เช่น ความใกล้ชิดกับมีจองจะส่งผลต่อความเสี่ยงของอุบัติเหตุหรือไม่?)
▪️การจัดกลุ่มและการจำแนกประเภท (Clustering & Classification) การจัดกลุ่มข้อมูลที่คล้ายกันเพื่อตรวจจับความผิดปกติ
▪️การอนุมานแบบเบย์ (Bayesian Inference) ปรับปรุงความน่าจะเป็นตามหลักฐานใหม่ เช่นเดียวกับที่ดงจินกำลังทำด้วยการย้อนกลับไปยังข้อมูลเริ่มต้น

ใน EP.3 ดงจินเริ่มทำรายงานส่งอาจารย์เรื่อง ‘การมีอยู่จริงของแม่มด’ เมื่อเริ่มสืบสวน เก็บรวบรวมรายงานอุบัติเหตุ ปัจจัยด้านสิ่งแวดล้อม ประวัติทางการแพทย์ และโปรไฟล์ของผู้รับบาดเจ็บ-เสียชีวิต สิ่งที่เขาพบในคำตอบนั้นก็คือ ‘มีจอง – คำสาปของแม่มด’ ที่อธิบายได้ด้วยปัจจัยทางวิทยาศาสตร์อย่างสมบูรณ์ 

และเมื่อเขาเรียนจบ มีประสบการณ์การทำงานพอตัว ในท้าย EP.4 การกลับมาใช้ Data Mining แก้ไขโจทย์ ‘มีจอง : แม่มด’ จึงเป็นความน่าสนใจว่าเขาจะคลี่คลายปริศนาและค้นหาความจริงที่เกิดขึ้นได้หรือไม่

การเดิมพันของ Pascal : การเลือกศรัทธาอย่างมีเหตุผล

ใน EP.3 ดงจินได้พูดกับแม่เรื่องแนวคิดของ Pascal ในการจะเชื่อพระเจ้าดีไหม เราขออธิบายส่วนนี้เพื่อให้เข้าใจซีรีส์มากกว่าเดิม

Blaise Pascal นักคณิตศาสตร์ในศตวรรษที่ 17 ได้เสนอข้อโต้แย้งที่มีชื่อเสียงเกี่ยวกับความเชื่อในพระเจ้า เหตุผลของเขาคือ
▪️ถ้าพระเจ้ามีอยู่จริงและเราเชื่อ เราจะได้รับรางวัลไม่มีที่สิ้นสุด หรือการได้ไปสวรรค์
▪️หากเราไม่เชื่อและพระเจ้ามีจริง เราจะเสี่ยงต่อการสูญเสียที่ไม่มีที่สิ้นสุด 
▪️แม้ว่าความน่าจะเป็นของการมีอยู่ของพระเจ้าจะไม่แน่นอน ดังนั้นตัวเลือกที่ปลอดภัยที่สุดคือการเชื่อ

ถึงอย่างนั้น การที่ดงจินยกคำกล่าวนี้ขึ้นมาให้แม่ฟัง จะเชื่อมโยงกับมีจอง เรื่องแม่มด หรือความเชื่อเรื่องไสยศาสตร์และความกลัวได้หรือไม่? ในประเด็นนี้
▪️ความเชื่อของชาวบ้านเกี่ยวกับคำสาปของมีจองเป็นไปในแนวทางเดียวกัน 
▪️ชาวบ้านต่างเห็น ‘ความน่าจะเป็นที่ไม่แน่นอน’ และเลือกตัวเลือกที่ ‘ปลอดภัยที่สุด’
▪️นั่นคือการหลีกเลี่ยงการพบเธอเพื่อป้องกันอุบัติเหตุ หรือเลือกขับไล่เธอออกจากหมู่บ้าน 

เมื่อดงจินมองตามแนวคิดของ Pascal ก็พบว่าความน่าจะเป็นในโลกแห่งความจริง ต้องการการวิเคราะห์เชิงประจักษ์ 
ศรัทธาอาจเป็นทางเลือกที่มีเหตุผลในอาณาจักรแห่งจิตวิญญาณ 
แต่ไสยศาสตร์ที่เกิดจากความกลัว อาจลบล้างได้จากการตรวจสอบทางสถิติ

Murphy-law-from-the-witch

บทสรุป

เรื่องราวของแม่มดและ Data Mining ในซีรีส์ The Witch สวยต้องสาป เป็นเครื่องเตือนใจว่าความรู้เชิงวิทยาศาสตร์นำมาใช้ต่อสู้กับความกลัวและไสยศาสตร์ได้ 

ในโลกที่ขับเคลื่อนด้วยข้อมูลมากขึ้น การทำความเข้าใจ และวิธีการแยกแยะความจริงจากข้อมูลเป็นสิ่งสำคัญกว่าที่เคย ไม่ว่าจะเป็นการตั้งคำถามเกี่ยวกับตำนานท้องถิ่นหรือการสำรวจศรัทธาทางศาสนา 

การทำ Data Mining เป็นเครื่องมือที่ทรงพลังในการเปิดเผยสิ่งที่ซ่อนอยู่เบื้องหลัง 

และสุดท้าย ตามที่ Pascal แนะนำ “คำถามเกี่ยวกับความเชื่อ ไม่ว่าจะเป็นในพระเจ้า แม่มด สถิติตัวเลข หรือกระทั่ง AI เป็นสิ่งที่เราทุกคนต้องตอบด้วยตัวเอง”

ติดตามเนื้อหาสนุกๆ ของ ‘ดูซีรีส์ให้ซีเรียส’ ได้ที่ช่องทางต่างๆ ดังนี้
Facebook: TheSeriousSeries.TH
Twitter: TheSeriousSerie
YouTube: The Serious Series
Website: Theseriousseries.com
สมัครสมาชิกเพื่อรับข่าวสารและสิทธิพิเศษก่อนใครได้ที่ Link นี้