Good Data, Bad Data

Good Data, Bad Data

ข้อมูลดีไม่ดี...ดูกันตรงไหน ?

Identifying good data

ถ้าให้แต่ละคนให้คำจำกัดความของคำว่า "ข้อมูลที่ดี" นั้นเป็นอย่างไร เราคงได้คำตอบที่ค่อนข้างหลากหลาย เพราะคำว่าดีของแต่ละคนนั้นไม่เหมือนกัน ในบทความนี้จึงจะพาผู้อ่านไปรู้จักกับแนวทางในการประเมินคุณภาพของข้อมูลก่อนที่จะถูกนำไปใช้กัน

เพื่อให้จำได้ง่าย ๆ แนวทางที่ว่านี้มีชื่อเรียกว่า ROCCC ซึ่งมาจากการรวมอักษรตัวแรกของคำ 5 คำที่แทนคุณลักษณะของข้อมูลที่ดีเข้าด้วยกัน

R eliable

O riginal

C omprehensive

C urrent

C ited

เริ่มต้นด้วย R มาจาก Reliable หมายถึง ข้อมูลที่ดีต้องมีที่มาจากแหล่งที่เชื่อถือได้ ซึ่งจะช่วยให้เรามั่นใจได้ว่าข้อมูลจะได้รับการตรวจสอบแล้วว่ามีความถูกต้อง สมบูรณ์ และเป็นกลาง

ถัดมาคือตัว O มาจาก Original หมายถึง ข้อมูลที่ดีต้องเก็บรวบรวมข้อมูลโดยองค์กรต้นทางเอง กรณีที่ข้อมูลเป็นประเภท second-party data หรือ third-party data นั้น ต้องสามารถสอบกลับความถูกต้องของข้อมูลไปยังองค์กรต้นทางได้

ต่อมาคือ C ตัวแรกมาจาก Comprehensive หมายถึง ข้อมูลที่ดีจะต้องให้รายละเอียดที่สำคัญและครอบคลุมเพียงพอต่อการตอบคำถามทางธุรกิจในทุกแง่มุมที่ต้องการได้

C ตัวที่สองมาจาก Current หมายถึง ประโยชน์ของข้อมูลนั้นจะลดลงเมื่อเวลาผ่านไป เพราะฉะนั้นข้อมูลที่ดีจะต้องเป็นปัจจุบัน

C ตัวสุดท้ายมาจาก Cited หมายถึง ข้อมูลที่ดีจะต้องเป็นที่ยอมรับและได้รับการอ้างอิงถึง

เมื่อมีการประเมินคุณภาพของข้อมูลให้ลองตั้งเป็นคำถามไว้ 3 ข้อ คือ

  • ชุดข้อมูลมาจากแหล่งที่น่าเชื่อถือหรือไม่ ?

  • ใครเป็นผู้ผลิตชุดข้อมูลนั้น ?

  • ข้อมูลถูกปรับปรุงครั้งล่าสุดเมื่อไหร่ ?

หากคำตอบที่ได้พบว่าชุดข้อมูลมาจากแหล่งที่เชื่อถือได้และผลิตโดยองค์กรต้นทาง มีความครอบคลุม เป็นปัจจุบัน และได้รับการอ้างอิงถึง นั่นคือ ROCCC!

ตัวอย่างของข้อมูลที่ดี ได้แก่ ชุดข้อมูลสาธารณะที่ได้รับการตรวจสอบความถูกต้องแล้ว บทความทางวิชาการ ข้อมูลทางการเงินของบริษัท และข้อมูลภาครัฐ เป็นต้น

ตอนนี้เราได้ทราบถึงวิธีสังเกตข้อมูลที่ดีผ่าน ROCCC กันแล้ว ต่อไปเราจะเรียนรู้ร่วมกันถึงข้อมูลที่ไม่ดีเพื่อจะได้หลีกเลี่ยงกันได้อย่างถูกต้อง

• • •

What is "bad" data?

เราจะยังคงยึดแนวทางเดิมของ ROCCC ในการสังเกตว่าข้อมูลที่ไม่ดีมีคุณลักษณะเป็นอย่างไร กล่าวคือข้อมูลที่ไม่ดีนั้นจะไม่มีความเป็น ROCCC นั่นเอง

R eliable

O riginal

C omprehensive

C urrent

C ited

เริ่มต้นจาก R คือ ไม่ Reliable หมายถึง ข้อมูลที่ไม่สามารถเชื่อถือได้ เนื่องจากอาจจะมีความไม่ถูกต้อง ขาดความสมบูรณ์ หรือไม่เป็นกลาง ยกตัวอย่างเช่น ข้อมูลที่มีอคติในการเลือกตัวอย่างทำให้ไม่สามารถใช้เป็นตัวแทนประชากรทั้งหมดที่ต้องการจะวิเคราะห์ได้ หรือการแสดงผลข้อมูลด้วยภาพที่นำไปสู่ความเข้าใจผิด

Same Data, Different Y-Axis Data Visualization Designed to Mislead

จากรูปแผนภูมิทางซ้ายกำหนดจุดเริ่มต้นของแกน y ไว้ที่ 3.14% และมีการปรับมาตราส่วนให้ละเอียดขึ้นซึ่งมีผลทำให้ดูเหมือนว่าอัตราดอกเบี้ย (interest rates) พุ่งสูงขึ้นตลอดสี่ปี ในขณะที่จุดเริ่มต้นแกน y ของแผนภูมิทางขวาถูกกำหนดไว้เป็นศูนย์ ทำให้เห็นว่าอัตราดอกเบี้ยแต่ละปีแทบไม่ได้แตกต่างกันเลย ทั้ง ๆ ที่ทั้งสองภาพนั้นเป็นข้อมูลเดียวกัน

ถัดมาเป็น O คือ ไม่ Original หมายถึง ข้อมูลที่ไม่ได้เก็บรวบรวมข้อมูลจากองค์กรต้นทางเอง โดยเฉพาะอย่างยิ่งหากต้องทำงานกับข้อมูลประเภท second-party data หรือ third-party data ที่ไม่มีการระบุแหล่งที่มาของต้นทาง นั่นเป็นสัญญาณหนึ่งที่บ่งบอกว่าเราจะต้องใช้ความระมัดระวังในการทำความเข้าใจกับข้อมูลเป็นพิเศษ

ต่อไปเป็น C คือ ไม่ Comprehensive หมายถึง ข้อมูลที่ขาดรายละเอียดสำคัญต่อการตอบคำถามหรือแก้ไขปัญหาทางธุรกิจ

C ตัวที่สองคือ ไม่ Current หมายถึง ข้อมูลที่ไม่เป็นปัจจุบันซึ่งอาจจะล้าสมัยต่อสิ่งที่เราจะวิเคราะห์ มีแหล่งข้อมูลหลายแห่งที่ปรับปรุงข้อมูลให้เป็นปัจจุบันเสมอ ยกตัวอย่างเช่น Data.gov ที่เป็นแหล่งรวบรวมชุดข้อมูลเปิดภาครัฐของประเทศสหรัฐอเมริกา ส่วนในประเทศไทยเองก็มี Data.go.th

C ตัวสุดท้ายคือ ไม่ Cited หมายถึง ข้อมูลที่ไม่ได้รับการอ้างอิงถึงหรือไม่ได้รับการตรวจสอบ

• • •

Sum up

ข้อมูลที่ดีควรจะมีที่มาจากแหล่งที่เชื่อถือได้และผลิตโดยองค์กรต้นทาง มีความครอบคลุม เป็นปัจจุบัน และได้รับการอ้างอิงถึง ซึ่งก็คือ ROCCC! และหากไม่เข้าคุณสมบัติดังกล่าวก็จะถือเป็นข้อมูลที่ไม่ดี

สิ่งสำคัญสำหรับนักวิเคราะห์ข้อมูลคือการทำความเข้าใจและระมัดระวังถึงข้อมูลที่ไม่ดีที่อาจทำให้เกิดความเสียหายต่อธุรกิจ ไม่ว่าจะเป็นข้อสรุปที่ไม่ถูกต้องซึ่งนำไปสู่การตัดสินใจที่ผิดพลาดหรือมีผลให้เกิดความล้มเหลวในกระบวนการทำงานได้ ทางแก้ปัญหาที่ดีที่สุดคือหลีกเลี่ยงข้อมูลที่ไม่ดีและยึดติดกับข้อมูลที่ดีเท่านั้น


แหล่งข้อมูลอ้างอิง: คอร์ส Prepare Data for Exploration ซึ่งเป็นส่วนหนึ่งของ Google Data Analytics Professional Certificate

Did you find this article valuable?

Support Porawoot Buranadilok by becoming a sponsor. Any amount is appreciated!