การจะอธิบายถึงกลุ่มข้อมูลให้ได้สมบูรณ์นั้น เราจำเป็นต้องพิจารณาทั้งค่าแนวโน้มเข้าสู่ส่วนกลาง และการกระจายของข้อมูล เพราะค่าแนวโน้มเข้าสู่ส่วนกลางจะอธิบายถึงตัวแทนของข้อมูลเท่านั้น ไม่สามารถบอกภาพรวมหรือลักษณะการเกาะกลุ่มกันของข้อมูลได้ ซึ่งการวัดการกระจายจะช่วยในการอธิบายภาพรวมของข้อมูลว่าค่าของข้อมูลมีลักษณะเป็นอย่างไร มีค่าเหมือนหรือแตกต่างกัน และแตกต่างจากค่าตัวแทนของข้อมูลเท่าใด เพื่อให้เห็นภาพชัดเจนภาพขึ้นเรามาดูตัวอย่างกันเลย
สมมติเรามีข้อมูลความสูงของต้นไม้ จำนวน 5 ต้น โดยแยกใส่ปุ๋ย 2 ชนิด เป็นระยะเวลา 1 สัปดาห์ แล้วจึงวัดความสูงได้ข้อมูลดังนี้
ถ้าเราพิจารณาแค่ค่าเฉลี่ยความสูงของต้นไม้ จะพบว่าค่าเฉลี่ยเท่ากัน คือ 4.2 ซ.ม. เราอาจสรุปเลยว่าปุ๋ยทั้ง 2 ชนิดส่งผลต่อการเจริญเติบโตของต้นไม้ไม่แตกต่างกัน แต่ถ้าเราพิจารณาค่าการกระจายคือ ส่วนเบี่ยงเบนมาตรฐานด้วยจะพบว่ามีค่าแตกต่างกัน ซึ่งกลุ่ม 1 มีค่าน้อยกว่ากลุ่ม 2 แสดงว่าความสูงของต้นไม้กลุ่ม1 มีค่าเกาะกลุ่มกัน (ถ้าเราดูค่าสูง-ต่ำ จะเห็นว่ากลุ่ม 2 ค่าต่างกันมาก) ซึ่งแสดงให้เห็นว่าปุ๋ย 2 ชนิดนี้ส่งผลต่อความสูงของต้นไม้ที่แตกต่างกัน
ดังนั้นในการเลือกใช้ปุ่ย ถ้าเราอยากให้ความสูงของต้นไม้สม่ำเสมอกัน เราก็ควรจะเลือกปุ๋ยที่ใส่ให้กลุ่ม 1 เพราะปุ๋ยที่ใส่ให้กลุ่ม 2 ค่อนข้างมีความแตกต่างกันมาก
จากข้อมูลตัวอย่างทำให้เรามองเห็นภาพชัดเจนขึ้นว่าทำไมเราจึงต้องวัดการกระจายร่วมกับการวัดแนวโน้มเข้าสู่ส่วนกลางของข้อมูล ก็เพื่อให้อธิบายลักษณะของข้อมูลได้สมบูรณ์นั่นเอง ต่อไปเรามารู้จักการวัดการกระจายกันเลย
การวัดการกระจายคืออะไร
การวัดการกระจาย (Measure of Dispersion) เป็นเครื่องมือในกลุ่มสถิติเชิงบรรยาย ใช้เพื่อบอกภาพรวมของข้อมูล โดยจะอธิบายลักษณะข้อมูลว่ามีการกระจายหรือแปรผันออกจากค่ากลางข้อมูลแตกต่างกันมากน้อยเพียงใด และค่าความแปรผันนี้เราจะเรียกว่า "ค่าเบี่ยงเบน(Deviation)"
ค่าความเบี่ยงเบน = ขนาดความเบี่ยงเบนจากค่าที่ควรจะเป็นของข้อมูล
การแปลผลค่าที่ได้จากการวัดการกระจาย ถ้ามีค่าน้อยก็แสดงว่าค่าของข้อมูลชุดนั้นกระจายตัวน้อยหรือมีค่าที่ไม่ค่อยมีความแตกต่างกัน แต่ถ้ายิ่งมีค่ามากก็จะแสดงว่าข้อมูลชุดนั้นมีการกระจายตัวหรือแตกต่างกันมาก
เครื่องมือที่นิยมใช้วัดการกระจายมี 2 ชนิด คือ
1. พิสัย (Range)
เป็นการวัดการกระจายโดยอาศัยความแตกต่างระหว่างค่าสูงสุดและค่าต่ำสุดของข้อมูล โดยพิสัยเป็นเครื่องมือที่ใช้วัดการกระจายที่ง่ายที่สุด ควรใช้เมื่อไม่ต้องการความละเอียดหรือข้อมูลมีค่าไม่แตกต่างกันมาก
เพราะพิสัยจะมีความละเอียดน้อยลงเมื่อข้อมูลมีค่าแตกต่างกันมาก
สูตรการคำนวณ
พิสัย (R) = ค่ามากที่สุด - ค่าน้อยที่สุด
ตัวอย่าง : หาค่าพิสัยความสูงต้นไม้ของกลุ่มที่ 1
พิสัย = ค่ามากที่สุด - ค่าน้อยที่สุด
= 4.5 - 3.9
= 0.6
2. ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)
เป็นการวัดการกระจายโดยใช้วิธีการยกกำลัง 2 ของค่าผลต่างระหว่างค่าของข้อมูลกับค่าเฉลี่ยเพื่อขจัดทิศทางของผลต่างออกก่อน หลังจากนั้นจึงนำมาหาผลรวมแล้วหารจำนวนข้อมูลทั้งหมดก่อนที่จะนำมาหารากที่ 2 โดยส่วนเบี่ยงเบนมาตรฐานเป็นการวัดการกระจายที่ดีและนิยมใช้มากที่สุด
สูตรคำนวณ
จะเห็นว่าสูตรคำนวณสำหรับส่วนเบี่ยงเบนมาตรฐานจะมี 2 สูตร โดยเราสามารถเลือกใช้ดังนี้
1. สูตรสำหรับกลุ่มประชากร ใช้เมื่อทราบจำนวนข้อมูลทั้งหมดของกลุ่มประชากร หรือเพื่อต้องการอธิบายข้อมูลกลุ่มนั้นเท่านั้นไม่ได้ต้องการอ้างอิงไปถึงกลุ่มประชากร
2. สูตรสำหรับกลุ่มตัวอย่าง ใช้เมื่อเราสุ่มเก็บข้อมูลจำนวนหนึ่งมาจากจำนวนประชากรทั้งหมด เพราะส่วนเบี่ยงเบนมาตรฐานที่ได้จากสูตรการคำนวณนี้จะใช้ในการอ้างอิงไปถึงประชากร และสูตรการคำนวณนี้จะนิยมใช้ในสถิติเชิงอนุมานด้วย
นอกจากนี้ถ้าเรานำส่วนเบี่ยงเบนมาตรฐานมายกกำลัง 2 เราก็จะได้ "ความแปรปรวน (Variance,V) " ดังนี้
ดังนั้นในการอธิบายลักษณะของข้อมูลให้ได้สมบูรณ์ เราจะต้องพิจารณาทั้งแนวโน้มเข้าสู่ส่วนกลาง และการกระจายของข้อมูลด้วย