วันจันทร์ที่ 7 ธันวาคม พ.ศ. 2558

การวัดการกระจาย (Measure of Dispersion)

          ทำไมเราต้องวัดการกระจายตัวของข้อมูล  การหาแนวโน้มเข้าสู่ส่วนกลางไม่เพียงพอที่จะอธิบายลักษณะของข้อมูลเหรอ?
          การจะอธิบายถึงกลุ่มข้อมูลให้ได้สมบูรณ์นั้น  เราจำเป็นต้องพิจารณาทั้งค่าแนวโน้มเข้าสู่ส่วนกลาง  และการกระจายของข้อมูล  เพราะค่าแนวโน้มเข้าสู่ส่วนกลางจะอธิบายถึงตัวแทนของข้อมูลเท่านั้น  ไม่สามารถบอกภาพรวมหรือลักษณะการเกาะกลุ่มกันของข้อมูลได้  ซึ่งการวัดการกระจายจะช่วยในการอธิบายภาพรวมของข้อมูลว่าค่าของข้อมูลมีลักษณะเป็นอย่างไร  มีค่าเหมือนหรือแตกต่างกัน และแตกต่างจากค่าตัวแทนของข้อมูลเท่าใด  เพื่อให้เห็นภาพชัดเจนภาพขึ้นเรามาดูตัวอย่างกันเลย

         สมมติเรามีข้อมูลความสูงของต้นไม้ จำนวน 5 ต้น โดยแยกใส่ปุ๋ย 2 ชนิด เป็นระยะเวลา 1 สัปดาห์  แล้วจึงวัดความสูงได้ข้อมูลดังนี้


          ถ้าเราพิจารณาแค่ค่าเฉลี่ยความสูงของต้นไม้ จะพบว่าค่าเฉลี่ยเท่ากัน คือ 4.2 ซ.ม.  เราอาจสรุปเลยว่าปุ๋ยทั้ง 2 ชนิดส่งผลต่อการเจริญเติบโตของต้นไม้ไม่แตกต่างกัน  แต่ถ้าเราพิจารณาค่าการกระจายคือ ส่วนเบี่ยงเบนมาตรฐานด้วยจะพบว่ามีค่าแตกต่างกัน  ซึ่งกลุ่ม 1 มีค่าน้อยกว่ากลุ่ม 2  แสดงว่าความสูงของต้นไม้กลุ่ม1 มีค่าเกาะกลุ่มกัน (ถ้าเราดูค่าสูง-ต่ำ จะเห็นว่ากลุ่ม 2 ค่าต่างกันมาก)  ซึ่งแสดงให้เห็นว่าปุ๋ย  2  ชนิดนี้ส่งผลต่อความสูงของต้นไม้ที่แตกต่างกัน   
          ดังนั้นในการเลือกใช้ปุ่ย  ถ้าเราอยากให้ความสูงของต้นไม้สม่ำเสมอกัน เราก็ควรจะเลือกปุ๋ยที่ใส่ให้กลุ่ม 1  เพราะปุ๋ยที่ใส่ให้กลุ่ม 2  ค่อนข้างมีความแตกต่างกันมาก

          จากข้อมูลตัวอย่างทำให้เรามองเห็นภาพชัดเจนขึ้นว่าทำไมเราจึงต้องวัดการกระจายร่วมกับการวัดแนวโน้มเข้าสู่ส่วนกลางของข้อมูล  ก็เพื่อให้อธิบายลักษณะของข้อมูลได้สมบูรณ์นั่นเอง  ต่อไปเรามารู้จักการวัดการกระจายกันเลย

การวัดการกระจายคืออะไร

          การวัดการกระจาย (Measure of Dispersion)  เป็นเครื่องมือในกลุ่มสถิติเชิงบรรยาย  ใช้เพื่อบอกภาพรวมของข้อมูล  โดยจะอธิบายลักษณะข้อมูลว่ามีการกระจายหรือแปรผันออกจากค่ากลางข้อมูลแตกต่างกันมากน้อยเพียงใด  และค่าความแปรผันนี้เราจะเรียกว่า "ค่าเบี่ยงเบน(Deviation)" 

               ค่าความเบี่ยงเบน = ขนาดความเบี่ยงเบนจากค่าที่ควรจะเป็นของข้อมูล

          การแปลผลค่าที่ได้จากการวัดการกระจาย ถ้ามีค่าน้อยก็แสดงว่าค่าของข้อมูลชุดนั้นกระจายตัวน้อยหรือมีค่าที่ไม่ค่อยมีความแตกต่างกัน  แต่ถ้ายิ่งมีค่ามากก็จะแสดงว่าข้อมูลชุดนั้นมีการกระจายตัวหรือแตกต่างกันมาก 

เครื่องมือที่นิยมใช้วัดการกระจายมี  2  ชนิด  คือ

 

        1. พิสัย (Range)

        
         เป็นการวัดการกระจายโดยอาศัยความแตกต่างระหว่างค่าสูงสุดและค่าต่ำสุดของข้อมูล  โดยพิสัยเป็นเครื่องมือที่ใช้วัดการกระจายที่ง่ายที่สุด  ควรใช้เมื่อไม่ต้องการความละเอียดหรือข้อมูลมีค่าไม่แตกต่างกันมาก  เพราะพิสัยจะมีความละเอียดน้อยลงเมื่อข้อมูลมีค่าแตกต่างกันมาก

สูตรการคำนวณ 

          พิสัย (R)  =  ค่ามากที่สุด - ค่าน้อยที่สุด

ตัวอย่าง : หาค่าพิสัยความสูงต้นไม้ของกลุ่มที่ 1
          
          พิสัย = ค่ามากที่สุด -  ค่าน้อยที่สุด
                 = 4.5 - 3.9 
                 = 0.6 

        2. ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)  

 

        เป็นการวัดการกระจายโดยใช้วิธีการยกกำลัง 2 ของค่าผลต่างระหว่างค่าของข้อมูลกับค่าเฉลี่ยเพื่อขจัดทิศทางของผลต่างออกก่อน หลังจากนั้นจึงนำมาหาผลรวมแล้วหารจำนวนข้อมูลทั้งหมดก่อนที่จะนำมาหารากที่ 2   โดยส่วนเบี่ยงเบนมาตรฐานเป็นการวัดการกระจายที่ดีและนิยมใช้มากที่สุด

สูตรคำนวณ

        
          จะเห็นว่าสูตรคำนวณสำหรับส่วนเบี่ยงเบนมาตรฐานจะมี  2 สูตร  โดยเราสามารถเลือกใช้ดังนี้

          1. สูตรสำหรับกลุ่มประชากร  ใช้เมื่อทราบจำนวนข้อมูลทั้งหมดของกลุ่มประชากร  หรือเพื่อต้องการอธิบายข้อมูลกลุ่มนั้นเท่านั้นไม่ได้ต้องการอ้างอิงไปถึงกลุ่มประชากร
          2. สูตรสำหรับกลุ่มตัวอย่าง  ใช้เมื่อเราสุ่มเก็บข้อมูลจำนวนหนึ่งมาจากจำนวนประชากรทั้งหมด  เพราะส่วนเบี่ยงเบนมาตรฐานที่ได้จากสูตรการคำนวณนี้จะใช้ในการอ้างอิงไปถึงประชากร  และสูตรการคำนวณนี้จะนิยมใช้ในสถิติเชิงอนุมานด้วย




           นอกจากนี้ถ้าเรานำส่วนเบี่ยงเบนมาตรฐานมายกกำลัง 2  เราก็จะได้  "ความแปรปรวน (Variance,V) "  ดังนี้
           ดังนั้นในการอธิบายลักษณะของข้อมูลให้ได้สมบูรณ์  เราจะต้องพิจารณาทั้งแนวโน้มเข้าสู่ส่วนกลาง  และการกระจายของข้อมูลด้วย