วันจันทร์ที่ 7 ธันวาคม พ.ศ. 2558

การวัดการกระจาย (Measure of Dispersion)

          ทำไมเราต้องวัดการกระจายตัวของข้อมูล  การหาแนวโน้มเข้าสู่ส่วนกลางไม่เพียงพอที่จะอธิบายลักษณะของข้อมูลเหรอ?
          การจะอธิบายถึงกลุ่มข้อมูลให้ได้สมบูรณ์นั้น  เราจำเป็นต้องพิจารณาทั้งค่าแนวโน้มเข้าสู่ส่วนกลาง  และการกระจายของข้อมูล  เพราะค่าแนวโน้มเข้าสู่ส่วนกลางจะอธิบายถึงตัวแทนของข้อมูลเท่านั้น  ไม่สามารถบอกภาพรวมหรือลักษณะการเกาะกลุ่มกันของข้อมูลได้  ซึ่งการวัดการกระจายจะช่วยในการอธิบายภาพรวมของข้อมูลว่าค่าของข้อมูลมีลักษณะเป็นอย่างไร  มีค่าเหมือนหรือแตกต่างกัน และแตกต่างจากค่าตัวแทนของข้อมูลเท่าใด  เพื่อให้เห็นภาพชัดเจนภาพขึ้นเรามาดูตัวอย่างกันเลย

         สมมติเรามีข้อมูลความสูงของต้นไม้ จำนวน 5 ต้น โดยแยกใส่ปุ๋ย 2 ชนิด เป็นระยะเวลา 1 สัปดาห์  แล้วจึงวัดความสูงได้ข้อมูลดังนี้


          ถ้าเราพิจารณาแค่ค่าเฉลี่ยความสูงของต้นไม้ จะพบว่าค่าเฉลี่ยเท่ากัน คือ 4.2 ซ.ม.  เราอาจสรุปเลยว่าปุ๋ยทั้ง 2 ชนิดส่งผลต่อการเจริญเติบโตของต้นไม้ไม่แตกต่างกัน  แต่ถ้าเราพิจารณาค่าการกระจายคือ ส่วนเบี่ยงเบนมาตรฐานด้วยจะพบว่ามีค่าแตกต่างกัน  ซึ่งกลุ่ม 1 มีค่าน้อยกว่ากลุ่ม 2  แสดงว่าความสูงของต้นไม้กลุ่ม1 มีค่าเกาะกลุ่มกัน (ถ้าเราดูค่าสูง-ต่ำ จะเห็นว่ากลุ่ม 2 ค่าต่างกันมาก)  ซึ่งแสดงให้เห็นว่าปุ๋ย  2  ชนิดนี้ส่งผลต่อความสูงของต้นไม้ที่แตกต่างกัน   
          ดังนั้นในการเลือกใช้ปุ่ย  ถ้าเราอยากให้ความสูงของต้นไม้สม่ำเสมอกัน เราก็ควรจะเลือกปุ๋ยที่ใส่ให้กลุ่ม 1  เพราะปุ๋ยที่ใส่ให้กลุ่ม 2  ค่อนข้างมีความแตกต่างกันมาก

          จากข้อมูลตัวอย่างทำให้เรามองเห็นภาพชัดเจนขึ้นว่าทำไมเราจึงต้องวัดการกระจายร่วมกับการวัดแนวโน้มเข้าสู่ส่วนกลางของข้อมูล  ก็เพื่อให้อธิบายลักษณะของข้อมูลได้สมบูรณ์นั่นเอง  ต่อไปเรามารู้จักการวัดการกระจายกันเลย

การวัดการกระจายคืออะไร

          การวัดการกระจาย (Measure of Dispersion)  เป็นเครื่องมือในกลุ่มสถิติเชิงบรรยาย  ใช้เพื่อบอกภาพรวมของข้อมูล  โดยจะอธิบายลักษณะข้อมูลว่ามีการกระจายหรือแปรผันออกจากค่ากลางข้อมูลแตกต่างกันมากน้อยเพียงใด  และค่าความแปรผันนี้เราจะเรียกว่า "ค่าเบี่ยงเบน(Deviation)" 

               ค่าความเบี่ยงเบน = ขนาดความเบี่ยงเบนจากค่าที่ควรจะเป็นของข้อมูล

          การแปลผลค่าที่ได้จากการวัดการกระจาย ถ้ามีค่าน้อยก็แสดงว่าค่าของข้อมูลชุดนั้นกระจายตัวน้อยหรือมีค่าที่ไม่ค่อยมีความแตกต่างกัน  แต่ถ้ายิ่งมีค่ามากก็จะแสดงว่าข้อมูลชุดนั้นมีการกระจายตัวหรือแตกต่างกันมาก 

เครื่องมือที่นิยมใช้วัดการกระจายมี  2  ชนิด  คือ

 

        1. พิสัย (Range)

        
         เป็นการวัดการกระจายโดยอาศัยความแตกต่างระหว่างค่าสูงสุดและค่าต่ำสุดของข้อมูล  โดยพิสัยเป็นเครื่องมือที่ใช้วัดการกระจายที่ง่ายที่สุด  ควรใช้เมื่อไม่ต้องการความละเอียดหรือข้อมูลมีค่าไม่แตกต่างกันมาก  เพราะพิสัยจะมีความละเอียดน้อยลงเมื่อข้อมูลมีค่าแตกต่างกันมาก

สูตรการคำนวณ 

          พิสัย (R)  =  ค่ามากที่สุด - ค่าน้อยที่สุด

ตัวอย่าง : หาค่าพิสัยความสูงต้นไม้ของกลุ่มที่ 1
          
          พิสัย = ค่ามากที่สุด -  ค่าน้อยที่สุด
                 = 4.5 - 3.9 
                 = 0.6 

        2. ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)  

 

        เป็นการวัดการกระจายโดยใช้วิธีการยกกำลัง 2 ของค่าผลต่างระหว่างค่าของข้อมูลกับค่าเฉลี่ยเพื่อขจัดทิศทางของผลต่างออกก่อน หลังจากนั้นจึงนำมาหาผลรวมแล้วหารจำนวนข้อมูลทั้งหมดก่อนที่จะนำมาหารากที่ 2   โดยส่วนเบี่ยงเบนมาตรฐานเป็นการวัดการกระจายที่ดีและนิยมใช้มากที่สุด

สูตรคำนวณ

        
          จะเห็นว่าสูตรคำนวณสำหรับส่วนเบี่ยงเบนมาตรฐานจะมี  2 สูตร  โดยเราสามารถเลือกใช้ดังนี้

          1. สูตรสำหรับกลุ่มประชากร  ใช้เมื่อทราบจำนวนข้อมูลทั้งหมดของกลุ่มประชากร  หรือเพื่อต้องการอธิบายข้อมูลกลุ่มนั้นเท่านั้นไม่ได้ต้องการอ้างอิงไปถึงกลุ่มประชากร
          2. สูตรสำหรับกลุ่มตัวอย่าง  ใช้เมื่อเราสุ่มเก็บข้อมูลจำนวนหนึ่งมาจากจำนวนประชากรทั้งหมด  เพราะส่วนเบี่ยงเบนมาตรฐานที่ได้จากสูตรการคำนวณนี้จะใช้ในการอ้างอิงไปถึงประชากร  และสูตรการคำนวณนี้จะนิยมใช้ในสถิติเชิงอนุมานด้วย




           นอกจากนี้ถ้าเรานำส่วนเบี่ยงเบนมาตรฐานมายกกำลัง 2  เราก็จะได้  "ความแปรปรวน (Variance,V) "  ดังนี้
           ดังนั้นในการอธิบายลักษณะของข้อมูลให้ได้สมบูรณ์  เราจะต้องพิจารณาทั้งแนวโน้มเข้าสู่ส่วนกลาง  และการกระจายของข้อมูลด้วย
 
 

วันเสาร์ที่ 28 พฤศจิกายน พ.ศ. 2558

การวัดแนวโน้มเข้าสู่ส่วนกลาง (Measures of Central Tendency)

        หากเรามีข้อมูลอยู่  1  ชุด  ซึ่งมีตัวเลขประมาณ 50-60 ตัว  ถ้ามีคนมาถามเราแล้วให้เราอธิบายข้อมูลกลุ่มนี้  เราจะอธิบายข้อมูลชุดนี้ยังไง?  คงมีคำถามขึ้นมาในหัวเราว่า เราจะเลือกตัวเลขไหนมาอธิบายดี  บางคนอาจตอบได้อย่างง่ายดาย  แต่คงมีบางคนที่ยังงงๆ  อยู่และไม่รู้จะอธิบายอย่างไร  ในทางสถิติมีเครื่องมืออยู่กลุ่มหนึ่งที่ใช้หาตัวแทนของข้อมูล  ซึ่งก็คือ "การวัดแนวโน้มเข้าสู่ส่วนกลาง (Measures of Central Tendency)"เพื่อใช้ในการตอบคำถามนี้ได้  เรามาดูกันว่าการวัดแนวโน้มเข้าสู่ส่วนกลางคืออะไร

การวัดแนวโน้มเข้าสู่ส่วนกลาง (Measures of Central Tendency) คืออะไร?

          เป็นการหาค่าตัวแทนของข้อมูล ซึ่งเป็นค่าที่ค่าของข้อมูลทั้งหมดมีแนวโน้มที่จะเข้าใกล้หรือมีค่าใกล้เคียงกับค่านี้  ดังนั้นจึงเรียกว่าเป็น "ค่ากลางของข้อมูล" และจะใช้เพื่ออธิบายลักษณะของข้อมูลนั่นเอง

การวัดแนวโน้มเข้าสู่ส่วนกลางมีเครื่องมืออยู่  3  ชนิด  คือ

          1. ค่าเฉลี่ย  (Mean)  เป็นการหาค่ากลางของข้อมูล  โดยนำข้อมูลทั้งหมดมาหาค่าเฉลี่ย ซึ่งการหาค่าเฉลี่ยนี้จะขจัดความแปรปรวนของข้อมูลที่ควบคุมไม่ได้ออกไปทำให้ได้ค่าเฉลี่ยที่ควรจะเป็นของข้อมูล
          2. มัธยฐาน (Median)  เป็นการหาค่ากลางของข้อมูลที่อยู่ที่ตำแหน่งตรงกลาง  โดยข้อมูลจะต้องมีการเรียงลำดับความมากน้อยอาจเรียงจากมากไปหาน้อย  หรือจากน้อยไปหามากก็ได้  แล้วหาค่าที่อยู่ตรงกลางของข้อมูล
          3. ฐานนิยม (Mode)  เป็นการหาค่ากลางของข้อมูลโดยเลือกจากค่าที่มีจำนวนซ้ำกันมากที่สุดหรือมีความถี่สูงสุด


เครื่องมือทั้ง  3  ชนิดมีวิธีการคำนวณดังนี้

 
หมายเหตุ : ** ดูรายละเอียดและตัวอย่างการคำนวณได้จากหัวข้อ " การเลือกใช้ค่าเฉลี่ย "

 

ตัวอย่างการหามัธยฐานและฐานนิยม

ความแตกต่างกันของค่าเฉลี่ย ฐานนิยม  และมัธยฐาน


ความสัมพันธ์ของค่าเฉลี่ย ฐานนิยม  และมัธยฐาน

          ถ้าเรานำค่าเฉลี่ย ฐานนิยม  และมัธยฐานมาแสดงในรูปแบบการแจกแจงข้อมูลเราจะได้ความสัมพันธ์ดังนี้



การแจกแจงข้อมูลแบบปกติ
การแจกแจงข้อมูลแบบเบ้ซ้าย

การแจกแจงข้อมูลแบบเบ้ขวา

     

         จากรูปแสดงความสัมพันธ์ของการแจกแจงข้อมูลทั้ง 3 แบบ  พบว่าถ้าข้อมูลมีการกระจายตัวแบบปกติ  ค่าทั้ง 3  ค่าจะอยู่ที่ตำแหน่งตรงกลาง  แต่เมื่อใดก็ตามที่ข้อมูลไม่ได้กระจายตัวแบบปกติค่าทั้ง 3 ค่าจะอยู่คนละตำแหน่งกัน  ดังนั้นในการเลือกค่าที่จะเป็นตัวแทนหรืออธิบายข้อมูล  เราจะต้องพิจารณารูปทรงของข้อมูลด้วย  เพื่อให้สามารถเลือกค่าทีใช้เป็นตัวแทนของข้อมูลได้อย่างเหมาะสม

วันจันทร์ที่ 19 ตุลาคม พ.ศ. 2558

การเลือกใช้ค่าเฉลี่ย (Mean)

     เคยสับสนไหมว่าเราจะเลือกใช้ค่าเฉลี่ยกันอย่างไร  บางคนอาจบอกว่า "อ้าว! มีแบบเดียวไม่ใช่เหรอ   มันมีหลายแบบเหรอ? "คำถามนี้จะหมดไป  เรามาไขข้อข้องใจกันเลย

     

ค่าเฉลี่ย (Mean) 

          เป็นเครื่องมือชนิดหนึ่งในกลุ่มสถิติเชิงพรรณนาที่ว่าด้วยเรื่องการวัดแนวโน้มเข้าสู่ส่วนกลาง  ซึ่งถือเป็นการวิเคราะห์ข้อมูลเบื้องต้นที่เราจำเป็นต้องทราบ

การวัดแนวโน้มเข้าสู่ส่วนกลางคืออะไร? 


         การวัดแนวโน้มเข้าสู่ส่วนกลาง  เป็นวิธีการหาค่าที่ใช้เป็นตัวแทนของข้อมูลซึ่งเป็นค่ากลางของข้อมูล  ซึ่งค่าๆนี้เป็นค่าที่ข้อมูลทั้งหมดมีแนวโน้มที่จะเข้าใกล้หรือมีค่าใกล้เคียงกับค่านี้  ซึ่งเราจะนำมาใช้เพื่ออธิบายลักษณะข้อมูลของกลุ่มนั่นเอง
  
จากรูป M ถือเป็นค่ากลางของข้อมูล  เพราะเป็นค่าที่มีจำนวนความถี่สูงสุด ซึ่งถือเป็นตัวแทนของข้อมูลชุดนี้


ค่าเฉลี่ยมีกี่ชนิด แต่ละชนิดแตกต่างกันอย่างไร? 
 
ชนิดของค่าเฉลี่ย
  • ค่าเฉลี่ยเลขคณิต หรือที่เราเรียกกันบ่อยๆ ว่า ค่าเฉลี่ย (Arithmetic mean หรือ Average)  
  • ค่าเฉลี่ยถ่วงน้ำหนัก (Weight arithemetic mean)
  • ค่าเฉลี่ยฮาร์โมนิก (Harmonic mean)
  • ค่าเฉลี่ยเรขาคณิต (Geometric mean)
 
      ค่าเฉลี่ยแต่ละชนิดจะต่างกันตามลักษณะของข้อมูลที่ถูกนำมาใช้ในการหาค่ากลางของข้อมูลดังนี้
 ต่อไปเราก็มาดูสูตรคำนวณและตัวอย่างในการหาค่าเฉลี่ยแบบต่างๆ


 







         

          นอกจากนี้ถ้าเรานำข้อมูลชุดเดียวกันแล้วนำมาหาค่าเฉลี่ยเลขคณิต ค่าเฉลี่ยฮาร์โมนิก  และค่าเฉลี่ยเราขาคณิต  เราจะได้คุณสมบัติดังนี้ 
         เมื่อเราทราบข้อมูลทั้งหมดนี้แล้ว  เราก็สามารถเลือกใช้ค่าเฉลี่ยได้อย่างถูกต้อง



วันอาทิตย์ที่ 11 ตุลาคม พ.ศ. 2558

การแจกแจงแบบปกติ คืออะไร?

          เรามักจะเคยได้ยินเกี่ยวกับการแจกแจงแบบปกติกันบ้าง  หรือบางคนอาจได้ยินหรือเห็นการแจกแจงแบบนี้กันอยู่บ่อยๆ  ซึ่งจริงๆ แล้วการแจกแจงแบบนี้มีรูปแบบเป็นอย่างไร  และมีความสำคัญอย่างไร  เรามารู้จักกับการแจกแจงแบบนี้กันเลย

การแจกแจงแบบปกติ คืออะไร

 

          "การแจกแจงแบบปกติ (Normal Distribution)" หรือเรียกอีกชื่อหนึ่งว่า "โค้งปกติ" เป็นการแจกแจงของข้อมูลรูปแบบหนึ่ง  ซึ่งเมื่อเราเก็บข้อมูลมาจำนวนหนึ่งแล้วนำข้อมูลนั้นมาแจกแจงความถี่  เราจะพบว่าข้อมูลส่วนใหญ่จะกระจายอยู่รอบๆ ค่าเฉลี่ยหรือตำแหน่งตรงกลาง  และข้อมูลที่มีค่าแตกต่างจากค่าเฉลี่ยจะค่อยๆ กระจายลดหลั่นกันไปทางด้านซ้ายและขวาในลักษณะเท่ากันหรือใกล้เคียงกัน  เช่น  ข้อมูลค่าขนมต่อวันของนักเรียน ป.1 จำนวน  50  คน เรานำมาแจกแจงความถี่ด้วยฮิสโตแกรมจะได้ดังรูปนี้

การแจกแจงค่าขนมของนักเรียนชั้น ป.1
        จากตัวอย่างค่าขนมของนักเรียนชั้น ป.1 ที่มีค่าขนมเฉลี่ยเท่ากับ 17.5 บาท พบว่านักเรียนส่วนใหญ่จะมีค่าขนมต่อวันอยู่ใกล้กับ 17.5 บาทมากที่สุด  ส่วนค่าแตกต่างจาก 17.5 ก็จะค่อยๆ ลดหลั่นกันไปในลักษณะใกล้เคียงกันทั้งทางด้านซ้ายและขวา  ซึ่งลักษณะแบบนี้เราจะเรียกว่าข้อมูลมีการแจกแจงแบบปกติ
 
       เมื่อเราทราบรูปแบบการแจกแจงแบบปกติแล้ว  ต่อไปก็ควรทราบเกี่ยวกับคุณสมบัติของการแจกแจงแบบนี้ด้วย

คุณสมบัติของการแจกแจงแบบปกติ 

          1)  รูปทรงของการแจกแจงจะมีลักษณะเป็นรูประฆังคว่ำ  มีความสมมาตรกันทั้ง 2 ด้าน  ซึ่งมีค่าเฉลี่ยอยู่ในตำแหน่งแกนสมมาตร(ตำแหน่งตรงกลาง)  และมีส่วนเบี่ยงเบนมาตรฐานเป็นค่าแสดงการกระจายของข้อมูล  และอยู่ที่ตำแหน่งจุดเปลี่ยนแกนของเส้นโค้ง


          นอกจากนี้การแจกแจงแบบนี้จะมีค่าเฉลี่ย  ฐานนิยม  และมัธยฐานอยู่ตรงตำแหน่งเดียวกัน

          2) ส่วนปลายโค้งทั้ง 2 ด้านจะมีค่าเข้าใกล้ 0  และมีค่าเป็นอนันต์  ไม่สามารถบอกได้ว่าจะสัมผัสฐานที่จุดใด
          3) พื้นที่ใต้เส้นโค้ง  คือ  ค่าความน่าจะเป็นที่ข้อมูลมีโอกาสตกอยู่  โดยพื้นที่ใต้เส้นโค้งทั้งหมดมีค่าเท่ากับ 1  หรือ  100% นั่นเอง
          ลักษณะการกระจายของข้อมูลสามารถแบ่งออกเป็น  3  ส่วน  คือ 


          นอกจากนี้ข้อมูลที่ถูกนำมาแจกแจงความถี่แล้วมีการแจกแจงแบบปกติจะต้องเป็นข้อมูลวัด  และข้อมูลนั้นส่วนใหญ่จะเกี่ยวข้องกับพฤติกรรมของสิ่งมีชีวิต หรือปรากฎการณ์ตามธรรมชาติ   ดังนั้นการแจกแจงแบบนี้จึงเป็นการแจกแจงของข้อมูลที่เกิดขึ้นได้ตามปกติหรือตามธรรมชาตินั่นเอง และการแจกแจงแบบปกติก็ถือว่ามีความสำคัญและถูกนำมาใช้ในทางสถิติมากที่สุด โดยมักพบว่าการแจกแจงแบบนี้ก็เป็นหนึ่งในข้อตกลงเบื้องต้นทางสถิติด้วย  ดังนั้นจึงเป็นสิ่งจำเป็นที่เราจะต้องเข้าใจการแจกแจงแบบปกตินั่นเอง  เพราะถือเป็นการแจกแจงที่เป็นพื้นฐานสำคัญในทางสถิติ
      

วันอังคารที่ 15 กันยายน พ.ศ. 2558

หนังสือ : สถิติเพื่อการวิจัยไม่ยาก


หนังสือสถิติเพื่อการวิจัยไม่ยาก

(Easy Guide : Easy Guide: Statistic for Research)      

          ใครกำลังทำวิจัยหรือกำลังจะทำวิจัย  แล้วยังไม่ทราบจะเลือกเครื่องมือไหนมาวิเคราะห์ดี  ลองเปิดโอกาสศึกษาหนังสือเล่มนี้ดูได้นะค่ะ  เพราะหนังสือเล่มนี้เหมาะสำหรับผู้ทำวิจัยมือใหม่   โดยเหมาะสำหรับนักเรียน นักศึกษาปริญญาตรี โท เอก นักวิจัยในองค์กรต่างที่ต้องทำงานวิจัย เนื้อหาอ่านง่าย  โดยเริ่มจากการปูพื้นฐานทางสถิติให้ก่อนที่จะเริ่มใช้เครื่องมือในการวิเคราะห์  โดยมีเนื้อหาดังนี้

สารบัญ
     
บทที่ 1 รู้จักกับสถิติ
           สถิติคำนี้น่ากลัวจริงเปล่า
           คำศัพท์ทางสถิติต่างๆ ที่ควรรู้
           ทำไมต้องใช้สถิติในงานวิจัย
           สถิติช่วยให้ชีวิตเราดีขึ้นได้อย่างไร
           วิธีมองสถิติมุมใหม่ที่ไม่น่าเบื่อเหมือนเคย
     บทที่ 2 วิธีการเลือกใช้สถิติให้เหมาะสมกับงานวิจัยสไตล์เรา
           มีสถิติแบบไหนบ้างที่ใช้ในงานวิจัย
           งานวิจัยแต่ละประเภทเหมาะกับสถิติแบบไหน
           สิ่งที่ควรรู้ก่อนเลือกใช้เครื่องมือสถิติ
     บทที่ 3 สถิติเชิงบรรยายคืออะไร
           สถิติเชิงบรรยายคืออะไร
           อันไหนยาก อันไหนง่าย
           คำนวณค่าการวัดแนวโน้มสู่ศูนย์กลางทำอย่างไร
           การวัดการกระจายทำอย่างไร
     บทที่ 4 สถิติเชิงอนุมาน คืออะไร
           สถิติเชิงอนุมานคืออะไรกัน
           สิ่งที่ควรรู้และเข้าใจก่อนใช้สถิติเชิงอนุมาน
           การทดสอบสมมติฐาน
           สถิติเชิงอนุมานมีแบบไหนบ้าง
           เครื่องมือในกลุ่มของสถิติมีพารามิเตอร์
           เครื่องมือในกลุ่มของสถิติไม่มีพารามิเตอร์
      บทที่ 5 ตัวอย่างการงานวิจัยที่ใช้สถิติ และการคำนวณด้วยโปรแกรม Minitab®
           ข้อมูลมีการกระจายแบบปกติหรือไม่
           ทดสอบความแปรปรวนของข้อมูล
           เปรียบเทียบค่าเฉลี่ย
           การหาความสัมพันธ์ระหว่างตัวแปร
           เปรียบเทียบอัตราส่วน
           การพยากรณ์ข้อมูล
           ข้อมูลได้มาอย่างสุ่มหรือไม่
          ทดสอบสัดส่วน
          การเปรียบเทียบค่ากลาง
     บทที่ 6 การนำเสนอผลสถิติอย่างไรให้โดนใจ
          การนำเสนอคืออะไร
          เทคนิคนำเสนอผลสถิติให้โดนใจ
          ตารางแจกแจงความถี่
          กราฟรูปแบบต่างๆ


สิ่งที่ต้องรู้ก่อนเลือกเครื่องมือทางสถิติมาใช้

          เครื่องมือทางสถิติมีมากมายแล้วจะมีวิธีในการเลือกใช้อย่างไร  จะใช้งานถูกต้องหรือไม่ ?     คำถามประเภทนี้คงมีหลายคนสงสัยเหมือนกัน  ซึ่งคำถามเหล่านี้จะหมดไปเพียงแค่เราเข้าใจสิ่งที่เรียกว่า "ข้อตกลงเบื้องต้นทางสถิติ (Assumption)"  เนื่องจากเครื่องมือทางสถิติแต่ละชนิดถูกออกแบบให้มีวัตถุประสงค์และการใช้งานไม่เหมือนกัน  จึงกำหนดข้อตกลงเบื้องต้นสำหรับเครื่องมือสถิติแต่ละตัวขึ้นมา เพื่อใช้เป็นแนวทางสำหรับผู้ใช้งานให้สามารถเลือกใช้เครื่องมือสถิติชนิดนั้นๆ ได้อย่างถูกต้องและเหมาะสม

ข้อตกลงเบื้องต้นทางสถิติ (Assumption)  คืออะไร

          เป็นข้อกำหนดสำหรับเครื่องมือทางสถิติแต่ละชนิดว่าสามารถนำมาใช้ได้กับข้อมูลหรือต้องมีข้อกำหนดอะไรบ้างจึงจะใช้เครื่องมือชนิดนั้นๆ ได้   โดยข้อตกลงเบื้องต้นทางสถิติได้แก่   
 
  • จุดประสงค์ในการวิเคราะห์หรือการใช้งาน

         สิ่งนี้ถือเป็นหัวใจสำคัญเพราะเป็นวัตถุประสงค์ในการวิเคราะห์ข้อมูล  ซึ่งในการเลือกเครื่องมือมาใช้งานเราต้องรู้ก่อนว่าวัตถุประสงค์ของการวิเคราะห์คืออะไร  เช่น  ต้องการหาค่าแนวโน้มเข้าสู่ส่วนกลาง  ต้องการหาความแปรปรวน  หรือต้องการทดสอบค่าเฉลี่ย
  • ประเภทของข้อมูล

          ประเภทของข้อมูลถูกแบ่งออกเป็น 2 ประเภท ตามลักษณะการเก็บข้อมูล  คือ ข้อมูลวัด กับข้อมูลนับ โดยข้อมูลวัดเราได้มาจากการนำเครื่องมือวัด เช่น  ไม้บรรทัด เครื่องชั่ง ไปวัดสิ่งที่เราสนใจ เช่น เราอยากทราบน้ำหนักของนักเรียนในห้องๆ หนึ่ง  เราก็ให้นักเรียนห้องนั้นชั่งน้ำหนักและจดบันทึกน้ำหนักที่ได้ของนักเรียนแต่ละคน  ส่วนข้อมูลนับเราได้ข้อมูลจากวิธีการนับจำนวนสิ่งที่เราสนใจ เช่น เราสนใจนักเรียนที่มีน้ำหนักระหว่าง 50-60 กิโลกรัม  เราก็ทำการนับจำนวนนักเรียนที่มีน้ำหนักอยู่ในช่วงนี้ว่ามีทั้งหมดกี่คน
  • ระดับการวัดของข้อมูล 

        ระดับการวัดหรือเรียกอีกอย่างหนึ่งว่ามาตรวัดของข้อมูล  เป็นการแยกประเภทของข้อมูลออกตามลักษณะข้อมูล  โดยแบ่งเป็น  4  ระดับ คือ

        1.  ระดับนามบัญญัติ (Nominal Data)
             เป็นการกำหนดลักษณะข้อมูลออกเป็นประเภทหรือกลุ่ม  โดยแบ่งลักษณะที่เหมือนกันไว้ด้วยกัน  เช่น  เพศ เชื้อชาติ หรือศาสนา


        2.  ระดับเรียงอันดับ (Ordinal Data)
            เป็นการกำหนดลักษณะข้อมูลออกเป็นกลุ่ม  โดยข้อมูลระดับนี้สามารถบอกความแตกต่างระหว่างกลุ่มว่ามากกว่าหรือน้อยกว่ากันได้  แต่ไม่สามารถบอกได้ว่ามากกว่าหรือน้อยกว่ากันเท่าใด เช่น  ระดับความชอบ  ระดับความพึงพอใจ  ซึ่งข้อมูลระดับนี้เราจะใช้จัดลำดับหรือตำแหน่งสิ่งที่เราสนใจเท่านั้น


        3.  ระดับช่วง (Interval Data)
             เป็นการวัดระดับที่สามารถวัดค่าออกมาเป็นตัวเลขได้  และบอกได้ว่ามากกว่าหรือน้อยกว่ากันเท่าใด  แต่การวัดระดับนี้จะไม่มีค่าศูนย์ที่แท้จริง  เช่น คะแนนสอบวิชาภาษาอังกฤษ  การที่เราได้ 0 คะแนน  ไม่ได้หมายความว่าเราไม่มีความรู้ภาษาอังกฤษเลย  เพียงแต่เราไม่สามารถในการทำคะแนนสอบครั้งนี้ได้เท่านั้น

        4.  ระดับอัตราส่วน (Ratio Data)
             เป็นการวัดระดับที่เหมือนกับระดับช่วง  แต่ต่างกันที่การวัดระดับนี้จะมีค่าศูนย์ที่แท้จริง คือ ถ้าหากค่าที่วัดได้มีค่าเป็น 0  ก็หมายถึงไม่มีค่าเลย  เช่น น้ำหนัก 0 กรัม  หมายถึงไม่มีน้ำหนักเลย

        ดังนั้นการเลือกเครื่องมือทางสถิติมาใช้  เราจะต้องทราบว่าข้อมูลของเราอยู่ในการวัดระดับใดด้วย


  • จำนวนกลุ่มตัวอย่างและตัวแปร

       กลุ่มตัวอย่าง  คือ ส่วนหนึ่งของสิ่งทั้งหมดที่ถูกเลือกมาศึกษา  โดยเราจะเรียกสิ่งทั้งหมดนั้นว่า ประชากร  เหตุผลที่ต้องมีกลุ่มตัวอย่างเพราะบางครั้งการนำสิ่งทั้งหมดมาศึกษาอาจต้องใช้เวลาและเสียค่าใช้จ่ายมาก  ในทางสถิติจึงอาศัยการเลือกกลุ่มตัวอย่างมาเพื่อทำการศึกษาแทน

       ตัวแปร  คือ สิ่งที่เราสนใจศึกษาซึ่งจะอธิบายเกี่ยวกับคุณสมบัติของสิ่งนั้นๆ  และสามารถนำมาวัด หรือนับค่าได้  ค่าที่ได้สามารถเปลี่ยนแปลงได้  เช่น  อายุ เพศ   นอกจากนี้ตัวแปรยังแบ่งออกเป็น 2 ประเภท  คือ  ตัวแปรต้น (ตัวแปรอิสระ)  และตัวแปรตาม  โดยตัวแปรต้น คือ สิ่งที่เป็นสาเหตุให้เกิดผลต่างๆ  ส่วนตัวแปรตาม  คือ  ผลที่เกิดจากตัวแปรต้นนั่นเอง

       ดังนั้นการเลือกเครื่องมือทางสถิติมาใช้  เราจำเป็นต้องทราบว่ามีกลุ่มตัวอย่างกี่กลุ่ม  และมีตัวแปรต้นกี่ตัว เพื่อให้เลือกเครื่องมือมาใช้ได้อย่างถูกต้อง


  • ลักษณะการกระจายตัวของข้อมูล

       การกระจายตัวของข้อมูลคือ  การนำข้อมูลมาแจกแจงความถี่เพื่อดูว่าข้อมูลมีการกระจายหรือแปรผันออกจากค่ากลางของข้อมูลแตกต่างกันมากน้อยเพียงใด
       การเลือกเครื่องมือทางสถิติสำหรับเรื่องการกระจายตัวของข้อมูลจะพิจารณาการกระจายออกเป็น 2 กลุ่ม  คือ มีการกระจายแบบปกติ  หรือมีการกระจายตัวแบบอื่น  ดังนั้นเราจึงจำเป็นต้องรู้รูปแบบลักษณะการกระจายแบบปกติข้อมูลเอาไว้
       ลักษณะการกระจายแบบปกติ  คือ  การนำข้อมูลมาแจกแจงความถี่แล้วจะพบว่าข้อมูลส่วนใหญ่ประมาณ 68.26% จะกระจายตัวอยู่รอบๆ ค่ากลาง คือมีความถี่สูงอยู่ตรงกลาง และลดหลั่นกันไปทั้งทางด้านซ้ายและด้านขวาในลักษณะสมมาตร  ซึ่งมีลักษณะคล้ายรูประฆังคว่ำ  ดังรูป



      
ดังนั้นสรุปได้ว่าเพื่อผลการวิเคราะห์ที่ถูกต้อง แม่นยำ และน่าเชื่อถือ เราจำเป็นต้องพิจารณาเกี่ยวกับข้อตกลงเบื้องต้นของเครื่องมือนั้นๆ ก่อนนำเครื่องมือทางสถิติมาใช้ด้วย


วันอาทิตย์ที่ 30 สิงหาคม พ.ศ. 2558

ประเภทของสถิติ

          เคยสงสัยบ้างไหมสถิติมีกี่ประเภท แต่ละประเภทแตกต่างกันอย่างไร  ทำไมจึงต้องแยกออกเป็นประเภทด้วย  คำถามเหล่านี้จะหมดไปถ้าเราได้รู้จักประเภทของสถิติ

 

สถิติมี 2 ประเภท  คือ 

    • สถิติเชิงพรรณนา (Description Statistics)   

    • สถิติเชิงอนุมาน (Inferential Statistics) 

       

    สถิติเชิงพรรณนา (Description Statistics)  

             สถิติเชิงพรรณณาหรือเรียกอีกอย่างหนึ่งว่า สถิติบรรยาย  เป็นสถิติที่ใช้บรรยายหรือสรุปลักษณะสิ่งที่เราสนใจ  ซึ่งอาจเป็นกลุ่มตัวอย่างหรือประชากรก็ได้  โดยมุ่งเน้นอธิบายหรือสรุปผลเรื่องราวต่างๆ ของกลุ่มตัวอย่างที่ศึกษาหรือประชากรกลุ่มใดกลุ่มหนึ่งเท่านั้น  เพื่อให้เห็นภาพชัดเจนรวดเร็วและเข้าใจได้ง่าย 
             ข้อสรุปที่ได้จากสถิติประเภทนี้จะไม่สามารถนำไปอ้างอิงถึงกลุ่มตัวอย่างหรือประชากรกลุ่มอื่นได้  จะใช้อธิบายเฉพาะกลุ่มตัวอย่างหรือประชากรที่เรานำข้อมูลมาใช้เท่านั้น  ซึ่งสถิติประเภทนี้ถือเป็นการวิเคราะห์ข้อมูลขั้นพื้นฐานและถูกนำมาใช้กันบ่อยๆ  
              เครื่องมือสำหรับสถิติประเภทนี้มี  รูปแบบคือ  การแสดงผลด้วยแผนภาพ  และการวิเคราะห์ข้อมูลเบื้องต้น
      

    1. การแสดงผลด้วยแผนภาพ  (Visual Techniques) 
              เป็นการเน้นให้เข้าใจพฤติกรรมและข้อเท็จจริงของข้อมูลเพื่อตีความหมายได้ง่ายขึ้น  โดยการนำข้อมูลมาแปลงให้เป็นตาราง  แผนภาพ  แผนภูมิ  กราฟ  หรือรูปภาพ  แล้วจึงทำการตีความหมายด้วยตาเปล่า

    ตัวอย่างการแสดงผลน้ำหนักของนักเรียนกลุ่มหนึ่งด้วยตารางแจกแจงความถี่

    น้ำหนัก(กิโลกรัม)
    ความถี่(คน)
    45-50
    2
    51-55
    4
    56-60
    8
    61-65
    5
    66-70
    4
    71 ขึ้นไป
    1
     
          จากตัวอย่างด้านบนเราจะสามารถสรุปได้ว่า  น้ำหนักเฉลี่ยส่วนใหญ่ของนักเรียนกลุ่มนี้อยู่ที่  56-60 กิโลกรัม 

    2. การวิเคราะห์ข้อมูลเบื้องต้น  (Data Analysis) 
              เป็นการคำนวณหาลักษณะเฉพาะของข้อมูลให้ออกมาเป็นตัวเลข  เพื่อนำตัวเลขนั้นไปใช้อธิบายประชากรหรือสิ่งที่สนใจ  โดยการวิเคราะห์ข้อมูลจะประกอบด้วย 

              1.  การวัดแนวโน้มเข้าสู่ส่วนกลาง 
    เป็นการหาค่าเพื่อนำมาเป็นตัวแทนของข้อมูล  เพื่ออธิบายลักษณะของข้อมูล  โดยค่าที่ได้จะเป็นค่าที่ข้อมูลทั้งหมดมีแนวโน้มเข้าหาค่าๆ นี้   
              เครื่องมือที่ใช้ได้แก่  ค่าเฉลี่ย  ฐานนิยม  มัธยฐาน 

              2. การหาตำแหน่งของข้อมูล
    เป็นการหาค่าที่แสดงตำแหน่งของข้อมูล  เพื่ออธิบายว่าข้อมูลอยู่ในตำแหน่งใด  และอยู่ในตำแหน่งที่ดีหรือไม่
     เครื่องมือที่ใช้ได้แก่ เปอร์เซ็นต์ไทล์  ควอไทล์  และเดไซล์
     
    3. การวัดการกระจาย 
    เป็นการหาค่าที่ใช้เพื่ออธิบายลักษณะการกระจายของข้อมูล  เพื่อดูว่าข้อมูลเกาะกลุ่มหรือกระจายแยกจากกันมากน้อยแค่ไหน  ซึ่งก็คือการหาขนาดของความเบี่ยงเบนจากค่าที่ควรจะเป็นของข้อมูล 
               เครื่องมือที่ใช้ได้แก่  ค่าความแปรปรวน  ส่วนเบี่ยงเบนมาตรฐาน  พิสัย 

    4. การหารูปทรง 
              เป็นการหาค่าที่ใช้เพื่ออธิบายรูปทรงของข้อมูล  เช่น ความสมมาตร  ความเบ้  ความโด่ง  โดยการหารูปทรงมักจะนำข้อมูลมาแจกแจงความถี่เพื่อช่วยในการดูรูปทรงของข้อมูล


    สถิติเชิงอนุมาน (Inferential Statistics)

    สถิติเชิงอนุมาน  หรือเรียกอีกอย่างหนึ่งว่า  สถิติอ้างอิง  เป็นสถิติที่ใช้เพื่อหาข้อสรุปเกี่ยวกับเรื่องราวที่เราสนใจของประชากร  โดยเก็บข้อมูลจากกลุ่มตัวอย่างที่ถูกเลือกมาจากประชากร  แล้วนำมาวิเคราะห์เพื่อหาข้อเท็จจริง   หลังจากนั้นจึงนำข้อเท็จจริงที่ได้ไปสรุปเรื่องราวหรืออธิบายกลุ่มประชากร

    ความถูกต้องของสถิติอนุมาน  จริงๆ แล้วจะขึ้นอยู่กับกลุ่มตัวอย่างที่ถูกเลือกมา  ว่าเป็นตัวอย่างที่ดีของประชากรหรือไม่  โดยกลุ่มตัวอย่างที่ถูกเลือกมาจากประชากรจะต้องมีโอกาสในการถูกเลือกมาเท่าๆ กัน หรือไม่มีความเอนเอียงในการเก็บข้อมูล  และจำนวนตัวอย่างที่ถูกเก็บมาจะต้องมีปริมาณที่มากเพียงพอกับการวิเคราะห์  ในทางสถิติจะอาศัยเครื่องมือที่เรียกว่า "เทคนิคการสุ่มตัวอย่าง" มาช่วยในการเก็บตัวอย่าง

    สถิติประเภทนี้ได้แก่  การประมาณค่า  การทดสอบสมมติฐาน  การวิเคราะห์ความแปรปรวน  และการหาความสัมพันธ์ระหว่างตัวแปร  ซึ่งสถิติประเภทนี้ถือเป็นสถิติขั้นสูง