Chào mọi người. Hôm nay mình sẽ viết bài về Kiểm định giả thuyết (Hypothesis Testing). Đây là bài đầu tiên trong chuỗi bài về Xác suất thống kê mình sẽ viết trong thời gian tới nhằm củng cố mục tiêu của mình.
Mục tiêu: tự học Xác suất thống kê (Probability and Statistics) vào dịp hè này (Tháng 7-8/2019), để bổ sung kiến thức cho sau này đi học Thạc sĩ, và đi làm. 
Background của mình: Kế toán, kiểm toán, Tài chính. Mình đã biết code Python trước đó. 
Phương pháp học: Hiện tại, mình đọc sách Statatistics for Business and Economics (để link bên dưới). Từ background là tài chính của mình, thì quyển sách khá dễ tiếp cận, với nhiều ví dụ thực tế trong Business, cách diễn đạt dễ hiểu, và chỉ đưa ra các công thức Toán cần thiết đủ để tự thực hiện được bài toán. Sau đó, mình đọc thêm sách dành cho Engineers, cũng có nhiều ví dụ thực tế, nhưng nhiều giải thích về mặt Toán học hơn (sẽ đọc lâu hơn). Song song đó, mình học thêm R để tự code cách giải các bài toán này từ cách tận dụng package của R. 
====
Quy ước: Trong bài, mình sẽ sử dụng các thuật ngữ thống kê đã được dịch hoặc tạm dịch bởi mình qua tiếng Việt. Tuy nhiên, mình vẫn để kèm bên cạnh thuật ngữ tiếng Việt là từ tiếng Anh tương ứng, để thuận tiện cho bạn khi muốn tra cứu hoặc đọc thêm sách tham khảo tiếng Anh. 
Kiểm định giả thuyết là một trong Suy luận thống kê (Statistic Inference) quan trọng và bổ ích. Bài viết sẽ làm nổi bật các ý sau đây:
1. Kiểm định thống kê là gì? 
2. Ý nghĩa của kiểm định thống kê? 
2. Các bước thực hiện một bài toán kiểm định thống kê, và các thuật ngữ lằng nhằng khác :))) 
====

1. Tổng quan về Suy luận thống kê

Trong thống kê, một tổng thể (population) được biểu diễn bằng các đặc điểm số học, và được đại diện bởi các tham số (parameter) của tổng thể. Vì thế, việc tìm hiểu về các tham số cực kì quan trọng để hiểu đặc điểm của tổng thể. Thông thường, ta khó xác định chính xác tham số của 1 tổng thể vì giới hạn thời gian, chi phí để thu thập và phân tích toàn bộ tổng thể, hay số lượng phần tử của tổng thể quá lớn, nên người ta sẽ tiến hành chọn mẫu (Sampling), tính toán các tham số của mẫu (sampling mean, variance, proportion), và dựa vào đó, để đưa ra các đặc điểm của các tham số tổng thể. Suy luận thống kê (Statistic inference) được sử dụng để đưa ra các quyết định về tổng thể dựa trên chọn mẫu. 
Suy luận thống kê thường được chia làm 2 loại: 
- Ước lượng tham số (Parameter estimation), bao gồm Ước lượng điểm (Point estimatation) và Ước lượng khoảng (Interval estimation). Ước lượng điểm là việc từ các tham số của mẫu, ước lượng tham số của tổng thể bằng một giá trị xác định. Ước lượng khoảng là từ các tham số của mẫu, đưa ra một khoảng giá trị của tham số tổng thể, ở một mức độ tin cậy (level of confidence), hay là mức độ rủi ro chấp nhận được của việc tham số không nằm trong khoảng đã tính toán.   
- Kiểm định giả thuyết (Hypothesis Testing) : Đây là việc đưa ra kết luận về một nhận định về tham số của tổng thể.  
Bài này sẽ giới thiệu về Kiểm định giả thuyết (Đáng lẽ phải nói về Parameter Estimation trước, nhưng mình có hứng thú với hypothesis testing hơn, nên mình sẽ viết về nó trước. bài sau sẽ quay lại :)))

2. Kiểm định giả thuyết

2.1 Ví dụ

Cùng xem xét ví dụ về việc kiểm định giả thuyết trong nghiên cứu. Một mẫu ô tô gần đây đã đạt được mức năng lượng trung bình là 24 dặm/gallon. Nhóm nghiên cứu sản phẩm đã phát triển một hệ thống bơm năng lượng mới đặc biệt thiết kể để tăng số dặm trên mỗi gallon. Để đánh giá hệ thống mới này, một vài chiếc sẽ được sản xuất, cài đặt trong ô tô hiện tại, và thực hiện cuộc kiểm tra có kiểm soát vì mục đích nghiên cứu.  Ở đây nhóm nghiên cứu sản phẩm đang tìm bằng chứng để đưa kết luận liệu hệ thống mới có làm tăng giá trị trung bình giá dặm mỗi gallon. Trong trường hợp này, giả thuyết nghiên cứu là hệ thống phun nhiên liệu mới này sẽ vượt mức trung bình 24 dặm mỗi gallon vượt 24. Giả thuyết được giả sử luôn đúng gọi là H0 (Null Hypothesis). Như một quy ước chung, một giả thuyết nghiên cứu được nêu sẽ là giả thuyết thay thế (alternative hypothesis, thường kí hiệu H1). Do đó, các giả thuyết không phù hợp và thay thế cho giả thuyết nghiên cứu là:
H0: µ <= 24 ;H1: µ > 24.
Nếu kết quả của mẫu chỉ ra rằng H0 không thể bị reject, thì người nghiên cứu không thể kết luận là hệ thống phun nhiên liệu mới thì tốt hơn. Tuy nhiên, nếu H0 bị reject, thì nhà nghiên cứu sẽ kết luận được H1 là đúng.
Ta có thể coi bài toán kiểm định giả thuyết như phép biện chứng. Để chứng minh H0 là sai, thì ban đầu, ta giả sử H0 là đúng. Sau đó, ta đi tìm các bằng chứng để chứng mình điều đã giả sử là sai. Trong thống kế, các bằng chứng này được coi là các biến ngẫu nhiên có ít xác suất xảy ra. Nếu xác suất xảy ra chúng là ít, ta có thể chấp nhận mức độ rủi ro có thể cho phép được khi đưa ra kết luận rằng điều giả sử là sai. 

2.2 Quy trình chung

Để có một cái nhìn tổng thế, mình sẽ đưa ra quy trình chung để kiểm định thống kê. Sau đó, mình sẽ đi vào giải quyết từng phần/ khái niệm liên quan, kèm theo ví dụ để hiểu hơn. 
Cấu trúc của một kiểm định thống kê thì tương tự nhau trong mọi trường hợp.
Bước 1. Xác định giả thuyết H0, H1
- Xác định kết luận mình muốn đưa ra. Có thể coi đây là một bài toán sử dụng phép biện chứng. Để chứng minh giả thuyết H0 sai thì ban đầu, giả sử H0 đúng. Sau đó, đi tìm kiếm bằng chứng để chứng tỏ H0 sai, tức là bác bỏ giả thuyết H0. Nếu bằng chứng yếu, thì ta không thể bác bỏ H0. 
Bước 2. Xác định thống kê kiểm định (test statistic) cần thực hiện
Thống kê kiểm định là cách giúp ta tìm bằng chứng xem có thể bác bỏ giả thuyết H0 hay không. Bước này có thể coi là đưa ra phương pháp tìm bằng chứng. Tùy theo tham số cần kiểm định ta sẽ lựa chọn thống kê kiểm định phù hợp. 
Một số thống kê kiểm định thường dùng là thống kê z, t, và Chi bình phương. 
Ví dụ, bài toán kiểm định giá trị trung bình của tổng thể thì sẽ sử dụng thống kê z. Nếu tổng thế phân phối chuẩn, hoặc cỡ mẫu lớn, thì phân phối mẫu của giá trị trung bình của mẫu sẽ là chuẩn. Do đó, thông kế z (chuẩn hóa) được sử dụng.  
Bước 3. Lấy mẫu, xác định giá trị điểm kiểm định (test score)  từ mẫu 
Lấy mẫu và tính toán giá trị kiểm định là đi tìm bằng chứng thực tế.
Bước 4. Lựa chọn phép đo đối với giá trị điểm kiểm định: P-value hay giá trị tới hạn (critical value)
Khi chọn mẫu, đo đạc mẫu và thu thập được giá trị điểm kiểm định, làm sao ta biết điểm kiểm định này có là bằng chứng mạnh hay yếu để bác bỏ H0? Để biết được điều đó, ta cần một giá trị để đối chiếu. Ta sẽ sử dụng p-value hoặc giá trị tới hạn.  
P-value là mức ý nghĩa nhỏ nhất để ta bác bỏ giả thuyết H0. Trong khi đó, giá trị tới hạn là mức ý nghĩa mà ta muốn bác bỏ H0, tức là ranh giới giữa miền chấp nhận (acceptance region) và miền bác bỏ (rejection region)
Bước 5. Đưa ra kết luận là bác bỏ hay không thể bác bỏ H0

Đọc thêm:

2.3 Giả thuyết H0 và H1

Trong bài toán này, luôn xác định 2 giả thuyết, H0 và H1. Đây là 2 giả thuyết trái ngược. Thông thường, nhận định mình muốn chứng minh sẽ nằm ở giả thuyết H1 (lát mình sẽ đưa 1 ví dụ để giải thích tại sao). 
Sau khi có được giả thuyết, mình cần đi tìm bằng chứng để bác bỏ hay không bác bỏ giả thuyết H0. Phương pháp trong thống kê đưa ra là sử dụng các kiểm định (statistic), ví dụ, kiểm định z, kiểm định t. Phương pháp này là tính toán xác suất để bác bỏ giả thuyết H0. Nếu kết quả của kiểm định chỉ ra rằng, xác suất xảy ra H0 thấp, nghĩa là bằng chứng càng mạnh, thì càng ủng hộ quyết định bác bỏ giả thuyết H0. 
Như đã nói, kiểm định thống kê là việc đi tìm bằng chứng để rút ra kết luận về một nhận định về các tham số của 1 hay nhiều tổng thể. Giá trị tham số tổng thế trong H0 được xác định bằng 3 cách. 
1) Từ kiến thức về quy trình, từ kinh nghiệm quá khứ hoặc từ các bài test, thí nghiệm trước đó. Mục đích của giả thuyết là xem tham số có thay đổi không. 
Ví dụ, để đánh giá tính hợp lí của khiếu nại, khi nhà sản xuất nước giải khát khẳng định rằng thùng chứng 2 lít nước ngọt có giá trị trung bình ít nhất là 67.6 chất lỏng. Một mẫu các thùng chứa hai lít sẽ được chọn và nội dung sẽ được đo để kiểm tra yêu cầu của nhà sản xuất. Trong loại tình huống kiểm tra giả thuyết này, chúng tôi thường giả sử khẳng định của nhà sản xuất là đúng trừ khi có bằng chứng của mẫu mâu thuẫn với điều đó. Giá trị trung bình của thùng chứa đã được xác định do thực tế sản xuất ở nhà máy được theo dõi và ghi chép lại.
2) Giá trị đó đến từ một vài lí thuyết hoặc mô hình liên quan tới quá trình mà được nghiên cứu. Mục đích của kiểm định thống kê là xác nhận lý thuyết hoặc mô hình. Ví dụ là trường hợp của nhóm nghiên cứu sản phẩm phía trên.
3) Giá trị của tham số tổng thế từ những cân nhắc bên ngoài, như viết quy cách thiết kế (design) hay kiến trúc (engineering), hoặc từ yêu cầu của hợp đồng. Mục đích của kiểm định thống kê là kiểm tra mức độ phù hợp (conformance). 
(Lấy ví dụ về trường hợp đưa ra quyết định xem lô hàng tới nhà phân phối có đạt quy cách theo yêu cầu của hợp đồng hay không. Nếu có thì quyết định nhận hàng, nếu không có thì sẽ trả lại hàng. Khi một mẫu hàng được nhận, inspector quản lí chất lượng cần quyết định xem có nhận hay return hàng tới nhà máy vì nó không đạt quy cách đề ra. Giả sử răng, quy cách đối với một bộ phận cụ thể yêu cầu độ dài trung bình là 2 inch mỗi phần. Nếu độ dài trung bị lớn hơn hoặc nhỏ hơn 2 inch, bộ phận đó sẽ gây ra vấn đề liên quan tới chất lượng khi lắp ráp bộ phận. Trong trường hợp này, hypothesis sẽ được như sau: H0: Ha: µ  = 2; Ha: µ khác 2.

2.4 Lỗi loại I, loại II (Type I, Type II Error)

Sai sót loại I, loại II
Lỗi loại I là trường hợp bác bỏ H0 khi giả thuyết H0 đúng. Lỗi loại II là khi không bác bỏ được H0, trong khi giả thuyết H1 đúng. 

Lỗi loại I và mức ý nghĩa (alpha)

Trong thống kê, lỗi loại I có thể kiểm soát được bằng cách đặt ra một mức độ "rủi ro" nhất định mà người làm nghiên cứu sẽ bác bỏ H0 khi H0 đúng. Mức độ đó gọi là mức ý nghĩa (significance level, kí hiệu alpha). Nói cách khác, alpha là xác suất để lỗi loại I xảy ra, tức là bác bỏ H0 sai. Để kiểm soát được lỗi loại I, các tham số của giả thuyết phải xác định, nghĩa là, giả thuyết H0 phải đúng khi dấu bằng xảy ra. 
Alpha thường do người nghiên cứu tự đặt ra trước khi tiến hành lấy mẫu, để đảm bảo không bị thiên kiến do kết quả nhận được từ mẫu. Các mức alpha phổ biến là 1% (tức là, chấp nhận 1% rủi ro kết luận bác bỏ giả thuyết H0 là sai), 5%, và ít hơn là 10% (cũng là mức tối đa). Mức 1% thể hiện bằng chứng mạnh để bác bỏ giả thuyết H0. Nếu kết quả của phép kiểm định cho thấy xác suất dính lỗi loại I nhỏ hơn mức alpha xác định, ví dụ 1%, thì ta có thể bác bỏ H0, tức là chấp nhận H1. Ngược lại, nếu kết quả của phép kiểm định > 1% thì ta không có đủ bằng chứng để bác bỏ H0. 
Phép kiểm định để kiểm soát lỗi loại I được  gọi là kiểm định độ tin cậy. 

Lỗi loại II và kiểm định năng lức (power test)

Lỗi loại II chỉ xác định được khi mình biết rõ H0 sai, H1 đúng, và xác định giá trị thực của tham số. 
Kiểm định năng lực (power test) được sử dụng để xác định lỗi loại II. Xác suất để lỗi loại II xảy ra, được kí hiệu Beta, hay là xác suất để không bác bỏ giả thuyết H0 nhưng H1 lại đúng. 
Sở dĩ xác suất xảy ra lỗi loại II không xác định được là do xác suất xảy ra lỗi loại II chỉ xác định khi biết rõ giá trị thực của tham số trong giả thuyết H0. Trong khi đó, nếu dựa vào giá trị của tham số muốn kiểm định thì sẽ không đưa ra phân phối thực sự của tham số. 
Cách tính Beta
Bước 1. Tính giá trị X để không bác bỏ giả thuyết H0. 
Bước 2. Xác định phân phối thực của tham số (tức là, với mean = mean + a, a khác 0). 
Bước 3. Xác định xác suất để không bác bỏ H0 (nhưng H1 lại đúng). 

Đọc thêm:

2.5 Các loại kiểm định thống kê

Có 2 loại kiểm định thống: 
- Kiểm định một đuôi (one-tailed test), hoặc kiểm định một phía (one-sided test)bao gồm kiểm định đuôi dưới (Lower tail), và đuôi trên (Upper tail). 
Kiểm định hai đuôi (two-tailed test), hoặc kiểm định hai phía (two-sided test)
Bước xác định giả thuyết là bước quan trọng nhất, vì nó ảnh hưởng tới kết luận về giả thuyết. Trong khi xây dựng giả thuyết, H0 luôn được khẳng định như một đẳng thức (as an equality), vì thế, xác suất Type I có thể được xác định ở một giá trị nhất định. Giả thuyết H1 có thể là một đuôi hoặc hai đuôi, phụ thuộc vào kết luận nào khi H0 bị từ chối. Nếu mục tiêu là đưa ra kết luận liên quan tới lớn hơn (Greater than), ít hơn (less than), superior to, exceeds, at least, ... thì kiểm định một đuôi sẽ phù hợp. Nếu kết luận không đưa ra điều hướng gì, thì nhận định không bằng (khác) sẽ được hình thành, tức là two-sided. Tóm lại, như sau
Đuôi dưới: H0: a >= a0; H1: a < a0;
Đuôi trên: H0: a <= a0; H1: a > a0;
Hai đuôi: H0: a = a0; H1: a khác a0; 
H1 là nhận định mà mình muốn kiểm tra, là mục đích của kiểm định thống kê mình muốn thực hiện. 
Trong một số vấn đề thực tế, khi sử dụng kiểm định một phía (one-sided test), thường là khó để lựa chọn giả thuyết H1 phù hợp. Ví dụ, giả sử rằng một người đóng chai nước giải khát mua chai 10 ounce từ một công ty nước nước ngọt. Người đóng chai nước muốn biết liệu rằng chai nước có đạt quy cách về áp suất trung bình nội bộ (mean internal pressure) hoặc sức mạnh bùng nổ (bursting strenth), tức là các chai 10 ounce là có độ mạnh nhỏ nhất là 200 psi. Người đóng chai đã quyết định dùng kiểm định giả thuyết, có 2 khả năng: 
H0: pop mean = 200 psi; H1: pop mean > 200 psi; (1)
hoặc pop mean = 200 psi; H1: pop mean < 200 psi; (2)
Cân nhắc (1), nếu H0 bị bác bỏ thì sẽ ủng hộ H1, tức là, giá trị trung bình của tổng thể vượt trên 200 psi, tức là vượt trên quy cách. Nếu không thể từ chối H0, kết luận là các chai nước không theo quy cách và không nên sử dụng. Vì việc từ chối H0 là một kết luận mạnh (do có thể kiểm soát lỗi loại I), (1) sẽ khiến nhà sản xuất chai nước đưa ra là sức mạnh bùng nổ trung bình của các chai nước phải vượt qua quy cách. 
Về công thức (2), nếu H0 từ chối tức là H1 được chấp nhận, do đó, các chai nước không đạt quy cách. Nếu không thể bác bỏ H0, thì tức là không có đủ bằng chứng cho thấy các chai nước đạt dưới mức tiêu chuẩn, nghĩa là, các chai nước có thể ở mức thỏa mãn. Do đó, chúng ta kết luận rằng, các chai nước sẽ thỏa mãn nếu không có bằng chứng mạnh là chai nước dưới chuẩn. 
Công thức (1) hay (2) đúng thì còn tùy thuộc. Đối với công thức (1), sẽ có xác suất là H0 không bị bác bỏ, thậm chí giá trị trung bình thật có thể cao hơn 200 psi một chút (tức là lỗi loại II). Điều này chỉ ra rằng chúng ta muốn các nhà sản xuất chai nước khẳng định rằng sản phẩm đạt hoặc vượt quá quy cách. Điều này sẽ phù hợp nếu nhà sản xuất đã trải qua khó khăn trong việc đạt được quy cách trong quá khứ hoặc các cân nhắc về an toàn sản phẩm dẫn đến việc tuân thủ nghiêm ngặt quy cách 200 pssi. Tức là, dù chỉ vượt quá quy cách một chút, nhưng nếu bằng chứng để bác bỏ giả thuyết H0 không đủ mạnh thì mình sẽ cẩn trọng hơn không bác bỏ giả thuyết H0, tức là, không thừa nhận sản phẩm đạt quy cách. 
Ngược lại, công thức (2) có khả năng là H0 sẽ được chấp nhận và các chai nước thỏa mãn, thậm chí khi giá trị trung bình thực tế thấp hơn mức 200 psi một chút (lỗi loại II). Chúng ta chỉ có thể kết luận các chai nước không thỏa mãn khi có bằng chứng mạnh thể hiện rằng giá trị trung bình không vượt quá 200 psi. Công thức này giả sử rằng chúng ta khá hài lòng với kết quả của nhà sản xuất trong quá khứ và một chút chệch so với quy cách của giá trị tổng thể thì không có gì ảnh hưởng lớn. 
Trong kiểm định một phía, chúng ta nên nhớ rằng bác bỏ H0 luôn là một kết luận mạnh. Vì thế, chúng ta nên đặt mệnh đề mà chúng ta muốn xác thực vào H1. Nếu H0 bị bác bỏ, ta có thể thừa nhận H1. Còn ngược lại, nếu ta đặt nhận định ta muốn xác thực vào mệnh đề H0. Nếu ta không thể bác bỏ H0, cũng không có nghĩa là ta có thể thừa nhận H0.  
Bài này khá dài rồi, nên mình tạm kết ở đây. Phần 2, mình sẽ trình bày về p-value và giá trị tới hạn. Phần 3, mình sẽ đưa ra các bài toán cơ bản kiểm định thống kê cơ bản cùng code R. ^^ 
Cảm ơn mọi người đã đọc. 

Tóm tắt thuật ngữ Việt - Anh

Kiểm định giả thuyết (Hypothesis Testing)
Xác suất thống kê (Probability and Statistics)
Suy luận thống kê (Statistic Inference)
Tổng thể (population)
Tham số (parameter)
Chọn mẫu (Sampling)
Ước lượng tham số (Parameter estimation)
Ước lượng điểm (Point estimatation)
Ước lượng khoảng (Interval estimation)
Giả thuyết H0 (Null Hypothesis)
Giả thuyết thay thế (alternative hypothesis, thường kí hiệu H1)
Thống kê kiểm định (test statistic)
Giá trị điểm kiểm định (test score)
Giá trị tới hạn (critical value)
Miền chấp nhận (acceptance region)
Miền bác bỏ (rejection region)
Mức ý nghĩa (significance level)
Lỗi loại I (Type I Error)
Lỗi loại II (Type II Error)
Kiểm định năng lức (power test)
Kiểm định một đuôi (one-tailed test) hoặc kiểm định một phía (one-sided test)
Kiểm định đuôi dưới (Lower tail)
Kiểm định đuôi trên (Upper tail)
Kiểm định hai đuôi (two-tailed test) hoặc kiểm định hai phía (two-sided test)

Tài liệu tham khảo


Đọc thêm: