Thứ Bảy, 13 tháng 8, 2011

Con số phần trăm

Từ thấp lên 100
Trong bài viết Những con số giáo dục dưới thời Bộ trưởng Nguyễn Thiện Nhân, Thứ trưởng Bộ Giáo dục và Đào tạo, PGS.TS. Trần Quang Quý có ý chứng minh rằng kỷ cương giáo dục dưới thời Bộ trưởng Nguyễn Thiện Nhân đã cải tiến tốt hơn bằng cách trình bày con số giám thị phòng thi bị đình chỉ công tác năm 2007 là 32 người, đến năm 2010 con số này là 1, và ông kết luận “giảm gần 97% so với năm 2007”.
Một bài báo trên Sài Gòn Tiếp Thị cho biết trong số 12 bệnh nhân được đặt tinh hoàn nhân tạo (testicular implant), “[…] Tỷ lệ hài lòng là 91,7%”, mà không cho biết bao nhiêu bệnh nhân hài lòng. Một bạn đọc viết thư cho người viết bài này cho rằng bạn thấy ngờ ngợ về con số này, nhưng không lí giải được tại sao mình có cảm giác “ngờ ngợ”! Xin nói ngay rằng ở đây bạn đọc chỉ lấn cấn về con số, chứ không chất vấn về phẫu thuật vốn có ích này. Thật ra, bạn đọc đó lấn cấn về con số cũng có lí do, bởi vì con số phần trăm ở đây đã được sử dụng không mấy hợp lí.
Không hợp lí là vì ở đây người viết đã phạm phải một lỗi lầm phổ biến trong thống kê: khái quát hóa ra ngoài phạm vi số liệu cho phép (tiếng Anh over-generalization). Khi nói “97.1% hài lòng”, chúng ta hiểu rằng trong số 100 bệnh nhân được đặt tinh hoàn nhân tạo, có 97 người hài lòng với kết quả của phẫu thuật. Vấn đề ở đây là quần thể chỉ có 12 bệnh nhân, nhưng người viết “chuyển hóa” cho quần thể đó thành 100 bệnh nhân! Trong thực tế, chúng ta không biết nếu có 100 bệnh nhân đã qua phẫu thuật, kết quả có thật sự là 97 người hài lòng. Chúng ta không/chưa biết. Do đó, nói “97.1% hài lòng” là nói đến một sự kiện chưa xảy ra, và vì thế, phát biểu trên đượcxem là … một ngụy biện thống kê!
Nhưng tôi cho rằng khả năng rất cao là sai lầm đó không phải do người viết cố ý, mà rất có thể chỉ do tính toán theo quán tính mà thôi. Giới phóng viên (và ngay cả các nhà nghiên cứu xã hội kinh tế học) hay có thói quen mô tả mối liên hệ giữa 2 đại lượng bằng con số phần trăm, mà không để ý đến giả định đằng sau của con số này. Chính vì không chú ý đến giả định và ý nghĩa của con số phần trăm, nên trong thực tế đã xảy ra nhiều chuyện dở khóc dở cười trong thế giới truyền thông.
Từ cao xuống 100
Con số phần trăm có “chức năng” chính là so sánh và mô tả tính qui mô của một vấn đề. Một con số riêng lẻ chẳng có ý nghĩa gì, nhưng khi con số đó được so sánh với một con số khác thì ý nghĩa có khi rõ ràng hơn và dễ cảm nhận hơn. Chẳng hạn như nếu nói “có 188 người mắc bệnh tiểu đường” thì có lẽ chẳng ai biết con số này có ý nghĩa gì, nhưng nếu 188 người đó được phát hiện trong một quần thể 1609 người thì nó có thể cho chúng ta một cảm nhận về qui mô của vấn đề. Nhưng vì hai con số 188 và 1609 khó cảm nhận và khó hình dung, cho nên các nhà nghiên cứu thường đơn giản hóa bằng cách tính số bệnh nhân tiểu đường trên quần thể tượng trưng 100 người. Kết quả 188 ca bệnh tiểu đường trong số 1609 cũng có thể phát biểu rằng tỉ lệ bệnh tiểu đường là 13%. Nói cách khác, cứ 100 phụ nữ trên 30 tuổi, có 13 người mắc bệnh tiểu đường. Con số 13% là đáng chú ý, vì đó là một qui mô lớn có ảnh hưởng đến sức khỏe và kinh tế của một quần thể.
Trong ví dụ trên, người ta giảm quần thể 1609 xuống còn 100, và tử số 188 người cũng giảm theo cùng tỉ lệ. Lí do giảm mẫu số xuống một quần thể tượng trưng 100 là để đơn giản hóa con số, làm cho vấn đề dễ cảm nhận hơn, gần gũi hơn với người đọc. Thật vậy, một nghịch lí chung của con người là chúng ta tuy rất ấn tượng với những con số lớn, nhưng lại cảm nhận dễ dàng hơn với những con số nhỏ.
Con số phần trăm còn hàm ý một giả định về mối liên hệ giữa mẫu và quần thể. Câu phát biểu “có 13% người mắc bệnh tiểu đường” còn hàm ý nói rằng trong quần thể (1609 người), nếu chọn ngẫu nhiên 100 người thì số người mắc bệnh tiểu đường sẽ dao động chung quanh con số 13 người.
Hai trường hợp trên cho chúng ta thấy một quy ước chung khi sử dụng con số phần trăm: khi mẫu số chỉ vài chục thì cách tốt nhất là không sử dụng phần trăm, nhưng khi mẫu số gần 100 hay cao hơn 100, có thể sử dụng phần trăm. Trong trường hợp phẫu thuật đặt tinh hoàn, có lẽ cách tốt nhất là phát biểu “11 trong số 12 bệnh nhân hài lòng với kết quả của phẫu thuật”, chứ không cần nói đến con số 97%, và càng không cần nói đến con số 97.1% (chính xác đến 1 số lẻ!)
Nghịch lí tăng trưởng
Quay lại bài viết Những con số giáo dục dưới thời Bộ trưởng Nguyễn Thiện Nhân của Thứ trưởng Trần Quang Quý, bài viết còn cho biết tỉ lệ tốt nghiệp trung học phổ thông (THPT) tăng. Ông biết tỉ lệ học sinh tốt nghiệp THPT năm 2009 là 84%, và tiên đoán rằng năm 2010 sẽ là “khoảng 90%”. Nhưng cách diễn giải này rất nguy hiểm, vì con số phần trăm trong một quần thể có thể cho chúng ta một bức tranh rất sai lệch. Để minh họa rằng khả năng sai lệch trong kết luận dựa vào con số tỉ lệ tốt nghiệp toàn quốc, tôi mời các bạn xem một minh họa đơn giản sau đây:





Trong bảng số liệu (tôi mô phỏng) trên, chúng ta có năm trường (A, B, C, D, và E). Năm 2009, tổng số học sinh dự thi là 3.274 và 2.773 tốt nghiệp (tức tỉ lệ tốt nghiệp là 85%). Năm 2010, số học sinh thi tăng lên 6.438 và tỉ lệ tốt nghiệp là 88%. Như vậy, chúng ta có thể kết luận rằng tỉ lệ tốt nghiệp đã tăng trong thời gian 2010 và 2009? Câu trả lời đơn giản là: không.
Nếu nhìn vào tỉ lệ tốt nghiệp của từng trường, chúng ta thấy tỉ lệ tốt nghiệp năm 2010 đều thấp hơn năm 2009. Chẳng hạn như trường A, tỉ lệ tốt nghiệp năm 2007 là 88% và giảm xuống còn 83% trong năm 2009. Xu hướng giảm đều được ghi nhận cho tất cả năm trường. Do đó, kết luận đúng là tỉ lệ tốt nghiệp đã giảm, chứ không tăng.
Hiện tượng phần trăm tăng trưởng của một quần thể đi ngược lại phần trăm của từng cá thể còn được đề cập đến như là một nghịch lí Simpson. Nghịch lí này do nhà toán học Edward Simpson phát hiện vào năm 1951 (dù trong thực tế người phát hiện ra hiện tượng này là hai nhà thống kê học Karl Pearson và Udny Yule vào đầu thế kỷ 20). Theo đó, những thay đổi về cấu trúc số liệu có thể dẫn đến kết luận sai cho một quần thể. Minh họa trên cho thấy nếu không có số liệu cho từng trường cho thấy xu hướng biến chuyển ra sao trong thời gian 2009 và 2010, thì khó mà kết luận gì về tình hình chung liên quan đến tỉ lệ tốt nghiệp trung học phổ thông.
Chỉ là ước số!
Hai trường hợp trên cho chúng ta thấy một qui ước chung khi sử dụng con số phần trăm: khi mẫu số chỉ vài chục thì cách tốt nhất là không sử dụng phần trăm, nhưng khi mẫu số gần 100 hay cao hơn 100, có thể sử dụng phần trăm. Trong trường hợp phẫu thuật đặt tinh hoàn, có lẽ cách tốt nhất là phát biểu “11 trong số 12 bệnh nhân hài lòng với kểt quả của phẫu thuật”, chứ không cần nói đến con số 97%, và càng không cần nói đến con số 97.1% (chính xác đến 1 số lẻ!)
Con số phần trăm chỉ là một ước số (estimate). Và, ước số thì dao động theo qui mô của mẫu và cách chọn mẫu. Quay trở lại trường hợp phẫu thuật: chúng ta biết rằng 11 trong số 12 người hài lòng với kết quả của phẫu thuật, nhưng chúng ta không biết nếu phẫu thuật thực hiện trên 100 người thì bao nhiêu người sẽ hài lòng? Chúng ta có thể sử dụng kết quả hiện hành để trả lời câu hỏi đó như sau:
● Nếu phẫu thuật được lặp lại trên 100 địa phương khác nhau, và mỗi địa phương chỉ có 12 bệnh nhân, thì với kết quả hiện hành chúng ta sẽ kì vọng số bệnh nhân hài lòng là bao nhiêu? Sau vài tính toán, câu trả lời là: sẽ có khoảng 99 địa phương mà số bệnh nhân hài lòng dao động từ 5/12 đến 12/12. Xin nói thêm rằng trong y văn có nghiên cứu trên vài trăm bệnh nhân cho thấy tỉ lệ hài lòng sau khi đặt tinh hoàn nhân tạo là khoảng 67%. Do đó, ước tính tỉ số hài lòng 5/12 đến 12/12 là nằm trong khoảng tin cậy của nghiên cứu trước trên thế giới.
● Nếu phẫu thuật được thực hiện trên 100 địa phương, và mỗi địa phương có 1000 bệnh nhân, thì kết quả sẽ ra sao? Với kết quả hiện hành (11/12 hài lòng), chúng ta có thể làm mô phỏng (simulation), và kết quả là sẽ có 99 địa phương với số bệnh nhân hài lòng dao động từ 954/1000 đến 982/1000 (tức 95% đến 98%).
Hai tính toàn trên cho thấy một qui luật: khi số bệnh nhân phẫu thuật thấp (như 12 người chẳng hạn) thì độ dao động của số bệnh nhân hài lòng rất cao (từ dưới phân nửa đến tất cả bệnh nhân đều hài lòng), và do đó rất khó kết luận. Tuy nhiên, nếu số bệnh nhân phẫu thuật là 1000 người thì tỉ lệ bệnh nhân hài lòng dao động rất thấp (từ 95% đến 98%). Ý nghĩa của những tính toán này là để ước tính một tỉ lệ đáng tin cậy và chính xác, rất cần phải có đủ số lượng đối tượng.

Đô ĐH st

1 nhận xét: