Nghịch lý Simpson

Nghịch lý Simpson hay hiệu ứng Yule–Simpson, là một nghịch lý trong xác suấtthống kê, trong đó một xu hướng xuất hiện trong nhiều nhóm của dữ liệu nhưng biến mất hoặc đảo ngược khi các nhóm đó được gộp lại nếu là thứ khác. Nó đôi khi được gọi bằng nghịch lý đảo ngược hay nghịch lý gộp.[1]

Simpson's paradox for quantitative data: a positive trend appears for two separate groups (blue and red), whereas a negative trend (black, dashed) appears when the groups are combined.

Kết quả này thường gặp trong các thống kê của khoa học xã hội và y tế,[2] và gây hiểu lầm đặc khi dữ liệu tần suất được diễn giải như là nhân quả một cách biệt and is particularly confounding when frequency không phù hợp.[3] Những yếu tố nghịch lý biến mất khi quan hệ nhân quả được xét tới. Nhiều nhà thống kê tin rằng công chúng cần được thông tin về các kết quả phản trực quan trọng thống kê như nghịch lý Simpson.[4][5]

Edward H. Simpson mô tả hiện tượng này lần đầu tiên trong một bài báo kỹ thuật năm 1951,[6]nhưng các nhà thống kê Karl Pearson, et al., năm 1899,[7]và Udny Yule, năm 1903, đã nhắc đến hiện tượng tương tự trước đó.[8]Cái tên Nghịch lý Simpson được đưa ra bởi Colin R. Blyth năm 1972.[9]

Tham khảo

Bibliography

  • Leila Schneps và Coralie Colmez, Math on trial. How numbers get used and abused in the courtroom, Basic Books, 2013. ISBN 978-0-465-03292-1. (Sixth chapter: "Math error number 6: Simpson's paradox. The Berkeley sex bias case: discrimination detection").

Liên kết ngoài