Διάμεσος

Στη στατιστική και τη θεωρία πιθανοτήτων, η διάμεσος είναι η τιμή που διαχωρίζει το υψηλότερο μισό από το κάτω μισό ενός δείγματος δεδομένων, ενός πληθυσμού ή μιας κατανομής πιθανοτήτων. Για ένα σύνολο δεδομένων, μπορεί να θεωρηθεί ως η «μεσαία» τιμή. Το βασικό χαρακτηριστικό της διάμεσης τιμής στην περιγραφή των δεδομένων σε σύγκριση με τη μέση τιμή (συχνά περιγράφεται απλώς ως «μέσος όρος») είναι ότι δεν υφίσταται λοξότητα από μια μικρή αναλογία εξαιρετικά μεγάλων ή μικρών τιμών και επομένως παρέχει καλύτερη αναπαράσταση του κέντρου. Το διάμεσο εισόδημα, για παράδειγμα, μπορεί να είναι ένας καλύτερος τρόπος για να περιγραφεί το κέντρο της κατανομής του εισοδήματος, επειδή οι αυξήσεις στα μεγαλύτερα εισοδήματα από μόνες τους δεν έχουν καμία επίδραση στη διάμεσο. Για το λόγο αυτό, η διάμεσος είναι κεντρικής σημασίας σε ισχυρές στατιστικές.

Εύρεση της διάμεσης τιμής σε σύνολα δεδομένων με περιττό και άρτιο αριθμό τιμών

Πεπερασμένο σύνολο αριθμών

Η διάμεσος ενός πεπερασμένου καταλόγου αριθμών είναι ο «μεσαίος» αριθμός, όταν αυτοί οι αριθμοί παρατίθενται με σειρά από τον μικρότερο προς τον μεγαλύτερο.

Εάν το σύνολο δεδομένων έχει περιττό αριθμό παρατηρήσεων, επιλέγεται η μεσαία. Για παράδειγμα, ο ακόλουθο κατάλογος με επτά αριθμούς,

1, 3, 3, 6, 7, 8, 9

έχει για διάμεσο το 6, που είναι η τέταρτη τιμή.

Εάν το σύνολο δεδομένων έχει ζυγό αριθμό παρατηρήσεων, δεν υπάρχει διακριτή μεσαία τιμή και η διάμεσος ορίζεται συνήθως ως ο αριθμητικός μέσος όρος των δύο μεσαίων τιμών. Για παράδειγμα, αυτό το σύνολο δεδομένων των 8 αριθμών

1, 2, 3, 4, 5, 6, 8, 9

έχει μεσαία τιμή 4,5, δηλαδή . (Σε πιο τεχνικούς όρους, αυτό ερμηνεύει τη διάμεσο ως το πλήρως περικομμένο μεσαίο φάσμα).

Γενικά, με αυτή τη σύμβαση, η διάμεσος μπορεί να οριστεί ως εξής: Για ένα σύνολο δεδομένων από στοιχεία, ταξινομημένα από το μικρότερο στο μεγαλύτερο,

αν είναι περιττός,
αν είναι άρτιος,
Σύγκριση κοινών μέσων όρων τιμών [1, 2, 2, 3, 4, 7, 9]
ΤύποςΠεριγραφήΠαράδειγμαΑποτέλεσμα
Μεσαίο φάσμαΕνδιάμεσο σημείο μεταξύ του ελάχιστου και του μέγιστου ενός συνόλου δεδομένων1, 2, 2, 3, 4, 7, 95
Αριθμητικός μέσος όροςΆθροισμα των τιμών ενός συνόλου δεδομένων διαιρεμένο με τον αριθμό των τιμών: (1 + 2 + 2 + 3 + 4 + 7 + 9) / 74
ΔιάμεσοςΜεσαία τιμή που χωρίζει το μεγαλύτερο και το μικρότερο μισό ενός συνόλου δεδομένων1, 2, 2, 3, 4, 7, 93
Επικρατούσα τιμήΗ πιο συχνή τιμή σε ένα σύνολο δεδομένων1, 2, 2, 3, 4, 7, 92

Επίσημος ορισμός

Τυπικά, η διάμεσος πληθυσμού είναι οποιαδήποτε τιμή τέτοια ώστε τουλάχιστον ο μισός πληθυσμός να είναι μικρότερος ή ίσος με την προτεινόμενη διάμεσο και τουλάχιστον ο μισός να είναι μεγαλύτερος ή ίσος με τον προτεινόμενο διάμεσο. Όπως φαίνεται παραπάνω, οι διάμεσοι μπορεί να μην είναι μοναδικοί. Εάν κάθε σύνολο περιέχει λιγότερο από το ήμισυ του πληθυσμού, τότε μέρος του πληθυσμού είναι ακριβώς ίσο με τη μοναδική διάμεσο.

Η διάμεσος είναι καλά καθορισμένη για οποιαδήποτε ταξινομημένα (μονοδιάστατα) δεδομένα και είναι ανεξάρτητη από οποιαδήποτε μέτρηση απόστασης. Η διάμεσος μπορεί επομένως να εφαρμοστεί σε τάξεις που είναι ταξινομημένες αλλά όχι αριθμητικές (π.χ. να προσδιορίσετε μια διάμεση βαθμολογία όταν οι μαθητές βαθμολογούνται από το Α έως το Ζ), αν και το αποτέλεσμα μπορεί να είναι στα μισά μεταξύ των τάξεων εάν υπάρχει ζυγός αριθμός περιπτώσεων.

Μια γεωμετρική διάμεσος, από την άλλη πλευρά, ορίζεται σε οποιοδήποτε αριθμό διαστάσεων.

Δεν υπάρχει ευρέως αποδεκτός τυπικός συμβολισμός για τη διάμεσο, αλλά ορισμένοι συγγραφείς αντιπροσωπεύουν τη διάμεσο μιας μεταβλητής x είτε ως είτε ως μ 1/2, μερικές φορές και ως M.[1][2] Σε οποιαδήποτε από αυτές τις περιπτώσεις, η χρήση αυτών ή άλλων συμβόλων για τη διάμεσο πρέπει να ορίζεται ρητά κατά την εισαγωγή τους.

Η διάμεσος είναι μια ειδική περίπτωση άλλων τρόπων σύνοψης των τυπικών τιμών που σχετίζονται με μια στατιστική κατανομή: είναι το 2ο τεταρτημόριο, το 5ο δεκατημόριο και το 50ο εκατοστημόριο.

Χρήσεις

Η διάμεσος μπορεί να χρησιμοποιηθεί ως μέτρο τοποθεσίας όταν κάποιος αποδίδει μειωμένη σημασία σε ακραίες τιμές, συνήθως επειδή μια κατανομή είναι λοξή, οι ακραίες τιμές δεν είναι γνωστές ή οι ακραίες τιμές είναι αναξιόπιστες, δηλαδή, μπορεί να είναι σφάλματα μέτρησης/μεταγραφής.

Για παράδειγμα, εξετάστε το πολυσύνολο

1, 2, 2, 2, 3, 14.

Η διάμεσος είναι 2 σε αυτήν την περίπτωση, όπως και η επικρατούσα τιμή, και μπορεί να θεωρηθεί ως καλύτερη ένδειξη του κέντρου από τον αριθμητικό μέσο όρο του 4, ο οποίος είναι μεγαλύτερος από όλες τις τιμές εκτός από μία. Ωστόσο, η ευρέως αναφερόμενη εμπειρική σχέση ότι ο μέσος όρος μετατοπίζεται «περισσότερο στην ουρά» μιας κατανομής από τη διάμεσο δεν είναι γενικά αληθής. Το πολύ, μπορεί κανείς να πει ότι τα δύο στατιστικά στοιχεία δεν μπορούν να είναι «πολύ μακριά» μεταξύ τους.[3]

Καθώς η διάμεσος βασίζεται στα μεσαία δεδομένα σε ένα σύνολο, δεν είναι απαραίτητο να γνωρίζουμε την τιμή των ακραίων αποτελεσμάτων για να την υπολογίσουμε. Για παράδειγμα, σε ένα τεστ ψυχολογίας που διερευνά τον χρόνο που απαιτείται για την επίλυση ενός προβλήματος, εάν ένας μικρός αριθμός ατόμων απέτυχε να λύσει το πρόβλημα τη δεδομένη χρονική στιγμή, μπορεί να υπολογιστεί μία διάμεσος.[4]

Επειδή η διάμεσος είναι απλή στην κατανόηση και εύκολη στον υπολογισμό, ενώ ταυτόχρονα προσεγγίζει τον μέσο όρο, η διάμεσος είναι ένα δημοφιλές συνοπτικό στατιστικό στοιχείο στα περιγραφικά στατιστικά στοιχεία. Σε αυτό το πλαίσιο, υπάρχουν πολλές επιλογές για ένα μέτρο μεταβλητότητας: το εύρος, το διατεταρτημοριακό εύρος, η μέση απόλυτη απόκλιση και η διάμεση απόλυτη απόκλιση.

Για πρακτικούς σκοπούς, διαφορετικές μετρήσεις τοποθεσίας και διασποράς συγκρίνονται συχνά με βάση το πόσο καλά μπορούν να εκτιμηθούν οι αντίστοιχες τιμές πληθυσμού από ένα δείγμα δεδομένων. Η διάμεσος, που υπολογίζεται χρησιμοποιώντας τη διάμεσο του δείγματος, έχει καλές ιδιότητες από αυτή την άποψη. Αν και δεν είναι συνήθως βέλτιστο εάν υποτεθεί μια δεδομένη κατανομή πληθυσμού, οι ιδιότητές της είναι πάντα αρκετά καλές. Για παράδειγμα, μια σύγκριση της αποτελεσματικότητας των υποψήφιων εκτιμητών δείχνει ότι ο μέσος όρος του δείγματος είναι στατιστικά πιο αποτελεσματικός όταν — αν και μόνο όταν — τα δεδομένα δεν έχουν «μολυνθεί» από δεδομένα από κατανομές βαριάς ουράς ή από μείγματα κατανομών. Ακόμη και τότε, η διάμεσος έχει απόδοση 64% σε σύγκριση με τη μέση ελάχιστη διακύμανση (για μεγάλα κανονικά δείγματα), που σημαίνει ότι η διακύμανση της διάμεσης τιμής θα είναι ~50% μεγαλύτερη από τη διακύμανση της μέσης τιμής.[5][6]

Κατανομές πιθανοτήτων

Γεωμετρική απεικόνιση της επικρατούσας τιμής, της διαμέσου και της μέσης τιμής μιας συνάρτησης πυκνότητας πιθανότητας.[7]

Για οποιαδήποτε κατανομή πιθανότητας με πραγματικές τιμές και συνάρτηση αθροιστικής κατανομής F, η διάμεσος ορίζεται ως οποιοσδήποτε πραγματικός αριθμός m που ικανοποιεί τις ανισότητες

και

Ισοδύναμα για μια τυχαία μεταβλητή X κατανεμημένη σύμφωνα με το F:

και

Σημειώστε ότι αυτός ο ορισμός δεν απαιτεί το X να έχει μια απολύτως συνεχή κατανομή (η οποία έχει συνάρτηση πυκνότητας πιθανότητας f), ούτε απαιτεί μια διακριτή. Στην πρώτη περίπτωση, οι ανισότητες μπορούν να αναβαθμιστούν σε ισότητα: μία διάμεσος ικανοποιεί

Οποιαδήποτε κατανομή πιθανότητας στο έχει τουλάχιστον μία διάμεσο, αλλά σε παθολογικές περιπτώσεις μπορεί να υπάρχουν περισσότερες από μία διάμεσες: εάν η F είναι σταθερή 1/2 σε ένα διάστημα (έτσι ώστε f =0 εκεί), τότε οποιαδήποτε τιμή αυτού του διαστήματος είναι διάμεσος.

Ιστορία

Οι επιστημονικοί ερευνητές στην αρχαία Εγγύς Ανατολή φαίνεται ότι δεν χρησιμοποίησαν συνολικά συνοπτικές στατιστικές, αντίθετα επέλεξαν τιμές που προσέφεραν τη μέγιστη συνέπεια με μια ευρύτερη θεωρία που ενσωμάτωσε μια μεγάλη ποικιλία φαινομένων.[8] Εντός της μεσογειακής (και, αργότερα, της ευρωπαϊκής) επιστημονικής κοινότητας, οι στατιστικές όπως ο μέσος όρος είναι βασικά μια μεσαιωνική και πρώιμη σύγχρονη εξέλιξη. (Η ιστορία της διαμέσου εκτός Ευρώπης και των προκατόχων της παραμένει σχετικά μη μελετημένη.)

Η ιδέα της διάμεσου εμφανίστηκε τον 6ο αιώνα στο Ταλμούδ, προκειμένου να αναλυθούν σωστά οι αποκλίνουσες εκτιμήσεις.[9][10] Ωστόσο, η ιδέα δεν εξαπλώθηκε στην ευρύτερη επιστημονική κοινότητα.

Αντίθετα, ο πλησιέστερος πρόγονος της σύγχρονης διάμεσου είναι το μεσαίο φάσμα, που εφευρέθηκε από τον Αλ-Μπιρούνι.[11] Η μετάδοση του έργου του Αλ-Μπιρούνι σε μεταγενέστερους μελετητές είναι ασαφής. Ο Αλ-Μπιρούνι εφάρμοσε την τεχνική του στον προσδιορισμό μετάλλων, αλλά, αφού δημοσίευσε το έργο του, οι περισσότεροι μετρητές εξακολουθούσαν να υιοθέτησαν την πιο δυσμενή αξία από τα αποτελέσματά τους, μήπως φανούν ότι εξαπατούν.[12] Ωστόσο, η αυξημένη πλοήγηση στη θάλασσα κατά την Εποχή των Ανακαλύψεων σήμαινε ότι οι πλοηγοί των πλοίων έπρεπε όλο και περισσότερο να προσπαθούν να προσδιορίσουν το γεωγραφικό πλάτος σε δυσμενείς καιρικές συνθήκες έναντι εχθρικών ακτών, οδηγώντας σε ανανεωμένο ενδιαφέρον για συνοπτικά στατιστικά στοιχεία. Είτε ανακαλύφθηκε ξανά είτε εφευρέθηκε ανεξάρτητα, η μεσαίους φάσματος εμβέλεια συνιστάται στους ναυτικούς πλοηγούς στο «Instructions for Raleigh's Voyage to Guiana, 1595» του Χάριοτ.[12]

Η ιδέα της διαμέσου μπορεί να εμφανίστηκε για πρώτη φορά στο βιβλίο του Έντουαρντ Ράιτ το 1599 Ορισμένα σφάλματα στη πλοήγηση, σε μια ενότητα σχετικά με την πλοήγηση με πυξίδα. Ο Ράιτ ήταν απρόθυμος να απορρίψει τις μετρημένες τιμές και ίσως θεώρησε ότι η διάμεση τιμή - που ενσωματώνει μεγαλύτερο ποσοστό του συνόλου δεδομένων από το μεσαίο εύρος - ήταν πιο πιθανό να είναι σωστή. Ωστόσο, ο Ράιτ δεν έδωσε παραδείγματα για τη χρήση της τεχνικής του, καθιστώντας δύσκολο να επαληθευτεί ότι περιέγραψε τη σύγχρονη έννοια της διάμεσης τιμής.[8][11] Η διάμεσος (στο πλαίσιο της πιθανότητας) εμφανίστηκε σίγουρα στην αλληλογραφία του Κρίστιαν Χόυχενς, αλλά ως παράδειγμα μιας στατιστικής που ήταν ακατάλληλη για την αναλογιστική πρακτική.[8]

Η παλαιότερη σύσταση της διάμεσης τιμής χρονολογείται στο 1757, όταν ο Ρούτζερ Γιόσιπ Μπόσκοβιτς ανέπτυξε μια μέθοδο παλινδρόμησης βασισμένη στον κανόνα L1 και επομένως σιωπηρά στη διάμεσο.[8][13] Το 1774, ο Πιερ-Σιμόν ντε Λαπλάς έκανε σαφή αυτή την επιθυμία: πρότεινε να χρησιμοποιηθεί η διάμεσος ως ο τυπικός εκτιμητής της αξίας μιας μεταγενέστερης συνάρτησης πυκνότητας πιθανότητας. Το συγκεκριμένο κριτήριο ήταν να ελαχιστοποιηθεί το αναμενόμενο μέγεθος του σφάλματος. που είναι η εκτίμηση και είναι η αληθινή αξία. Για το σκοπό αυτό, ο Λαπλάς προσδιόρισε τις κατανομές τόσο του μέσου όρου του δείγματος όσο και της διαμέσου του δείγματος στις αρχές του 1800.[14][15] Ωστόσο, μια δεκαετία αργότερα, ο Καρλ Φρίντριχ Γκάους και ο Αντριέν-Μαρί Λεζάντρ ανέπτυξαν τη μέθοδο των ελαχίστων τετραγώνων, η οποία ελαχιστοποιεί για να αποκτήσετε το μέσο όρο. Στο πλαίσιο της παλινδρόμησης, η καινοτομία των Γκάους και Λεζάντρ προσφέρει πολύ ευκολότερο υπολογισμό. Κατά συνέπεια, η πρόταση του Λαπλάς γενικά απορρίφθηκε μέχρι την άνοδο των υπολογιστικών συσκευών 150 χρόνια αργότερα (και εξακολουθεί να είναι ένας σχετικά ασυνήθιστος αλγόριθμος).[16]

Ο Αντουάν Ογκιστέν Κουρνό το 1843 ήταν ο πρώτος [17] που χρησιμοποίησε τον όρο διάμεσος (valeur médiane) για την τιμή που διαιρεί μια κατανομή πιθανότητας σε δύο ίσα μισά. Ο Γκούσταφ Τέοντορ Φέχνερ χρησιμοποίησε τη διάμεσο (Centralwerth) σε κοινωνιολογικά και ψυχολογικά φαινόμενα.[18] Παλαιότερα είχε χρησιμοποιηθεί μόνο στην αστρονομία και σε συναφείς τομείς. Ο Φέχνερ έκανε δημοφιλή τη διάμεσο στην επίσημη ανάλυση δεδομένων, αν και είχε χρησιμοποιηθεί προηγουμένως από τον Λαπλάς[18] και η διάμεσος εμφανίστηκε σε ένα εγχειρίδιο του Φράνσις Ισίντρο Έτζγουορθ.[19] Ο Φράνσις Γκάλτον χρησιμοποίησε τον αγγλικό όρο median το 1881,[20][21] έχοντας νωρίτερα χρησιμοποιήσει τους όρους middle-most value το 1869 και το medium το 1880.[22][23]

Οι στατιστικολόγοι ενθάρρυναν τη χρήση των διάμεσων όρων κατά τον 19ο αιώνα για τη διαισθητική σαφήνεια και την ευκολία χειροκίνητου υπολογισμού. Ωστόσο, η έννοια της διαμέσου δεν προσφέρεται στη θεωρία των υψηλότερων ροπών όπως ο αριθμητικός μέσος όρος, και είναι πολύ πιο δύσκολο να υπολογιστεί από υπολογιστή. Ως αποτέλεσμα, η διάμεσος αντικαταστάθηκε σταθερά ως έννοια του γενικού μέσου όρου από τον αριθμητικό μέσο όρο κατά τον 20ό αιώνα.[8][11]

Δείτε επίσης

  • Απόκλιση (στατιστική)
  • Κεντρική τάση (στατιστική)
  • Γράφημα διαμέσου
  • Διάμεσος διάμεσων – Αλγόριθμος για τον υπολογισμό της κατά προσέγγιση διαμέσου σε γραμμικό χρόνο
  • Θεώρημα διάμεσων ψηφοφόρων

Παραπομπές

Εξωτερικοί σύνδεσμοι