Entropia e informacionit

Në teorinë e informacionit, entropia e një ndryshoreje të rastit është niveli mesatar i "informacionit", "befasisë" ose "pasigurisë" i natyrshëm për rezultatet e mundshme të ndryshores. Jepet një ndryshore e rastit diskrete $X$ , e cila merr vlera në bashkësinë ${\mathcal {X}}$ dhe shpërndahet sipas $p\colon {\mathcal {X}}\to [0,1]$ :

\mathrm {H} (X):=-\sum _{x\in {\mathcal {X}}}p(x)\log p(x)=\mathbb {E} [-\log p(X)],

ku

\Sigma

tregon shumën mbi vlerat e mundshme të ndryshores. Zgjedhja e bazës për

\log

, logaritmi, ndryshon për zbatime të ndryshme. Baza 2 jep njësinë e biteve (ose " shannons "), ndërsa baza e jep "njësi natyrore" nat, dhe baza 10 jep njësi "dits", "bans" ose " hartleys ". Një përkufizim i njëvlershëm i entropisë është vlera e pritur e vetë-informimit të një ndryshoreje. ^[1]

Koncepti i entropisë së informacionit u prezantua nga Claude Shannon në punimin e tij të vitit 1948 " A Mathematical Teory of Communication ", ^[2] ^[3] dhe referohet gjithashtu si entropia Shannon .

Entropia në teorinë e informacionit është drejtpërdrejt analoge me entropinë në termodinamikën statistikore . Analogjia rezulton kur vlerat e ndryshores së rastësishme përcaktojnë energjitë e mikrogjendjeve, kështu që formula e Gibbs-it për entropinë është zyrtarisht identike me formulën e Shannon-it. Entropia ka lidhje me fusha të tjera të matematikës si kombinatorika dhe mësimi makinerik . Përkufizimi mund të rrjedhë nga një grup aksiomash që vërtetojnë se entropia duhet të jetë një masë se sa informative është rezultati mesatar i një ndryshoreje. Për një ndryshore të rastit të vazhdueshme, entropia diferenciale është analoge me entropinë.

E ç'është entropia e informacionit?

I emëruar sipas teoremës Η të Boltzmann-it, Shannon përcaktoi entropinë $H$ (gërma e madhe greke eta ) të një ndryshoreje diskrete tërastit. ${\textstyle X}$ , e cila merr vlera në alfabet ${\mathcal {X}}$ dhe shpërndahet sipas $p:{\mathcal {X}}\to [0,1]$ sikurse $p(x):=\mathbb {P} [X=x]$ :

\mathrm {H} (X)=\mathbb {E} [\operatorname {I} (X)]=\mathbb {E} [-\log p(X)].

Këtu

\mathbb {E}

është operatori i pritjes matematike, dhe I është përmbajtja e informacionit të

X

^[4] ^:11^[5] ^:19–20

\operatorname {I} (X)

është në vetvete një ndryshore e rastit.

Entropia mund të shkruhet shprehimisht si:

\mathrm {H} (X)=-\sum _{x\in {\mathcal {X}}}p(x)\log _{b}p(x),

Mund të përcaktohet gjithashtu entropia e kushtëzuar e dy ndryshoreve

X

dhe

Y

duke marrë vlera nga bashkësitë

{\mathcal {X}}

dhe

{\mathcal {Y}}

përkatësisht, si: ^[6] ^:16

\mathrm {H} (X|Y)=-\sum _{x,y\in {\mathcal {X}}\times {\mathcal {Y}}}p_{X,Y}(x,y)\log {\frac {p_{X,Y}(x,y)}{p_{Y}(y)}},

ku

p_{X,Y}(x,y):=\mathbb {P} [X=x,Y=y]

dhe

p_{Y}(y)=\mathbb {P} [Y=y]

. Kjo madhësi duhet të kuptohet si rastësia e mbetur në ndryshoren e rastit

X

duke pasur parasysh ndryshoren e rastit

Y

.

Shembull

Merrni parasysh hedhjen e një monedhe me probabilitete të njohura, jo domosdoshmërisht të ndershme, për të dalë kokë ose pil; ky mund të modelohet si një proces Bernoulli .

Entropia e rezultatit të panjohur të hedhjes tjetër të monedhës maksimizohet nëse monedha është e ndershme (d.m.th., nëse koka dhe pili kanë të dyja probabilitet të barabartë 1/2). Kjo është situata e pasigurisë maksimale pasi është më e vështirë të parashikohet rezultati i hedhjes së radhës; rezultati i çdo hedhjeje të monedhës jep një pjesë të plotë të informacionit. Kjo është për shkak se

{\begin{aligned}\mathrm {H} (X)&=-\sum _{i=1}^{n}{p(x_{i})\log _{b}p(x_{i})}\\&=-\sum _{i=1}^{2}{{\frac {1}{2}}\log _{2}{\frac {1}{2}}}\\&=-\sum _{i=1}^{2}{{\frac {1}{2}}\cdot (-1)}=1\end{aligned}}

Megjithatë, nëse e dimë se monedha nuk është e drejtë, por del lart ose bisht me probabilitete p dhe q, ku p ≠ q, atëherë ka më pak pasiguri. Sa herë që hidhet, njëra anë ka më shumë gjasa të dalë lart se tjetra. Pasiguria e reduktuar matet në një entropi më të ulët: mesatarisht çdo hedhje e monedhës jep më pak se një pjesë të plotë të informacionit. Për shembull, nëse p = 0.7, atëherë

{\begin{aligned}\mathrm {H} (X)&=-p\log _{2}(p)-q\log _{2}(q)\\&=-0.7\log _{2}(0.7)-0.3\log _{2}(0.3)\\&\approx -0.7\cdot (-0.515)-0.3\cdot (-1.737)\\&=0.8816<1\end{aligned}}

[1]

[2]

[3]

[4]

[5]

[6]