Vraag over deze verhouding in het MCMC-algoritme van Metropolis-Hastings

Ik heb een stomme vraag over het algoritme voor het analyseren van Metropolis-Hastings .

If I got this right, for every variable $X$ in turn, which currently has value $x_{old}$, you generate a new sample $x_{new}$. To do that, you draw $x_{new}$ from the proposal distribution $Q(x_{new}\mid x_{old})$, then you draw a number $\alpha$ uniformly at random from the range between $0$ and $1$. Then, accept $x_{new}$ if $\alpha < \min{1,\frac{P(x_{new})}{P(x_{old})}\frac{Q(x_{old}\mid x_{new})}{Q(x_{new}\mid x_{old})}}$

De tweede ratio is voor mij niet echt logisch: waarom accepteren we meer als $ Q (x_ {new} \ mid x_ {old}) $ laag is?

3

4 antwoord

Van wat je zegt, ik weet niet zeker of je een bewijs of intuïtie wilt. Omdat het bewijs op veel plaatsen is geschreven, vermoed ik dat je intuïtie wilt.

Heel informeel: met het algoritme kun je, in feite, steekproef uit distributie P met behulp van steekproeven uit distributie Q. Dus in zekere zin willen we de steekproeven van Q nemen en statistische eigenschappen van deze steekproeven "verwijderen" die onthullen dat ze van Q komen , ze te vervangen door de eigenschappen van P. Het ding dat "weggeeft" dat ze uit Q kwamen, is dat ze eerder uit gebieden komen waar Q hoog is. Dus we willen dat onze acceptatie waarschijnlijkheid wordt verminderd wanneer onze monsters uit zo'n gebied komen. Dat is precies wat delen door $ Q (x_ {nieuw} | x_ {oud}) $ doet.

(BTW De $ min $ in je expressie is overbodig.)

2
toegevoegd

als de kern $ Q $ symmetrisch is (dat wil zeggen: $ Q (x, y) = Q (y, x) $), vermindert de Metropolis-ratio naar $$ 1 \ wedge \ frac {P (x_ {nieuw})} {P (x_ {old})}. $$ Dit is een stochastische gradiënt-stijging: er is een drift naar de zeer waarschijnlijke configuraties.

Nu, als de kernel $ Q $ niet symmetrisch is, moet je hier ook rekening mee houden: het is mogelijk dat de Kernel $ Q $ sterk bevooroordeeld is in de richting van bepaalde configuraties die waarschijnlijk niet zullen plaatsvinden onder de doelverdeling $ P (\ cdot) $ en je moet dit corrigeren - dit is wat de extra term $ \ frac {Q (x_ {old} | x_ {nieuw})} {Q (x_ {new} | x_ {old}} $.

Neem het voorbeeld van een Markov-keten op $ \ {1,2, \ ldots, N \} $, met uniforme doelverdeling $ P (k) = \ frac {1} {N} $, en met voorstel kernel $ Q ( k + 1 | k) = 1-Q (k-1 | k) = 0.99 $ (en doe iets anders aan de grens). De Kernel $ Q $ duwt je sterk naar hoge waarden van het interval $ \ {1,2, \ ldots, N \} $ - niettemin is de Metropolis-ratio altijd gelijk aan $ 1 $, zodat alle zetten worden geaccepteerd: dit is duidelijk fout. De Metropolis-Hasting ratio corrigeert dat en houdt rekening met de asymmetrie van $ Q $: een overgang van $ k $ naar $ k + 1 $ wordt geaccepteerd met een waarschijnlijkheid die gelijk is aan $ \ frac {0.01} {0.99} $.

1
toegevoegd

De manier waarop ik denk aan de Metropolis-regel is zo. Stel dat ik wat distributie $ P (x), $ wil behouden door een overgang $ Q (x \ tot y) $. Ik kan een strikt sterkere voorwaarde opleggen, namelijk een gedetailleerd evenwicht. Dit zegt dat $ Q $ een gelijke hoeveelheid massa tussen twee willekeurige punten moet hebben (in plaats van alleen maar in het algemeen te balanceren). Dat lijkt op $ P (x) Q (x \ tot y) = P (y) Q (y \ tot x). $ Dit kan niet, maar we kunnen het op de volgende eenvoudige manier wijzigen: stel dat de linker kant is groter. Wijzig gewoon $ Q (x \ tot y) $ door te vermenigvuldigen met $ \ alpha = \ frac {Q (y \ tot x)} {Q (x \ tot y)} \ frac {P (y)} {P (x )} $, en instelling $ \ tilde {Q} (x \ tot y) = \ alpha Q (x \ tot y) $, en $ \ tilde {Q} (y \ tot x) = Q (y \ tot x ) $ We kunnen dit simuleren door te tekenen vanaf $ Q $ en stappen van $ x \ tot y $ te accepteren met waarschijnlijkheid $ \ alpha. $

Kortom, kijk naar de zogenaamde vergelijking van de gedetailleerde balans, schaal naar de grotere kant om het per definitie waar te maken. Realiseer je dat schalen door willekeurig dunnere stappen.

0
toegevoegd

Intuïtief heb ik de Metropolis-Hastings-ratio kunnen begrijpen als een afweging tussen hoeveel tijd we moeten besteden op het kandidaat-punt (de teller) en hoe gemakkelijk het is om het kandidaat-punt (de noemer) te bereiken.

Als onze kandidaat, $ x_ {nieuw} $, gemakkelijk te bereiken is (grote deler), maar we zouden daar niet veel tijd moeten spenderen (kleine teller), dan is de ratio klein en accepteren we de nieuwe kandidaat met een lagere waarschijnlijkheid.

Omgekeerd, als onze kandidaat moeilijk te bereiken is (kleine deler) maar we moeten daar veel tijd doorbrengen (dat wil zeggen $ x_ {nieuw} $ is zeer waarschijnlijk gezien onze doeldistributie) dan is de ratio groot en accepteren we de zet met grote kans.

0
toegevoegd