Keluarga (Dispersi) Eksponensial untuk generalized linear model

GLM
Computational Statistics
Author

Gerry Alfa Dito

Published

September 2, 2023

Generalized Linear Model

Generalized Linear Model (GLM) adalah perluasan dari model regresi linear, yang memungkinkan pemodelan peubah respons yang tidak harus berdistribusi normal.

GLM terdiri dari tiga komponen utama yaitu:

  1. Komponen Acak: Menentukan distribusi peluang dari peubah respons \(\boldsymbol{Y}\). Pada GLM, respons \(\boldsymbol{Y}\) berasal dari Exponential (Dispersion) Family atau Keluarga (Dispersi) Eksponensial, yang merupakan generalisasi dari distribusi normal dan mencakup berbagai distribusi seperti binomial, Poisson, normal, gamma, dll.
  2. Komponen Sistematis:Mendefinisikan prediktor linear \(\eta\), yang merupakan kombinasi linear dari peubah penjelas (prediktor). \[ \eta = \boldsymbol{X\beta} \] di mana \(\boldsymbol{X}\) adalah matriks desain dari prediktor, dan \(\boldsymbol{\beta}\) adalah vektor koefisien.
  3. Fungsi Hubung: Menghubungkan prediktor linear \(\eta\) dengan rata-rata distribusi \(\boldsymbol{\mu} = E(\boldsymbol{Y}|\boldsymbol{X})\). Fungsi hubung \(g(\boldsymbol{\mu})\) memastikan bahwa kombinasi linear dari prediktor \(\eta\) memetakan secara tepat ke domain \(\boldsymbol{\mu}\). \[ g(\boldsymbol{\mu}) = \boldsymbol{\eta} \] Fungsi hubung umum termasuk logit (untuk hasil biner), log (untuk jumlah kejadian), dan identitas (untuk respon yang memiliki domain bilangan Real).

Keluarga (Dispersi) Eksponensial

Keluarga Dispersi Eksponensial adalah kelas distribusi peluang yang mencakup banyak distribusi umum yang digunakan dalam GLM, termasuk distribusi normal, binomial, Poisson, gamma, dan invers Gaussian. Sebuah peubah acak \(Y\) termasuk dalam Keluarga (Dispersi) Eksponensial jika fungsi kepekatan peluang (fkp) atau fungsi massa peluang (fmp)-nya dapat ditulis dalam bentuk berikut:

\[ f(y; \theta, \phi) = \exp\left\{ \frac{y \theta - b(\theta)}{a(\phi)} + c(y, \phi) \right\} \qquad(1)\]

dengan

  • \(\theta\) adalah natural parameter
  • \(\phi\) adalah dispersion parameter
  • \(b(.)\) adalah cumulant function
  • \(c(y_i, \phi)\)adalah normalizing function yang memastikan integral dari fkp sama dengan 1.

Distribusi yang termasuk dalam keluarga ini memiliki sifat-sifat antara lain:

\[ \begin{aligned} E(y)&=\frac{d}{d\theta}b(\theta)=b^{'}(\theta) \\ \text{Var}(y)&=\left[\frac{d^2}{d\theta^2}b(\theta)\right]a(\phi)=b^{''}(\theta)a(\phi) \end{aligned} \]

Fungsi log-likelihood dan Score Function

Fungsi log-likelihood dari Exponential dispersion family untuk \(n\) pengamatan dapat dituliskan sebagai

\[ l(\boldsymbol{\theta}) = \sum_{i=1}^{n} \frac{y_{i} \theta_{i} - b(\theta_{i}) }{a(\phi)} + \sum_{i=1}^{n} c(y_{i}, \phi) \qquad(2)\]

Untuk memasukan unsur GLM dalam Equation 2, mari kita perhatikan hubungan antara natural parameter \(\theta\), fungsi hubung \(g(.)\), mean \(\mu=E(Y)\) dan komponen sistematis \(\eta\) berikut ini:

\[ \begin{aligned} \eta &= g(\mu) \\ g(\mu) &=\eta =\sum_{i=1}^{p}x_{ij}\beta_{j} \\ g^{-1}(g(\mu))&=g^{-1}\left(\sum_{i=1}^{p}x_{ij}\beta_{j}\right) \\ \mu &= g^{-1}\left(\sum_{i=1}^{p}x_{ij}\beta_{j}\right) \end{aligned} \]

Misalkan fungsi hubung \(g(.)\) merupakan fungsi hubung kanonik, yang didefinisikan sebagai \[ g(\mu)=\theta \] sehingga berimplikasi bahwa

\[ \begin{aligned} \theta&=g(\mu) \\ &= \eta \\ &= \sum_{i=1}^{p}x_{ij}\beta_{j} \end{aligned} \qquad(3)\]

Kemudian, berdasarkan Equation 3 diperoleh

\[ \theta_{i}= \sum_{i=1}^{p}x_{ij}\beta_{j} \]

sehingga fungsi log-likelihood menjadi

\[ l(\boldsymbol{\beta}) = \sum_{i=1}^{n} \frac{y_{i} \left( \sum_{i=1}^{p}x_{ij}\beta_{j} \right) - b\left(\sum_{i=1}^{p}x_{ij}\beta_{j}\right) }{a(\phi)} + \sum_{i=1}^{n} c(y_{i}, \phi) \]

Kemudian untuk mendapatkan score function dihitung turunan pertama dari fungsi log-likelihood dengan aturan rantai turunan

\[ S(\boldsymbol{\beta}) = \frac{dl(\boldsymbol{\theta})}{d\boldsymbol{\theta}} \frac{d\boldsymbol{\theta}}{d\boldsymbol{\mu}} \frac{d\boldsymbol{\mu}}{d\boldsymbol{\eta}}\frac{d\boldsymbol{\eta}}{d\boldsymbol{\beta}} \qquad(4)\]

Aturan rantai pada Equation 4 terbentuk dari hubungan antara \(\theta,\mu,\text{ dan }\eta\) pada Equation 3.

\[ \begin{aligned} S(\boldsymbol{\theta}) &= \sum_{i=1}^{n} \frac{y_{i} - b^{'}(\theta_{i}) }{a(\phi)} \\ &= \sum_{i=1}^{n} \frac{y_{i} - b^{'}(\theta_{i}) }{a(\phi)} \end{aligned} \]

Fisher Scoring untuk GLM

Formula Fisher Scoring yang digunakan untuk mendapatkan penduga bagi koefisien GLM adalah sebagai berikut:

\[ \boldsymbol{\beta}_{(p+1) \times 1}^{(i+1)}=\boldsymbol{\beta}_{(p+1) \times 1}^{(i)} + \left[\boldsymbol{\mathcal{I}}_{p \times p }^{(i)} \right]^{-1} \boldsymbol{S}_{(p+1) \times 1}^{(i)} \]

dengan

\[ \boldsymbol{S}_{(p+1) \times 1}^{(i)}= \boldsymbol{X}^{t}_{ (p+1) \times n} \boldsymbol{W}_{n \times n} ^{(i)} (\boldsymbol{D}_{n \times n}^{(i)})^{-1} (\boldsymbol{y}_{n \times 1}-\boldsymbol{\mu}_{n \times 1}^{(i)}) \] dan

\[ \boldsymbol{\mathcal{I}}_{p \times p }^{(i)}=\boldsymbol{X}^{t}_{ (p+1) \times n} \boldsymbol{W}_{n \times n} ^{(i)} \boldsymbol{X}_{n \times (p+1)} \]

Algoritme Fisher Scoring dapat dituliskan sebagai berikut:

  1. Tentukan perkiraan awal nilai optimal \(\boldsymbol{\beta}_{(p+1) \times 1}^{(0)}\) dan stopping criterion
  2. Tentukan Score function \(\boldsymbol{S}_{(p+1) \times 1}^{(0)}\) dan Expected Fisher Information \(\boldsymbol{\mathcal{I}}_{p \times p }^{(0)}\).
  3. Hitung \(\boldsymbol{\beta}_{(p+1) \times 1}^{(1)}=\boldsymbol{\beta}_{(p+1) \times 1}^{(0)} + \left[\boldsymbol{\mathcal{I}}_{p \times p }^{(0)} \right]^{-1} \boldsymbol{S}_{(p+1) \times 1}^{(0)}\), sehingga diperoleh perkiraan nilai optimal \(\boldsymbol{\beta}_{(p+1) \times 1}^{(1)}\)
  4. Lakukan Langkah 5 sampai stopping criterion terpenuhi
  5. Hitung \(\boldsymbol{\beta}_{(p+1) \times 1}^{(i+1)}=\boldsymbol{\beta}_{(p+1) \times 1}^{(i)} + \left[\boldsymbol{\mathcal{I}}_{p \times p }^{(i)} \right]^{-1} \boldsymbol{S}_{(p+1) \times 1}^{(i)}\) untuk iterasi \(i=1,2,\ldots\)
  6. Saat stopping criterion terpenuhi maka \(\boldsymbol{\beta}_{(p+1) \times 1}^{(i+1)}\) merupakan nilai penduga bagi parameter \(\boldsymbol{\beta}_{(p+1) \times 1}\)
  7. Ragam dari \(\boldsymbol{\beta}_{(p+1) \times 1}\) diperoleh dengan $Var(_{(p+1)})=^{-1} $saat stopping criterion terpenuhi