대학원생 리암의 블로그

Discrete Choice Model 설명 [2편] 본문

대학원

Discrete Choice Model 설명 [2편]

liam0222 2024. 9. 24. 21:29

 

Logit Model

 
로직 모델은 가장 쉽고 보편적으로 쓰이는 discrete choice model이다. Logit 모델의 유도 과정은 다음과 같다.
 
우선 utility 식에서 시작한다.
 
$U_{nj} = V_{nj} + \varepsilon_{nj} \quad \forall j$
 
위 식에서 관찰되지 않은 효용의 구성 요소 $ε_{nj}$가 iid인 Gumbel 또는 type I extreme value를 따른다고 가정하는 것이 핵심이다. 극단값 분포는 정규 분포와 형태가 거의 유사하다. 다만 꼬리가 더 두껍다는 점에서 극단적인 행동을 더 설명하고자 한다고 이해할 수 있다.

ε의 분포
 
Choice Probability를 살펴보기 전에 Utility 추정의 핵심인 unobserved variable을 어떻게 모델링 하는지 살펴보자. Epsilon을 Gumbel 분포로 모델링 했을 때 pdf는 아래와 같다. 
 
$f(\varepsilon_{nj}) = e^{-\varepsilon_{nj}} e^{-e^{-\varepsilon_{nj}}}$
 
누적 분포 함수는 다음과 같다.
 
$F(\varepsilon_{nj}) = e^{-e^{-\varepsilon_{nj}}}$
 
이 분포의 분산은 $\frac{\pi^2}{6}$
 
 
그리고 logistic 분포의 cumulative function은 아래와 같다 :
 

이 모든게 independence assumption에서 비롯된다.

 

나는 IIA assumption으로 인해 모델이 꽤나 제한적이라고 생각했었다. 이를 극복하기 위해서는 연구자가 $V_{nj}$를 충분히 구체화하여 unobserved 부분을 gaussian white noise만 남기는 것이다. 이러한 맥락에서 접근하면 IIA만 남기는 것이 모델의 제한점이자 이상적 목표로도 생각해볼 수 있다.  


Logit Choice Probability 

 

위에서는 epsilon 값들의 차이에 관한 내용을 다뤘다. 이제 Decision maker가 i 라는 alternative를 선택하는 확률에 대해서 살펴보자. 우선 decision maker가 alternative i를 선택할 확률은 아래와 같다.  

 

$P_{ni}$ $= \Pr(V_{ni} + \varepsilon_{ni} > V_{nj} + \varepsilon_{nj} \quad \forall j \neq i)$

 

Epsilon이 두개가 있으니 하나를 고정시켜 cumulative 분포로 단순화 해보자.

$\varepsilon_{ni}$가 주어졌다고 생각한다면 상수로 취급하고 위 확률을 cumulative 분포로 단순화해서 나타낼 수 있다.

 

$\Pr(\varepsilon_{nj} < \varepsilon_{ni} + V_{ni} - V_{nj} \quad \forall j \neq i)$

 

위에서 언급한 바와 같이 Gumbel분포의 누적함수는 다음과 같다:

 

$F(\varepsilon_{nj}) = e^{-e^{-\varepsilon_{nj}}}$

 

따라서 위 확률 분포를 아래처럼 변형할 수 있다.

 

$P_{ni} \mid \varepsilon_{ni} = \exp\left(-\exp\left(-(\varepsilon_{ni} + V_{ni} - V_{nj})\right)\right)$

 

그런데 만약에 j가 하나가 아니라 여러개라면 joint distribution으로 확장해서 생각해줘야 한다. Independence assumption이 있기에 joint probability는 단순히 곱해서 구해줄 수 있다. 

 

$P_{ni} \mid \varepsilon_{ni} = \prod_{j \neq i} \exp\left(-\exp\left(-(\varepsilon_{ni} + V_{ni} - V_{nj})\right)\right)$

 

그런데 $\varepsilon_{nj}$에 dependent한 확률이 아니라 전체 확률을 구하고 싶다면 law of total probability를 이용해서 적분해줘야 된다. 

$\Pr(A) = \int_{x} \Pr(A \mid X = x) f_X(x) \, dx$ --> law of total probability

 

$P_{ni} = \int \left( \prod_{j \neq i} \exp\left(-\exp\left(-(\varepsilon_{ni} + V_{ni} - V_{nj})\right)\right) \right) \exp(-\varepsilon_{ni}) \exp(-e^{-\varepsilon_{ni}}) \, d\varepsilon_{ni}$

 

$P_{ni} = \int_{-\infty}^{\infty} \exp\left( - \sum_j e^{-(s + V_{ni} - V_{nj})} \right) e^{-s} ds$

이제 변수 변환을 진행한다. $t = e^{-s}$로 치환하면, $-e^{-s} ds = dt$가 되고, 적분 범위는 $s \to \infty$일 때 $t \to 0$, 그리고 $s \to -\infty$일 때 $t \to \infty$가 된다. 변환 후 식은 다음과 같이 된다:

$P_{ni} = \int_{0}^{\infty} \exp\left( - t \sum_j e^{V_{ni} - V_{nj}} \right) (-dt)$

부호를 정리하면 다음과 같다 :

$P_{ni} = \int_{0}^{\infty} \exp\left( - t \sum_j e^{V_{ni} - V_{nj}} \right) dt$

이 적분을 계산하면:

$P_{ni} = \frac{1}{\sum_j e^{V_{nj} - V_{ni}}}$

따라서, 최종적으로 다음과 같은 결과를 얻게 된다:

$P_{ni} = \frac{e^{V_{ni}}}{\sum_j e^{V_{nj}}}$


확률 식의 그래프

 

$P_{ni} = \frac{e^{V_{ni}}}{\sum_{j} e^{V_{nj}}}$는 sigmoid 함수이며 위 그림과 같이 생겼다. 실제로 중간에 기울기가 가장 가파르고 극단 값으로 갈수록 완만해진다. 시험 성적이 20->50점 가는 것보다 96->100점 가는것이 어려운 것처럼 시그모이드도 같은 노력 대비 극단 값에서는 효용이 낮고 중간 범위에서의 증가가 효용이 높음을 잘 반영하고 있다. 


가스와 전기 난방 예제


책에서는 이해를 위해 gas와 전기 난방을 선택하는 예제를 든다. 

 

두 가지 난방 시스템에 대해 가정의 유틸리티는 다음과 같이 정의된다:


$U_g = \beta_1 \text{PP}_g + \beta_2 \text{OC}_g + \varepsilon_g$
$U_e = \beta_1 \text{PP}_e + \beta_2 \text{OC}_e + \varepsilon_e$

여기서 $\text{PP}$구매 가격, OC연간 운영 비용을 나타낸다. 


Epsilon 값들이 iid Gumbel 분포를 따른다면 가스 난방을 선택할 확률 $P_g$는 다음과 같다:

$P_g = \frac{e^{\beta_1 \text{PP}_g + \beta_2 \text{OC}_g}}{e^{\beta_1 \text{PP}_g + \beta_2 \text{OC}_g} + e^{\beta_1 \text{PP}_e + \beta_2 \text{OC}_e}}$

 

이때 경제적 의미도 도출할 수 있다. 계수 비율은 $\beta_1 = -0.20$ / $\beta_2 = -1.14$ = 5.7이다. $\beta_1$은 purchase cost의 계수이고 $\beta_2$는 운영비용의 coefficient이다. $\beta_2$가 더 크다는 것은 소비자가 구매가격보다 운영 비용에 더 민감하다는 뜻이고 베타들의 비율이 5.7이라는 것은 운영 비용을 1달러 낮추기 위해 구매가격을 5.7달러까지 더 낼 의향이 있다는 뜻으로 해석할 수 있다. 


확률을 간결한 형태로 나타내기 위해, 분자와 분모를 분자 값으로 나누고, 지수 함수의 성질을 이용하여 다음과 같이 표현할 수 있다:

 

$P_g = \frac{1}{1 + e^{(\beta_1 (\text{PP}_e - \text{PP}_g) + \beta_2 (\text{OC}_e - \text{OC}_g))}}$


Scale Parameter - Varaince 보정

 

각 Utility마다 scale이 다를 수 있기 때문에 scale을 보정해줘야 한다. 

그리고 이는 unobserved term의 분산을 $\frac{\pi^2}{6}$으로 고정시킴으로써 할 수 있다.  

 

유틸리티 $U_{nj}$를 스케일 파라미터 $\sigma$로 나누고 $\epsilon_{nj}$도 $\sigma$로 나누어 준다. 

$U_{nj} = \frac{V_{nj}}{\sigma} + \frac{\epsilon_{nj}}{\sigma}$

 

그럼 새로운 분산은 다음과 같다. 

 

$\text{Var}\left(\frac{\epsilon_{nj}}{\sigma}\right) = \frac{1}{\sigma^2} \times \text{Var}(\epsilon_{nj}) = \frac{1}{\sigma^2} \times \left(\sigma^2 \times \frac{\pi^2}{6}\right) = \frac{\pi^2}{6}$

시그마는 $\frac{\pi^2}{6}$으로 맞추기 위해 역산한 값이다. 

 

확률 $P_{ni}$는 다음과 같이 계산된다.

$P_{ni} = \frac{e^{V_{ni}/\sigma}}{\sum_{j} e^{V_{nj}/\sigma}}$

스케일 파라미터 $\sigma$는 계수의 odds에는 영향을 미치지 않는다. 왜냐하면 아래에서 보이는 것처럼 보정을 해준 값들이 서로 cancel out되서 effect가 없어지기 때문이다.

$\frac{\beta_1}{\beta_2} = \frac{\left(\frac{\beta_1^*}{\sigma}\right)}{\left(\frac{\beta_2^*}{\sigma}\right)} = \frac{\beta_1^*}{\beta_2^*}$

즉, 계수 비율은 스케일 파라미터에 영향을 받지 않는다.

이는 다른 분산을 가지는 객체들을 비교할 때 유용하다. 예를 들어, 도시에서 기인하는 분포 차이가 있을 수 있다. 보스턴과 시카고를 예로 들어보자. 보스턴의 분산을 $(\sigma_B)^2 \times \frac{\pi^2}{6}$, 시카고의 분산을 $(\sigma_C)^2 \times \frac{\pi^2}{6}$로 설정하면 우리는 두 도시 간 분산의 비율 $k$를 다음과 같이 추정할 수 있다.

$k = \frac{(\sigma_C)^2}{(\sigma_B)^2}$

시카고의 선택 확률은 다음과 같이 계산된다:

$P_{ni} = \frac{e^{(\beta / \sqrt{k}) x_{ni}}}{\sum_{j} e^{(\beta / \sqrt{k}) x_{nj}}}$

여기서, $\beta = \frac{\beta^*}{\sigma_B}$이다. 

 

이렇게 하는 이유가 시카고 사람들이 느끼는 beta값과 보스턴 사람들이 느끼는 beta값을 비교하기 위해서 맞나요?

 


Logit의 limitations

 

1. Taste Variation

 

Taste variation은 coefficient를 결정하는 요소 내에도 랜덤 요소가 있을 때 발생한다. 

 

예를 들어, 자동차를 선택할 때 선택 기준으로 두 가지 속성만 고려한다고 가정하자:

 

1) $PP_j$ : 자동차의 가격
2) $SR_j$ : 자동차 내부의 어깨 공간


가구 $n$이 자동차 $j$를 선택할 때의 유틸리티는 다음과 같이 표현된다:

$U_{nj} = \alpha_n SR_j + \beta_n PP_j + \epsilon_{nj}$

$\alpha_n$: 가구 $n$이 어깨 공간 $SR_j$에 대해 얼마나 가치를 두는지를 나타내는 파라미터
$\beta_n$: 가구 $n$이 구매 가격 $PP_j$에 대해 얼마나 가치를 두는지를 나타내는 파라미터
$\epsilon_{nj}$: 관측되지 않는 무작위 오차항


가구의 어깨 공간에 대한 선호도 $\alpha_n$와 구매 가격에 대한 중요도 $\beta_n$는 관측되지 않는 변수들에 따라 변동할 수 있다. 예를 들어, 어깨 공간의 값이 가구의 크기와 기타 관측되지 않는 요소들에 따라 달라질 수 있다. 예를 들어 가구 구성원들의 크기, 자주 함께 여행하는 빈도 등이 있을 수 있다. 이를 수식으로 표현하면:

 

$\alpha_n = \rho M_n + \mu_n$

여기서 $\mu_n$은 무작위 변수이다. 

 

비슷한 맥락에서 베타 역시 관측된 부분과 관측되지 않는 부분으로 구성된다 :

 

$\beta_n = \theta / I_n + \eta_n$

위의 표현을 유틸리티 함수에 대입하면 다음과 같이 된다 :

$U_{nj} = \rho (M_n SR_j) + \mu_n SR_j + \theta (PP_j / I_n) + \eta_n PP_j + \epsilon_{nj}$

여기서 $\mu_n$과 $\eta_n$는 관측되지 않으므로, $\mu_n SR_j$와 $\eta_n PP_j$는 유틸리티의 관측되지 않는 부분으로 포함됩니다. 따라서, 최종 유틸리티 함수는 다음과 같다:

$U_{nj} = \rho (M_n SR_j) + \theta (PP_j / I_n) + \tilde{\epsilon}_{nj}$

이때 $\tilde{\epsilon}_{nj} = \mu_n SR_j + \eta_n PP_j + \epsilon_{nj}$

중요한 점은 $\mu_n$과 $\eta_n$는 decision maker n에 고정이라는 것이다. 따라서 모든 alternative j에 저 항이 공유되게 된다. 왜냐하면 어떤 alternative이던 상관 없이 decision maker n에 고정이기 때문이다. 그렇게 되면 모든 alternative에 decision maker n에 고정인 항 두개가 공유되게 되고 이는 covariance를 야기한다. 그렇게 되면 IIA assumption이 깨지게 된다.

 

책에서 어렵게 써놨지만 쉽게 말해 개인 고유에 특이한 feature가 있다면 그건 모든 alternative에 영향을 끼쳐 covariance를 만들 위험이 있다는 뜻이다.


Substitution Pattern

 

IIA assumption에 의해 두 대안 $i$와 $k$가 있을 때, 이들 간의 확률 비율은 다른 대안이 추가되거나 변경되지 않는다.  :

$\frac{P_{ni}}{P_{nk}} = \frac{e^{V_{ni}}}{e^{V_{nk}}}$


이처럼 IIA는 계산 복잡도를 줄이고 연구하고자 하는 부분집합만을 추정해도 일관된 추정이 가능하기에 편리하다. 그러나 "빨간 버스-파란 버스" 문제처럼 실제 세상을 반영하지 않을 수 있다. 대중교통 선택지 중 빨간 버스가 도입될 때, 로짓 모델은 이로 인해 다른 대안의 선택 확률 비율이 변하지 않는다고 예측한다. 하지만 실제로는 빨간 버스의 도입으로 인해 파란 버스의 확률이 반반으로 나뉘어야 한다. 또한 로짓 모델은 대안의 특성 변화에 따라 확률 비율이 일정하다고 가정하지만, 실제로는 새로운 대안의 도입이나 기존 대안의 속성 변화가 다른 대안들의 확률에 미치는 영향은 다를 수 있다. 예를 들어, 전기차에 대한 보조금이 제공될 때, 로짓 모델은 대형 가솔린 자동차와 소형 가솔린 자동차의 확률이 동일한 비율로 감소한다고 예측할 수 있지만, 실제로는 소형 가솔린 자동차에서 더 많은 수요가 감소할 것이다. 

IIA의 검증 방안

1) 부분 대안 집합에서의 재추정 : 대안의 부분 집합만을 가지고 모델을 재추정하고 그 결과 값을 전체 대안 집합에서의 추정값과 비교해서 유사도를 검사한다. Hausman과 McFadden, 1984

2) 교차 대안 변수 사용 : 대안 간의 확률 비율이 다른 대안의 속성에 따라 달라지는지 확인하기 위해, 새로운 교차 대안 변수를 도입하여 모델을 재추정한다. McFadden, 1987 & Train et al., 1989


Panel Data

 

Panel data시계열 데이터로 feature by time으로 나열된 테이블이 panel처럼 생겼다고 해서 이름이 붙여졌다. solar panel할때 그 panel이다. 이에 반대되는 개념은 cross-sectional data로 단면만 본다고 해서 고정된 시점의 데이터만 살피는 것이다. 

 

Panel data는 이전 시점의 데이터의 트렌드를 보여준다. 예를 들어 우리는 익숙한 길, 먹던 음식, 그리고 친숙한 브랜드 등 관성적으로 행동하려는 경향을 가지고 있다. 이를 다음과 같이 나타낼 수 있다.

 

$V_{njt} = \alpha y_{nj(t-1)} + \beta x_{njt}$

여기서 $y_{njt} = 1$이면 n이 j를 t 기간에 선택한 경우이고, 그렇지 않으면 0이다. $\alpha > 0$일 때, 현재 기간의 대안 $$의 효용은 이전 기간에 대안 $j$가 소비되었을 때 더 높다. 반면, $\alpha$가 음수일 경우 소비자는 이전 기간에 선택한 동일한 대안을 선택하지 않을 때 더 높은 효용을 얻는다. 이러한 개념을 활용해서 시계열 데이터의 트렌드를 반영할 수 있다.


Limitation of Logit

 

1) Non-linearity :

 

Non-linear한 모형이 설명력이 더 높을 수도 있다. 이럴 때는 non-linear parameter가 분석에 의미를 가지기에 linear approximation을 하게 되면 설명력이 떨어진다. 다만 non-linear 모델은 global concavity가 보장되지 않고 solver의 package 수가 linear logit모델의 수보다 적다는 한계가 있다.

 

2) Geographic Aggregation :

 

집계 수준의 민감성 문제도 존재한다. 만약 두 개의 구역 $j$와 $k$를 합쳐서 새로운 구역 $c$를 만든다면, 합쳐진 구역의 인구 및 고용은 두 구역의 인구와 고용의 합으로 결정될 것이다:

 

$a_j + a_k = a_c.$

이 경우, 모델이 원래 구역들의 선택 확률의 합과 합쳐진 구역의 선택 확률이 같도록 만들어야 한다 :

$P_{nj} + P_{nk} = P_{nc}.$

로짓 모델은 다음과 같이 나타내어진다.


$\frac{e^{V_{nj}} + e^{V_{nk}}}{e^{V_{nj}} + e^{V_{nk}} + \sum_{j,k} e^{V_n}} = \frac{e^{V_{nc}}}{e^{V_{nc}} + \sum_{j,k} e^{V_n}}.$

이 등식이 성립하려면, 각 구역의 효용의 지수합이 합쳐진 구역의 효용의 지수와 같아야 한다.

$e^{V_{nj}} + e^{V_{nk}} = e^{V_{nc}}.$

만약 모든 구역에 대해 대표적 효용을 다음과 같이 정의해야만 식이 성립한다. 

$V_n = \ln(\beta a)$

 

$e^{\ln(\beta a_j)} + e^{\ln(\beta a_k)} = \beta a_j + \beta a_k = \beta a_c = e^{\ln(\beta a_c)}.$


Consumer Surplus

\Choice model이 경제학에서 쓰이다 보니 cosumer surplus 예제도 등장한다. 우선 두개의 곡선이 등장하는데 Demand curve는 "sloped downwards to reflect the willingess to purchase more at a lower price". 반면에 supply curve는 "sloped upward to reflect the willingess to build more at a higher price". 소비자는 쌀수록 더 많이 사고 싶고 판매자는 비쌀수록 더 많이 팔고 싶을 것이다. 

 

두 곡선이 교차하는 곳에서 market equilibrium이 발생하게 된다. 그럼 초록색으로 생긴 부분이 consumer surplus이다. 초록색으로 칠해진 곳에서 소비자들은 더 많은 비용을 지불할 의향이 있으나 market price는 그것보다 싸게 형성되어 있다. 따라서 소비자는 그만큼의 차이만큼 이득을 보는 것이다. 

 

소비자 잉여는 다음과 같이 정의된다:


$CS_n = \frac{1}{\alpha_n} \max_j (U_{nj})$

 

$\alpha_n$은 개인 n의 소득에 대한 한계 효용으로, 이는 효용을 금전적 가치로 변환하는 역할을 한다. 

 

따라서 소비자 잉여의 기대값은 다음과 같이 계산된다:

$E(CS_n) = \frac{1}{\alpha_n} E\left[ \max_j (V_{nj} + \varepsilon_{nj}) \right]$

Williams, 1977와 Small & Rosen, 1981의 연구에 따르면, 오류항 $\varepsilon_{nj}$가 iid gumbel 분포를 따를 경우, 기대 소비자 잉여는 다음과 같이 단순화 시킬 수 있다 :

$E(CS_n) = \frac{1}{\alpha_n} \left( \ln \left( \sum_{j=1}^{J} e^{V_{nj}} \right) + C \right)$

여기서 $C$는 절대적 효용 수준을 나타내는 상수로, 정책 분석에서는 무시할 수 있다.

이를 이용해서 정책 변화 전후의 소비자 잉여 변화를 계산하여 정책의 효용을 계산할 수 있다. 


$\Delta E(CS_n) = \frac{1}{\alpha_n} \left( \ln \left( \sum_{j=1}^{J_1} e^{V_{nj}^{(1)}} \right) - \ln \left( \sum_{j=1}^{J_0} e^{V_{nj}^{(0)}} \right) \right)$


$V_{nj}^{(0)}$와 $V_{nj}^{(1)}$는 각각 정책 변화 전과 후의 대표적 효용이다.
$J_0$와 $J_1$은 각각 변화 전후의 선택 가능한 대안의 수이다.

이때 상수 C는 두 식에서 상쇄되므로 해석에 영향을 끼치지 않는다.

소득의 한계 효용 $\alpha_n$은 비용 변수의 계수로 추정할 수 있다. 일반적으로 선택 모형에서 비용 변수는 대표 효용에 포함되며, 비용의 계수는 음수이다. $\alpha_n$은 이 비용 계수의 음수 값으로 정의된다:

$\alpha_n = -\beta_2$

예를 들어, 자동차와 버스 간의 선택을 아래와 같이 모델링 할 수 있다 :

$U_{nj} = \beta_1 t_{nj} + \beta_2 c_{nj}$

여기서 $t_{nj}$는 시간, $c_{nj}$는 비용을 나타내고, $\beta_1$과 $\beta_2$는 각각 시간과 비용에 대한 계수이다. 이때 비용 계수 $\beta_2$는 음수이며, $-\beta_2$가 소득의 한계 효용 $\alpha_n$가 된다. 개인적으로 단위를 생각하니까 이해가 편했다. $\beta_2$ 계수의 단위는 utility/cost 일것이다. 따라서 $\frac{1}{\alpha_n}$의 단위는 cost/utiity이기에 utility와 곱해주면 utility가 monetary value로 conversion되게 된다. 


Exogenous Sample

 

표본이 선택 분석과 관련 없는 요인들에 의해 random or stratified random하게 추출되었을 때 classical한 maximum likelihood estimation을 적용할 수 있다. 그 이유는 확률 분포가 close form을 갖기 때문이다. 


개인 n이 실제로 선택한 대안 i 의 확률은 다음과 같이 표현된다:

$\prod_i \left(P_{ni}\right)^{y_{ni}}$

여기서 $y_{ni} = 1$은 개인 n이 대안 i를 선택했음을 의미하고, 그렇지 않으면 $y_{ni} = 0$이다. 이때, $P_{ni}^0 = 1$이므로 실제로 선택된 대안의 확률만 곱해지게 된다.

개인들의 선택이 독립적이라고 가정하면, 표본 내 모든 개인의 선택 확률은 다음과 같다:

$L(\beta) = \prod_{n=1}^{N} \prod_i (P_{ni})^{y_{ni}}$

여기서 $\beta$는 모형의 파라미터를 포함하는 벡터이며 로그우도 함수는 다음과 같다:

$LL(\beta) = \sum_{n=1}^{N} \sum_i y_{ni} \ln P_{ni}$

이 함수의 최댓값을 만드는 추정치 $\beta$를 구하기 위해 미분을 해준다:

$\frac{dLL(\beta)}{d\beta} = 0$

대표 효용이 파라미터에 대해 선형을 가정하면 더 단순화해서 나타낼 수 있다. 그러나 선형이 필요조건은 아니다. $V_{nj} = \beta' x_{nj}$로 가정하면 first-derivative는 다음과 같다:

$\sum_n \sum_i (y_{ni} - P_{ni}) x_{ni} = 0$

이를 재배열하고 양변을 N으로 나누면 다음과 같은 결과를 얻을 수 있다 :

$\frac{1}{N} \sum_n \sum_i y_{ni} x_{ni} = \frac{1}{N} \sum_n \sum_i P_{ni} x_{ni}$

$\bar{x}$는 표본 내 선택된 대안에 대한 x의 평균이고, $\hat{x}$는 예측된 선택에 대한 x의 평균이다 :

최대우도 추정치에서 이 두 평균이 일치한다. 즉, β의 최대우도 추정치는 예측된 각 설명 변수의 평균이 표본에서 관측된 평균과 같을 때 이루어진다. 사실 당연한거라고 생각될 정도로 직관적이라... 그냥 수리적 증명을 참조하는 느낌으로만 보면 될듯..


$\bigstar \bigstar \bigstar \bigstar \bigstar $

First-Order Condition and Residuals

 

개인의 실제 선택 $y_{ni}$과 그 선택에 대한 확률 $P_{ni}$의 차이는 모델링의 오류이기에 잔차로 생각할 수 있다. 

$\sum_n \sum_i (y_{ni} - P_{ni}) x_{ni} = 0$

그런 관점에서 생각했을 때 최대우도 추정치는 잔차와 설명 변수의 공분산이 0이 되는 $\beta$ 값을 구해준다. 이 조건은 로짓 모형을 선형 회귀모형과 엮어준다. 결론적으로, 잔차와 설명 변수의 공분산이 0이라는 것은 모델이 설명 변수로부터 설명할 수 있는 모든 정보를 잘 반영하고 있다는 것을 의미하며, 설명 변수와 잔차가 상관되지 않도록 모델이 잘 설계되었다는 통계적 지표이다. 

 

아래는 왜 저 식이 설명 변수와 잔차의 공분산이 0인지를 증명하는 과정이다.

 

1. 공분산 정의
$\text{Cov}(e, x) = \frac{1}{N} \sum_{n=1}^{N} (e_n - \bar{e})(x_n - \bar{x}) = 0$

 

2. 공식 전개
$\frac{1}{N} \sum_{n=1}^{N} e_n x_n - \frac{1}{N} \sum_{n=1}^{N} e_n \bar{x} - \frac{1}{N} \sum_{n=1}^{N} \bar{e} x_n + \bar{e} \bar{x} = 0$

3. 잔차 평균이 0임을 활용 - random error기 때문에 cancel out
$\bar{e} = 0$

 

4. 결론
$\frac{1}{N} \sum_{n=1}^{N} e_n x_n = 0$


Subset of Alternatives

대안의 수가 너무 많아 추정이 불가능할 경우, 대안의 부분 집합에서 추정을 수행할 수 있다. 


연구자가 대안의 부분 집합 K를 선택했을 때, 대안 i가 선택될 확률 $P_n(i | K)$는 다음과 같이 표현된다:

$P_n(i | K) = \frac{e^{V_{ni}} q(K | i)}{\sum_{j \in F} e^{V_{nj}} q(K | j)} = \frac{e^{V_{ni}}}{\sum_{j \in K} e^{V_{nj}}}$

여기서 $q(K | i)$는 연구자가 선택한 대안의 부분 집합 K가 대안 i 를 포함할 확률이며 대안이 동일한 확률로 선택되었다면, 위 식은 로짓 공식과 동일해진다.


이 경우, 조건부 로그우도 함수는 다음과 같다:

$CLL(\beta) = \sum_n \sum_{i \in K_n} y_{ni} \ln \frac{e^{V_{ni}}}{\sum_{j \in K_n} e^{V_{nj}}}$

대안 집합 $K_n$이 각 개인에 대해 선택되며, 이는 전체 대안 집합을 대신한다. 이 조건부 로그우도 함수의 최대화를 통해 추정치를 얻을 수 있다.


Choice-Based Samples

 

Sample이 bias되어있을 때 balancing을 해서 보정한다는 내용을 다루고 있었다.

 

대안 j에 대한 추정 상수 $\hat{\alpha}_j$의 기대값은 실제 상수 $\alpha^*_j$와 다음과 같은 관계를 가진다:

$E(\hat{\alpha}_j) = \alpha^*_j - \ln\left(\frac{A_j}{S_j}\right)$

여기서 $A_j$는 모집단에서 대안 j를 선택한 의사 결정자의 비율이고, S_j 는 선택 기반 표본에서 대안 j 를 선택한 비율이다. 따라서, $A_j$가 알려져 있다면, 즉, 각 대안에 대한 모집단 비율이 알려져 있다면, 일관된 대안별 상수 추정치는 선택 기반 표본에서 추정된 상수 $\hat{\alpha}_j$에 모집단 비율과 표본 비율의 비율의 로그를 더한 값이라고 한다.



Goodness of Fit and Hypothesis Testing

불연속 선택 모형에서 데이터에 대한 모형 적합도를 측정하는 데 자주 사용되는 통계량은 우도비 지수likelihood ratio index이다. 로짓 모델은 추정된 파라미터를 사용한 모형과 모든 파라미터가 0인 모형을 비교하여 모형이 데이터를 얼마나 잘 설명하는지를 측정한다. 


해당 odds ratio는 아래와 같이 정의된다 :

$\rho = 1 - \frac{LL(\hat{\beta})}{LL(0)}$

여기서 $LL(\hat{\beta})$는 추정된 파라미터에서의 로그우도 함수 값이고, $LL(0)$는 모든 파라미터가 0일 때의 로그우도 함수 값이다. 추정된 파라미터가 0인 파라미터와 다를 바 없다면, $LL(\hat{\beta}) = LL(0)$이고 $\rho = 0$이 된다. 

 

반면에 만약 추정된 모형이 매우 좋아서 각 표본화된 의사 결정자의 선택을 완벽하게 예측할 수 있다고 가정해보자. 이 경우 추정된 파라미터에서의 odds ration는 1이 될 것이며, 선택된 대안을 실제로 관찰한 확률이 1이 된다. 


이 지수는 해석상 회귀에서 사용하는 $R^2$와 유사하지 않음을 유의해야 된다. $R^2$는 종속 변수의 변동 중 얼마가 추정된 모형에 의해 설명 되는지를 나타낸다. 반면, 우도비 지수는 0과 1 사이의 값을 가지지만, 그 중간 값에 대한 직관적인 해석은 없다. 즉, 로그우도 함수가 0 파라미터에서의 값에서 얼마만큼 증가했는지를 비율로 나타내지만, 이 비율의 의미는 명확하지 않다는 것이다. 물론 동일한 데이터와 동일한 대안 집합에서 추정된 두 모형을 비교할 때 따라서 $LL(0)$이 동일할 경우, 우도비 지수가 더 높은 모형이 데이터를 더 잘 설명한다고 할 수 있을 것이다. 그러나 동일하지 않은 표본 또는 서로 다른 대안 집합에서 추정된 두 모형을 우도비 지수 값으로 비교할 수는 없다.

또한 쉽게 오류를 범하는 다른 통계량은 percent correctly predicted이다. 이 통계량은 의사 결정자에 대해 가장 높은 확률을 가진 대안을 식별하고, 이 대안이 실제로 선택된 대안인지 여부를 확인하여 계산된다.


이 통계량은 연구자가 각 의사 결정자가 선택할 대안에 대해 모델이 부여한 확률 중 가장 높은 대안을 선택할 것이라고 예측하는 개념을 기반으로 한다. 선택 확률을 제시할 때, 연구자는 선택 상황이 여러 번 반복되거나 동일한 특성을 가진 여러 사람이 직면할 경우, 각 대안이 선택될 특정 비율을 제시하는 것이다. 그러나 이는 종종 가장 높은 확률을 가진 대안이 매번 선택될 것이라는 예측과 혼용되곤 한다.

예를 들어, 추정된 모형이 두 대안 상황에서 각각 확률 0.75와 0.25를 예측한다고 가정해보자. 이러한 확률은 100명의 사람들이 이 대표적인 효용을 기반으로 선택할 경우, 또는 한 사람이 100번 이러한 대표적인 효용에 직면할 경우, 연구자가 예측할 수 있는 각 대안을 선택할 사람 수는 75명과 25명이라는 것을 의미한다. 0.75가 0.25보다 더 큰 확률이기에 0.75의 선택지만을 고르는 것과는 매우 다른 개념이라는 것이다. 

'대학원' 카테고리의 다른 글

Data Exploratory Analysis on NHID COHORT 1.0  (0) 2024.11.04
[Informs conference Rehearsal]  (4) 2024.10.14
KAIST 사이버윤리(윤리 및 안전 소과목) 매크로  (1) 2024.09.11
Discrete Choice Model 설명 [1편]  (0) 2024.09.10
Closed Form  (2) 2024.09.04