研究日記

学習内容の記録です。わからないことばかりです。

【R】 線形重回帰結果のグラフ

Rで線形重回帰を実行すると4つのグラフをプロットすることができる。

以下にその4つのグラフの見方を簡単にまとめる。

 

1.Residuals vs Fitted

残差と線形重回帰による予測値の2要素による図。縦軸が残差、横軸が予測値である。これは線形性がない(non-liner relationship)ほど良いグラフと言えるようだ。そのため、作成されたグラフに赤で引かれている線が水平になっていればいるほど良い、ということになる。

2.Normal Q-Q

 データの正規性を見るためのグラフである。これは残差の分散を視覚的に表している。正規分布に従っていればデータは直線上に並ぶようになっている。Q-Q 分布に関する知識がなかったため、以下のサイトで少し学習。

qiita.com

サイトに目を通してみたものの、まだわからないことは多いがこれはまた必要になったときに詳しく学ぶこととする。さて、この分布は得られたデータと理論分布を比較し、その類似度を可視化しているようだ。このグラフにおいてはプロットされている値が直線上に乗っていればいるほど良いグラフとなる。

3.Scale - Location

このグラフは Spread - Location とも呼ばれ、残差が予測した範囲内に均等に散らばっているかを可視化している。これもまた、プロットされたグラフにある赤色の線が水平になっていればいるほど良いものとされている。縦軸はどうやら標準化残差の絶対値にルートをとったもののようだ。残差の変動状況を考察するために使用しているとも。

ここに関しても勉強不足である、、、

標準化残差について↓

Minitabに含まれる残差の種類 - Minitab

4.Residuals vs Leverage

 1つのデータがモデルにどれだけ影響を与えているか示すグラフ。Cook's distance が 0.5 を超えると影響力があり、それが1を超えると非常に大きな影響力を持っていると判断することができる。要するに、特異値を判断する際、このグラフから Cook's distance が 0.5 以上のものに絞って調べるなど活用できそうだ。

 

 

参考にしたサイトを以下に示す↓
data.library.virginia.edu