生存時間データは、次の2つの理由から、特別な手法で分析する必要があります。
1. 生存時間の分布は、指数分布・Weibull分布・対数正規分布のように、特殊な非正規分布になるのが普通です。
2. また、データの一部が打ち切られている場合もあります。
打ち切りのないデータや右側打ち切りデータに対しては、「Kaplan-Meier法」と呼ばれているノンパラメトリックな推定方法で生存関数を推定するのが一般的です。「打ち切りのないデータ」とは、死亡や故障などのイベントが観測されたデータのことです。一方、「右側打ち切りデータ」では、故障や死亡などのイベントが観測されなかったため、はっきりとした生存時間が記録されず、ただ、特定の時間よりも前には死亡や故障が起きなかったことしか分かっていません。右側打ち切りは、製造業の寿命試験で試験終了時に故障していない製品が残っている場合や、臨床試験にて患者が途中で脱落した場合に生じます。分析に偏り(バイアス)が出ないようにするためには、打ち切りも考慮して分析しなければいけません。一般的な生存時間分析に用いるデータは、次のような変数から構成されます。
• 故障や死亡などのイベントが、製品や患者に生じた時間。または、打ち切りの時間。なお、生存時間に対する回帰モデルの場合、応答変数(Y)が時間となります。
• データが、イベントが生じたものなのか、打ち切られたものなのかを示すコード。JMPのデフォルトでは、打ち切りの場合に1、イベントが生じた場合に0というコードが使用されます。
• 生存時間に対する回帰モデルでは、何らかの説明変数をモデルに含めます。
• データが区間打ち切りの場合は、区間の下限と上限を表す2つの変数が必要です。「区間打ち切り」とは、ある区間のいずれかの時点でイベントが生じたことしか分かっていないデータを指します。
信頼性分析や生存時間分析における時間データは、「寿命」・「生存時間」・「故障時間」・「イベントまでの時間」・「持続時間」などと呼ばれています。
「生存時間分析」プラットフォームでは、グループごとにKaplan-Meier法(product-limit: 積-極限法とも呼ばれる)による生存率の推定値が計算されます。Kaplan-Meier推定はそれだけで分析として完結していますが、より複雑なモデルをあてはめる前の探索的な分析としても活用できます。Kaplan-Meier推定を行ったときの「生存時間分析」プラットフォームには、次のような機能があります。
• グループごとに推定された生存関数や、(オプション指定によって)標本全体で推定された生存関数を描く。
• 各グループおよび標本全体に対し、生存率の推定値を計算し、表にまとめる。
• 指数分布・Weibull分布・対数正規分布の確率プロットを作成する。また、それらの分布をあてはめて、パラメータ推定値も算出する。
• ログランク検定と一般化Wilcoxon検定。これらの検定は、グループごとの生存関数が同じかどうかを、カイ2乗値によって検定します。
• 故障原因を含んだ変数を指定した場合、競合原因(competing causes)の分析。競合原因分析では、原因ごとに、Weibull分布を推定します。