グラフビルダーの[等高線]は、データの密度の等高線(または色分け変数を使用している場合はその変数の値の等高線)を表示します。密度等高線は、散布図の点の数が多く、密度のパターンが読み取りにくい場合などに便利です。等高線の種類としては、複数のものが用意されています。デフォルトは、データ点の密度を反映した、滑らかな二変量のノンパラメトリック密度です。ノンパラメトリック密度面は、各点における二変量の確率密度関数を推定し、二変量ヒストグラムを連続量として表現したものです。
• デフォルトでは、2つの連続変数に対し、4本の等高線がプロットされます。100%、75%、50%、および25%の等高線です。表示する水準数を指定することも可能です。別の種類として、バッグプロットまたは最高密度領域の等高線を選択できます。
• 1つの連続変数のみの場合は、等高線ではなくバイオリンプロットが表示されます。バイオリンプロットは、カーネル密度を縦軸に対して対称にプロットすることで、データの密度を表します。カーネル密度は、各点で確率密度関数を推定し、連続的ヒストグラムとして表現したものです。バイオリンプロットは、箱ひげ図の箱とひげを左右対称のカーネル密度で置き換えたようなものです。別の種類として、最高密度領域の等高線を選択できます。
• 等高線図に色分け変数を追加すると、色分け変数の値を反映した等高線が表示されます。値の等高線は、Delaunayの三角分割を使用して計算されます。オプション(「変換」)を選択することで、XとYの範囲により正規化されたプロットを表示できます。
図3.29 等高線図またはバイオリンプロットの「等高線」のオプション
塗りつぶし
(バッグプロットでは使用不可)等高線内を塗りつぶします。
線
(バッグプロットでは使用不可)等高線の線を追加します。
水準数
(ノンパラメトリック密度で使用可能)密度等高線で、表示される等高線の数を指定します。指定できる等高線の数は1~1000で、デフォルトは4です。
境界線
(色分け変数がある場合のみ使用可能)グラフの外周の線を追加します。
アルファ
(色分け変数がある場合のみ使用可能)境界の形状を制御します。アルファの値を大きくすると、補間が望ましくないと思われる、長い、細い、または大きな三角形が削除されます。
滑らかさ
(バッグプロットでは使用不可)等高線図の境界線を滑らかにします。滑らかさの値は-1~1に正規化されます。この値は、スムージングのカーネル半径として解釈できます。元のデータはグリッド状に補間され、その後、Gauss型の平滑化が適用されます。
変換
(色分け変数がある場合のみ使用可能)[範囲による正規化]を選択すると、XとYに対して範囲により正規化したスケールを用いて三角分割が行われます。これにより、Delaunayの三角分割を計算する前に、X変数とY変数の両方が[0,1]に尺度化されます。XとYの単位が大きく異なる場合は、このオプションが有効です。この場合、点が一方向にのみ伸びていると、Delaunay 三角分割によって細長い三角形が最小限に抑えられてしまい、一部の特徴がわかりにくくなるためです。
等高線の種類
等高線の種類を選択します。
ノンパラメトリック密度
(二変量の散布図でのみ使用可能。)滑らかな二変量のノンパラメトリック密度面を描画します。
バッグプロット
バッグプロットを描画します。これは二変量の箱ひげ図としても知られています。バッグプロットは、2つの多角形、外れ値の点、および中央値の点で構成されます。まずデータの各点におけるTukeyの深さ(二変量の深さ)が計算され、それに基づいて他の計算も行われます。中央値の点は、最大の深さにおけるすべての点の平均であり、アスタリスクで表示されます。内側の多角形がバッグで、最大でデータ点の50%を含みます。中央値の点に対してバッグの多角形を3倍に広げた フェンスは、プロットには表示されません。外側の多角形は、フェンス内に含まれるすべての点の凸包です。これはループと呼ばれます。フェンスの外側にある点は外れ値とみなされ、プロット上には点として表示されます。バッグプロットの詳細については、Rousseeuw(1999)を参照してください。
最高密度領域
一変量に対しては最高密度領域の長方形、二変量のデータに対しては最高密度領域の等高線を描画します。陰影の薄い領域は99%の確率領域を表し、濃い領域は50%の確率領域を表します。(これらの領域は不連続の場合もあり、正確に入力データの50%または99%が含まれているのではない可能性があります。)50%の確率領域内の最頻点は、線(一変量データ)またはアスタリスク(二変量データ)で示されます。グラフに点の要素が指定されていなくても点が表示される場合、それらは99%の確率領域からの外れ値を表します。この領域の滑らかさは、「滑らかさ」オプションを使用して調整できます。
最高密度領域は、点がグリッド状に補間された後、データにGaussカーネルを適用することにより推測されたノンパラメトリック密度に基づきます。最高密度領域の滑らかさを決めるデフォルトのバンド幅は、次のように計算されます。
結果として得られる等間隔のビンは、密度領域の計算に使用されます。等高線は、空間を等確率領域に分割した密度領域内で等間隔に配置されます。最高密度領域の詳細については、Hyndman(1996)を参照してください。
バイオリン
(一変量プロットでのみ使用可能。)カーネル密度を縦軸に対して対称にプロットすることで、データの密度のバイオリンプロットを描画します。この密度は、最高密度領域と同じ手順を使用して定義されます。
点をずらす
点をずらして表示します。データにランダムな誤差を追加し、点の重なりを減らします。特定の点をずらすオプションの説明については、点を参照してください。
外れ値
(バッグプロットと最高密度領域の等高線で使用可能)外れ値をプロットします。
バイオリンのスケール
バイオリンプロットが複数ある場合の、スケールのオプションを選択できます。等面積または等幅は、バイオリンの面積または最大幅が同じになることを意味します。重み付き面積は、バイオリンの面積が各バイオリンのオブザベーション数に比例することを意味します。
変数
グラフ要素の変数の表示と非表示を切り替えたり、変数の表示順を変更したりします。
メモ: これらのオプションは、「グループX」、「グループY」、「段組」、「ページ」の各ゾーンの変数には適用されません。
チェックボックスの右に、その変数のゾーンと列名が表示されます。これらのチェックボックスでは、次のようなことができます。
– ゾーンの変数に対応する要素の表示と非表示を切り替える。
– 変数を「色」、「サイズ」、「地図シェープ」、または「度数」に指定したときの効果をオンまたはオフにする。
ヒント: 複数のグラフがある場合、各グラフの色やサイズに異なる変数を使用できます。2つ目の変数を「色」または「サイズ」ゾーンにドラッグし、その隅にドロップします。「変数」のオプションで、使用したい色やサイズの変数を選択し、各グラフに適用します。
ゾーン内に複数の変数がある場合は、矢印を使ってそれらの表示順を変更できます。変数名を強調表示し、矢印をクリックすると、その変数の位置が変わります。
変数オプションの詳細については、「面グラフと折れ線グラフの例」を参照してください。
軸のスケールに合わせる
軸のスケールが対数などに変更されている場合、変換後の座標に合わせて計算を行います。
等高線の配置
(グループ変数がある場合に使用可能。)等高線を揃えたり、ずらしたりできます。