公開日: 09/19/2023

ここに画像を表示「データ処理」のオプション

「関数データエクスプローラ」プラットフォームにある「データ処理」の赤い三角ボタンのメニューには、以下のオプションがあります。

データの取捨

データを取捨するための、次のようなオプションが含まれたサブメニュー。

ゼロの削除

ゼロとなっている観測値を削除します。データ中にゼロの値がなかった場合は、ゼロの値が発見されなかったという旨のメッセージが表示されます。

指定した値の削除

データから削除する値を指定するためのウィンドウを表示します。

選択されているデータの削除

データテーブルで選択されている行の観測値を削除します。

選択されていないデータの削除

データテーブルで選択されていない行の観測値を削除します。

注意: [選択されているデータの削除]と[選択されていないデータの削除]は行番号に基づいて行を削除します。[自動再計算]が有効になっている場合は、これらのオプションを使用する前に別の方法で行を追加または削除しないよう注意してください。

フィルタX

指定した間隔内に入らないX値を削除します。[フィルタX]オプションを選択した場合は、「上限」と「下限」の値を指定する必要があります。指定した間隔内に入らないX値は分析に使用されません。

フィルタY

指定した間隔内に入らないY値を削除します。[フィルタY]オプションを選択した場合は、「上限」と「下限」の値を指定する必要があります。指定した間隔内に入らないY値は分析に使用されません。

データ削減

以下のいずれかの手法を使用してX値のデータを減らします。

グリッド]タブでは、共通のグリッドに基づいて、観測値を補間します。グリッドのサイズを指定できます。デフォルトのグリッドのサイズは、最も長い関数での入力変数における値の個数です。これは、許容される最大のグリッドサイズでもあります。

ビン分割]タブでは、X値について間隔が均等となるようなビンを作成します。ビン数を指定できます。各関数(または[ID, 関数]変数の水準)について、それぞれビン内の観測値が平均化され、その平均がY値に設定されます。

間引き]タブでは、指定した間引き数Nを使ってX値における観測値を削除します。これは、各関数(または[ID, 関数]変数の水準)について行われます。デフォルトの間引き数は2で、各関数で観測値の半分が削除されます。

メモ: これらの削除に関するオプションを使用すると、指定された観測値が分析やモデル化のレポートから除外されますが、それらの観測値の行はデータテーブル内では変更されないままです。

変換

[変換]メニューには、データの変換に関する以下のオプションがあります。

中心化

平均を引くことにより、出力を中心化します。

標準化

平均値が0、分散が1になるように、出力を標準化します。

範囲 0~1

0~1の範囲内に収まるように、出力を線形変換します。

平方根

出力を平方根変換します。出力値は非負である必要があります。

平方

出力を2乗することにより平方変換します。

対数

出力を自然対数により対数変換します。

指数

出力を指数関数(exp関数)により指数変換します。

符号反転

出力の符号を逆にします。

ロジット

出力をロジット関数によりロジット変換します。出力値は0~1の間になっている必要があります。

X変数の対数

入力(X変数)を自然対数で変換します。

配置

[配置]メニューには、入力データを配置(アライン)する次のオプションが含まれています。

行番号

入力値を行番号に置き換えます。

最大の位置をゼロ

出力値が最大値となっている入力値がゼロになるように、入力値をずらします。出力値が最大となっている入力値をゼロとし、そのほかの入力値もそれに合わせてシフトします。

最小の位置をゼロ

出力値が最小値となっている入力値がゼロになるように、入力値をずらします。出力値が最小となっている入力値をゼロとし、そのほかの入力値もそれに合わせてシフトします。

0~1に配置

入力値が0~1の範囲になるように、入力値を線形変換します。

ヒント: この[0~1に配置]は、P-スプラインモデルをあてはめる場合に特に役立ちます。

Xの範囲を揃える

各関数が、入力値の全体的な最小値で始まり、入力値の全体的な最大値で終わるように、出力関数を揃えます。

動的時間伸縮

(関数が2つ以上ある場合にのみ使用可能。)動的時間伸縮(DTW; Dynamic Time Warping)によって入力値を配置します。動的時間伸縮は、2つ以上の関数の差が最も小さくなる配置(アラインメント)を見つけます。[動的時間伸縮]オプションを選択すると、「基準とする関数の選択」ウィンドウが表示されます。このウィンドウで、基準とする関数を選択してください。「基準とする関数」とは、それ以外の関数を配置(アライン)するときの基準に用いる関数のことです。

基準とする関数を選択して[OK]をクリックすると、伸縮関数のプロットが表示されます。伸縮関数のプロットにおいて、基準とした関数は縦軸、入力を伸縮させた関数は横軸にプロットされます。赤色の対角線(y = x)からの差は、基準とした関数に近づけるために入力値が動かされていることを示しています。

スペクトル

サブメニューには、スペクトルデータに便利な以下のオプションがあります。

SNV

データに標準正規変量変換法(Standard Normal Variate mehtod; SNV method)を適用します。この手法では、平均が0で標準偏差が1になるように個々の関数(ID変数の水準)を中央化および尺度化することによって、出力を標準化します。

MSC

データに乗算的散乱補正(MSC; Multiplicative Scatter Correction)を適用します。単回帰が、個々の関数(ID変数の水準)ごとにあてはめられます。このとき、応答変数は関数の出力値であり、説明変数は平均関数の出力値です。その後、最初の出力値yitは、次の式を用いて新しい値y*itに置き換えられます。

ここに式を表示

ここで、biは、関数iでの単回帰における傾きです。詳細については、Geladi et al(1985)を参照してください。

Savitzky-Golay

Savitzky-Golay法を使用するためのオプションがあります。Savitzky and Golay(1964)を参照してください。

メモ: Savitzky-Golay法を含むすべてのオプションでは、入力データが等間隔のグリッド上にあり、少なくとも1つの関数に7つ以上のデータ点が含まれている必要があります。データが等間隔グリッド上にない場合は、[Savitzky-Golay]オプションを選択すると、自動的に等間隔のグリッド上に配置されます。

フィルタ

データにSavitzky-Golayフィルタを適用します。この手法は、定義域全体にわたっていくつかの点の集まりに局所的な多項式をあてはめます。これらの多項式は最小2乗法を使用してあてはめられ、各あてはめにおける点の数はバンド幅によって決まります。このオプションを選択すると、次数が0,1,2の多項式と最大10個のバンド幅に対して複数のあてはめが行われます。各関数に対して最もよくあてはまるモデルが、AICに基づいて選択されます。多項式の次数とバンド幅は、関数ごとに異なる場合があります。

1次微分

2次または3次の多項式のみを用いてSavitzky-Golayフィルタをデータに適用し、1次微分を取得します。このフィルタは多項式をあてはめるため、微分は解析的に計算されます。

2次微分

3次の多項式のみを用いてSavitzky-Golayフィルタをデータに適用し、2次微分を取得します。このフィルタは多項式をあてはめるため、微分は解析的に計算されます。

ベースライン補正

個々の関数からベースライン関数を差し引きます。ベースライン補正は、削除したい既知の傾向またはベースラインがある場合に使用します。たとえば、データ測定結果において、ピーク以外では一定の値となっているような場合です。この場合、データのピークにだけに情報があるため、ピークの領域はベースラインモデルには含まれません。

このオプションを選択すると、「ベースライン補正」ウィンドウが表示されます。このウィンドウには、領域を選択するためのプロットと、ベースラインモデルを指定するための一連のオプションがあります。「ベースライン補正」ウィンドウには、以下のオプションがあります。

ベースラインのモデル

ベースライン関数のモデルのタイプを指定します。直線・2次・3次・指数2P・指数3Pのいずれかを指定できます。

補正する区間

ベースライン関数が差し引かれる領域を指定します。関数領域全体から、またはベースラインモデルの構築に使用された領域のみから、ベースラインを差し引くことができます。

ベースラインの区間

選択プロットに一対の青い垂直線を追加するか、またはそれらを削除します。最初、これらの線は互いに重なっています。線を移動して、ベースラインモデルに含めたくないデータの領域を指定します。2本の青い線の間にあるデータの領域は、ベースラインモデルには含まれません。

アンカー点

選択プロットに1本の赤い垂直線を追加するか、またはそれを削除します。この線によって、強制的にベースラインモデルに含められるデータ点が指定されます。

目標関数

(関数が2つ以上ある場合にのみ使用可能。)目標関数をロードできます(目標変数を読み込むことができます)。

目標関数のロード

目標関数を指定するウィンドウが表示されます。目標関数は曲線のマッチングに使用されます。すべての関数が目標関数(基準関数またはゴールデンカーブとも呼ばれる)のように見えることが望ましい場合に、その目標関数を指定するためにこのオプションを用います。

目標関数を指定した場合、その目標関数のデータはモデルのあてはめでは使用されません。目標関数を指定すると、関数主成分プロファイルにオプションが追加されます。関数主成分プロファイルを参照してください。

メモ: 目標関数は、他のすべての前処理を行う前にロードする必要があります。

動的時間伸縮のオプション

時間伸縮関数のプロット

時間伸縮関数プロットの表示/非表示を切り替えます。デフォルトは「オン」です。

距離行列の保存

距離行列を別のデータテーブルに保存します。この距離行列は、関数をクラスタリングするのに役立ちます。距離行列のデータテーブルには、階層型クラスターのスクリプトが含まれています。

時間伸縮関数の保存

時間伸縮関数を別のデータテーブルに保存します。データテーブルのそれぞれの行には、動的伸縮関数により調整された入力変数、元の入力変数、ID変数が含まれています。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).