公開日: 04/01/2021

統計関数

Arc Finder(X(col), Y(col), Group(lot, wafer))

説明

点のデータにおいて円弧を見つけ、円弧を示す新しい列を作成する。

dt = Open( "$SAMPLE_DATA/Wafer Stacked.jmp" );
Arc Finder(
	Group( :Lot, :Wafer ),
	X( :X_Die ),
	Y( :Y_Die ),
	Min Distance( 12 ), // 弧を定義する3点の間の最小距離
	Min Radius( 15 ), // 許容できる弧の最小半径
	Max Radius( 2000 ), // 許容できる弧の最大半径
	Max Radius Error( 2 ), // 点を追加する近さ
	Min Arc Points( 5 ), // 何個の点で弧を定義するか
	Number of Searches( 500 ), // ランダムなプローブの数
	Max Number Arcs( 3 ) // 探す弧の数
);
dt << Color or Mark by Column( :Arc Number );
dt << Graph Builder(
	Size( 1539, 921 ),
	Variables( X( :X_Die ), Y( :Y_Die ), Wrap( :Lot_Wafer Label ), Color( :Arc Number ) ),
	Elements( Points( X, Y, Legend( 6 ) ) )
);
 

ノート

この関数は、30~50個のユニットを持つデータを対象とします。

この関数は、興味の対象となる不適合部分のサブセットデータに適しています。

点の密度が高い場合には適していません。

ARIMA Forecast(column, length, model, estimates, from, to)

説明

指定のモデルと予測値を使って、指定の列にある指定の行の予測値を戻す。

戻り値

引数fromtoによって指定された範囲の、column列に対する予測値のベクトル

引数

column

データテーブルの列。

Length

使用する列内の行数。

model

時系列モデルオプションのメッセージ。

estimates

予測に用いるモデルの係数を表す名前付き値のリスト。時系列プラットフォームにて、ARIMAモデルをあてはめて、予測値を保存したときにも、このリストは生成されます。

from, to

値の範囲。通常、fromには、1以上からto以下の整数のいずれかを指定します。fromが0以下かつto以下の場合、結果は、実測値に対する予測値になります。

Best Partition(xindices, yindices, <<Ordered, <<Continuous Y, <<Continuous X)

説明

最適なグループ分けを探す関数。試験的な関数。

戻り値

リスト

引数

xindices, yindices

同次元の行列。

Col Cumulative Sum(name, <By var, ...>)

Cumulative Sum(name)

説明

現在の行までの累積和を戻す。Col Cumulative Sumは、By列をサポートしていますが、事前にBy列で並べ替えをしておく必要はありません。

引数

name

列名。

By var

(オプション)グループごとに統計量を計算するにはBy変数を指定する。By変数は、列の計算式またはFor Each Row()の中でこの関数を使用する場合にのみ指定できます。

Col Maximum(name, <By var, ...>)

Col Max(name)

説明

指定された列の全行における最大値を計算する。複数の評価を迅速に行えるよう、結果は内部にキャッシュされます。

戻り値

列の最大値

引数

name

列名。

By var

(オプション)グループごとに統計量を計算するにはBy変数を指定する。By変数は、列の計算式またはFor Each Row()の中でこの関数を使用する場合にのみ指定できます。

メモ

データ値が列プロパティ(「欠測値のコード」など)によって割り当てられている場合、代わりに列に保存されている値の計算を基にするには、Col Stored Value()を使用します。Col Stored Value(<dt>, col, <row>)を参照してください。

Col Mean(name, <By var, ...>)

説明

指定された列の全行における平均値を計算する。複数の評価を迅速に行えるよう、結果は内部にキャッシュされます。

戻り値

列の平均値

引数

name

列名。

By var

(オプション)グループごとに統計量を計算するにはBy変数を指定する。By変数は、列の計算式またはFor Each Row()の中でこの関数を使用する場合にのみ指定できます。

メモ

データ値が列プロパティ(「欠測値のコード」など)によって割り当てられている場合、代わりに列に保存されている値の計算を基にするには、Col Stored Value()を使用します。Col Stored Value(<dt>, col, <row>)を参照してください。

Col Median(name, <By var, ...>)

説明

指定された列の全行における中央値を計算する。複数の評価を迅速に行えるよう、順序は内部にキャッシュされます。

戻り値

列の中央値。

引数

name

列名。

By var

(オプション)グループごとに統計量を計算するにはBy変数を指定する。By変数は、列の計算式またはFor Each Row()の中でこの関数を使用する場合にのみ指定できます。

メモ

データ値が列プロパティ(「欠測値のコード」など)によって割り当てられている場合、代わりに列に保存されている値の計算を基にするには、Col Stored Value()を使用します。Col Stored Value(<dt>, col, <row>)を参照してください。

Col Minimum(name, <By var, ...>)

Col Min(name)

説明

指定された列の全行における最小値を計算する。複数の評価を迅速に行えるよう、結果は内部にキャッシュされます。

戻り値

列の最小値

引数

name

列名。

By var

(オプション)グループごとに統計量を計算するにはBy変数を指定する。By変数は、列の計算式またはFor Each Row()の中でこの関数を使用する場合にのみ指定できます。

メモ

データ値が列プロパティ(「欠測値のコード」など)によって割り当てられている場合、代わりに列に保存されている値の計算を基にするには、Col Stored Value()を使用します。Col Stored Value(<dt>, col, <row>)を参照してください。

Col Moving Average(name, options, <By var, ...>)

Moving Average(name, options)

説明

指定された期間で、現在の行における移動平均を戻す。Col Moving AverageはBy列をサポートしています。

引数

name

列名。

Weighting(1|0|n)

必須の位置引数。値への重みの付け方を指定する。1の場合、すべての項に等しい重みを加える。0の場合、線形に増加する重みを加える。その他の値の場合は、その値を指数加重移動平均のパラメータとして使用する(EWMAまたはEMA)。

Before(1|0|n)

位置引数。現在の項のいくつ前からの項を平均の範囲(ウィンドウ)に含めるかを指定する(現在の項を数に入れて)。デフォルトの値は-1で、過去のすべての項をすべて含めます。

After(1|0|n)

位置引数。現在の項のいくつ後までの項を平均の範囲(ウィンドウ)に含めるかを指定する(現在の項を数に入れて)。デフォルトの値は0で、後の項をまったく含めません。

Partial Window is Missing

位置引数(ブール値)。欠測値の扱いを指定する。デフォルトでは、欠測値は無視されます。0は、欠測値のある期間の平均を計算します。

By var

(オプション)グループごとに統計量を計算するにはBy変数を指定する。By変数は、列の計算式またはFor Each Row()の中でこの関数を使用する場合にのみ指定できます。

// 5つの項の移動平均を、等しい重みで求める
Col Moving Average( x, 1, 4 );
 
// 過去のすべての項の移動平均を、線形に増加する重みを加えて求める
Col Moving Average( x, 0 );
 
// 現在の項に前後の2項つを含む5項目の三角移動平均を求める
Col Moving Average( x, 0, 2, 2 );
 
// 過去のすべての項の指数移動平均を求める
Col Moving Average( x, 0.25 );

Col N Missing(name, <By var, ...>)

説明

指定された列の全行における欠測値の個数を求める。複数の評価を迅速に行えるよう、結果は内部にキャッシュされます。

戻り値

列の欠測値の個数

引数

name

列名。

By var

(オプション)グループごとに統計量を計算するにはBy変数を指定する。By変数は、列の計算式またはFor Each Row()の中でこの関数を使用する場合にのみ指定できます。

メモ

データ値が列プロパティ(「欠測値のコード」など)によって割り当てられている場合、代わりに列に保存されている値の計算を基にするには、Col Stored Value()を使用します。Col Stored Value(<dt>, col, <row>)を参照してください。

Col Number(name, <By var, ...>)

説明

指定された列の全行における非欠測値の個数を求める。複数の評価を迅速に行えるよう、結果は内部にキャッシュされます。

戻り値

列の非欠測値の個数

引数

name

列名。

By var

(オプション)グループごとに統計量を計算するにはBy変数を指定する。By変数は、列の計算式またはFor Each Row()の中でこの関数を使用する場合にのみ指定できます。

メモ

データ値が列プロパティ(「欠測値のコード」など)によって割り当てられている場合、代わりに列に保存されている値の計算を基にするには、Col Stored Value()を使用します。Col Stored Value(<dt>, col, <row>)を参照してください。

Col Quantile(name, p, <ByVar>)

説明

指定された列の行全体における分位点pを求める。複数の評価を迅速に行えるよう、結果は内部にキャッシュされます。

戻り値

列の分位点

引数

name

列名。

p

指定の分位点p。0~1の範囲で指定します。

ByVar

(オプション)Byグループ。

dt = Open( "$SAMPLE_DATA/Big Class.jmp" );
Col Quantile( :Name("身長(インチ)"), .5 );

63

戻り値の「63」は、「身長(インチ)」列の50%点、つまり中央値(メディアン)です。

メモ

データ値が列プロパティ(「欠測値のコード」など)によって割り当てられている場合、代わりに列に保存されている値の計算を基にするには、Col Stored Value()を使用します。Col Stored Value(<dt>, col, <row>)を参照してください。

Col Rank(column, <ByVar, ...>, <<tie("average"|"arbitrary"|"row"|"minimum")

説明

最小値を1位、最大値を一番最後の順位として、各行に順位をつける。同順位のデータ値には、恣意的な順位が与えられます。

引数

column

順位付けされる列。

ByVar

(オプション)グループごとに統計量を計算するにはBy変数を指定する。

<<tie

同じ値が複数ある場合、順位の付け方を決定する。[33 55 77 55]というデータの場合、33が1位、77が4位となり、2つの55については、順位が定まらない。averageを指定すると、両方とも、平均順位の2.5位になる。arbitraryを指定すると、2位と3位を任意に割り当てる(JMP 12ではこの方法で処理されていた)。rowを指定すると、元のデータの順番に従う。(1つ目の55が2位、2つ目の55が3位となる)。

minimumを指定すると、両方に上位の順位(2位)を割り当てる。

メモ

データ値が列プロパティ(「欠測値のコード」など)によって割り当てられている場合、代わりに列に保存されている値の計算を基にするには、Col Stored Value()を使用します。Col Stored Value(<dt>, col, <row>)を参照してください。

Col Simple Exponential Smoothing(column, alpha, <ByVar> )

説明

現在の行について、alphaを平滑化の重みとした1重指数平滑化法の予測値を戻す。

引数

column

時系列の観測値の列。

alpha

平滑化の重み。

ByVar

(オプション)グループごとに予測値を計算するにはBy変数を指定する。By変数の順序を整えておく必要はありません。

メモ

tの予測値は、次のように、求められます。

Predicted[t] = alpha * Observed[t-1] + (1-alpha) * Predicted[t-1]

定義では、Predicted[1] = Observed[1]となります。

Col Standardize(name)

説明

指定された列の全行を対象に、平均値を引いて標準偏差で割った値を算出する。

戻り値

標準化したデータ値

引数

name

列名。

メモ

標準化とは、データから平均を引いて、それを標準偏差で割ることです。そのため、次の2つのコマンドは同じ結果になります。

dt = Open( "$SAMPLE_DATA/Big Class.jmp" );
dt << New Column( "stdht", Formula( Col Standardize(:Name("身長(インチ)")) ) );
dt << New Column( "stdht2",
	Formula( (:Name("身長(インチ)") - Col Mean( :Name("身長(インチ)") )) / Col Std Dev( :Name("身長(インチ)") ) )
);

メモ

データ値が列プロパティ(「欠測値のコード」など)によって割り当てられている場合、代わりに列に保存されている値の計算を基にするには、Col Stored Value()を使用します。Col Stored Value(<dt>, col, <row>)を参照してください。

Col Std Dev(name,<By var, ...>)

説明

指定された列の全行における標準偏差を計算する。複数の評価を迅速に行えるよう、結果は内部にキャッシュされます。

戻り値

列の標準偏差

引数

name

列名。

By var

(オプション)グループごとに統計量を計算するにはBy変数を指定する。By変数は、列の計算式またはFor Each Row()の中でこの関数を使用する場合にのみ指定できます。

メモ

データ値が列プロパティ(「欠測値のコード」など)によって割り当てられている場合、代わりに列に保存されている値の計算を基にするには、Col Stored Value()を使用します。Col Stored Value(<dt>, col, <row>)を参照してください。

Col Sum(name,<By var, ...>)

説明

指定された列の全行における合計を計算する。全行が欠測値の場合、Col Sum関数は欠測値を戻します。複数の評価を迅速に行えるよう、結果は内部にキャッシュされます。

戻り値

列の合計

引数

name

列名。

By var

(オプション)グループごとに統計量を計算するにはBy変数を指定する。By変数は、列の計算式またはFor Each Row()の中でこの関数を使用する場合にのみ指定できます。

メモ

データ値が列プロパティ(「欠測値のコード」など)によって割り当てられている場合、代わりに列に保存されている値の計算を基にするには、Col Stored Value()を使用します。Col Stored Value(<dt>, col, <row>)を参照してください。

Fit Censored(Distribution("name"), YLow(vector) | Y(Vector), <YHigh(vector)>, <Weight(vector)>, <X(matrix)>, <Z(matrix)>, <HoldParm(vector)>, <Use random sample to compute initial values(percent)>, <Use first N observations to compute initial values(nobs)>)

説明

打ち切りのあるデータに、指定された分布をあてはめる。

戻り値

パラメータ推定値、共分散行列、対数尤度、AICc、BIC、収束メッセージで構成されるリスト。

引数

Distribution("name")

あてはめる分布の引用符付きの名前。

YLow(vector) | Y(Vector)

打ち切りがないデータの場合は、Yだけを指定し、YHighは指定しない。打ち切りがあるデータの場合は、YLowおよびYHighに、それぞれ、打ち切りの下限値と上限値を指定してください。

オプションの引数

YHigh(vector)

打ち切りの上限値を示すベクトル。打ち切りがある場合のみ、YLowとYHighの2つを指定してください。

Weight(vector)

重み値を示すベクトル

X(matrix)

回帰モデルの位置に対する計画行列

Z(matrix)

回帰モデルの尺度に対する計画行列

HoldParm(vector)

固定するパラメータの配列。パラメータを固定する場合は非欠測値、自由パラメータとして推定する場合は欠測値を指定してください。このオプションは、「パラメータが、ゼロである」や「パラメータが、特定の値である」いう仮説に対する検定を、特定のパラメータに対して行いたいときに使ってください。

Use random sample to compute initial values(percent)

初期値の計算に使うオブザベーションの割合。データベクトルが大きい場合に指定します。

Use first N observations to compute initial values(nobs)

初期値の計算に使うオブザベーションの数。データべクトルの先頭から指定した数のオブザベーションを使用します。データベクトルが大きい場合に指定します。

Fit Circle(Xvec, Yvec)

説明

最小2乗法を使って、3つ以上の点を最適に通る円をあてはめる。点が3つしか指定されていない場合は、直接解が見つかるため、誤差平方和はゼロとなります。

戻り値

円の中心点のXおよびY座標、半径の長さ、誤差平方和を含むリスト

引数

Xvec

3つ以上の点のX座標のベクトル。

Yvec

3つ以上の点のY座標のベクトル。

構文

{Xcenter, yCenter, radius, SSE} = Fit Circle(Xvec, Yvec)

Hier Clust(x)

説明

データ行列xについて、Ward法により(データを標準化せずに)階層型クラスター分析を行った履歴を戻す。

引数

x

データ行列。

IRT Ability(Q1, <Q2, Q3, ... Qn,> parmMatrix)

説明

項目反応理論のモデルで、n個の2値の項目と既知のパラメータを使用して、潜在変数のスコアを算出する。パラメータの行列はモデル内のパラメータと同じ数の行と、分析で使用する項目と同じ数の列を持っていなければなりません。

引数

Q1, Q2, ..., Qn

n個の2値の項。

parmMatrix

項目反応理論モデルのパラメータの行列。

KDE(vector, <named arguments>)

説明

バンド幅を自動選択して、カーネル密度推定値を戻す。

引数

vector

ベクトル。

オプションの名前付き引数

<<weights

vectorと同じ長さのベクトル。負でない任意の実数を含めることができます。度数や重みなどを指定するときに用います。

<<bandwidth(n)

負でない実数。0を指定した場合、バンド幅は自動選択されます。

<<bandwidth scale(n)

正の実数。

<<bandwidth selection(n)

バンド幅の自動選択方法として、0(Sheather and Jones)、1(正規分布参照)、2(Silvermanの経験則)、3(過平滑化)のいずれかを指定してください。

<<kernel(n)

カーネル関数として、0(Gauss)、1(Epanechnikov)、2(双加重)、3(三角)、4(矩形)のいずれかを指定してください。

LenthPSE(x)

説明

ベクトルxの値からLenthの擬似標準誤差を求める。

引数

x

ベクトル。

Max()

Maximum(var1, var2, ...)を参照してください。

Maximum(var1, var2, ...)

Max(var1, var2, ...)

説明

引数の最大値、または1つの行列もしくはリスト引数の中の最大値を戻す。複数の引数を指定する場合は、すべてを数値またはすべてを文字列にする必要があります。

Mean(var1, var2, ...)

説明

引数の算術平均を戻す。または、1つの行列または1つのリスト内の値の算術平均を戻す。

Median(var1, var2, ...)

説明

引数の中央値、または1つの行列もしくはリスト引数の中央値を戻す。

Min()

Minimum(var1, var2, ...)を参照してください。

Minimum(var1, var2, ...)

Min(var1, var2, ...)

説明

引数の中での最小値、または、1つの行列内の最小値を戻す。複数の引数を指定する場合は、すべてを数値またはすべてを文字列にする必要があります。

N Missing(expression)

説明

指定された複数の変数における、欠測値の個数を戻す。

Number(var1, var2, ...)

説明

指定された複数の変数における、非欠測値の個数を戻す。

Product(i=initialValue, limitValue, bodyExpr)

説明

limitValueになるまで、すべてのiについてbodyExprの結果を乗算し、積を戻す。

Quantile(p, arguments)

説明

引数の分位点pを戻す。最初の引数には、0~1のスカラー値または行列を指定できます。argumentsの引数も、1つの行列または1つのリストとして指定できます。

Range(var1, var2, ...)

説明

引数の最小値と最大値を戻す。結果は、最小値と最大値を含む2要素の行ベクトルとして戻されます。

Std Dev(var1, var2, ...)

説明

指定された複数の変数における、標準偏差を戻す。

Sum(var1, var2, ...)

説明

指定された複数の変数における、合計を戻す。「Sum(.,.)」のように、すべての引数が欠測値の場合は、欠測値を戻します。

SSQ(x1, ...)

説明

全要素の平方和を戻す。引数には数値、行列、リストを指定できます。スカラー値が戻されます。欠測値は除外されます。

Summarize(<dt>, <by>, <count>, <sum>, <mean>, <min>, <max>, <stddev>, <corr>, <quantile>, <first>)

説明

データテーブルの要約統計量を求め、グローバル変数に格納する。

戻り値

なし

引数

dt

(オプション)位置指定引数。データテーブルへの参照。この引数が割り当ての形式をとらない場合は、データテーブルの式とみなされます。

その他の引数はすべてオプションで、任意の順序で指定できます。通常、各引数は変数に割り当てられるので、値の表示や、さらなる操作が可能です。

name=By(col | list | Eval)

Byを指定すると、全体に対する1つの結果ではなく、Byに指定した列の各グループごとに結果が計算される。

Summarize YByX(X(<x columns>, Y (<y columns>), Group(<grouping columns>), Freq(<freq column>), Weight(<weight column>))

説明

大規模なデータセットに対し、すべての組み合わせで二変量の関係の統計量を計算する。

戻り値

YとXの組み合わせごとのp値と対数価値のデータテーブル。『予測モデルおよび発展的なモデル』の「PValues」データテーブルを参照してください。

引数

X(col)

あてはめるモデルで使用する因子列。

Y(col)

あてはめるモデルで使用する応答列。

Group(gcol)

あてはめるモデルで使用するグループ化列。

Freq(col)

あてはめるモデルで使用する(各行の)度数列。

Weight(col)

あてはめるモデルで使用する重要度(影響度)の列。

ノート

「応答のスクリーニング」プラットフォームと同じ働きをします。『予測モデルおよび発展的なモデル』の応答のスクリーニングを参照してください。

Summation(init, limitvalue, body)

説明

initからlimitvalueまでのすべての整数について、指定された式(body)の結果を合計し、その値を戻す。

Tolerance Limit(1-alpha, p, n)

説明

標本サイズnの標本から計算される平均のうち割合pだけが含まれるような区間を、信頼水準(1-alpha)で求める。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).