Notebook
(1,2,3) (1,3,4) (2,3,4) (1,2,4) 1 898855606 89885293890 529389012 2938913012 2 895677706 892345693890 123573464 23458913012
# for indicies in combinations(range(n), degree): combinations(8, 3) 8C3の組み合せのタプルを返す= (1,2,3),(1,2,4),...,(6,7,8) indicies = (1,3,4) の場合 v = [85475,123472,118300] : v行1,3,4列のデータのリスト hash(tuple(v)) = 8988556068844375206 : vのリストを表すhash(IDみたいなもの)が帰ってくる ※hash(v) = (ただのリストは扱えないので、エラーになる) すべての組み合せに対して行って転置する > ([(1,2,3)列のデータのhashリスト], ..., [(6,7,8)列のデータのhashリスト]) >>> return array(new_data).T > = ([1行目の10C3のデータの組み合せのhashリスト], [2行目の8C3のデータの組み合せのhashリスト]), ...., [32769行目の10C3のデータの組み合せのhashリスト])
返り値   output : 行(顧客ID) 列(変数の値) のダミー変数を返す keymap : 変数の値の辞書型 output(疎行列) データの値 \ keymaps 123 345 124 .... 24025 3240 0 0 0 ... 0 123 1 0 0 ... 0 24025 0 0 0 ... 1 を、圧縮した疎行列フォーマットのarrayを返す keymap : {19721: 0, 118667: 1, 119695: 2,..., 117887: 66} カテゴリに対応するkeymap
返り値 N回分のAUCを平均した meanAUC を返す Xt ダミー変数化したデータ (使われる変数カテゴリのリストはfeatsで与えられる) y 32769の答えのリスト model Logistic回帰 N 交差検定を行う回数