update benchmark script

vene · vene · commit 016a940a4f04 · 2016-09-15T17:09:04.000-04:00
diff --git a/benchmarks/bench_20newsgroups.py b/benchmarks/bench_20newsgroups.py
@@ -30,29 +30,34 @@
 }
 
 estimators['fm-3'] = clone(estimators['fm-2']).set_params(degree=3)
+estimators['fm-2-ada'] = clone(estimators['fm-2']).set_params(
+    solver='adagrad', learning_rate=0.01, max_iter=20)
+estimators['fm-3-ada'] = clone(estimators['fm-3']).set_params(
+    solver='adagrad', learning_rate=0.01, max_iter=20
+)
 estimators['polynet-3'] = (clone(estimators['polynet-2'])
                            .set_params(degree=3, n_components=10))
 
 if __name__ == '__main__':
     data_train = fetch_20newsgroups_vectorized(subset="train")
     data_test = fetch_20newsgroups_vectorized(subset="test")
-    X_train = sp.csc_matrix(data_train.data)
-    X_test = sp.csc_matrix(data_test.data)
+    X_train_csc = sp.csc_matrix(data_train.data)
+    X_test_csc = sp.csc_matrix(data_test.data)
+    X_train_csr = sp.csr_matrix(data_train.data)
+    X_test_csr = sp.csr_matrix(data_test.data)
 
     y_train = data_train.target == 0  # atheism vs rest
     y_test = data_test.target == 0
 
     print("20 newsgroups")
     print("=============")
-    print("X_train.shape = {0}".format(X_train.shape))
-    print("X_train.format = {0}".format(X_train.format))
-    print("X_train.dtype = {0}".format(X_train.dtype))
+    print("X_train.shape = {0}".format(X_train_csr.shape))
+    print("X_train.dtype = {0}".format(X_train_csr.dtype))
     print("X_train density = {0}"
-          "".format(X_train.nnz / np.product(X_train.shape)))
+          "".format(X_train_csr.nnz / np.product(X_train_csr.shape)))
     print("y_train {0}".format(y_train.shape))
-    print("X_test {0}".format(X_test.shape))
-    print("X_test.format = {0}".format(X_test.format))
-    print("X_test.dtype = {0}".format(X_test.dtype))
+    print("X_test {0}".format(X_test_csr.shape))
+    print("X_test.dtype = {0}".format(X_test_csr.dtype))
     print("y_test {0}".format(y_test.shape))
     print()
 
@@ -62,6 +67,10 @@
 
     for name, clf in sorted(estimators.items()):
         print("Training %s ... " % name, end="")
+        if 'ada' in name:
+            X_train, X_teest = X_train_csr, X_test_csr
+        else:
+            X_train, X_test = X_train_csc, X_test_csc
         t0 = time()
         clf.fit(X_train, y_train)
         train_time[name] = time() - t0