Apache SystemDS (sebelumnya dikenal sebagai Apache SystemML) adalah sistem pemelajaran mesin (ML) sumber terbuka yang dirancang untuk mendukung seluruh siklus hidup ilmu data, mulai dari awal hingga akhir. Sistem ini membantu dalam mengelola dan menjalankan model ML untuk analisis data.
Karakteristik yang membedakan SystemDS adalah:
Cuplikan kode berikut [1] melakukan analisis komponen utama (PCA) dari matriks masukan 𝐴, yang mengembalikan e i g e n v e c t o r s {\displaystyle eigenvectors} dan e i g e n v a l u e s {\textstyle eigenvalues}
# PCA.dml # Refer: https://github.com/apache/systemds/blob/master/scripts/algorithms/PCA.dml#L61 N = nrow(A); D = ncol(A); # perform z-scoring (centering and scaling) A = scale(A, center==1, scale==1); # co-variance matrix mu = colSums(A)/N; C = (t(A) %*% A)/(N-1) - (N/(N-1))*t(mu) %*% mu; # compute eigen vectors and values [evalues, evectors] = eigen(C);
spark-submit SystemDS.jar -f PCA.dml -nvargs INPUT=INPUT_DIR/pca-1000x1000 \ OUTPUT=OUTPUT_DIR/pca-1000x1000-model PROJDATA=1 CENTER=1 SCALE=1
Algoritma pengelompokan DBSCAN dengan jarak Euclidean.
X = rand(rows=1780, cols=180, min=1, max=20) [indices, model] = dbscan(X = X, eps = 2.5, minPts = 360)