Merge branch 'staging' into develop

Aklakan · Aklakan · commit 2a76e2e6df9c · 2025-02-18T14:55:07.000+01:00
diff --git a/.github/workflows/pages.yml b/.github/workflows/pages.yml
@@ -53,7 +53,7 @@ jobs:
           JEKYLL_ENV: production
       - name: Upload artifact
         # Automatically uploads an artifact from the './_site' directory by default
-        uses: actions/upload-pages-artifact@v1
+        uses: actions/upload-pages-artifact@v3
         with:
           path: "docs/_site/"
 
@@ -67,5 +67,5 @@ jobs:
     steps:
       - name: Deploy to GitHub Pages
         id: deployment
-        uses: actions/deploy-pages@v2
+        uses: actions/deploy-pages@v4
 
diff --git a/docs/integrate/engines.md b/docs/integrate/engines.md
@@ -0,0 +1,30 @@
+---
+title: Embedded SPARQL Engines
+has_children: true
+nav_order: 35
+layout: default
+---
+
+# Embedded SPARQL Engines
+
+The following engines can be used using `rpt integrate -e engine [--loc engine-specific-location]`.
+
+Embedded SPARQL engines are built into RPT and thus readily available. The following engines are currently available:
+
+<table>
+    <tr><th>Engine</th><th>Description</th></tr>
+    <tr><td><b>mem</b></td><td>The default in-memory engine based on Apache Jena. Data is discarded once the RPT process terminates.</td></tr>
+    <tr><td><b>tdb2</b></td><td>Apache Jena's TDB2 persisent engine. Use <i>--loc</i> to specfify the database folder.</td></tr>
+    <tr><td><b>binsearch</b></td><td>Binary search engine that operates directly on sorted N-Triples files. Use <i>--loc</i> to specify the file path or HTTP(s) URL to the N-Triples file. For URLs, HTTP range requests must be supported!</td></tr>
+    <tr><td><b>remote</b></td><td>A pseudo engine that forwards all processing to the SPARQL endpoint whole URL is specified in <i>--loc</i>.</td></tr>
+</table>
+
+### (ARQ) Engine Configuration
+
+The engines `mem`, `tdb2` and `binsearch` build an Jena's query engine `ARQ` and thus respect its configuration.
+
+`rpt integrate  --set 'arq:queryTimeout=60000' --set 'arq:updateTimeout=1800000' data.ttl myUpdate.ru myQuery.rq`
+
+
+
+
diff --git a/docs/integrate/index.md b/docs/integrate/index.md
@@ -92,28 +92,3 @@ Statements that intrinsically do not rely on the spatial index, namely `LOAD`, `
 
 `rpt integrate --server --geoindex spatial-data.ttl`
 
-
-## Embedded SPARQL Engines
-
-Embedded SPARQL engines are built into RPT and thus readily available. The following engines are currently available:
-
-<table>
-    <tr><th>Engine</th><th>Description</th></tr>
-    <tr><td><b>mem</b></td><td>The default in-memory engine based on Apache Jena. Data is discarded once the RPT process terminates.</td></tr>
-    <tr><td><b>tdb2</b></td><td>Apache Jena's TDB2 persisent engine. Use <i>--loc</i> to specfify the database folder.</td></tr>
-    <tr><td><b>binsearch</b></td><td>Binary search engine that operates directly on sorted N-Triples files. Use <i>--loc</i> to specify the file path or HTTP(s) URL to the N-Triples file. For URLs, HTTP range requests must be supported!</td></tr>
-    <tr><td><b>remote</b></td><td>A pseudo engine that forwards all processing to the SPARQL endpoint whole URL is specified in <i>--loc</i>.</td></tr>
-    <tr><td><b>qlever</b></td><td>The blazing fast <a href="https://github.com/ad-freiburg/qlever">qlever</a> triple store launched from its docker image via Java's TestContainers framework. Use <code>qlever:imageName:tag</code> to use a specific image - this image's command line interfaces for starting the server and creating the indexes must be compatible with the default image registered with RPT.</td></tr>
-</table>
-
-
-
-### (ARQ) Engine Configuration
-
-The engines `mem`, `tdb2` and `binsearch` build an Jena's query engine `ARQ` and thus respect its configuration.
-
-`rpt integrate  --set 'arq:queryTimeout=60000' myQuery.rq`
-
-
-
-
diff --git a/pom.xml b/pom.xml
@@ -57,10 +57,10 @@
 
 		<spring-boot.version>2.3.3.RELEASE</spring-boot.version>
 
-		<jena.version>5.3.0-SNAPSHOT</jena.version>
-		<jenax.version>5.3.0-1-SNAPSHOT</jenax.version>
+		<jena.version>5.4.0-SNAPSHOT</jena.version>
+		<jenax.version>5.4.0-1-SNAPSHOT</jenax.version>
 		<rmltk.version>5.2.0-1-SNAPSHOT</rmltk.version>
-		<conjure.version>5.2.0-1-SNAPSHOT</conjure.version>
+		<conjure.version>5.4.0-1-SNAPSHOT</conjure.version>
 		<sansa.version>0.9.6-SNAPSHOT</sansa.version>
 		<!-- <jenax.version>3.14.0-2-SNAPSHOT</jenax.version> -->
 		<!-- <slf4j.version>1.8.0-beta4</slf4j.version> -->
diff --git a/rdf-processing-toolkit-cli/pom.xml b/rdf-processing-toolkit-cli/pom.xml
@@ -61,6 +61,12 @@
 			<groupId>org.aksw.jenax</groupId>
 			<artifactId>jenax-rx-dataaccess</artifactId>
 		</dependency>
+		<dependency>
+			<groupId>org.aksw.jenax</groupId>
+			<artifactId>jenax-arq-connection-qlever</artifactId>
+			<version>5.4.0-1-SNAPSHOT</version>
+		</dependency>
+
 		<dependency>
 			<groupId>org.aksw.jenax</groupId>
 			<artifactId>jenax-io-core</artifactId>
@@ -202,7 +208,7 @@
 		<dependency>
 			<groupId>junit</groupId>
 			<artifactId>junit</artifactId>
-			<scope>test</scope>
+			<scope>compile</scope> <!-- test containers requires junit -->
 		</dependency>
 		<!--
 		<dependency>
diff --git a/rdf-processing-toolkit-cli/src/main/java/org/aksw/rdf_processing_toolkit/cli/cmd/CmdMixinSparqlDataset.java b/rdf-processing-toolkit-cli/src/main/java/org/aksw/rdf_processing_toolkit/cli/cmd/CmdMixinSparqlDataset.java
@@ -0,0 +1,28 @@
+package org.aksw.rdf_processing_toolkit.cli.cmd;
+
+import java.io.Serializable;
+import java.util.ArrayList;
+import java.util.List;
+
+import org.apache.jena.sparql.core.DatasetDescription;
+
+import picocli.CommandLine.Option;
+
+public class CmdMixinSparqlDataset
+    implements Serializable
+{
+    private static final long serialVersionUID = 1L;
+
+    @Option(names = { "--dg", "--default-graph" }, description="Default graph")
+    public List<String> defaultGraphs = new ArrayList<>();
+
+    @Option(names = { "--ng", "--named-graph" }, description="Named graph")
+    public List<String> namedGraphs = new ArrayList<>();
+
+    @Option(names = { "--service" }, description = "SPARQL endpoint URL")
+    public boolean serviceUrl;
+
+    public static DatasetDescription toDatasetDescription(CmdMixinSparqlDataset cmd) {
+        return new DatasetDescription(cmd.defaultGraphs, cmd.namedGraphs);
+    }
+}
diff --git a/rdf-processing-toolkit-cli/src/main/java/org/aksw/rdf_processing_toolkit/cli/cmd/CmdRptMain.java b/rdf-processing-toolkit-cli/src/main/java/org/aksw/rdf_processing_toolkit/cli/cmd/CmdRptMain.java
@@ -2,6 +2,7 @@
 
 import org.aksw.commons.picocli.CmdCatClasspathResource;
 import org.aksw.named_graph_stream.cli.cmd.CmdNgsMain;
+import org.aksw.rdf_processing_toolkit.cli.cmd.graphql.CmdGraphQlTkParent;
 import org.aksw.rml.cli.cmd.CmdRmlTkParent;
 import org.aksw.sparql_binding_stream.cli.cmd.CmdSbsMain;
 import org.aksw.sparql_integrate.cli.cmd.CmdSparqlIntegrateMain;
@@ -14,7 +15,8 @@
         CmdSbsMain.class,
         CmdRmlTkParent.class,
         // CmdBenchParent.class, Hard-coding benchmarking modules does not really fit RPT - maybe in the future as plugins?
-        CmdCatClasspathResource.class
+        CmdCatClasspathResource.class,
+        CmdGraphQlTkParent.class
         // CmdRml2Exec.class
 })
 public class CmdRptMain
diff --git a/rdf-processing-toolkit-cli/src/main/java/org/aksw/rdf_processing_toolkit/cli/cmd/graphql/CmdGraphQlSchemaGen.java b/rdf-processing-toolkit-cli/src/main/java/org/aksw/rdf_processing_toolkit/cli/cmd/graphql/CmdGraphQlSchemaGen.java
@@ -0,0 +1,74 @@
+package org.aksw.rdf_processing_toolkit.cli.cmd.graphql;
+
+import java.io.OutputStreamWriter;
+import java.io.Writer;
+import java.util.ArrayList;
+import java.util.List;
+import java.util.concurrent.Callable;
+
+import org.aksw.commons.io.util.StdIo;
+import org.aksw.jena_sparql_api.rx.script.SparqlScriptProcessor;
+import org.aksw.jenax.dataaccess.sparql.datasource.RdfDataSource;
+import org.aksw.jenax.dataaccess.sparql.factory.datasource.RdfDataSources;
+import org.aksw.jenax.graphql.schema.generator.GraphQlSchemaGenerator;
+import org.aksw.jenax.graphql.schema.generator.GraphQlSchemaGenerator.TypeInfo;
+import org.aksw.jenax.stmt.core.SparqlStmt;
+import org.aksw.jenax.stmt.util.SparqlStmtUtils;
+import org.aksw.rdf_processing_toolkit.cli.cmd.CmdMixinSparqlDataset;
+import org.apache.jena.query.Dataset;
+import org.apache.jena.query.DatasetFactory;
+import org.apache.jena.rdfconnection.RDFConnection;
+
+import graphql.language.AstPrinter;
+import graphql.language.Document;
+import graphql.parser.Parser;
+import picocli.CommandLine.Command;
+import picocli.CommandLine.Mixin;
+import picocli.CommandLine.Option;
+import picocli.CommandLine.Parameters;
+
+@Command(name = "schemagen", description = "Generate a schema GraphQL Schema over RDF data in files or in a SPARQL endpoinst.")
+public class CmdGraphQlSchemaGen
+    implements Callable<Integer> {
+
+    @Option(names = { "-h", "--help" }, usageHelp = true)
+    public boolean help = false;
+
+    @Mixin
+    public CmdMixinSparqlDataset sparqlDataset = new CmdMixinSparqlDataset();
+
+    @Parameters(arity = "0..*", description = "Input files")
+    public List<String> nonOptionArgs = new ArrayList<>();
+
+    @Override
+    public Integer call() throws Exception {
+        SparqlScriptProcessor processor = SparqlScriptProcessor.createWithEnvSubstitution(null);
+        processor.process(nonOptionArgs);
+
+        Dataset dataset = DatasetFactory.create();
+        try (RDFConnection conn = RDFConnection.connect(dataset)) {
+            for (SparqlStmt stmt : processor.getPlainSparqlStmts()) {
+                SparqlStmtUtils.execAny(conn, stmt, null);
+            }
+        }
+
+        RdfDataSource dataSource = RdfDataSources.of(dataset);
+        List<TypeInfo> types = GraphQlSchemaGenerator.summarize(dataSource);
+
+        GraphQlSchemaGenerator generator = new GraphQlSchemaGenerator();
+        Document doc = generator.process(types);
+        String str = AstPrinter.printAst(doc);
+
+        try (Writer writer = new OutputStreamWriter(StdIo.openStdOutWithCloseShield())) {
+            writer.write(str);
+        }
+
+        boolean validateOutput = true;
+        if (validateOutput) {
+            Parser parser = new Parser();
+            parser.parse(str);
+        }
+
+        return 0;
+    }
+}
diff --git a/rdf-processing-toolkit-cli/src/main/java/org/aksw/rdf_processing_toolkit/cli/cmd/graphql/CmdGraphQlTkParent.java b/rdf-processing-toolkit-cli/src/main/java/org/aksw/rdf_processing_toolkit/cli/cmd/graphql/CmdGraphQlTkParent.java
@@ -0,0 +1,11 @@
+package org.aksw.rdf_processing_toolkit.cli.cmd.graphql;
+
+import org.aksw.rml.cli.cmd.VersionProviderRmlTk;
+
+import picocli.CommandLine.Command;
+
+@Command(name="graphqltk", versionProvider = VersionProviderRmlTk.class, description = "GraphQl Toolkit", subcommands = {
+    CmdGraphQlSchemaGen.class
+})
+public class CmdGraphQlTkParent {
+}
diff --git a/rdf-processing-toolkit-cli/src/main/java/org/aksw/sparql_integrate/cli/cmd/CmdSparqlIntegrateMain.java b/rdf-processing-toolkit-cli/src/main/java/org/aksw/sparql_integrate/cli/cmd/CmdSparqlIntegrateMain.java
@@ -203,6 +203,10 @@ public static class OutputSpec {
     @Option(names= {"--macro-profile"}, description="Macro profile. 'auto' to auto-detect.") //, defaults to: '${DEFAULT-VALUE}'", defaultValue = "")
     public Set<String> macroProfiles = new LinkedHashSet<>();
 
+    // GraphQl
+
+    @Option(names= {"--graphql-schema"}, description="Annotated GraphQL schema file.") //, defaults to: '${DEFAULT-VALUE}'", defaultValue = "")
+    public String graphQlSchema = null;
 
     @Option(names = { "--graphql-autoconf" }, description = "Query SPARQL endpoint for VoID and SHACL metadata on first request to map an unqualified field",
             negatable = true, defaultValue = "true", fallbackValue = "true")
diff --git a/rdf-processing-toolkit-cli/src/main/java/org/aksw/sparql_integrate/cli/main/SparqlIntegrateCmdImpls.java b/rdf-processing-toolkit-cli/src/main/java/org/aksw/sparql_integrate/cli/main/SparqlIntegrateCmdImpls.java
diff --git a/rdf-processing-toolkit-cli/src/main/java/org/aksw/sparql_integrate/web/servlet/ServletGraphQlSchema.java b/rdf-processing-toolkit-cli/src/main/java/org/aksw/sparql_integrate/web/servlet/ServletGraphQlSchema.java