Nachbesserungen Automatisierung Kapitel 7.7 und 7.8

This commit is contained in:
Felix Lohmeier 2017-01-06 17:48:10 +01:00
parent 4e1b4d6e3b
commit 70a95a39e6
4 changed files with 45 additions and 5 deletions

View File

@ -10,7 +10,21 @@ Hinweise:
## Lösung
* Export: {%s%}Projekt in OpenRefine laden und im Menü oben rechts Export / Custom tabular exporter... auswählen. Dann Button "De-select All" klicken und nur die Felder auswählen, die in Kapitel 7.6 angelegt wurden: id, ISBN, ISSN, Sprache, LCC, DDC, Urheber, Medientyp, Ort, Verlag, Jahr, Datum, Beschreibung, Schlagwoerter, Beitragende, Reihe, Vorgaenger, Nachfolger, Link, Titel. Anschließend im Reiter Download auf den Download-Button klicken.{%ends%}
## Variante A: "Custom Tabular exporter"
* {%s%}Projekt in OpenRefine laden und im Menü oben rechts Export / Custom tabular exporter... auswählen.{%ends%}
* {%s%}Dann Button "De-select All" klicken und nur die Felder auswählen, die in Kapitel 7.6 angelegt wurden: id, ISBN, ISSN, Sprache, LCC, DDC, Urheber, Medientyp, Ort, Verlag, Jahr, Datum, Beschreibung, Schlagwoerter, Beitragende, Reihe, Vorgaenger, Nachfolger, Link, Titel.{%ends%}
* {%s%}Anschließend im Reiter Download auf den Download-Button klicken.{%ends%}
## Variante B: "Spalten löschen und normaler Export"
* {%s%}Alle Spalten löschen außer diejenigen, die in Kapitel 7.6 angelegt wurden: id, ISBN, ISSN, Sprache, LCC, DDC, Urheber, Medientyp, Ort, Verlag, Jahr, Datum, Beschreibung, Schlagwoerter, Beitragende, Reihe, Vorgaenger, Nachfolger, Link, Titel{%ends%}
* {%s%}Export / Tab-separated value{%ends%}
** Als JSON-Datei: [07_7.json](https://felixlohmeier.gitbooks.io/seminar-wir-bauen-uns-einen-bibliothekskatalog/content/openrefine/07_7.json)**
## Upload und Prüfung der TSV-Datei
* Upload auf den Webserver: {%s%}vgl. Lösung in Kapitel 6.3, Aufgabe 1.{%ends%}
* Zählung der Zeilen der TSV-Dateien (sollte der Anzahl der Records plus 1 entsprechen): {%s%}wc -l ~/tsv/haw-prozessiert.tsv{%ends%}
* Erste Zeile der TSV-Dateien anzeigen (sollte die Spaltenüberschriften beinhalten): {%s%}head -n1 ~/tsv/haw-prozessiert.tsv{%ends%}

View File

@ -205,15 +205,15 @@ Projekt anlegen:
**Teil 3: mit Script**
* Script anpassen: {%s%}nano transform+export.sh und die Zeile jsonfiles=(07_3.json 07_5_minimal.json) durch jsonfiles=(07_5_minimal.json 07_6-2.json 07_6-4.json 07_6-5.json 07_6-6.json 07_6-7.json 07_6-8.json) ersetzen.{%ends%}
* Script anpassen: {%s%}nano transform+export.sh und die Zeile jsonfiles=(07_3.json 07_5_minimal.json) durch jsonfiles=(07_5_minimal.json 07_6-2.json 07_6-4.json 07_6-5.json 07_6-6.json 07_6-7.json 07_6-8.json 07_7.json) ersetzen.{%ends%}
* Script ausführen: {%s%}./transform+export.sh{%ends%}
## Ergebnis
Die Datei ```haw-prozessiert-script.tsv``` im Ordner ~/refine/ ist das Endergebnis der Verarbeitung. Sie können diese Datei mit der vorher manuell erstellten Datei ```haw-prozessiert.tsv im Ordner``` ~/tsv/ vergleichen. Im Idealfall sollte das folgende Kommando keine Differenz zwischen den beiden Dateien feststellen können:
Die exportierte TSV-Datei im Ordner ~/refine/ ist das Endergebnis der Verarbeitung. Sie können diese Datei mit der vorher manuell erstellten Datei ```haw-prozessiert.tsv im Ordner``` ~/tsv/ vergleichen. Im Idealfall sollte das folgende Kommando keine Differenz zwischen den beiden Dateien feststellen können:
```
diff ~/refine/haw-prozessiert-script.tsv ~/tsv/haw-prozessiert.tsv
diff ~/refine/*.tsv ~/tsv/haw-prozessiert.tsv
```
## Literatur

26
openrefine/07_7.json Normal file
View File

@ -0,0 +1,26 @@
[ { "op": "core/column-reorder", "description": "Reorder columns", "columnNames": [
"id",
"ISBN",
"ISSN",
"Sprache",
"LCC",
"DDC",
"Urheber",
"Medientyp",
"Ort",
"Verlag",
"Jahr",
"Datum",
"Beschreibung",
"Schlagwoerter",
"Beitragende",
"Reihe",
"Vorgaenger",
"Nachfolger",
"Link",
"Titel"
] } ]

View File

@ -30,7 +30,7 @@ echo "Transformationsdateien: " ${jsonfiles[@]}
echo "Arbeitsverzeichnis: " ${workdir}
echo "OpenRefine auf Port: " ${port}
echo "OpenRefine max. RAM: " ${ram}
echo "Codewort: " ${codewort}
echo "Codewort: " ${codewort}
echo ""
# Startzeitpunkt ausgeben