Zum Inhalt springen

Index Diskussion:Durch Indien ins verschlossene Land Nepal.pdf

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
Abschnitt hinzufügen
aus Wikisource, der freien Quellensammlung
Letzter Kommentar: vor 6 Jahren von Enyavar in Abschnitt Abschlussarbeiten

Start

[Bearbeiten]

Hallo Enyavar,

  • die OCR ist, nun ja, verbesserungsbedürftig, aber dazu sind wir ja da ...
  • wie die Bilder einzubinden sind, damit kenne ich mich zuwenig aus
  • Du sagtest andernorts, Du hättest den Index teilen müssen. Ist dies erfolgt, weil bei einem grossen Index nur eine begrenzte Anzahl von Seiten angezeigt würde? Es muss aber ja nicht das ganze Buch als _eine_ Seitenfolge dargestellt werden. Es gibt Kapitel und ein Inhaltsverzeichnis. Eine Navigation zwischen den Kapiteln ist auch kein Hexenwerk. Oder hattest Du ein anderes Problem? --Maasikaru (Diskussion) 08:50, 28. Mär. 2018 (CEST)Beantworten
Ja, die OCR ist nicht perfekt, aber da es keine Rückmeldung/Info gab, dass seitens WS ein Tool/Bot für solche Zwecke existieren könnte, habe ich die freie Tesseract-OCR installiert und die OCR selbst gemacht.
Ich habe das Buch aufgeteilt in "Vorwort und Kapitel 1-12" und in "Kapitel 13-25". Beide Teile sind etwa 56 MB groß gewesen, zusammengenommen wäre die Upload-Grenze von 100 MB gesprengt worden. Sonst hätte ich natürlich das ganze Buch als einen Scan hochgeladen. Die Bilder habe ich aus den Schwarzweiß-Scans aus zwei Gründen herausgeschnitten: Einerseits haben sie meine OCR behindert, andererseits haben sie die Dateigrößen noch mehr aufgebläht und ich hatte gehofft, dadurch knapp unter 100 MB zu kommen. Hat nicht geklappt. Wenn du eine Idee hast, wie man die aktuell zwei Indizes in einen zusammenführen kann, dann gerne!
Was das Gesamtwerk angeht, denke ich, dass es eine Hauptseite (inkl. Vorwort, Inhaltsverzeichnis, Bilderverzeichnis) geben sollte, wo dann 25 Einzelkapitel als separate Artikel verlinkt sind. So ist es ja auch in den meisten Büchern gemacht, die ich bislang gesehen habe, das für mich am schnellsten greifbare Beispiel ist die DZfG.
Schau Dir mal das hier an. Zwei Indexe für ein Projekt kenne ich eigentlich nicht, was auch nichts heisst. Die Struktur sehe ich wie Du, ich habe nur gefragt, weil ich das Problem dort vermutete. --Maasikaru (Diskussion) 16:40, 28. Mär. 2018 (CEST)Beantworten
Ich hoffe mal, man kann mit dem arbeiten, so wie ich es bereits eingestellt habe? Die Bilder kann man so einbinden wie z.B. hier, denke ich. Bei mir liegt dann ja auch noch das Ablegen der restlichen OCR-Textfiles in die entsprechenden Seitenzahlen und das Hochladen der restlichen Bilder auf Commons - dort sind aktuell nur die Seiten 1-145 drin. Beim Hochladen kategorisiere ich dann auch bereits nach bestem Wissen, ein weiterer Grund weshalb ich damit noch nicht fertig bin. Ich dachte, vor Ostern hätte ich alles online, aber gerade schaut es so aus, als wäre die selbst gesteckte Deadline nicht zu halten.
Beste Grüße --Enyavar (Diskussion) 15:49, 28. Mär. 2018 (CEST)Beantworten
Wie gesagt, die zwei Indexe sind mir suspekt, ich empfehle, das zu verbinden. Die PDFs zusammenführen kannst Du sicher (?). Sonst kann auch ich. Ich kann gerne Kapitelerstellung übernehmen, auch Seiten einfüllen tut mir nicht weh. Wobei man dafür vielleicht auch noch jemanden ins Boot holen könnte. Ich muss einfach sicher sein, Dir nichts wegzunehmen. Für Bilder gibt's noch die Vorlage {{BRU}} wie auf Seite:De_Wegener_Kontinente_189.jpg. Doku hier. Ob sinnvoll, nötig, weiss ich nicht. Man kann auch loslegen, bevor alle Bilder eingebunden sind. Am wichtigsten erscheint mir aktuell, die Indexe zu verbinden. freundliche Grüsse. --Maasikaru (Diskussion) 16:40, 28. Mär. 2018 (CEST)Beantworten
Klar, PDFs zusammenführen kann ich, ich hatte mich nur wie gesagt an die Vorgabe gehalten und gar nicht erst probiert, ein 112 MB großes PDF hochzuladen. Hmm. Da die OCR auf Basis der PNG-Konvertierung bereits erstellt ist und ich auch alle Abbildungen in der Auflösung 600 dpi extrahiert habe, könnte ich auch versuchen, die Originalscans (sind 525 MB im JPEG-Format) herunterzuskalieren - Das habe ich an einem Beispiel mal ausprobiert: Als Originalscan ist eine Doppelseite meist 2-3 MB groß. Zugeschnitten auf zwei Seiten, auf 40% herunterskaliert und mit JPEG-Qualität 0 ausgegeben wären es nur 90 kB pro Seite. Wenn man das zusammenrechnet, dann kämen wir auf nur ~32 MB, und sogar mit angezeigten Graustufenbildern. Warum habe ich das bisher nicht gemacht? Hoher Zeitaufwand, keine Möglichkeit zur Automatisierung. --Enyavar (Diskussion) 17:54, 28. Mär. 2018 (CEST)Beantworten
Weitere Idee: Ich könnte die bereits zugeschnittenen SW-PNGs (ohne Bilder) auf 40% herunterskalieren und neu als PNG binden, das spart einiges an Arbeitsschritten. Somit gibt es drei Varianten: a) ganz easy die PDFs verbinden und mit der von dir verlinkten Methodik hochladen, dafür ohne Bilder und mit doch unverhältnismäßigem Speicherplatz, sowas sollte fix erledigt sein. b) weniger easy (1 Tag) die PNGs neu skalieren, auch ohne Bilder aber mit kleinerer Dateigröße c) am wenigsten easy (Ostern) neu skalierte JPEG-PDFs erstellen, mit Bildern und kleiner Dateigröße. --Enyavar (Diskussion) 18:19, 28. Mär. 2018 (CEST)Beantworten
Du bist mir bei diesen Möglichkeiten voraus ... Die 100 MB sollten Dich wirklich nicht bedrücken. Allerneuestes wikisource-Beispiel Das Grüne Gewölbe: eine Auswahl von Meisterwerken in vier Bänden. Band 2 mit c:File:Sponsel Grünes Gewölbe Band 2.pdf. Bin jetzt offline. --Maasikaru (Diskussion) 18:50, 28. Mär. 2018 (CEST)Beantworten

Hallo, Enyavar. Super. Ich war gerade dabei, Dich über meine Vorbereitungen auf Benutzer:Maasikaru/InArbeit03 zu informieren und nochmals für die Fusion zu werben. Du kannst mir gerne Seiten zum Umfüllen übrig lassen, allerdings eher heute Abend. Osterlektüre ist schonmal gesichert. freundliche Grüsse, --Maasikaru (Diskussion) 11:10, 29. Mär. 2018 (CEST)Beantworten

Ich bin baff! Die Projektseite in deinem BNR sieht schon richtig super aus. Wenn du es wirklich übernehmen würdest, die von mir voreilig bereits erstellten Seiten von 1-129 zu verschieben, dann würde ich die Seiten 130-318 mit der OCR befüllen. --Enyavar (Diskussion) 11:17, 29. Mär. 2018 (CEST)Beantworten
mache ich, aber wie gesagt, heute abend. --Maasikaru (Diskussion) 11:25, 29. Mär. 2018 (CEST)Beantworten
OCR jetzt vollständig, wenn auch momentan noch verteilt auf den richtigen Index und den Teil1-Index (Links auf die zu verschiebenden Seiten wären hier). Bilddateien sind noch nicht alle hochgeladen, sondern nur bis Kapitel 12 einschließlich. Ich müsste mich nun auf eine kurze Urlaubsreise vorbereiten und bin erst wieder in der kommenden Woche erreichbar. Beste Grüße, --Enyavar (Diskussion) 17:50, 29. Mär. 2018 (CEST)Beantworten

Hallo, Enyavar. Ich habe mittlerweile verschoben, was noch zu verschieben war und die einzelnen Kapitel angelegt. Dabei bin ich auf ein kleines Problem gestossen. Die Vorlagenseite 261 fehlt; der Textfluss 260-262 passt, ich vermute an dieser Stelle eine Tafel. Selbst wenn das so ist, erscheint es mir am einfachsten, eine Blankoseite einzulegen, damit wir auf der ganzen Strecke einheitlichen "Offset" zwischen PDF und Vorlage haben. --Maasikaru (Diskussion) 11:20, 30. Mär. 2018 (CEST)Beantworten

um den löschenden Admins nicht zuviel Arbeit zu machen, mache ich, wenn das "verlängerte" PDF steht, cut-und-paste. Überlege Dir, ob Du lieber erste oder zweite Lesung machst. Ich warte so lange, freundliche Grüsse. --Maasikaru (Diskussion) 09:22, 31. Mär. 2018 (CEST)Beantworten
Ich wollte eigentlich Erstkorrektur lesen, weil das mehr Arbeit ist und mir auch mehr liegt, aber ich sehe bereits, dass andere Mitarbeiter schon fleißig aktiv als Erst- und Zweithelfer dabei sind. Was wohl erstmal nur ich erledigen kann ist das Hochladen der restlichen Bilder und das Einfügen der genannten "Leerseite", das also meine vordringlichste Aufgabe. Wenn das alles wirklich in derartiger Windeseile erledigt werden sollte, dann bliebe mir nur, mich bei den Helfern zu bedanken und z.B. bei deinem March-Buch mitzughelfen stattdessen. Danke soweit schon mal, vor allem bei den formellen Fragen zum Aufsetzen des PDFs! --Enyavar (Diskussion) 13:54, 4. Apr. 2018 (CEST)Beantworten
Hallo, Enyavar. Sorry für die Windeseile, deren Segel ich aber bereits nach dem ersten Kapitel gerefft habe. Ich kann da gerne zurücktreten und Dir, evtl. auch AnnaSausI den Vortritt lassen. Das erste Kapitel war mehr so ein "produktives Einlesen" und die Kapitelerstellung geht halt am Effizientesten in einem Rutsch. Mach' Du aber jetzt nur, gerne. Das Ganze zeigt auf jeden Fall die Attraktivität Deines Projekts, freundliche Grüsse. --Maasikaru (Diskussion) 08:05, 5. Apr. 2018 (CEST)Beantworten

Danke noch mal, und Pardon, dass es etwas gedauert hat. Jetzt habe ich alle Bilder nach Commons hochgeladen. Außerdem habe ich noch etwas experimentiert mit dem Bildformat meiner Original-Scans: Wenn ich die Seiten als JPG auf 20% Größe herunterskaliere, dann kann ich auch ein lesbares PDF mit allen Bildern zur Verfügung stellen. Ich kann mir vorstellen, dass das hilfreicher sein könnte als das aktuelle schwarzweiße High-Resolution-PDF mit herausgeschnittenen Bildern? Falls ja, dann stelle ich diese PDF-Version her, auch wenn das nochmal etwas Mühe ist. Anderenfalls würde ich einfach die fehlende Bild-Seite in das Kapitel einfügen, das PDF neu binden, und als neue Version hochladen. Grüße --Enyavar (Diskussion) 14:09, 11. Apr. 2018 (CEST)Beantworten

Hallo Enyavar. Mit den technischen Aspekten könnte vielleicht die Wikisource:Technikwerkstatt weiterhelfen. Möchtest Du die Hauptseite selbst anlegen, oder soll ich? Sie würde die Navigation schon beim Aufbau erleichtern. --Maasikaru (Diskussion) 05:12, 13. Apr. 2018 (CEST)Beantworten
Du hattest da ja schon was vorbereitet, also kannst du das gerne übernehmen. :) --Enyavar (Diskussion) 09:21, 13. Apr. 2018 (CEST)Beantworten
Ich habe die Datei mit der ergänzten Seite 261 (= File:Kurt boeck indien nepal 261.jpg) vorbereitet, kann sie aber wegen der maximalen Uploadgröße nicht hochladen. Das melde ich auch mal direkt im bestehenden Thread bei der Technikwerkstatt, auch wenn das vermutlich nicht beantwortet wird. --Enyavar (Diskussion) 16:43, 20. Mai 2018 (CEST)Beantworten
Bist Du wirklich über 4 GB?, freundliche Grüsse. --Maasikaru (Diskussion) 19:28, 20. Mai 2018 (CEST)Beantworten
Nein, ich habe bloß keine Hinweise gefunden, wie man die 100MB-Hürde bei Re-Uploads umgeht. Alternativ kann ich auch die Löschung des PDFs auf Commons beantragen, um anschließend die korrigierte Datei neu hochzuladen. Aber damit warte ich, bis es genauere Infos gibt, wie ich das PDF neu aufbauen soll - siehe unten. --Enyavar (Diskussion) 00:15, 24. Mai 2018 (CEST)Beantworten

Bilder

[Bearbeiten]

Ich habe jetzt nicht die ganze Diskussion gelesen, bitte aber dringend diese Vorlage durch die Originalversion zu ersetzen. Auch wenn die Datei sehr groß ist, wie man die am besten nach Commons bekommt steht unter c:Commons:Maximale Dateigröße. – Paulis 09:23, 21. Mai 2018 (CEST)Beantworten

Hallo @Paulis:, ich habe von Januar bis März mehrfach nachgefragt und abgewartet, wie ich das PDF optimal formatieren sollte. Mittlerweile weiß ich durchaus, dass mein Scan x-mal höher aufgelöst ist als für OCR benötigt, dass die "Maximale" Dateigröße von 100 MB keine ultimative Hürde ist, dass es sogar eine eingebaute OCR-Funktion in WS gibt und dass ich nicht selbst Software installieren/justieren muss, um Textfiles zu erzeugen und diese in Vorlagenseiten hineinzukopieren. Wenn ich das Projekt neu aufziehen müsste, dann würde ich es mit heutigem Wissen natürlich anders angehen und die allgemeinen Projektvorgaben genauer einhalten.
Jetzt - was genau meinst du mit Originalversion? 530 MB doppelseitige Originalscans in 600 dpi? Die Originalscans halbiert, gedreht und zugeschnitten auf einzelne Seiten? Skalierung auf eine performante Größe, wenn ich schon dabei bin? (Wenn ja, welche Auflösung gilt noch als akzeptabel - 150 dpi?) Ich nehme an, du beziehst dich vor allem auf "mit allen Bildern" - meinst du damit inklusive aller Tafeln, welche dann die Seitenzählung durcheinanderbringen? Mit oder ohne den komplett weißen Rückseiten der Tafeln? Die Tafeln gedreht? Ist eine SW-Version wünschenswert (die Bilder sind ja anderweitig auf Commons) oder besser Graustufen? Das meiste davon kann ich mir mit gesundem Verstand und aufgrund der Richtlinien bereits denken, aber ich möchte ungern Arbeit umsonst machen. Eine klare Auskunft wäre mir sehr lieb, bevor ich mir ein paar Tage Zeit nehme, um eine solche "Originalversion" herzustellen. Grüße, --Enyavar (Diskussion) 23:55, 23. Mai 2018 (CEST)Beantworten
600 dpi müssen nicht sein, der Text ist nicht kompliziert, da reichen meines Erachtens auch 150. Wichtig ist, dass der Scan die Bilder und Tafeln enthält, wie die Originalvorlage (Tafeln drehen, die weißen Rückseiten gehören dazu). Die Bilder sind schon eingebunden, von daher sollte die geringere Auflösung genügen. Einzelseiten sind fürs Korrigieren besser als Doppelseiten. Ich hatte mit Chinesische Volksmärchen auch das Bilderproblem, das Ergebnis siehe dort. Scans sind gleich als jpg hochgeladen, sonst wäre ich beim Index vermutlich verzweifelt. Seitenverschieben kann mein Bot machen, da musst du nicht per Hand ran. --Paulis 22:29, 26. Mai 2018 (CEST)Beantworten
Die „Originalversion“ habe ich bereits hergestellt. Ich warte noch, bis die Korrekturlesung abgeschlossen ist, dann lade ich sie als neue Version des PDFs hoch; denn anschließend müssen wie bereits gesagt alle Seiten an eine neue Stelle im PDF verschoben werden. --Enyavar (Diskussion) 11:20, 15. Jun. 2018 (CEST)Beantworten
"Original" ist hochgeladen. Ich sehe mich übrigens in der Vorgehensweise bestätigt, die Texterfassung mit bearbeiteter, hochaufgelöster Vorlage gemacht zu haben; jetzt auf Graustufenbasis und herunterskaliert wird die OCR einfach nur schrottig. Falls ich mal ein weitere Projekt anschiebe, nehme ich einen Mittelweg. --Enyavar (Diskussion) 15:20, 18. Jun. 2018 (CEST)Beantworten
@Paulis: Ich hoffe, es ist klingt jetzt nicht ungeduldig, aber das Seitenverschieben würde ich dann nächsten Monat per Hand machen, wenn dein Bot es nicht kann. --Enyavar (Diskussion) 13:48, 29. Jun. 2018 (CEST)Beantworten
oh sorry, war mir entfallen, kommt am Wochenende. Gruß – Paulis 18:34, 29. Jun. 2018 (CEST)Beantworten

Die Seiten sind verschoben, die Seitenzahlen sind auch korrigiert. In der alten Version fehlte übrigens Seite 261. Die Linkkorrektur auf Projekt- und Kapitelseiten überlasse ich dir. – Paulis 00:56, 2. Jul. 2018 (CEST)Beantworten

Herzlichsten Dank an dich und deinen Fkraus, ich hätte echt nicht gedacht, dass diese Aufgabe botgestützt erledigt werden kann! Besten Gruß, --Enyavar (Diskussion) 15:46, 4. Jul. 2018 (CEST)Beantworten

Massnahme vom 22. Mai 2018

[Bearbeiten]

Ich habe heute ALLE verbliebenen Seiten so ausgerüstet, dass sie Anmerkungen aufnehmen können. Ich habe meine Gründe. Die unnötigen Ausrüstungen entferne ich NACH Fertiglesung und finaler Reparatur in ca. 4 Wochen. --Maasikaru (Diskussion) 21:26, 23. Mai 2018 (CEST)Beantworten

Vielen Dank! Ich weiß immer noch nicht, wie man diese Einstellungen auf den Seiten treffen kann (dies waren meine "Gründe", es beim Korrekturlesen nicht bereits selbst zu tun) Gruß --Enyavar (Diskussion) 23:55, 23. Mai 2018 (CEST)Beantworten

Abschlussarbeiten

[Bearbeiten]

Hallo, Enyavar. Ich habe heute (fast) alles "fertig" korrigiert. Merci für Zusammenarbeit, hat Spass gemacht. Könntest Du bitte diese Seite fertig setzen? Wenn das neue PDF steht und klar ist, wie wir das reparieren, Paulis hat ja Bothilfe angeboten, nehme ich die überzähligen Anmerkungsformatierungen raus. Das Geheimnis liegt übrigens in der Fusszeile, die im Bearbeitungsmodus nach Betätigung des schwarzen "+" sichtbar wird. Ich habe das so gemacht, weil ich vorübergehend nur mit dem Tablet unterwegs war. freundliche Grüsse. --Maasikaru (Diskussion) 09:49, 16. Jun. 2018 (CEST)Beantworten

Bei Projektbeginn hatte ich das gar nicht geplant, derartig viele Anmerkungen zu setzen, aber gerade diese Zusatzmühe hat mir letztlich besondere Freude bereitet. Ich gehe gerade im Nachgang noch alle Anmerkungen durch und möchte eine alphabetische Anmerkungsliste erstellen, mit Einträgen wie "Kumaon (Land: S. 117, 222, 267, 294, 317)", damit man die Fremd- und Fachwörter einfacher findet.
Und das PDF ist jetzt neu hochgeladen; zumindest für mich ist es aufgrund des Servercaches aber noch in falscher Anzeige, wenn ich Seiten bearbeiten anklicke. Mit allen Tafeln wird die Seitenanzahl von 318 auf 401 vergrößert. Wie @Paulis: weiter vorgehen wollte, weiß ich nicht. Liebe Grüße --Enyavar (Diskussion) 15:20, 18. Jun. 2018 (CEST)Beantworten
In welchem Menü finde ich eigentlich das schwarze Plus, welches die Fußzeile bearbeitbar macht? --Enyavar (Diskussion) 09:31, 22. Jun. 2018 (CEST)Beantworten
Hast Du die Menüleiste oben? Drei rechts vom grünen Plus, zwei rechts vom roten Minus. --Maasikaru (Diskussion) 10:13, 22. Jun. 2018 (CEST)Beantworten
Nein, nur die normale Menüleiste in blau und schwarz: Erst "Fett/Kursiv/Sonderzeichen/Hilfsmittel"; darunter "Standard, Ä, ö, Î, ... ß, {ADB}, <small>". Aber ich habe jetzt unter "Einstellungen", "Bearbeiten" einen Haken gefunden, den ich nur betätigen muss, um Kopf und Fuß jedes Mal angezeigt zu bekommen. --Enyavar (Diskussion) 10:47, 22. Jun. 2018 (CEST)Beantworten
Die von mir gemeinte steht als "Extra-Editbuttons-Helferlein"-Häkchen unter "Einstellungen/Helferlein". --Maasikaru (Diskussion) 11:05, 22. Jun. 2018 (CEST)Beantworten
Ich würde sagen, wir sind fast durch; die Seiteneinträge in den Kapiteln, aufgrund des neuen PDFs, habe ich endlich mal abgeschlossen. Ich bastele derzeit noch an meiner Schlagwortübersicht (s.o.), und werde vermutlich wohl noch einige Einzelhinweise versetzen und anschließend nochmal alle Seiten abgehen. Mit dem Abbildungsverzeichnis bin ich auch noch unglücklich, entweder mehrspaltig oder aber in einheitlicher Breite wäre mir lieber. Und schließlich möchte ich noch in Commons die Größen der abgebildeten Gegenstände nachtragen (1/7 etc.)
@Maasikaru: was hältst du davon, die Organisatoren von WS Aktuell auf der Hauptseite anzusprechen? Mir ist aufgefallen, Anfang Dezember ist 110-jähriges Jubiläum der Nepalreise; oder aber nächstes Jahr das 111-jährige. --Enyavar (Diskussion) 14:31, 10. Jul. 2018 (CEST)Beantworten
Hallo, Enyavar. Das WS aktuell braucht nicht unbedingt ein Jubiläum, genau genommen sind die Jubiläen sogar eher Notlösungen, weil es zu wenig "Aktuelles" gibt. Deshalb kann man Dein Buch gerne dort vorstellen. Ich hatte im Moment schon etwas anderes vorbereitet und soeben aufgehängt. Wenn Du magst, kann ich das Buch so ca. 10. August dort vorstellen. Fände ich gut. --Maasikaru (Diskussion) 15:11, 12. Jul. 2018 (CEST)Beantworten
Falls es also passt, kann das m.E. abgeschlossene Projekt gerne präsentiert werden. Ob jetzt im August oder zu einem späteren Zeitpunkt, ist mir alles recht. Grüße --Enyavar (Diskussion) 11:27, 6. Aug. 2018 (CEST)Beantworten
OSZAR »