e-kirjat & lukulaitteet

Vapaata keskustelua kirjoista ja kirjallisuudesta.

Valvoja: Moderaattorit

ViestiKirjoittaja MaKo » 29.12.2009, 17:25:35

JallaJalla kirjoitti:Pitänee väsätä plain text ja A5 pdf versiot.


A5-PDF on mukava formaatti, jos lukee ruudulta tarinoita, minä kun tykkään lukea sellaista tekstiä, jossa rivit eivät ole kovin pitkiä. Lisäksi A5-sivu mahtuu näppärästi kerralla pienempäänkin näyttöön :)

Omista stooreista teen aina myös HTML-version. Olen yrittänyt saada niihin tavutusta mukaan vielä kuitenkaan onnistumatta.
MaKo
 
Viestit: 460
Liittynyt: 05.04.2008, 15:54:19
Paikkakunta: Oulu

ViestiKirjoittaja tniemi » 30.12.2009, 00:07:37

MaKo kirjoitti:Omista stooreista teen aina myös HTML-version. Olen yrittänyt saada niihin tavutusta mukaan vielä kuitenkaan onnistumatta.

"Pehmeät" tavuviivat (soft hyphen) lisätään HTML-dokumenttiin ­ -entiteetin avulla:
http://www.w3.org/TR/html401/struct/text.html#h-9.3.3

Tämä tarkoittaa, että "hyödyllistä"-sana pitäisi kirjoittaa "hyö­dyl­lis­tä", jne. Tätä ei ihminen jaksa kaikille sanoille tehdä, joten homma pitäisi jotenkin automatisoida.

Voikko todennäköisesti soveltuisi tehtävään:
http://joukahainen.puimula.org/webvoikko/hyphenate
http://voikko.sourceforge.net/

Jos joku jaksaa viritellä aihetta pidemmälle, niin olen kyllä kiinnostunut kuulemaan.
tniemi
 
Viestit: 764
Liittynyt: 30.04.2005, 19:44:42
Paikkakunta: Terra, Sol

ViestiKirjoittaja MaKo » 30.12.2009, 01:34:12

tniemi kirjoitti:...

Voikko todennäköisesti soveltuisi tehtävään:
http://joukahainen.puimula.org/webvoikko/hyphenate
http://voikko.sourceforge.net/

Jos joku jaksaa viritellä aihetta pidemmälle, niin olen kyllä kiinnostunut kuulemaan.


Joo, käsin en todellakaan ala ­ -tageja tekstiin lisäilemään, vaan automaattisesti ne pitää sinne saada. Generoin HTML:t tekstifileistä, joten siihen väliin pitäisi jotenkin saada tuo voikko (joka siis on käytössä oleva tavuttajani mm. OpenOfficessa) ajettua, niin, että saan ulos tavutetun tekstin. En ole vielä jaksanut alkaa sitä rustailemaan, mutta joku päivä, kun on tarpeeksi vapaata ja intoa.
MaKo
 
Viestit: 460
Liittynyt: 05.04.2008, 15:54:19
Paikkakunta: Oulu

ViestiKirjoittaja tniemi » 30.12.2009, 15:29:57

Anteeksi että olin epäselvä.

Tavutuspaikkoja ei tietääkseni voi pakottaa tallentumaan tekstinkäsittelyohjelmasta ulostulevaan dokumenttiin.
Tästä syystä ajattelen prosessin olevan suurin piirtein tällainen:
  1. Kirjoitetaan teksti.
  2. Tallennetaan se tekstinkäsittelyohjelmasta muotoon: "raaka.html"
  3. Jonkin ulkoisen ohjelman avulla muokataan tiedostoa: "raaka.html" -> "kaunis.html"
  4. Julkaistaan "kaunis.html"
  5. Profit?
Tavutuspaikat lisättäisiin siis jälkikäteen ja automaattisesti tuossa kohdassa 3.
Ongelmana on, ettei tuollaista "ulkoista ohjelmaa" ole olemassa, vaan sen joutuisi itse kirjoittamaan.

Tässä ajattelin hyödyntää Voikkoa. Itse kirjoitettu ohjelma kutsuu voikkolib-kirjastoa ja pilkkoo sanat tavutuspaikoilla. Samalla vaivalla voisi tehdä yleisen html-putsauksen, koska esim. Word tekee melko hirveää koodia. Itse todennäköisesti hakkaisin perlillä jonkin hirveän härpäkkeen, joka hoitaisi asian.

En tiedä selkenikö yhtään, mutta kiteyttäen: html-tekstin tavuttaminen
  • on mahdollista, mutta tuskallista
  • ei yleensä maksa vaivaa, koska siitä on hyötyä lähinnä kapeilla näytöillä
  • vaatii ulkoisen ohjelman käyttöä, koska tavutuskohtia ei saa ulos tekstinkäsittelyohjelmasta.
Ja paremman ratkaisun löytäminen siis kiinnostaa minua.

----------- --- -- -

Itse asiassa libvoikko näyttää sisältävän vakiona phyton-sillan:
Koodi: Valitse kaikki
Python interface to libvoikko, library of Finnish language tools.
This module can be used to perform various natural language analysis tasks on Finnish text.

An example session demonstrating the use of this module:

 >>> import libvoikko
 >>> v = libvoikko.Voikko()
 >>> v.init()
 >>> v.analyze(u"kissa")
 [{'SIJAMUOTO': u'nimento', 'CLASS': u'nimisana', 'STRUCTURE': u'=ppppp'}]
 >>> v.spell(u"kissa")
 True
 >>> v.suggest(u"kisssa")
 [u'kissa', u'kissaa', u'kisassa', u'kisussa']
 >>> v.hyphenate(u"kissa")
 u'kis-sa'
 >>> v.terminate()

Jos ikinä kirjoittaisi suomenkielisen tekstiseikkailun, niin voikko olisi kyllä aivan ehdoton!

Sijamuodon tunnistamisella "ota vesi pullosta" ja "ota vedestä pullo" olisivat tunnistettavasti kaksi eri käskyä. Samalla vaivalla tulisi ymmärrettyä myös "vedestäkö pulloni ottaisit" sun muut mielenkiintoiset tapaukset.
tniemi
 
Viestit: 764
Liittynyt: 30.04.2005, 19:44:42
Paikkakunta: Terra, Sol

ViestiKirjoittaja Taustavoima » 30.12.2009, 16:34:35

Tavutus ei ole kovin tärkeää. Hyvin taitetussa romaanissa tavuviivoja on sivulla ehkä pari kolme. Ruudulta luettaessa liehuva oikea reunus ei häiritse kovin paljon, ja se voi olla jopa parempi vaihtoehto (en muista, mitä Nielsen sanoo tästä). Kirjasinvalinta, välistykset ja kirjainten etäisyydet ovat kaikki tavutusta ratkaisevampia tekijöitä.
Unohda maalliset murheesi lukemalla Kirjoittajatreffit-blogia.
Taustavoima
 
Viestit: 146
Liittynyt: 26.10.2004, 20:31:54
Paikkakunta: Turku

ViestiKirjoittaja MaKo » 30.12.2009, 16:44:22

tniemi kirjoitti:Anteeksi että olin epäselvä.


Ei, et ollut ollenkaan epäselvä, vaan minä olin. Kuten sanoin, niin käsin en tietenkään lähde tavutusvinkkejä tekstiin lisäämään. Käytän lateksia PDF:ien tekemiseen. Mulla on oma Python-skripti, joka vääntää tietyistä ohjausmerkeistä (esim. _xxx_ --> kursiivi, *** --> uusi aliluku ja sellaista) latexin ymmärtämiä tageja (mm. lainausmerkit, erilaiset väliviivat, nbsp:t) sekä myös HTML:ää (kaikkine ä -tageineen). Tuo skripti on sitä varten, että pystyn pitämään itse leipätekstin lähes putipuhtaana ASCII:na ja helposti luettavana, ilman eri formaattien ohjauskomentoja.

Ajatus on ollut, että joutessani joskus tekisin juuri tuon, mitä selitit, eli pistäisin Python-generaattorin ajamaan tekstille tavutus HTML-taggaamisen yhteydessä. Omalla koneella on Voikko, joten kynnys skriptin muokkaamiseen on suht matala.

Sanoitkin, että HTML:n tavutusta kaipaa kapealla ikkunalla, ja minä kun tykkään lukea tekstit lyhyinä riveinä, joten yleensä säädän selaimen ikkunan lukemista varten hyvin kapeaksi --> tavutus olisi poikaa.
MaKo
 
Viestit: 460
Liittynyt: 05.04.2008, 15:54:19
Paikkakunta: Oulu

ViestiKirjoittaja MaKo » 26.06.2010, 17:10:16

No niin, tässä parin päivän aikana kirjoitin tekstigeneraattorini kokonaan uusiksi. Aiempi käytti monimutkaista regular expression -hässäkkää erilaisten formaattien tekemiseen, tämä uusi perustuu ihan tavalliselle parserille. Sen ansiosta saan nyt sanat erotettu kaikista muista tekstin elementeistä ja sitä kautta syötettyä ne Voikolle tavuttamista ja oikolukemista varten.

Tässä esimerkin vuoksi pari koeponnistusta, säädelkää ikkunan leveyttä ja ihastelkaa :)

http://mkoskim.drivehq.com/Sekalaista/m ... tettu.html

http://mkoskim.drivehq.com/Sekalaista/m ... uettu.html

...Ja vanha tavuttamaton HTML-teksti siis:

http://mkoskim.drivehq.com/Tarinat/html/marsiin.html
MaKo
 
Viestit: 460
Liittynyt: 05.04.2008, 15:54:19
Paikkakunta: Oulu

ViestiKirjoittaja Hanska » 26.06.2010, 18:30:42

^ No, mutta tuohan toimii loistavasti. WAU!
Ei velliä eli novelli!
Sanoja, sanoja
Hanska
 
Viestit: 638
Liittynyt: 05.10.2004, 10:00:50
Paikkakunta: Turku

ViestiKirjoittaja tniemi » 14.08.2010, 17:02:36

Täsmälleen mitä ajattelin! Loistavaa!

Ilmeisesti käytit tuota libvoikon Python-siltaa?

Ei muuten, mutta minulla on oma Nimbuise perl-skirpta, joka tarjoaa laajennettua oikolukua ja välimerkkeilyä -- joka on regexp-läjä -- ja joka pitäisi kirjoittaa jossain vaiheessa uusiksi.
tniemi
 
Viestit: 764
Liittynyt: 30.04.2005, 19:44:42
Paikkakunta: Terra, Sol

ViestiKirjoittaja MaKo » 14.08.2010, 17:16:01

tniemi kirjoitti:Ilmeisesti käytit tuota libvoikon Python-siltaa?


Sitäpä juuri.

tniemi kirjoitti:Ei muuten, mutta minulla on oma Nimbuise perl-skirpta, joka tarjoaa laajennettua oikolukua ja välimerkkeilyä -- joka on regexp-läjä -- ja joka pitäisi kirjoittaa jossain vaiheessa uusiksi.


Tuota Voikkoa on kyllä miltei luvattoman helppoa käyttää Pythonista. Jos kiinnostaa, niin voin kyllä pistää parserin pakettiin ja lähettää tulemaan? Mulla on kyllä ollut ajatuksissa koota koko generaattorihässäkästä paketti netissä levitettäväksi, ohjeineen päivineen, mutten ole vielä jaksanut sitä tehdä.
MaKo
 
Viestit: 460
Liittynyt: 05.04.2008, 15:54:19
Paikkakunta: Oulu

ViestiKirjoittaja tpi » 15.08.2010, 18:35:50

Muutama kommentti.
Minulla on ollut ebook-reader nyt jo noin puoli vuotta, Bebook Neo..

PDF on lukulaitteille vihoviimeinen formaatti, koska se on sidottu tiettyyn sivukokoon. Jos lukee lukulaitteella (tai vaikka kännykällä), tästä aiheutuu ongelmia ihan riittävästi. Vaikka useimmat laitteet osaa muokata PDF:n tekstin uudelleen, niin mm. sivunumerot, ja sivuilla olevat headerit ja muut vastaavat "ylimääräiset" merkinnät haittaavat lukemista melkoisesti. ja näistä merkinnöistä on melkoisen hankala päästä eroon.

Jos ebook-muodossa jotain haluaa julkaista, suosittelen erittäin lämpimästi kyseiseen käyttöön tarkoitettuja formaatteja. Tekstitiedoston (jos kyseessä on plain-text) muokkaaminen vaikka kaikkiin mahdollisiin formaatteihin on erittäin helppoa. Tätä varten on olemassa ilmainen ohjelma, Calibre, jolla muutokset onnistuvat hyvin helposti.
Oi jospa vain Atorox-ehdokkaistakin olisi ollut kunnon formaatit, eikä niitä h:tin pdf-tiedostoja...
tpi
 
Viestit: 4
Liittynyt: 15.08.2010, 18:26:09
Paikkakunta: Tampere

ViestiKirjoittaja MaKo » 15.08.2010, 19:49:21

tpi kirjoitti:Jos ebook-muodossa jotain haluaa julkaista, suosittelen erittäin lämpimästi kyseiseen käyttöön tarkoitettuja formaatteja. Tekstitiedoston (jos kyseessä on plain-text) muokkaaminen vaikka kaikkiin mahdollisiin formaatteihin on erittäin helppoa. Tätä varten on olemassa ilmainen ohjelma, Calibre, jolla muutokset onnistuvat hyvin helposti.


Kas, ja Calibren saa LinuxMintille suoraan repositorysta eli ei tarvitse alkaa itse sitä asentamaan. Jos vielä olisi lukulaite, niin...
MaKo
 
Viestit: 460
Liittynyt: 05.04.2008, 15:54:19
Paikkakunta: Oulu

ViestiKirjoittaja MaKo » 16.08.2010, 23:40:29

tpi kirjoitti:Minulla on ollut ebook-reader nyt jo noin puoli vuotta, Bebook Neo. ...


Hain Calibren ja tutkiskelin alustavasti epub -formaattia. Konversio ei vaikuttaisi kovin pahalta, epub on zip-paketti, jonka sisällä on XML-tiedostoja, joten mun HTML-konversion saattaisi jollain työmäärällä saada tekemään myös epub:eja. Mutta testaus - kuinka monella täällä on lukulaite, joka nielee epub:ia? Olisiko joku vapaaehtoinen testaamaan konversion tuloksia? EDIT: Niin, Calibressa on oma viewer, jolla voinee tehdä perustestauksen, mutta olisi kiva tietää sitten se, että näkyvätkö tulokset kunnollisena myös oikeilla lukulaitteilla.
MaKo
 
Viestit: 460
Liittynyt: 05.04.2008, 15:54:19
Paikkakunta: Oulu

ViestiKirjoittaja MaKo » 17.08.2010, 04:21:26

Nonniin, halukkaat voisivat tutkia, toimisko tämä:

http://mkoskim.drivehq.com/Sekalaista/pirunmalja.epub

Se on Pirunmalja epub-formaatissa, ilman kuvitusta, mutta tavutuksen kanssa. Mulla on kaksi lukijaa (calibre ja FBreader), eivätkä niistä kumpikaan suostu näyttämään tavuviivoja rivien lopussa, vaikka muuten kunnioittavatkin ­ -tagia. Firefoxin epub-plugin sen sijaan näyttää tavumerkit ihan oikein.
MaKo
 
Viestit: 460
Liittynyt: 05.04.2008, 15:54:19
Paikkakunta: Oulu

ViestiKirjoittaja tpi » 24.08.2010, 19:13:38

Ei minun Bebookinikaan näytä tavuviivoja.
Ei varmaan kannata kikkailla tavutuksien kanssa, ei se pieni rivien epätasaisuus ainakaan minua kiusaa.
tpi
 
Viestit: 4
Liittynyt: 15.08.2010, 18:26:09
Paikkakunta: Tampere

EdellinenSeuraava

Paluu Kirjat ja kirjallisuus

Paikallaolijat

Käyttäjiä lukemassa tätä aluetta: Ei rekisteröityneitä käyttäjiä ja 1 vierailijaa