(ó)nytsamlegar vefslóðir fyrir gagnablaðamennsku

PDF skjöl eru uppfinning djöfulsins. Eða öllu heldur: PDF skjöl eru óvinir þeirra sem vinna með gögn. Einu “réttu” notin fyrir PDF skjöl er þegar útlit skjals þarf að halda sér, t.d. þegar efni er sent í prentun. Ég endurtek: PDF skjöl eru uppfinning djöfulsins [1. Hér er ágæt færsla frá Sunlight Labs um ömurleika PDF sniðsins fyrir gögn ].

Allir búnir að ná því?

Ok. Þá höldum við áfram.

Fyrir rétt rúmu ári var stofnuð við Háskóla Íslands Miðstöð rannsóknarblaðamennsku á Íslandi (ICIJ-Icelandic Center for Investigative Journalism). Þann 31. maí síðastliðinn birtist frétt á heimasíðu miðstöðvarinnar undir fyrirsögninni “Nytsamlegar vefslóðir fyrir gagnablaðamennsku“. Þar er greint frá því að Margot Williams hafi dreift lista með gagnlegum tenglum fyrir gagnablaðamenn á SKUP ráðstefnunni í Tönsberg. Og svo er listinn birtur. Sem PDF skjal.

Listinn er hérna. Smelltu á tengilinn til að opna skjalið. Prófaðu svo að smella á einhvern tengil í skjalinu.

Magnað, ekki satt?

Hversu nothæfur er tenglalisti á PDF sniði?  Vægt til orða tekið, ekki svo mjög.

Nú eru PDF skjöl mismunandi. Sum eru vistuð út úr forritum og kerfum þar sem innihaldið er í raun texti (sem má t.d. velja í Adobe Reader eða Preview). Þau skjöl má vinna með (en það er ekki þægilegt, er bæði tímafrekt og flókið [2. Hér er dæmi um hvernig má ná efni út úr slíkum PDF skjölum]. Sum eru hinsvegar bara myndir. Þetta er eitt þeirra.

En það er ekki allt tapað.

Stundum má ná gögnum út úr PDF skjölum með því notast við OCR (Optical character recognition). Fullt af vefþjónustum bjóða upp á slíkt, þó yfirleitt aðeins fyrir smá skjöl. Fyrir lengri skjöl og flóknari eru þó til ágætis forrit. Hér er listi sem ber saman OCR forrit og lausnir.

Ég tók þetta gagnslausa PDF skjal og renndi því í gegnum Online OCR þjónustuna. Útkoman var ágæt. Að mestu vegna þess að textinn er á ensku (laus við íslenska stafi) og frekar einfaldur. Einhverjar breytingar þurfti ég að gera (g var t.d. oft lesið sem a). Svo setti ég textann á gist.github.com hér. Smelltu á tengilinn og prófaðu svo að smella á einhvern tengil í listanum.

Magnað, ekki satt?

Listinn sjálfur er ágætur, en það má auðveldlega bæta hann til muna. Það bíður betri tíma.

En nú geturðu að minnsta kosti skoðað tenglana sem Miðstöð rannsóknarblaðamennsku á Íslandi vildi deila með þér.