FC2ブログ
スクウェア・エニックスノベルス『スタンプ・デッド』1~5巻&コミック版、『太陽で台風』1・2巻発売中!
ガンガンノベルズ『魔法少女アーヤ☆アミー』発売中!
徳間デュアル文庫『魔王さんちの勇者さま』1~4巻発売中!
徳間文庫『欠陥妖怪住宅』、『パラレル家族計画』発売中!
ぽにきゃんBOOKSライトノベルシリーズ『ブチ切れ勇者の世界征服』1~2巻発売中!
HJ文庫『カンスト勇者の超魔教導』1~3巻発売中!
ファンタジア文庫『お助けキャラに彼女がいるわけないじゃないですか』1~3巻発売中!
JUMP j BOOKS『ぼくたちは勉強ができない 非日常の例題集』発売中!

受賞歴:
2004年、第1回スクウェア・エニックス小説大賞『入選』
2008年、第5回トクマ・ノベルズEdge新人賞『徳間デュアル文庫特別賞』
2017年、第11回HJ文庫大賞『銀賞』
2017年、ジャンプ小説新人賞’16 Winter 小説フリー部門『銀賞』
2017年、第30回ファンタジア大賞 『金賞』

«  | ホーム |  »

securityで制限のかかったPDFファイルのテキストコピー

どうも、はむばねです。

なんかここ最近、テキストコピーできないPDFファイルへの遭遇率が異常です。

セキュリティ機能によってロックされてるんですよね。

著作権保護といいますが、PDFのテキストを制限することで守られる著作権ってどういうのを想定しているんでしょう……?

あと、印刷禁止の意味はもっとわかりません。

ファイル自体は普通にコピーできるのに紙媒体にはできないって一体何が狙いなんだよ。

まぁ別に、著作権保護自体はいいんですけどね。

PDFファイル中のURLとか、タイトルや著者まで手打ちで写さにゃならんてどういうことやねん。

参考文献書くだけで一苦労じゃねぇかこの野郎。

というわけで、卒論を書いていたはずが途中で制限のかかったPDF中のテキストをコピーする方法について調べるのに全力を尽くしてしまいました。

経験上こういう話を書くと(なぜか)ちょいちょいそのワードで検索かけて来る方がいらっしゃるので、新たに”情報系”テーマを作成してこれからは一応内容も書いていくことにします。

まぁ、検索ワードで引っかるっつってもウチなんて何ページ目にヒットするんだよって話なんですが。

ウチに至るまでに、もっとまともなところが引っかかっているだろうと。

でも実際に来ているのは事実ですしね。


というわけで。

(以下、著作権法に触れる恐れがありますので自己責任でお願いします



======== 2012/6/13追記 ========
コメント欄にて、ソフトを使う必要さえなくセキュリティを解除してくれるサイトについて教えていただきました!

FreeMyPDF
「参照」から、ローカルのPDFを選択するだけ。
こら神がかり的なお手軽さやでぇ……。

本サイトについて教えて下さったMaChiさん、本当にありがとうございました!
もはやここから先の情報は必要ないのではないかという説が濃厚ですが、一応以前に記載した情報も残しておきます。
======== 追記ここまで ========

・フリーソフトを使う

まず真っ先に思いつくのが、「そういう機能持ったフリーソフトって既に存在するんじゃね?」ということ。

実際今の時代、自分が思いつくような機能を持ったフリーソフトなんて大抵既に存在しますからね。

……と、思いきや意外とあんまりありません。

一応、いくつか見つかったやつを紹介。



======== 2011/11/16 追記 ========
コメント欄にて、完璧なソフトを教えていただきました!

PDFLock
使い方も簡単。
こちらのダウンロードページから、「PDFLock - single dll - 1.151 kb zip-file」を選択してダウンロード。
解凍して、exeファイルから起動し、パスワードを入力して「Lock now!」をクリックするだけ。
元のパスワードなぞ関係なしに、ファイルそのものに新しいパスワードでロックをかけてくれます。
全部の項目を「1」に設定して、パスワード入力しなければ普通にパスワード無しのファイルに。
一応試用版みたいですが、1個ウインドウが挟まるだけで特に機能的な制限はないようです(2011/11/16現在)。
パスワード書き換えるだけなので、特に出来上がりに弊害もなし。
まさに完璧なソフトです。
ただ、一度これで編集したpdfファイルにもう一度編集かけようとするとエラーが出ることもある様子?
めんどいので条件は検証していません。
一旦コピーをとってから編集することを推奨します。

本ソフトについてコメントくださったJJさん、本当にありがとうございます!
なお、このソフトの扱いがいつ変わるかわかりませんし、私の苦労の結晶でもありますので、以下の情報も一応残しておきます。

======== 追記ここまで ========


iTextFont

”読み込んだPDFを制限なしにして保存してくれる”という紹介だったのですが……

私が使ってみたところ、まず読み込んでくれませんでした。

”場合によっては開けることもある”程度のものらしいです。




xdoc2txt

使い方が若干ややこい。

以下使い方コピペ。

――――――――――――――――――――――――――――――――――――――――――――――

まず、こちらのページ から以下の二つのファイルをダウンロードします。

  • xdoc2txt 1.16 ( d2txt116.lzh /107KB )
  • cryptlib.dll Ver1.00 ( crypt100.lzh / 37KB )

※バージョンアップによりファイル名の数字が変わる場合があります。

上記二つのファイルをダウンロードしたら解凍します。
一つ目の「xdoc2txt 1.14 ( d2txt114.lzh /98KB )」を回答したフォルダに、二つ目の「cryptlib.dll Ver1.00 ( crypt100.lzh / 37KB )」を回答したフォルダにある「cryptlib.dll」をコピーして、それを「Program Files」に置いてください。

「xdoc2txt.exe」のショートカットを作成して、「Send to」(送る)へコピーします。

「ファイル」メニューの「プロパティ」、またはAlt+エンターキーでこのショートカットのプロパティを開いて、リンク先の後ろに
-f -n
を追加してください。

【例】 "C:\Program Files\d2txt\xdoc2txt.exe" -f -n

以上で準備完了です。テキスト抽出するには、エクスプローラで目的のPDFファイルを選択して、「ファイル」メニューの「送る」メニューにある、「xdoc2txt.exe」のショートカットを選んで送ります。


――――――――――――――――――――――――――――――――――――――――――――――

とりあえずこの方法でやってみても、私の場合「送る」に該当のショートカットが追加されてませんでした。

が、作成したショートカットに対象PDFファイルをドラッグ&ドラッグでおk。

ややこしければ、もうコマンドプロンプトで「d2txt126>xdoc2txt.exe -f -n (対象PDFファイル)」でもおk。

かろうじて変換はされますが、文字抜けが激しかったりでぐちゃぐちゃになりました




ALTAIR for Windows
なぜか若干ダウンロードに時間がかかった。
あと慣れてないせいもあるとは思いますが、ものすげぇ使いづらい。

まぁ、本来の用途と違う目的で使っているのだから仕方ないっちゃ仕方ないかも。

一応、x2doctxtよりは若干まともに変換してくれるっぽい。

一部修飾された文字? 以外は変換されてるかも。

ただし、(たぶん)全部コピー以外にコピペの方法がない。

そして、全部コピーすると改行が消去されるためものすげぇ見づらい。

あと、間違えて保存とかするとpdfファイルとしては壊れます。

使用の際は注意しましょう。



Braval Reader

使い方は簡単。

また、txt形式に変換するわけじゃなくpdf(っぽい形式)から直接コピーできるようになります。

やはり一部の修飾文字はコピーできないようですが、pdfの形で見ながらコピーできるので抜けた部分も補完しやすい。

完璧ではないものの、たぶんフリーソフトの中じゃ一番優秀。





・有料ソフトを使う

普通に販売されているソフトもとりあえず紹介。

ちなみにいつか本当に使う時が来るかもしれないということで、日数制限付き体験版は試してません。

だいたい紹介だけです。


やさしくPDF OCR v.2.0
PDFからテキストを取り出すというか、OCR処理をするらしい。

使ってないので、どの程度の精度なのかは不明。

結構誤字が出るという噂もあり。



いきなりPDF to Data
これも同じくOCR処理。

これに関しては体験版さえないっぽい。



PDF Password Remover

これは本当にパスワードをクラック? するっぽい。

それは本当にいいのか?

トライアル版が日数制限じゃない(50回制限)だったのでこれだけ使ってみました。

確かに、完璧に解除されてました。

かかった時間的に全文探索をかけてるって感じでもなかった(一瞬でした)し、これもしかして本当に制限自体削除してんじゃね?

本 当 に い い の か ?

ただ、PDFからPDFへの変換なので当然誤字等もありません。

ポップアップは出るわ半分しか変換されないわでかなりウザいトライアル版ですが、前半にコピーしたい部分があるならこれで完璧です。

正直これなら、本当に必要になったら買ってもいい気がします。

出来自体はそれほどに完璧。





・OCRソフトを使う

先ほどのようにソフトが勝手にPDFに対してOCR処理(画像からテキストを取り出す処理)をしてくれるソフトを使うのではなく、自分でPDFを(スクリーンショット等で)画像に変換、自分でOCRソフトを使ってテキストを取り出す方法。

一番手間はかかります。

また、OCRソフトでフリーソフトってのもほとんどないみたいです。

SmartOCR がフリーのORCソフトだったようですが、現在は配布が停止されている模様。

もっとも、この辺 とかから拾ってくることは可能なようですが。
ただ、私はインストールさえできませんでした。

インストール済みなのに、「.Net Frameworkをインストールしてください」とか言われるのはなぜなんだぜ?

まさか、バージョンが新しすぎるのか?
と思ってダウングレードしたらできた。
で、試してみたわけですが。
うん、使えないね。
ちょっと精度悪すぎ。
ものすごく拡大した画像にもっと小分けすればどうにかなるのかもしれませんが、そんな手間をかけるくらいなら他の手法を採った方がいいでしょう。





・パスワードを解除する

私の場合パスワードわからないから苦労してんだよハゲ! という状況ですが、もしかすると「パスワードはわかってるけどどうやって解除するのかわからん……」という方もいるかもしれません。

Acrobat Readerだけではパスわかってても解除できませんからね。


一番手っ取り早いというか正攻法なのは、普通にAcrobat を使うこと。

本家です。

ただし(体験版もあるものの)さすがのAdobeクオリティでバカ高いです。


というわけで、とりあえず(編集等はできませんが)パスワードで解除するだけならばフリーソフト(というかフリーでも使える)クセロの瞬間PDF で十分です。

他にもあるかもしれませんが、元々ウチのPCに入ってたこれだけ紹介。

といってもパスワード解除目的ではなく(その機能があることも今日初めて知りました)、パワーポイントファイルをPDFに変換するために使っているのですけれど。

いちいち広告ページを表示してくるのがウザいですが、そこにさえ目を瞑ればそこそこ優秀です。





・タイピングで写す

最終手段。

ただまぁ一ついえることは、少なくとも今日だけに限っていえばこんだけ調べてる間に手で写した方が遥かに早かったということです。

あと、なんだかんだで一番確実・簡単。




そんな感じ。

どうでもいいですが、はてなやYahooなんかでやはり同じような質問をしてる方が何人かいらっしゃったのですけれど。

「コピー&ペーストでできます」「ツールバーで”選択”モードにすればできます」とか言われすぎワロタwww

それでできないから聞いてるんだろ。

と言いたいところですが、本当にそれで解決するような質問をしている人もいるのであながち笑えるものでもない。




スポンサーサイト



«  | ホーム |  »

プロフィール

hamubane

Author:hamubane

たぶんライトノベル作家的なもの


Twitter

既刊情報

最新コメント

最新記事

カレンダー

12 | 2008/01 | 02
- - 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 - -

月別アーカイブ

カテゴリ

ジャンルランキング

[ジャンルランキング]
日記
438位
ジャンルランキングを見る>>

[サブジャンルランキング]
その他
176位
サブジャンルランキングを見る>>

検索フォーム

RSSリンクの表示

リンク

このブログをリンクに追加する

ブロとも申請フォーム

この人とブロともになる

QRコード

QR