PDFのテキスト変換
イシュー
- PDFをテキスト変換して、検索可能にしたい
参考
- PDFをテキストに変換する方法
- PDF TXT 変換 – PDFをTextに
- 無料PDF変換ソフト(PDFから変換)一覧 - フリーソフト100
- PDF ファイルからテキストおよび画像を抽出する方法(Acrobat DC)
- PDFファイルをコマンド一発でテキストファイル化する - 一馬力のメモ帳
- Windows 10で始めるBash(17) 複数PDFファイルから一括テキスト抽出 | マイナビニュース
- PDFからテキストを抽出する方法 (Hajilyn's Papa)
Poppler
PDFMiner.six
Apache Tika
- AWS Lambdaを使ってサーバレスでテキスト抽出するぞ!という気持ち - (゚∀゚)o彡 sasata299's blog
- Apache Tika – Apache Tika
- Apache Tikaでコンテンツを読み込んでみる - Qiita
- 様々なファイルからテキストとメタデータを抽出できるライブラリ「Apache Tika」 |
- 【Python】Web上にあるpdfのタイトルを取得する(中間報告) - 歩いたら休め
その他
- GitHub - dueyfinster/lambda-pdf-to-text: A function to convert PDF to text on AWS Lambda
- GitHub - skylander86/lambda-text-extractor: AWS Lambda functions to extract text from various binary formats.