whycomputer.com >> Jaringan komputer >  >> Perangkat lunak

Cara Mengekstrak Teks dari dokumen PDF

Sangat frustasi mencoba mengekstraksi teks dari file PDF untuk digunakan dalam aplikasi lain. Bukan hal yang aneh bagi gambar untuk menghalangi atau untuk tata letak dokumen untuk mempersulit pengujian ditransfer dalam kalimat yang bermakna. Meskipun bukan mustahil untuk mengekstraksi teks dengan pendekatan salin dan tempel, ini bisa memakan waktu dan tidak memungkinkan teks file PDF diekspor sebagai format yang berbeda. Namun, ada beberapa cara untuk mengekstrak teks dari file PDF.

Ekstrak Teks Menggunakan Acrobat Reader

Langkah 1
Buka file dalam Acrobat Reader. Di Windows, pilih "File -> Export Document to Text," beri nama dokumen dan simpan.

Langkah 2
Salin teks pada Mac atau Linux OS dengan mengakses menu View dan memilih " Continuous "atau" Continuous-Facing. " (Yang pertama akan memberi Anda teks dalam satu kolom, sedangkan yang kedua akan memformat teks sebagai halaman berdampingan.) Buka "Edit -> Select All" dan kemudian "Edit -> Copy."
Gunakan alat Pilih jika Anda hanya ingin mengekstraksi beberapa teks. Klik pada alat "Pilih Teks" dan kemudian pilih informasi yang Anda inginkan. Dalam dokumen yang diformat dalam banyak kolom, Anda harus menggunakan alat "Pilih Kolom" terlebih dahulu. Buka "Edit -> Salin."

Konversi PDF ke HTML

Langkah 1
Gunakan Gmail sebagai pintasan. Lampirkan file PDF ke email dan kirimkan ke akun Gmail Anda. Saat Anda membuka email, Anda akan melihat sejumlah opsi di sebelah lampiran. Pilih "Lihat sebagai HTML" dan simpan file yang terbuka di jendela terpisah. Meskipun Anda tidak akan dapat melihat gambar apa pun, file HTML akan mempertahankan format teks dokumen.

Langkah 2
Ekstrak dan konversi file pada baris perintah. Pengguna Linux dapat menggunakan perintah konversi dasar yang akan mengubah file .pdf menjadi file .txt: "pdftotext filename.pdf." Pastikan untuk mengganti nama file dengan nama file PDF.
Unduh program konversi PDF ke teks. Ada sejumlah program open source dan freeware yang tersedia seperti PDFBox dan Easy PDF to Text Converter (lihat Sumberdaya di bawah). Banyak dari program ini juga dapat mengonversi file PDF ke HTML juga.

Kiat
Tentukan apakah dokumen diformat mengandung teks dan gambar. Pendekatan Adobe Acrobat hanya akan berfungsi jika file PDF berisi keduanya; itu tidak akan berfungsi untuk file dengan gambar saja. Dalam beberapa kasus teks dalam dokumen PDF sebenarnya diformat sebagai gambar. Ini sering terjadi ketika dokumen asli dipindai dan file PDF dibuat dari gambar yang dipindai.
Bersiaplah untuk memformat ulang beberapa teks saat menggunakan Acrobat Reader. Cara ekstraksi ini hanya mengekspor file PDF ke file teks - itu tidak akan mempertahankan tentu mempertahankan format. Namun, jika Anda hanya perlu menggunakan kata-kata ini seharusnya tidak menjadi masalah.

Item yang Anda butuhkan

  • File PDF
  • Adobe Acrobat Reader
  • Akun Gmail (opsional)
  • Perangkat lunak konversi PDF ke teks (opsional)


    URL:https://komputer.whycomputer.com/Perangkat-lunak/101300187.html

  • Perangkat lunak
    • Cara Membuat Dokumen Word Menjadi PDF

      Format Dokumen Portabel Adobe dirancang untuk mempertahankan pemformatan dokumen mana pun dilihat atau dicetak. Microsoft Word tidak menyertakan opsi untuk membuat file PDF secara default. Namun, ada beberapa cara untuk membuat file PDF dari dokumen Word atau menambahkan opsi buat PDF ke Microso

    • Cara Menghapus Perlindungan Dari File PDF

      Jika Anda memiliki file PDF di komputer Anda yang dilindungi sehingga Anda tidak dapat membuka atau mengeditnya, Anda harus menghapus perlindungan dari file PDF itu. Jika Anda awalnya tidak membuat file PDF, Anda harus menggunakan beberapa perangkat lunak pihak ketiga untuk menghapus batasan pad

    • Cara Menghapus Bingkai Dari Dokumen Word Text

      Frame teks dalam dokumen Microsoft Word digunakan untuk menanamkan fungsi dalam dokumen atau untuk penempatan blok teks tertentu. Kadang-kadang dokumen yang dipindai akan secara otomatis menghasilkan bingkai teks ketika perangkat lunak pengenalan karakter mengkonversi dokumen ke format MS Word. Meng

    Jaringan komputer © https://komputer.whycomputer.com