Manipulación de pdf’s en la consola de GNU/Linux

Manipulación de pdf’s en la consola de GNU/Linux
06/02/09


Hoy os voy a presentar una herramienta bastante util: pdftk (lo de tk es de toolkit). Este sencillo programa por consola pone a nuestro alcance una serie de posibilidades en el manejo de archivos pdf bastante interesantes. Lo primero que tienes que hacer es instalarlo, seguro que está en los repositorios de tu distribución. En el caso de Ubuntu, abre un terminal y escribe: sudo apt-get install pdftk

Tras la instalación, podrás realizar algunas operaciones sobre archivos pdf, como las siguientes:

  • Unir varios archivos pdf en uno solo:
  • pdftk <arch1.pdf> <arch2.pdf> … <archN.pdf> output salida.pdf

  • Crear un pdf a partir de algunas páginas de otro:
  • pdftk <entrada.pdf> cat <rango_o_paginas_sueltas> output <salida.pdf>

    Ejemplo: pdftk archivo.pdf cat 2-6 output a.pdf

  • Separa un archivo pdf en varios (uno para cada página)
  • pdftk <archivo_entrada.pdf> burst

  • Aplica a un pdf una marca de agua (recibida como otro archivo pdf)
  • pdftk <entrada.pdf> background <marcaagua.pdf> output <salida.pdf>

    Ejemplo: pdftk archivo.pdf background watermark.pdf output a.pdf

Podrás hacer otras muchas cosas, para ver cuáles y cómo se hacen, visita la página del manual de pdftk en tu terminal:

man pdftk

Espero que os haya resultado interesante la info. Un saludo.

Escrito por sgm


Puedes dejar un comentario, o referenciar este post desde tu sitio web.

Hay 10 comentarios en este post.

 
javier parra Febrero 6, 2009 Reply

me ha parecido super interesante y util

gracias por enseñarnos algo que es de gran utilidad el dia de hoy

salu2

 
sgm Febrero 6, 2009 Reply

Para eso estamos,
un saludo.

 
javier parra Febrero 19, 2009 Reply

como puedo instalar el pdftk en mandriva 2009 free?

gracias

salu2

 
sgm Febrero 20, 2009 Reply

Nunca he usado Mandriva, pero si no lo encuentras en los repositorios puedes descargarte el código fuente y compilarlo. No es complicado, aquí te dicen como hacerlo (casi al final de la página):

http://www.accesspdf.com/pdftk/index.es.html

Espero que te sirva.

 
javier parra Febrero 20, 2009 Reply

no consigo instalarlo, el makefile es imposible de confirugar da error, editanto o no la opcion -2

gracias

salu2

 
javi oliver Septiembre 5, 2009 Reply

Buenas, tengo un problemilla, resulta que cuando uno con pdftk varios pdf’s y uno de ellos contiene javascript, se pierde el javascript.

El tema es que el usuario elige varios pdf’s y yo lo empaqueto, pero quisiera que se auto-imprmiesen al abrirlo, esto lo consigo con esto:
http://www.fpdf.org/en/script/script36.php

me creé un pdf a modo de portada con la opción de imprimir activada, de manera que al unirle los demás pdf’s se imprimiese el pdf generado… pero no hace nada… de heco sin unir ningun otro pdf cuando pasa por el pdftk tambien pierde el javascript (que funciona si abres directamente el pdf original)… tambien he probado a unirlos con el gs y me da el mismo resultado…

Teneis idea de como puedo solucionarlo?

Muchas gracias!

 
sgm Septiembre 6, 2009 Reply

@javi oliver

Nunca he trabajado con javascript y pdf, por lo que no puedo serte de mucha ayuda. Sin embargo, a simple vista parece un problema de la herramienta que une pdf’s, en este caso pdftk y gs. Intenta utilizar otras (como PDFEdit) para comprobar si sucede lo mismo.

 
Alex Junio 8, 2010 Reply

PDFTK es un grandísimo programa, pero tiene sus limitaciones. A la hora de crear marcas de agua, depende de cómo se ha creado el pdf. Es decir, si el documento ha sido escaneado y pasado a PDF, la marca de agua sobreescribe el área que ocupa… aunque si estoy equivocado y hay alguna otra forma de hacerlo, soy todo oídos. :)

Saludos!

 
sgm Junio 8, 2010 Reply

@Alex

Lo que comentas es un problema común, que no es una deficiencia de PDFTK, sino que se trata de algo inevitable. Me explico:
Cuando tú escaneas un documento y lo guardas como PDF, dicho PDF no es sino una serie de imágenes opacas. No es lo mismo que cuando creas un PDF con el OpenOffice, por ejemplo. La diferencia puede apreciarse en que en un PDF de imágenes opacas el visualizador de PDFs no te dejará seleccionar texto, y en el otro tipo sí.

Pues bien, las marcas de agua sólo pueden funcionar bien en los PDF que no están compuestos por imágenes opacas, sino por texto seleccionable, puesto que la marca de agua trata de ponerse detras del propio texto. Si el PDF es de imágenes escaneadas, ningún programa podrá ponerte la marca de agua correctamente.

 
Alex Junio 9, 2010 Reply

@sgm

Muchísimas gracias por tu aclaración. Siendo así, me trago mis palabras sobre “las limitaciones del PDFTK” :) Aunque, realmente, y esto se me olvidó comentarlo ayer, la marca de agua se crea perfectamente cuando se visualiza el documento en la pantalla. Es a la hora de imprimirlo cuando el texto se corta. Pero supongo que esto es coherente con lo que me has explicado.

En cualquier caso, voy a probar a pasarle un OCR al documento escaneado, y luego le aplico el stamp del PDFTK. Sea cual sea el resultado, os informo.

Saludos!

Responde