Posteo mi codigo, es un script en Groovy
import com.itextpdf.text.pdf.*
def today = new Date().format("yyyyMMd");
def url = 'http://www.elsalvador.com/mwedh/epaper/'+today+'/pagedata35.xml';
def urlDownload = 'http://www.elsalvador.com/mwedh/epaper/'
def con = new URL(url).openConnection()
def xml = new XmlSlurper().parse(con.responseCode == 200 ? con.inputStream : con.errorStream)
def pages = xml.PageOrder.PageData
PdfCopyFields finalCopy = new PdfCopyFields(new FileOutputStream("EDH"+today+".pdf"));
finalCopy.open();
pages.each(){
def t = urlDownload + it.@LargeFile.text()
t = t.replace('SWF','pdf')
println "Descargando --> " + t
finalCopy.addDocument(new PdfReader(t));
}
finalCopy.close();
Como pueden ver hago uso de la url
http://www.elsalvador.com/mwedh/epaper/20110423/pagedata35.xml
y la parte variable de la fecha la predefino al dia de ahora, ademas como bien menciona ~ hago uso de la libreria Java iText para hacer el merge de cada uno de los archivos.
La logica es simple leer la url
http://www.elsalvador.com/mwedh/epaper/20110423/pagedata35.xml
, parsear el xml, extraer el nombre de los archivos SWF y con esos nombres construir las url donde se encuentran los PDF, por ultimo todos esos PDF unirlos en uno solo.
Creo que el proposito del post de ~ es explicar como se extraen las url, porque para un usuario normal y corriente, andar bajando todos los pdf uno por uno, como que no es muy amigable
Tal vez con la logica detras del script alguien pueda hacerse un programita con una interfaz grafica mas lograda, que a mi me da weba hacerla