Comperio: il framework per l'Information Retrieval
L’Information Retrieval (IR) è l’insieme delle tecniche utilizzate per il recupero mirato dell’informazione in formato elettronico.
Wikipedia

Internet è un archivio praticamente illimitato di informazioni. Aziende come Google hanno compreso appieno l’importanza di fornire un metodo semplice e veloce per accedere a queste risorse. Ma questo non sempre basta.
Tuttora non esistono software o servizi in grado di rendere accessibili in forma strutturata le informazioni disponibili su Internet. In un futuro non lontano navigheremo nel cosiddetto web semantico: “un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) siano associati ad informazioni e dati (metadati) che ne specifichino il contesto semantico in un formato adatto all’interrogazione, all’interpretazione e, più in generale, all’elaborazione automatica” (fonte Wikipedia). Fino a quel momento però, l’Information Retrieval (IR) continuerà a svolgere un funzione primaria nella ricerca ed indicizzazione delle informazioni su Internet.
Comperio è un framework di sviluppo per la creazione di spider e bot per l’Information Retrival.
Tra le caratteristiche principali troviamo:
- Multi piattaforma (Windows, Unix/Linux e Mac OS X).
- Multi protocollo (HTTP/HTTPS, FTP, SOAP e REST).
- Vasto supporto di database (MySQL, PostgreSQL, Interbase, Firebird, Informix, Oracle, MS SQL, Access, Sybase, DB2, SAP DB, SQLite, ODBC).
- Facilmente estendibile (es. OCR, Image Manipulation).
- Supporto per proxy multipli (HTTP/HTTPS e SOCKs 5).
Tramite l’utilizzo di Comperio siamo in grado di sviluppare delle solidi applicazioni di information retrival. Ecco alcuni esempi di applicazioni sviluppate con Comperio:
- Uno spider per l’estrazione delle commesse dal sistema di document management delle Ferrovie dello Stato.
- Un proxy che esponeva le funzionalità di tracking dei pacchi e raccomandate delle Poste Italiane sottoforma di web service SOAP.
- Un’interfaccia di estrazione dei dati del programma di affiliazione Amazon Associate.
- Un bot per l’indicizzazione di articoli pubblicati su oltre 100 siti differenti.
Se devi estrarre una grossa mole di dati da un sito web contattaci e saremo felici di studiare con te la soluzione che meglio si adatta alle tue necessità.
