Comperio: il framework per l'Information Retrieval

L’Information Retrieval (IR) è l’insieme delle tecniche utilizzate per il recupero mirato dell’informazione in formato elettronico.
Wikipedia

Comperio: il framework per l'Information Retrival

Internet è un archivio praticamente illimitato di informazioni. Aziende come Google hanno compreso appieno l’importanza di fornire un metodo semplice e veloce per accedere a queste risorse. Ma questo non sempre basta.

Tuttora non esistono software o servizi in grado di rendere accessibili in forma strutturata le informazioni disponibili su Internet. In un futuro non lontano navigheremo nel cosiddetto web semantico: “un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) siano associati ad informazioni e dati (metadati) che ne specifichino il contesto semantico in un formato adatto all’interrogazione, all’interpretazione e, più in generale, all’elaborazione automatica” (fonte Wikipedia). Fino a quel momento però, l’Information Retrieval (IR) continuerà a svolgere un funzione primaria nella ricerca ed indicizzazione delle informazioni su Internet.

Comperio è un framework di sviluppo per la creazione di spider e bot per l’Information Retrival.

Tra le caratteristiche principali troviamo:

  • Multi piattaforma (Windows, Unix/Linux e Mac OS X).
  • Multi protocollo (HTTP/HTTPS, FTP, SOAP e REST).
  • Vasto supporto di database (MySQL, PostgreSQL, Interbase, Firebird, Informix, Oracle, MS SQL, Access, Sybase, DB2, SAP DB, SQLite, ODBC).
  • Facilmente estendibile (es. OCR, Image Manipulation).
  • Supporto per proxy multipli (HTTP/HTTPS e SOCKs 5).

Tramite l’utilizzo di Comperio siamo in grado di sviluppare delle solidi applicazioni di information retrival. Ecco alcuni esempi di applicazioni sviluppate con Comperio:

  • Uno spider per l’estrazione delle commesse dal sistema di document management delle Ferrovie dello Stato.
  • Un proxy che esponeva le funzionalità di tracking dei pacchi e raccomandate delle Poste Italiane sottoforma di web service SOAP.
  • Un’interfaccia di estrazione dei dati del programma di affiliazione Amazon Associate.
  • Un bot per l’indicizzazione di articoli pubblicati su oltre 100 siti differenti.

Se devi estrarre una grossa mole di dati da un sito web contattaci e saremo felici di studiare con te la soluzione che meglio si adatta alle tue necessità.