Guida sulla ricerca delle informazioni in Linux (testo in lavorazione):
Indietro	Capitolo 4. Indicizzazione, i programmi	Avanti

4.5. Software disponibile

4.5.1. ht://Dig

Home page	www.htdig.org	Versione di riferimento	3.1.3
Licenza	GNU GPL
Requisiti	Un browser e un server web

Descrizione

ht://Dig è un sistema di ricerca per WWW per un piccolo sito o per una rete locale, quindi il suo funzionamento è del primo tipo e il sistema di ricerca è disponibile solo attraverso un interfacciamento di tipo web. Per utilizzarlo dunque bisogna innanzitutto eseguire un browser web e richiedere, server web attivo, l'indirizzo che corrisponde alla posizione della pagina search.html che offre le funzioni dell'indicizzatore (ad esempio http://voltaire.casa/htdig/search.html).

A questo punto (vedi figura 1 e 2) ci sarà una casella in cui è necessario introdurre il testo da cercare, con adiacente il pulsante per attivare la ricerca. Sono disponibili altri pulsanti: per configurare il modo di ordinamento: secondo un punteggio, determinato fondamentalmente dal numero in cui ciò che si cerca è presente nel documento; per titolo, privilegiando le occorrenze presenti nei titoli; per data; oltre all'inverso di tutti i parametri disponibili; anche per eliminare il breve riassunto del contenuto della pagina; per definire gli operatori logici, ossia trovare occorrenze per tutte le parole introdotte o almeno una di essa oppure con l'opzione espressioni booleane disporre di queste modalità di descrizione di modelli.

Solitamente per costituire la base di dati indicizzata si esegue uno script che richiama la serie di programmi dedicati a questo scopo, maggiori informazioni si troveranno nei file d'esempio forniti.

Il software prevede i seguenti formati: Testo semplice, HTML; con programmi esterni anche PDF (acroread o pdftotext), PostScript (ps2ascii) e Microsoft Word (catdoc).

Configurazione

Per la configurazione si rimanda all'esempio incluso nell'archivio d'appoggio.

Installazione

Formato suggerito: Codice sorgente oppure binario specificatamente per la propria distribuzione

TAR - Per l'installazione si può seguire la procedure standard, ma prima della compilazione viene chiesto di dare una occhiata al file CONFIG per eventuali modifiche; questo definisce alcuni parametri di installazione, come la directory in cui depositare i dati del programma, non è quindi necessaria modifica per la riuscita della compilazione e installazione.

Quindi è necessario rendere disponibile l'eseguibile cgi, il modo più semplice è quello di spostarlo nella directory cgi-bin principale a cui punta il server web, poi bisogna rendere disponibile la directory htdocs/htdig che contiene il file search.html e dei file immagine, in questo caso si può voler copiare htdig alla directory a cui il server web punta all'indirizzo http://localhost/.

Cosa può avere nelle prossime versioni

capacità di de/compressione dati, gestione del formato DVI, TeX, possibilità di ricerca mediante l'espressioni regolari, ricerca per frase, ricerca per campo migliorata, migliore gestione per base di dati multiple, sistema di controllo dei documenti doppi, correzione automatica della digitazione.

Aspetti negativi

Indirizzi utili:

fmg-www.cs.ucla.edu/geoff/ispell-dictionaries.html

www.htdig.org/files/contrib/wordlists/

4.5.2. Glimpse

Home page	glimpse.cs.arizona.edu	Versione di riferimento	4.12, 1999
Licenza	Gratuito per uso personale
Requisiti	Nessuno

Descrizione

Glimpse (GLobal IMPlicit SEarch) è un diffuso sistema di ricerca per espressioni regolari disponibile da riga di comando o via interfaccia Web (v. l'estensione WebGlimpse) che permette con non comune flessibilità l'indicizzazione di tutto il contenuto testuale che si può rendere disponibile nell'elaboratore mediante la configurazione dei comandi necessari a trattare un determinato tipo di file. Gli autori del software sono i medesimi di agrep, una versione modificata di grep, dalla quale Glimpse riprende le opzioni per la ricerca avvicinata al modello (per non scartare piccole variazioni dalla chiave di ricerca data), interrogazione booleiana, su intero file, ma anche alcune limitazioni all'espressioni regolari, il sistema per definire il modello da cercare.

glimpseindex [-opzioni] [percorso]

Costruisce la propria base di dati, aprendo diversi file con prefisso .glimpse, nella directory proprietaria dell'utente (visualizzabile con #echo $HOME) andando ad analizzare tutti i file a partire da percorso, eventualmente escludendo quelli che vengono riconosciuti non di testo e quelli indicati aggiungendo il file .glimpse_exclude (con la possibilità di usare espressioni regolari come sotto indicato). I file che risulteranno inclusi nella base di dati saranno elencati nel file .glimpse_filenames.

L'uso più semplice è glimpseindex percorso.

Le opzioni più importanti sono:

Tabella 4-1. glimpseindex, opzioni più importanti

-o Con questa opzione si aumenta le dimensioni della base di dati di una percentuale del 5% circa per diminuire il tempo di ricerca (questa opzione al momento viene raccomandata); questo porta la dimensione della base di dati al 7% circa la dimensione totale di ogni documento che viene indicizzato

-b Come -o, evita una compressione maggiore con una ulteriore riduzione del 15-25% circa; questo porta la dimensione della base di dati al 20-30% circa la dimensione totale di ogni documento che viene indicizzato

-n Specifica che i valori numerici non devono essere ignorati dall'indicizzazione

-t In combinazione con -o, ordina l'indicizzazione dei file in modo che al momento dell'interrogazione i più nuovi risultino primi

-M Mb Permette di velocizzare l'indicizzazione concedendogli ulteriore memoria (di solito usa meno di 2 Mb) impiegabile. Il valore non deve essere indicato con segni decimali e diminuito solo con 1.

-H directory Modifica la directory predefinita in cui depositare la base di dati

-z

Permette un filtraggio configurabile, definito in .glimpse_filters, nel formato: estensione[Tab]comando[Tab]opzioni.

*.Z uncompress <

Permetterà l'indicizzazione dei file compressi con compress, che si distinguano dall'estensione Z, < indica che i dati da decomprimere arrivano da un altro programma. Questa caratteristica di Glimpse permette di aggiungere facilmente non solo il supporto per tutti i tipi di file, ma anche di creare cose più avanzate per modificare il testo eliminando elementi o facendo conversioni considerabili estreme come nella seguente improvvisazione:

*.pas p2c <

per convertire i file d'estensione pas (file in linguaggio Pascal nelle intenzioni) in dati in linguaggio C presi da glimpseindex.

-X Applica un riguardo maggiore per file in formato HTML, trattando il campo titolo con più attenzione

Alcune opzioni per la manutenzione:

-a aggiornamento base dei dati con gli indicati file o directory

-d cancella un indicato file dall'indice

Glimpse non utilizza un set di parole da scartare predefinito ma calcola ogni volta in base ai dati raccolti le parole da escludere quando queste raggiungono una frequenza molto ampia, questo garantisce le ottimizzazioni necessarie per i documenti in lingua italiana, tendendo ad ignorare parole come questo, la, un, etc.

Il modo più semplice per l'interrogazione della base di dati è:

glimpse modello

Il risultato è il nome del file in cui è presente un occorrenza al modello con accanto la riga in cui si presenta per ogni occorrenza disponibile.

modello può essere anche una espressione booliana utilizzando ; come operatore, es. glimpse 'scanner;dispositivi' occorrerà con i documenti che contengono entrambe le parole nella stessa riga (o file con l'opzione -W).

Tabella 4-2. glimpse, opzioni generali

`-H` `directory`	Specifica quale base di dati utilizzare
`-Y` `g`	Limita l'occorrenza nei file creati o modificati negli ultimi `g` giorni
`-z`	Abilita l'uso dei filtri (da includere se la base di dati creata da glimpseindex ha usufruito della correlata opzione `-z`
`-y`	Risponde automaticamente `yes` alle questioni, evita l'interazione

Tabella 4-3. glimpse, opzioni di definizione del modello di ricerca

`-i`	Ignora le differenze fra maiuscole e minuscole
`-w`	Fissa l'occorrenza alla parola, per esempio linux non occorrerà con linuxismo, linuxmania, linuxiano, ma con linux, gnu/linux, linux-2.2.12.
`-W`	Definisce la ricerca con l'AND booliano relativo all'intero file e non alla riga; permette inoltre l'utilizzo dell'operatore NOT (segno: `~`)
`-k`	Modalità per disabilitare l'interpretazione dei caratteri con significato speciale (con eccezione di `^` all'inizio del modello e `$` alla fine del modello, nel quale caso si dovrà anteporre \)
`-#` `#`	Può essere un numero da 1 a 8 per definire il numero possibile di errori (sostituzione, mancanza, presenza di caratteri) nel modello
`-F` `modello1`	Delimita il campo di ricerca secondo i nomi di file che occorrono con modello1, non è da impostare dopo modello. Permette di indicare all'interno ulteriori opzioni di ricerca (con qualche limitazione). Es. glimpse -F '-i howto' modello fa occorrere modello con le occorrenze dei nomi di file che presentano l'informazione di essere strutturati come HowTo.

Tabella 4-4. glimpse, opzioni di formattazione dei risultati

`-G`	Riproduce l'intero file e non la riga in cui si presenta l'occorrenza
`-h`	Non mostra i nomi dei file che presentano occorrenza
`-l`	Visualizza solo i nomi dei file dell'occorrenza
`-n`	Visualizza la posizione (in numero di riga) dell'occorrenza

-b Visualizza la posizione (in byte) dell'occorrenza

-O Modifica l'impaginazione del risultato nel formato: Nome file:(a capo)riga dell'occorrenza

-U Visualizza nome file, URL e titolo di file HTML quando indicizzati con l'opzione -X o -U

Il richiedere i programmi senza opzioni visualizza il sommario delle opzioni e parametri disponibili.

# vale come un .* più veloce

<> sono caratteri speciali che delimitano una zona non soggetta ad una occorrenza approssimata

Alias -w -i suggerito dagli autori

Installazione

Formato suggerito: Binario

Se si decide di compilarlo, si deve fare attenzione che se la procedura con configure non va a buon fine, è necessario eseguire, dalla stessa directory, make clean il quale cancellerà tutto i prodotti della compilazione, quindi bisogna passare a chiamare make con -f specificando Makefile.linux come argomento (eventualmente modificando di tali file i contenuti, ad esempio l'abilitazione del supporto per i caratteri estesi - in particolare le vocali accentate -, ISO-CHAR-SET=1; possono essere probabilmente d'aiuto quelli inclusi fra i file d'appoggio).

Aspetti negativi

Il sistema di riconoscimento di file di testo non funziona, al momento, alla perfezione, per questo è sconsigliabile di porre come percorso di inizio dei file da esaminare / senza tenere un minimo di attenzione (ad esempio se è visibile la partizione di un altro sistema operativo con particolari differenze da Unix, ci potrebbero essere file terminanti in exe, dll, api, ocx, che in quanto eseguibili o con dati binari sono impostabili, facilmente, come da escludersi). La conseguenza può essere, oltre a gonfiare inutilmente la base di dati, che nel momento in cui viene rappresentata l'occorrenza ad un tale file, che in qualche modo riesce ad occorrere, la rappresentazione su video dei caratteri rischia di essere compromessa. Probabilmente a quel punto si dovrebbe intervenire bloccando il programma e potrebbe diventare necessario digitare reset, se la modalità di disposizione dei caratteri si è modificata (tutto lo schermo diviene illegibile per una diversa associazione fra caratteri e simboli grafici).

Per modificare una base dati già esistente, in modo da eliminare file considerati da Glimpse nella sua ricerca, è disponibile in glimpseindex l'opzione -d.

Ha al momento alcune limitazioni nell'uso delle espressioni regolari: mancanza di alcuni segni in genere o in alcune circostanze e non si possono usare più di 30 caratteri circa con l'ausilio di esse. Tuttavia queste conseguenze si possono ridurre con soluzioni come l'intubazione dei dati d'uscita di Glimpse, per es.:

glimpse modello | grep modello | less

Il sistema di interfacciamento ad opzioni rappresentate da un carattere e il loro numero può rendere lento l'utilizzo del programma in determinati casi, in soccorso si può ricordare questa intubazione dei dati in uscita:

glimpse --help 2>&1 | grep termine chiave per individuare l'opzione

“2>&1” è richiesto perché insolitamente l'uscita dei dati in questo caso avviene nel flusso separato dedicato a segnalazioni d'errore (numerato come secondo), significa: redirigi il flusso dati del numero 2 verso il numero 1.

4.5.3. Isearch (o Isite)

Home page	www.etymon.com	Versione di riferimento	1.42
Licenza	Gratuito, vedere documentazione
Requisiti	Se si utilizza l'interfaccia web: un browser e, suggerito, un server web

Descrizione

Isearch è un programma che offre la possibilità di indicizzare file di testo, HTML, SGML, caselle di posta e altro, con la possibilità di aggiungere il supporto per una nuovo tipo di documenti in maniera modulare (durante la compilazione). Permette facilmente di gestire diverse base di dati di documenti indicizzati, facilitando la gestione e la velocità di ricerca in alcune circostanze. La consultazione della base dati può avvenire sia via shell che attraverso una interfaccia web.

Non tiene file di configurazione. La sintassi da seguire per ottenere l'indicizzazione è la seguente:

# Iindex -d Base dati [-r Addentramento (recursive) nelle directory] -m Quantità di memoria da utilizzare -t Tipo dati FILE

Dove Base dati è il nome da assegnare per poi fare riferimento nel momento della ricerca; Quantità di memoria da utilizzare è un valore da esprimere in megabyte per facilitare l'indicizzazione di documenti di dimensione diversa, anche di megabyte, alti valori eviteranno che il processo si interrompa e magari permetteranno di velocizzarlo; Tipo dati serve per specificare come devono essere trattati i file, suggeribile SGMLTAG oppure HTML; infine, vanno indicati i file da indicizzare anche un nome di directory, ma per quello che si vuole fare converrà creare una tabella in un file e poi farla leggere mediante -f. Per creare queste tabella si può utilizzare find, un esempio del suo uso è lo script mktab.

Esempio di indicizzazione (si rimuovono per comodità i dati d'uscita dei programmi):

mktab /usr/doc/ildp /tmp/tabella
Iindex -d ildp -m 10 -t SGMLTAG -f /tmp/tabella rm /temp/tabella

Ha una modalità di aggiornamento della base di dati con l'opzione -a.

Ricerca nella base di dati via web:

Avuta una base di dati per avere un interfacciamento web bisognerà usare il generatore della pagina HTML che tradurrà le vostre richieste al programma isearch che si dovrà trovare nella directory cgi-bin del server web, queste sono le modalità:

search_form -Tipo Dir contenente la base di dati Nome della base dati >DocumentRoot/Isearch.html

Tipo può essere simple (semplice), boolean (booleano), advanced (avanzato), html (se ci sono solo documenti HTML); per Dir contenente la base di dati dovreste mettere la directory che avete scelto per depositare le base di dati ottenute, infatti è una buona idea ordinarle in una directory che può essere ad esempio /var/db; Nome della base dati è il nome a cui si riferiranno le ricerche, infatti se si vuole utilizzare più di una base di dati lo si dovranno generare più pagine di questo tipo; quindi si mette dopo la redirezione (>) la directory documenti del server web e il nome della pagina. Riprendendo l'esempio:

search_form -boolean /var/db ildp >/var/www/boolean.html

Sintassi per la ricerca nelle base di dati via shell:

Isearch -d base dati ...

-p (X) # Present element set (X) with results.

-q # Print results and quit immediately.

-t # Print terse results and quit immediately.

-and # Perform boolean "and" on results.

-rpn # Interpret as an RPN query.

-infix # Interpret as a boolean algebra query.

-prefix (X) # Add prefix (X) to matched terms in document.

-suffix (X) # Add suffix (X) to matched terms in document.

-byterange # Print the byte range of each document within

# the file that contains it.

-startdoc (X) # Display result set starting with the (X)th

# document in the list.

Installazione

Formato suggerito: Codice sorgente oppure binario specificatamente per la propria distribuzione

TAR - Richiesta la modificazione del file Makefile per specificare la directory di installazione dei cgi-bin. Dopo make install, per l'interfaccia web si deve andare alla sua directory cgi-bin, eseguire lo script Configure con parametro la directory in cui creare le basi di dati, quindi copiare i tre script generati così # mv i* DirectoryRoot/cgi-bin

Aspetti negativi

L'interfaccia web non permette di navigare nei documenti trovati