3.4. Procedimento

Prima di passare in rassegna i programmi che permettono di svolgere questo compito è necessario premettere alcune informazioni. In situazioni normali non è pensabile di utilizzare tutti i programmi elencati con ognuno il suo bel database di megabyte di dati, quindi è consigliato di effettuare una scelta precisa determinando quali possono essere le proprie esigenze anche utilizzando più di un programma (per soluzioni più impegnative) ma usufruendo solo di certe caratteristiche.

Prima di iniziare all'indicizzazione bisognerebbe evitare che vengano inglobati nella base di dati dei documenti doppi, sia perché l'indicizzatore potrebbe non disporre di un controllo di questo tipo sia perché è buona cosa non sprecare spazio sull'hard disk con materiale che per diverso tempo o mai può essere utile. Quindi, salvo casi particolari ovviamente, si dovrebbe cancellare le eventuali versioni in formato diverso, il che non deve per forza consistere fra tenere documenti in HTML o testo semplice, ma anche in file che hanno lo stesso formato ma il contenuto in qualche modo cambia; ad esempio negli Appunti Linux, che solitamente si trovano nella documentazione fornita dall'ILDP, vi è un file AL.html di più di 6 Mb cancellabile in quanto la stessa opera è distribuita su più file HTML; oppure consideriamo i file directory fittizie che puntano ad una directory reale. È invece in genere una buona idea tenere anche la versione inglese dei documenti tradotti sia per una possibile diversità di versione sia per maggiore flessibilità di ricerca. È suggerita inoltre una preferenza nei caso di compresenza per i documenti in HTML per fare ricerche, in quanto sono solitamente divisi in diversi file e quindi è resa più facile l'identificazione di porzioni di testo e sono trattati in modo migliore dei file in testo semplice da diversi indicizzatori segnalati. Per maggiori informazioni su come procedere alla manutenzione dell'archivio si può vedere la parte [in lavorazione] della sezione dedicata agli IndexTools che sono compresi in questo documento.

Più testo è possibile indicizzare e potenzialmente in maggior modo sarà utile la base dati ricavata, si considerino dunque le posizioni dei documenti descritta nella parte iniziale di questo documento, anche volendo le directory contenenti formati non previsti che se anche l'indicizzazione non sarà ottimizzata per questi potranno essere visualizzati senza grossi problemi. Altre posizioni interessanti potrebbero essere /etc e /usr/src/linux/Documentation/ (la documentazione acclusa alle fondamenta - il kernel - di Linux).

Comunque, nel caso si temano problemi, in un primo momento può essere largamente soddisfacente l'inidicizzazione delle sole directory doc (se ve ne sono più di una; possibili: /usr/doc, /usr/X11R6/doc, /opt/programma/doc, /usr/share/doc).

Accorgimenti utili sono questi: l'ordinamento per data non dovrebbe esserci quando si effettua una ricerca per informazioni non necessariamente recenti; ogni qual volta viene effettuato nell'archivio della documentazione delle modifiche rilevanti dovrebbe sempre seguire un aggiornamento manuale della base di dati dell'indicizzazione; quando gli indicizzatori supportano adeguatamente la possibilità di gestire diverse base di dati potrebbe essere una buona idea suddividere la documentazione in italiano da quella inglese.