|
|
Właściwości indeksu - Opcje
Kart Opcje służy do określenia dodatkowych danych, sterujących procesem
indeksowania:
Opcje ogólne
- Traktuj pliki zip jak katalogi
- należy zaznaczyć to pole, jeśli pliki wewnątrz archiwów zip mają być indeksowane.
Pliki te mogą później być przeszukiwane i przeglądane, tak jak wszystkie
inne pliki. Warto zauważyć, że nie należy dodawać samych plików zip
do listy plików uwzględnianych.
- Zliczaj słowa w pliku - należy
zaznaczyć to pole, jeśli program ma śledzić ile razy każde słowo jest używane
w każdym z plików. Uzyskana wartość jest wyświetlana jako jedna z kolumn
w panelu listy plików, który można porządkować
wedle ilości wystąpień słowa. Aby zaoszczędzić miejsce, zliczanych jest tylko
pierwszych 256 wystąpień (objętość jednego bajta). Jeśli problemem jest rozmiar
indeksu, można pominąć tę opcję, by zaoszczędzić miejsce.
- Śledź wszystkie pliki - zaznaczenie
tego pola sprawia, że Wilbur zindeksuje informacje o wszystkich plikach we
wszystkich katalogach, do których wchodzi, nie tylko o plikach z listy do
uwzględnienia. Zawartość plików nie wymienionych na liście do uwzględnienia
nie będzie indeksowana, ale indeks obejmie nazwy plików, ścieżki katalogu,
rozmiar oraz datę modyfikacji i atrybuty, wedle których można później wyszukiwać
te pliki.
Wilbur nie obejmie informacji o plikach w katalogach, które nie
znajdują się ani na liście do uwzględnienia, ani w ich podkatalogach. Jeśli
chcemy uwzględnić wszystkie pliki na dysku, ale nie chcemy indeksować ich
zawartości, można zastosować wieloznaczną definicję plików do uwzględnienia,
np. c:\*.xxx, co zmusi program do wejścia do każdego katalogu. Oczywiście
taki zabieg nie jest konieczny, jeśli już wpisano ścieżkę taką jak np. c:\*.doc.
- Minimalna długość słowa - wyznacza
najmniejszą długość słów, które zostaną zindeksowane. Wartością domyślną
jest trzy, ale można ją zwiększyć, by ograniczyć liczbę niepotrzebnych słów
indeksowanych, jednocześnie zmniejszając rozmiar indeksu. Oznacza to oczywiście,
że nie będzie możliwe wyszukiwanie takich ciągów jak IBM. Można
także zmniejszyć tę wartość, ale oznacza to ryzyko objęcia indeksem dużej
ilości niepotrzebnego materiału podczas indeksowania plików binarnych, takich
jak dokumenty procesorów tekstu.
- Maksymalna długość słowa - wyznacza
największą długość słów, które zostaną zindeksowane. Także tę wartość można
zmodyfikować, aby najlepiej pasowała do indeksowanego materiału. Na przykład,
programiści indeksujący kod źródłowy będą prawdopodobnie chcieli ustawić
dosyć duże wartości, ponieważ nazwy zmiennych i procedur często bywają długie.
Wartość zerowa ma specjalne znaczenia. Powoduje ona, że
Wilbur używa wartości 100 znaków w materiale czysto tekstowym oraz wartości
20 w plikach, które zawierają dane w formacie binarnym. Tak zachowywał się
Wilbur przed wersją 1.5.
Dodatkowe znaki objęte indeksem
Poniższe opcje wprowadzono, by dać większą kontrolę nad znakami,
które uznawane są za znaczące:
Liczby - dostępne opcje to:
- Bez liczb- wartość domyślna
- Bez liczb na początku wyrazu - liczby mogą pojawiać
się w dowolnym miejscu w słowie, o ile nie rozpoczynają słowa.
- Wszystkie liczby - znaki liczb traktowane są jako tak
samo ważne, jak znaki alfabetu. W materiałach pewnego typu oznacza to oczywiście
znaczne zwiększenie liczby unikalnych słów obejmowanych indeksem.
Inne
Można wskazać znaki, które mają być uznawane za istotne.
Jeśli język użytkownika nie należy do tych z powyższej listy, wystarczy
po prostu wprowadzić tutaj żądane znaki.
Znaki umieszczone w polu 'Inne - dowolna pozycja' są rozpoznawane
w dowolnej pozycji w słowie, zaś znaki umieszczone w polu 'Inne - nie na
początku słowa' nie będą rozpoznawane na początku słowa.
Na przykład, jeśli chcemy wyszukać termin C++, możemy umieścić pojedynczy
znak plusa w polu 'Inne - nie na początku słowa'. Przy indeksowaniu kodu
źródłowego programu nie będziemy oczywiście tego robić, ponieważ znak plusa
będzie występował często jako ogranicznik nazwy zmiennej.
Warto zwrócić uwagę, że jeśli wprowadzimy tutaj takie znaki jak
* lub ?, które mają specjalną funkcję w wyszukiwaniu, utracą one swoje specjalne
znaczenie i będą traktowane jak każdy inny znak.
|