Właściwości indeksu - Język


Karta Język służy do określenia jak Wilbur ma obsługiwać znaki i słowa w językach innych niż angielski.

DOS Style Text Files Skipped words Additional Language Characters Language Options Zip Encryption Options Include/Exclude Files General Options indexlanguagedlg.gif (27271 bytes)

Dodatkowe znaki stosowane w różnych językach

W przypadku plików czysto tekstowych, uwzględnienie wszystkich możliwych do zindeksowania znaków nie byłoby szkodliwe, ale gdy tekst jest wyodrębniany z danych binarnych, np. z plików zaawansowanych edytorów, użycie mniejszego zbioru znaków ułatwia programowi rozróżnienie tekstu od danych binarnych .

W najprostszym przypadku Wilbur zindeksuje tylko znaki alfabetu łacińskiego [stosowane w angielskim] oraz znak podkreślenia. Wszystkie pozostałe znaki będą traktowane jako zakończenie słowa lub jako odrębne słowa. Jednak w wielu przypadkach indeksowany materiał nie będzie anglojęzyczny, i dlatego Wilbur umożliwia uwzględnienie dodatkowych znaków.

Znaki wymagane przez kilka ważnych języków europejskich można wybrać po prostu zaznaczając pola wyboru obok nazwy języka. Warto zwrócić uwagę, że można zaznaczyć więcej niż jeden język.

Jeśli język wybrany przez użytkownika nie został wymieniony na liście, żądany zestaw znaków można utworzyć wybierając kilka języków, albo zaznaczając pole Wszystkie znaki międzynarodowe. Jednak najlepszym rozwiązaniem jest pominięcie wszystkich opcji dla konkretnych języków i dodanie żądanych znaków w odpowiednim polu (Opcje/Inne), opisanym w temacie Karta Opcje.

Plik słów pomijanych

Indeksowanie bardzo często używanych słów, które występują w większości plików nie przynosi większych korzyści. Wilbur instaluje się wraz z listą często używanych słów angielskich, które są pomijane podczas indeksowania, aby przyspieszyć pracę programu i zaoszczędzić miejsce na dysku. Słowa te zostały zapisane w pliku skip.txt, umieszczonym w tym samym katalogu, co plik wykonywalny Wilbur.

Można użyć innego pliku, zmieniając wartość w polu Plik słów pomijanych na tej karcie. Plik ten musi być umieszczony w katalogu Wilbur i musi mieć rozszerzenie TXT, ale w polu wprowadzamy samą nazwę pliku, bez rozszerzenia.  Na przykład plik o nazwie wyklucz.txt wybiera się wpisując tylko "wyklucz" [bez cudzysłowu].

Wilbur dostarcza kilku narzędzi, które częściowo automatyzują tworzenie alternatywnych plików z listami słów pomijanych. Zajrzyj do tematów opisujących polecenia Utwórz listę wystąpień słów oraz Importuj listę słów pomijanych w menu Indeks.

Pliki tekstowe typu DOS

Po zaznaczeniu tego pola Wilbur zakłada, że obsługa znaków międzynarodowych w każdym pliku, który wydaje się czysto tekstowy, powinna być taka jak w systemie DOS. Ponieważ programy pracujące w środowisku Windows, takie jak Notepad czy przeglądarki internetowe, tworzą pliki tekstowe wykorzystując znaki międzynarodowe w stylu Windows, użytkownik prawdopodobnie nie będzie chciał ustawiać tej opcji, o ile nie jest pewien, że indeksowane pliki zostały utworzone w programach pracujących w systemie DOS. Dla wszystkich plików, które wydają się mieć format binarny, np. dokumentów MS Word, zakłada się, że są to pliki obsługujące znaki w stylu systemu Windows.



Copyright (c) 1999 RedTree Development Inc. Wszelkie prawa zastrzeżone.
Informacje zawarte w tym dokumencie mogą ulec zmianie bez ostrzeżenia.
Nazwy innych produktów i firm wzmiankowane w tym dokumencie są znakami towarowymi lub zastrzeżonymi znakami handlowymi odnośnych firm lub właścicieli tychże znaków towarowych.