v8.01 (build: Jul 11 2023)

Пошук у файлах

Можна ввімкнути індексування файлів-документів на клієнтських машинах для швидкого подальшого пошуку документів за ключовими словами або регулярними виразами всередині їхнього вмісту через БОСС-Онлайн (функція "Пошук у файлах"), а також у звіті БОСС-Оффлайн "Пошук у файлах" (при включенні періодичного пошуку).

Увага: переконайтеся, що для користувача БД дозволено доступ до функцій "Пошук у файлах" у БОСС-Оффлайн/БОСС-Онлайн на сторінці налаштувань прав!

Налаштування
Процес індексування може тривати тривалий час, а сам індекс значне місце системному диску клієнтських машин. Існує безліч тонких налаштувань для різних потреб у даному функціоналі:

providers.searchEngine.idlePeriod - час у мсек після якого сканер переходить в активну фазу сканування після останньої активності користувача

providers.searchEngine.rescanPeriod - час у мсек повторного циклу сканування після завершення попереднього

providers.searchEngine.scanRateIdle - інтенсивність сканування у стані неактивності користувача (активна фаза) від 0.01 до 1.00

providers.searchEngine.scanRateUsed - інтенсивність сканування у стані активності користувача (пасивна фаза) від 0.01 до 1.00

providers.searchEngine.scanRateForced - не використовується у поточній версії

providers.searchEngine.scanRateFrozen - не використовується в поточній версії

providers.searchEngine.maxFieldLength - макс. кількість слів у документі для аналізу

providers.searchEngine.maxDocCharsToAnalyze - макс. розмір документа, що видобувається з індексу, використовується для пошуку кращого фрагмента або при безпосередньому запиті всього документа

providers.searchEngine.maxSizeFile - макс. розмір аналізованого файлу в байтах

providers.searchEngine.maxSizeNest - макс. розмір аналізованого архіву в байтах

providers.searchEngine.maxDepthDir - макс. глибина вкладеності директорій/папок під час сканування

providers.searchEngine.maxDepthNest - макс. глибина вкладеності архівів один в одного

providers.searchEngine.maxSizeIndex - макс. розмір індексу в байтах

providers.searchEngine.minIndexFreeSpace - хв. розмір у байтах вільного місця на системному диску, при якому можливе сканування та формування індексу

providers.searchEngine.indexedFileLivetime - час життя (в мсек) проіндексованого файлу в БД для випадку, коли оригінальний файл був видалений.
Увага! Цей параметр не повинен бути меншим за час повного циклу сканування, тому не рекомендується ставити значення менше 2-3 днів!

providers.searchEngine.indexableFileTypes - типи файлів, що індексуються.
У поточній версії підтримуються формати: zip,7z,rar,txt,csv,htm,html,eml,mht,pdf,doc,docx,xlsx,pptx,odt,ods,odp,odg

providers.searchEngine.detectFileType - при включенні тип файлу розпізнаватиметься за його сигнатурою, а не розширенням в імені.
Увага! При включенні даного параметра час циклу індексування збільшується, так само як і значно зростає обсяг індексу на диску!

providers.searchEngine.excludeFileMasks - виключити маски файлів із сканування

providers.searchEngine.excludeDirMasks - виключити папки (без шляхів) із сканування (також можна використовувати маски)

providers.searchEngine.storeIndexedContent - зберігати чи ні вміст знайдених фрагментів в індексі (true - збільшує розмір індексу, але дозволяє показати фрагменти знайденого тексту, а не тільки шлях до документа, false - не зберігає)

providers.searchEngine.includePath.1 - шлях для сканування. Можна вказати зірочку * для сканування всіх дисків (крім мережевих). Для пошуку по конкретному логічному диску потрібно вказувати шлях виду \\?\C:\
змінні оточення (% змінна %) тут використовувати не можна!

providers.searchEngine.includePath.2 - за потреби можна вказати другий, третій і т.д. шляхи для сканування

providers.searchEngine.ignoreRemovableDisks - якщо вказати false, то в режимі сканування всіх дисків також скануватимуться і знімні диски

providers.searchEngine.minTimestampFile - вкажіть дату у форматі РРРР-ММ-ДД і файли, змінені раніше цієї дати, не будуть індексуватися

providers.searchEngine.regExpOverlapSize - максимальна довжина рядка, який можна знайти за допомогою регулярних виразів

providers.searchEngine.regExpMatchLimit - максимальна кількість збігів, яка може бути знайдена для одного регулярного вираження в одному документі

providers.searchEngine.textAnalyzer - мовний аналізатор, що використовується для розбивки тексту на терми, можливі значення: Standard, Czech, Dutch, English, French, German, Ukrainian

providers.searchEngine.fragmentsLimit - максимальна кількість фрагментів тексту, яка може бути видана в результатах пошуку одного документа

Примітка: при кожній зміні цих налаштувань індекс повністю перебудовується, тобто. видаляються накопичені дані та процес сканування починається спочатку.


Увімкнути періодичний пошук
При включенні буде здійснюватися періодичний пошук запиту "Пошуковий запит" кожні "Інтервал пошуку"-годин, результат буде передано на сервер для запису до звіту "Пошук у файлах".

Макс. результатів пошуку
Скільки результатів пошуку (фактично документів, у яких знайдено запит) використати. Результати відсортовані за релевантністю. Допустимі значення - від 1 до 255.

Ретроспектива результатів (днів)
Якщо в якомусь документі знайдено запит, то немає сенсу передавати на сервер відомості про цей документ у кожній ітерації пошуку (щоб у звіті не було результатів, що дублюються). Цей параметр показує, скільки днів зберігати інформацію про знайдені результати (якщо вказати 0, то зберігатиметься інформація буде нескінченно довго), тобто. через це кількість днів результат знову потрапить у звіт.

Пошуковий запит
Тут вказується пошуковий запит.
Перехід на новий рядок у запиті дорівнює символу пробілу.
Повний опис формату запитів можна почитати тут: https://lucene.apache.org/core/2_9_4/queryparsersyntax.html,, але також використовується невелике розширення синтаксису.

Приклади:

Пошук слів test та software в одному документі:
test AND software

Пошук на точне співпадіння (вказується в лапках):
"абсолютно секретно"

Пошук документів типу docx, в яких є збіг на регулярний вираз @IPv4@ та містять слово "персональний":
type:docx AND @IPv4@ AND персональний

Пошук файлу за його md5:
digest:3fcdcb42d0797d0b08c52e9d214b4ad2

Пошук зашифрованих файлів (наприклад, архівів паролем):
flags:encrypted OR flags:unsupported

Примітка: пошук регулярних виразів можливий лише з списку, вказуючи потрібний регулярний вираз у форматі @ІМ'Я@ (верхній/нижній регістри мають значення!)
Якщо потрібно знайти будь-яке з регулярних виразів (умова "АБО"), то необхідно використовувати @||@
Якщо потрібно знайти всі регулярні вирази (умова "І"), необхідно використовувати @&&@

© Mirobase