Корректная работа с локальной сетью Информационная безопасность Поиск похожих документов Скорость индексации Разграничение прав доступа
 
 Домой   Заказать/Скачать   Продукты   Проекты   Наши Технологии   Сотрудничество   Пресса   О Компании   English 
SoftInform Search Technology - это Ваша власть над информацией.

Публикация в журнале Домашний компьютер

Автор: Евгений Яворских
Опубликовано в журнале "Домашний компьютер" №8 от 21 июля 2005 года.

Тихая революция

Российская линейка продуктов SearchInform незаменима в любом секторе, будь то корпоративная сеть предприятия или простой домашний компьютер. Десктопная версия (2,9 Мбайта) предлагается в двух модификациях: Standard (1500 руб.) и Professional (3000 руб.). Функциональные отличия обычной версии от профессиональной: нет возможности слияния и дефрагментации созданных индексов, ограничения поиска в источниках данных и отсутствие рубрикатора документов. Для особо скаредных граждан предлагается бесплатная версия, умеющая создавать только один индекс.

Фирменная технология7 позволяет работать с различными источниками информации, которая может содержаться не только в файловых форматах (включая PDF, HTM и HTML), но и в базах данных большинства распространенных информационных систем (Access, MS SQL, Oracle и SQL). Для вящей конкретизации поиска наличествует функция использования списков синонимов и выделения так называемых «важных слов».

По окончании установки и регистрации первым делом нам предложат загрузить и установить фильтр для индексации и поиска в PDF-документах вкупе с русскоязычной морфологической базой (рис. 20). Дело в том, что использование морфологии — один из важнейших приемов интеллектуального поиска текста, поскольку этот режим позволяет ввести в поисковую строку одно слово, а поиск будет осуществляться по всем его словоформам (например: ложка, ложкой, ложки, ложечки). Таким образом, жертвы на входящий трафик заумной морфологической субстанции более чем оправданны (использование морфологии включается в «Менеджере Индексов»).

Пришла пора создавать индексационные базы (программа называет их «индексами»), без которых поиск становится бессмысленным: Менеджер индексов > Создание индекса (рис. 21). SearchInform позволяет выбирать папку для баз индекса, равно как исключать из области поиска ненужные каталоги8. Не забудьте еще раз подумать о целесообразности использования морфологических баз — по умолчанию переключатель «Использовать морфологию» отключен, равно как и индексация во внешних базах данных (уже упоминавшиеся Access и MS SQL Server, попортивший мне кровь при запуске «Следопыта»).

Обратите внимание на кнопку «Настройка» диалога создания нового индекса — по умолчанию программа начнет индексацию всех дисковых разделов, что увеличивает время создания базы и ее размер. Выберем только необходимое (рис. 22). А далее остается ждать окончания процесса индексации. Разумеется, нет нужды создавать единственную базу, где будут свалены в кучу и офисные документы, и HTML-страницы. При необходимости точно так же создаются дополнительные индексы, подключаемые командой «Смонтировать индекс».

Процесс индексирования весьма нагляден и демонстрирует не только скорость, но и количество обработанных документов, и число уникальных слов, по которым будет осуществляться поиск. В конечном итоге, данный раздел, содержащий более 20 000 документов совокупным объемом около 580 Мбайт, был проиндексирован всего за 12 минут; объем проиндексированного контента составил 72 Мбайта (рис. 23). Да, SearchInform не индексировал графические и звуковые файлы, но от него это и не требовалось. Зато несколько десятков мегабайт индексационных баз смотрятся куда как выигрышно на фоне почти полугигабайта индексных файлов поисковика от Google.

Теперь заставим SearchInform отработать свою цену: обычный вариант поиска (вкладка «Поиск текста») по сочетанию «Антивирусные записки» выдал огромное количество документов, содержащих, в той или иной мере, искомые слова. Впрочем, нужные документы оказалась в первой пятерке (рис. 24). Если помните, Google Desktop Search «спекся» при запросе из 2000 знаков. Честное слово, мне надоел собственный гуманизм9 по отношению к участникам софт-ринга: даешь запрос из трех тысяч знаков! Неприметная вкладка «Поиск похожих», как выяснилось, обладает уникальной особенностью: в отличие от стандартного фразового поиска, здесь не требуется заранее подбирать ключевые слова — поиск осуществляется по всему документу в целом. Ну-с, любезный, получите три тысячи символов из начала статьи «Второе пришествие SPасителя». Предвкушая фиаско софтины, радостно потираю руки, но, увы, конфуз испытал ваш покорный слуга: программа через пару секунд выдала абсолютно точную ссылку на документ, причем без всякой дополнительной «шелухи» (рис. 25). Не испугал программу и поиск в архивах. Честно говоря, я не стал использовать секундомер для определения разницы во времени поиска среди обычных файлов и архивированных: практически один и тот же очень быстрый результат.

Дальнейшее «глумление» над софтиной порадовало старого софтверного волка: изменялся текст запроса, в который добавлялись произвольные фрагменты откровенной абракадабры, затем фразы менялись местами. Очень уж мне хотелось «убить» программу, но мой порыв остался неудовлетворенным: даже в этом случае нужный документ находился. Ко всему прочему, работа программы практически не сказывается на быстродействии системы.

Однако создание одного или нескольких индексов для действительно качественного поиска недостаточно. И чтобы максимально использовать возможности SearchInform, потребуется более подробное знакомство с синонимами, стоп-словами и «важными словами» (программные термины). Более подробно об этих «хитрых зверьках» вы сможете прочесть в программной «Справке».

Раздаем слонов

Эта процедура не вызвала бурных дебатов в силу талантов наших конкурсантов. Если вам идеологически чужда покупка программного обеспечения, и вы не мыслите поиск без участия MP3, видео и картинок, ваш выбор — бесплатный Google Desktop Search. Правда, за отсутствие материальных издержек придется расплатиться колоссальным объемом индексных файлов и весьма длительной процедурой индексации. Если вас интересует паталогическая точность поисковых результатов вкупе с возможностью создания рубрик документации, рекомендуем последнюю версию SearchInform. Немаловажным моментом станет «детское» время индексации и крайне демократичный размер созданных индексных баз.

Ищущий да обрящет.


7 Разработанная на основе математической модели анализа структуры документа и выбора похожих слов, словосочетаний и массивов текста.

8 Скажите на милость, зачем мне индексировать файлы Corel Draw и каталоги с «хозяйством» виртуальных машин?

9 Причем, совершенно неоправданный.


стр.1 | стр.2 | стр.3


Назад

  
   Пресс-центр
Компания Лоция Софт и СофтИнформ объявляют о начале специальной акции – «Снижение на 20% цен на ПО SearchInform Lotsia Edition». Акция продлится до 15 мая 2006 года. Подробнее...
» Все новости


Большой рыночный потенциал заложен в технологии поиска, которая не зависит от языка. По словам Льва Матвеева, генерального директора "СофтИнформ" – «технология абсолютно независима от морфологии и в течение максимум двух недель настраивается на любой язык поиска». iOne.ru   Подробнее...
» Вся пресса
   Информационные материалы
Пример работы с программой SearchInform и демонстрация возможностей технологии SoftInform Search Technology.
» Скачать демо-ролик...(3,2 Мб)

Проблемы поиска информации в крупных информационных системах и решение этих проблем при помощи технологии полнотекстового поиска компании СофтИнформ.
» Скачать презентацию...(1,1 Мб)
   Награды
Награда Best Soft 2005 от PCMagazine
Top rated at BrotherSoft.com
Высшая награда от BrotherSoft.com
Top rated at BrotherSoft.com

Смотреть все награды...
   Партнерская программа
Мы приглашаем Вас присоединиться к нашей партнерской программе. Начните сотрудничать с нами и вы будете получать вознаграждение от каждой проданной с вашей помощью копии SearchInform. Для присоединения к нашей партнерской программе заполните форму.
stretcher