« предыдущая статья | Все статьи | следующая »
Чемпионат по настольному поиску (программы для локального поиска)
Собачья радость
Мне до сих пор неловко за тот щенячий восторг, с коим я загружал бесплатную версию знаменитой «Ищейки 4.5» (www.isleuthhound.com/ru/): позарившись на дармовую «косточку», автор этих строк получил крайне ограниченную версию программы. Увы, мне предложили индексацию и поиск лишь в трех файловых форматах: TXT, DOC и HTM/HTML и создание единственной базы данных. Сам виноват - нужно было заранее взглянуть на программные возможности. Пришлось вызвать более продвинутого «пса» по кличке «Ищейка Проф» ($15). Четыре сотни рублей по нашим временам – не столь большие деньги. «Ищейка Проф» умеет «вынюхивать», помимо стандартных TXT и HTM/HTML, офисные расширения DOC и DOT (шаблоны MS Word) вкупе со старым добрым RTF.
На этом выучка «Ищейки Проф» заканчивается. Однако, радостно тявкнув, «собачка» поведала о своих дополнительных талантах, если «скормить» животине дополнительные модули. Тогда все станет действительно по-взрослому - это вам не глупый щенок из системного поисковика: без проблем станет индексироваться и обнаруживаться текстовая информация в файлах ASP и Adobe Acrobat (PDF), в презентациях MS PowerPoint и скучнейших документах MS Excel[6]. Ко всему прочему, «Ищейка» расправиться с архивным расширением ZIP, справочным форматом CHM, ID3-тэгами MP3-файлов и PHP-документами. Правда, за модуль с поддержкой одного формата, придется отдать дополнительные 6 долларов (20 баксов чохом за весь комплект плагинов) или заказать «Ищейку Проф Deluxe» за $29. Что же, придется пожертвовать ради объективного теста. Правда, вызывает недоумение дата выпуска оных модулей – 2002 год...
Первое, что я бы советовал сделать по окончании установки – отказаться от предложения создать новую зону поиска и выбрать заранее созданную папку для хранения базы проиндексированных документов (Опции > Индекс > Папка индексных файлов). Дело в том, что по умолчанию «Ищейка» горит желанием немедленно проиндексировать указанные ей разделы, создав индексную базу в программном каталоге. При переустановке системы гораздо проще подсунуть «Ищейке» готовую базу индексации. В моем случае использовался логический диск F:, где я отключил поиск в каталогах с рисунками и файлами, поиск в которых не имеет смысла: время индексации в этом случае уменьшится. Затем «Ищейке» следует дать команду относительно файловых расширений для индексации. Обратите внимание, что изначально отключена индексация почтовых форматов EML и MSG, ZIP-архивов и некоторых других. В этом случае выбор форматов остается за «хозяином».
После этого «Ищейка» шустро просчитала индексируемые документы (число оных составило 15968 штук суммарным объемом 1,75 Гб), после чего немедля приступила к индексации, каковая продолжалась 24 минуты. Размер индексной базы составил 144 Мб. Обратите внимание на эти цифры: эти данные и будут, в числе прочих параметров, определять нашего поискового лидера.
Что же, проверим хваленый «ищейкин нюх»: в качестве жертвы выберем название цикла статей вашего покорного слуги – «Антивирусные записки». Вводим эти словеса в поле запроса, командуем программе «Ищи!» и почти мгновенно получаем результаты поиска: название и расположение документов с этим словосочетанием, дату и время создания опусов, а также исходный текст.
Усложним задачу, и «натравим» программу на поиск ID3-тэгов в MP3-файлах. В одном из каталогов хранился альбом «Аквариума» с русскими тэгами. Поиск по русским названиям композиций, равно как по имени «Борис Гребенщиков» не дал результата. В чем дело? Пробую ввести знакомые всем буквы «BG», после чего получаю массу ссылок на документы с чужой критикой в адрес Билла Гейтса и... единственной MP3-шкой, в тэге которой содержались искомые буквы. Действительно, Гребенщиков там и вправду повествовал об экзистенции, но тэги были выполнены латиницей! Стало быть, о поиске в русских тэгах можно забыть.
Еще один «садистский» метод удался на славу: решаю запросить поиск по вступлению к своей статье «Второе пришествие SPасителя» (см. ДК # 10 2004г.): три сотни печатных знаков. Увы, «Ищейка», поджав хвост, скорбно скулила, рапортуя о нулевом результате. Расширенный поиск также не привел к успеху. Вот вам и хваленое собачье чутье. Безусловно, «Ищейка Проф Deluxe» обладает и положительными качествами: создание неограниченного количества зон поиска (Менеджер зон поиска) и отсутствие лимита на число документов в одной зоне поиска; возможность обновления поисковых баз по расписанию и вручную; возможность создания «Избранных запросов» и «Популярных запросов», что обеспечивает высокую эффективность при работе с офисными документами. Но, главным плюсом, на мой взгляд, является крайний аскетизм в отношении системных ресурсов: «Ищейка» поедает всего-навсего 3 мегабайта оперативной памяти. Однако, на сайте разработчиков вы не найдете демо-версии «Ищейки Проф», не говоря уже о «Deluxe»-модификации. Может быть, способности человека лучше собачьего нюха? Посмотрим, что скажет бывалый искатель.
Система SearchInform легко интегрируется в информационную структуру предприятия, подключая различные источники данных, и имеет архитектуру клиент-сервер. Внедрение SearchInform не требует изменения существующих бизнес-процессов и позволяет максимально сохранить инвестиции компании, вложенные в существующую информационную инфраструктуру. В тоже время система позволяет объединить разрозненные корпоративные приложения и данные в единую информационную систему, что приводит к более эффективному решению бизнес-задач.
« предыдущая статья | Все статьи | следующая »
Благодаря такому подходу технологии СофтИнформ без проблем встраиваются поверх уже функционирующих на предприятии информационных систем и позволяют без перестройки всей информационной инфраструктуры предприятия решить проблемы консолидации и поиска информации и различных подсистем. Данная возможность позволяет крайне эффективно внедрить технологии СофтИнформ практически на любом крупном предприятии с минимальными затратами. Безусловно это потребует затрат гораздо больших чем внедрение коробочных решений от СофтИнформ, но и принесет намного больше пользы для предприятия – фактически это заказная разработка новой информационной системы предприятия которая интегрирует все себя все уже существующие на данном предприятии решения.
Компания Лоция Софт и СофтИнформ объявляют о начале специальной акции – «Снижение на 20% цен на ПО SearchInform Lotsia Edition». Акция продлится до 15 мая 2006 года.
Подробнее...
»
Большой рыночный потенциал заложен в технологии поиска, которая не зависит от языка. По словам Льва Матвеева, генерального директора "СофтИнформ" – «технология абсолютно независима от морфологии и в течение максимум двух недель настраивается на любой язык поиска».
iOne.ru
Подробнее...
» Вся пресса
|