Корректная работа с локальной сетью Информационная безопасность Поиск похожих документов Скорость индексации Разграничение прав доступа
 
 Домой   Заказать/Скачать   Продукты   Проекты   Наши Технологии   Сотрудничество   Пресса   О Компании   English 
SoftInform Search Technology - это Ваша власть над информацией.

Тесты скорости работы прикладного ПО на основе SoftInform Search Technology

SearchInform - Программа полнотекстового поиска - Быстрый поиск информации в большом объеме данных

Прямой поиск уже давно уступил дорогу поиску с предварительной индексацией. Простейшие фразовые запросы тоже остались в прошлом – в чести учет морфологии, синонимов, важных слов и прочих «опциональных атрибутов». На горизонте маячит «персонализированный поиск» от Google и полная интеграция программ-поисковиков с WWW. А уже сейчас фразовый поиск дополняется (или заменяется?) поиском документов похожих по содержанию и смыслу, что дает возможность сократить поисковую сессию до минимума и значительно упрощает сам процесс получения нужного пользователю результата.

Введение

Для того чтобы отобразить все аспекты работы с программой полнотекстового поиска были проведены тесты на различные виды данных и различного объема. Наиболее распространенные форматы данных: TXT, HTML, DOC, RTF, PDF

Причем наиболее корректными с точки зрения работы поисковой технологии являются тесты простых форматов, так как в промышленном применении данные хранятся уже в какой-либо СУБД или хранилище данных и в поисковую систему эти данные уже попадают в виде чистого текста.

В результатах тестов – время индексации и размер индекса. Следует отметить что у SearchInform индекс при создании занимает около 50 Мб, поэтому при малом объеме тестовых данных индекс SearchInform получается приличного размера. На даных большого объема дополнительные 50 мегабайт практически не заметны.

Для проведения тестов был выбран компьютер средней производительности. Конфигурация тестового компьютера: CPU AMD Athlon 2,2 ГГц, RAM 2 Гб DDR400, HDD два IDE винчестера на 160 Гб (данные на одном HDD, индекс создавался на другом).

Описания баз для индексации

Для тестирования скорости индексирования информации и скорости поиска нами было выбрано несколько информационных баз разного размера и содержащих документы различных форматов. Базы идут по нарастающей: в каждую базу большего размера входит база размера меньшего. Например, в базу «21.85» входит база «11.1» и так далее по возрастающей.

Примечание: названия баз решено было выбрать по размеру информации в гигабайтах.

Базы «11.1», «21.85», «41.17», «83.22» – это англоязычные патенты в формате HTML. Документы физически хранятся в архивных файлах формата ZIP по 5000 – 10000 файлов в одном архиве.
База «132.26» кроме патентов в HTML на «83.22» Гб также содержит информацию из тестовых баз  форматов (DOC, RTF, PDF) и тексты «10.7».

Тесты скорости индексирования

Таблица 1

Тестовая база

«11.1»

«21.85»

«41.17»

«83.22»

«132.26»

Размер документов

11.1 Гб

21.85 Гб

41.17 Гб

83.22 Гб

132.26 Гб

Всего документов

319 695

619 018

1 118 513

1 993 149

2 888 202

Уникальных слов

2 527 473

4 016 495

6 157 339

11 276 270

18 912 257

Размер чистого текста

7.92 Гб

15.5 Гб

28.97 Гб

59.42 Гб

77.57 Гб

Размер индекса

1.76 Гб

3.29 Гб

6.03 Гб

12.12 Гб

16.29 Гб

Время индексации

30 мин 36 сек

59 мин 30 сек

1 час 53 мин

3 часа 56 мин 15 секунд

6 часов 06 минут

В среднем Гб в час

21.76

21.99

21.72

21.14

21.68

Таблица 2

 

«10.7»

DOC

RTF

PDF

Размер документов

10.7 Гб

1,9 Гб

325 Мб

5,39 Гб

Всего документов

48 222

7 791

769

526

Уникальных слов

4 408 347

439 354

220 262

942 295

Размер чистого текста

9.88 Гб

179 Мб

33,27 Мб

126 Мб

Размер индекса

2.06 Гб

118 Мб

86,91

160

Время индексации

32 минуты

1:34 минут

29 секунд

12:05 минут

В среднем Гб/час

20.06

72.7

39.4

26.8

Тесты показали, что по показателям скорости индексирования SearchInform примерно в 3-4 раза быстрее аналогичных разработок. Показатели тестировавшихся конкурирующих системы мы в данном документе не приводим, но если вы желаете ознакомиться с результатами, то по вашему запросу на адрес support@searchinform.com наши специалисты предоставят вам всю требуемую информацию. 

Тесты скорости поиска

Методика тестирования

Специальной программой (PhraseGen) из базы документов на диске (форматы HTML и DOC) формируется файл следующего формата:

N = A B C D etc.
Где A, B, C, D – слова в выбранной (случайным образом) фразе из различных документов
Где N – количество «мусорных слов» между словами во фразе

Данный формат воспринимается специальным тестовым модулем к системе SearchInform, который становится доступен в программе после запуска ее с ключом /debug. Далее в соответствующем меню (Debug) были заданы условия тестирования и выполнено два вида теста: по словам и по фразе.

Тестирование проводилось с использованием морфологии и заданным количеством результатов в 20 000. Количество запросов равно 1 000. Проводилось два вида тестов: по высокочастотным и низкочастотным словам.

Результаты тестов поиска по словам

Так как в реально работающей системе индекс уже используется и его первоначальная обработка уже не требует временных затрат, то для приближения теста к реальным условиям сначала выполнялся поиск по низкочастотным и высокочастотным словам без создания отчета, а уже потом проводился непосредственно тест.

Результаты скорости поиска (время затраченное на обработку 1 000 запросов) представлены ниже:

База

Низкочастотные слова 

Высокочастотные слова

«11.1»

97,875 секунд

99,484 секунд

«21.85»

149,516 секунд

147,828 секунд

«41.17»

238,844 секунд

246,922 секунд

«83.22»

365,5 секунд

313,687 секунд

«132.26»

508,062 секунд

341,797 секунд

Архив с результатами скорости поиска по словам


Фактически, результаты теста показали, что поиск по высокочастотным словам в данном случае (поиска только по словам) быстрее чем по низкочастотным. Также, стоит отметить, что по мере роста объема базы скорость поиска замедляется не пропорционально. 

Результаты тестов поиска по фразам с расстоянием

База

Низкочастотные слова 

Высокочастотные слова

«11.1»

444,734

591,297

«21.85»

765,515

1 028,406

«41.17»

1 282,219

1 847,375

«83.22»

2 270,047

3 627,172

«132.26»

2 697,906

3 865,531

Архив с результатами скорости поиска по фразам с расстоянием


В данном случае (поиск по фразе) скорость поиска по высокочастотным словам примерно в 1,5 раза медленней, чем по низкочастотным. Скорость также снижается не пропорционально росту размера информации в базе, а значительно медленней.

  
   Пресс-центр
Компания Лоция Софт и СофтИнформ объявляют о начале специальной акции – «Снижение на 20% цен на ПО SearchInform Lotsia Edition». Акция продлится до 15 мая 2006 года. Подробнее...
» Все новости


Большой рыночный потенциал заложен в технологии поиска, которая не зависит от языка. По словам Льва Матвеева, генерального директора "СофтИнформ" – «технология абсолютно независима от морфологии и в течение максимум двух недель настраивается на любой язык поиска». iOne.ru   Подробнее...
» Вся пресса
   Информационные материалы
Пример работы с программой SearchInform и демонстрация возможностей технологии SoftInform Search Technology.
» Скачать демо-ролик...(3,2 Мб)

Проблемы поиска информации в крупных информационных системах и решение этих проблем при помощи технологии полнотекстового поиска компании СофтИнформ.
» Скачать презентацию...(1,1 Мб)
   Награды
Награда Best Soft 2005 от PCMagazine
Top rated at BrotherSoft.com
Высшая награда от BrotherSoft.com
Top rated at BrotherSoft.com

Смотреть все награды...
   Партнерская программа
Мы приглашаем Вас присоединиться к нашей партнерской программе. Начните сотрудничать с нами и вы будете получать вознаграждение от каждой проданной с вашей помощью копии SearchInform. Для присоединения к нашей партнерской программе заполните форму.
stretcher