Корректная работа с локальной сетью Информационная безопасность Поиск похожих документов Скорость индексации Разграничение прав доступа
 
 Домой   Заказать/Скачать   Продукты   Проекты   Наши Технологии   Сотрудничество   Пресса   О Компании   English 
SoftInform Search Technology - это Ваша власть над информацией.

SearchInform - Программа полнотекстового поиска - Быстрый поиск информации в большом объеме данных

Прямой поиск уже давно уступил дорогу поиску с предварительной индексацией. Простейшие фразовые запросы тоже остались в прошлом – в чести учет морфологии, синонимов, важных слов и прочих «опциональных атрибутов». На горизонте маячит «персонализированный поиск» от Google и полная интеграция программ-поисковиков с WWW. А уже сейчас фразовый поиск дополняется (или заменяется?) поиском документов похожих по содержанию и смыслу, что дает возможность сократить поисковую сессию до минимума и значительно упрощает сам процесс получения нужного пользователю результата.

» SoftInform Search Technology

» Поиск в корпоративной сети

» SearchInform Конкуренты

» Сегментация и анализ рынка

» SearchInform в Интернет

SearchInform в Интернет

1. Введение

2. Ограничения тестовой версии

3. Применение мини-поисковика SearchInform

3.1. Создание Интернет-поисковика

3.2. Тематический поиск

3.3. Пользовательский архив

3.4. RSS-агрегатор

3.5. Обработка новостей

3.6. Индексация блогов и форумов

1. Введение

Спектр применения SoftInform Search Technology довольно обширен. Это и настольные поисковые программы, и корпоративные системы поиска информации и возможность встраивания в системы документооборота. Еще одним из перспективных путей развития является использование данной технологии в разработке интернет-решений, в частности поисковой системы для Интернета, системы тематического поиска, RRS-агрегатора и так далее.

2. Ограничения тестовой версии

Создание поисковой системы SearchInform в том виде, в котором вы можете его видеть сейчас, заняло немногом более двух дней. Основная задача данной разработки – это только примерный тестовый показ возможностей технологии поиска СофтИнформ.

Как реально работающий ресурс эту поисковую Интернет-оболочку рассматривать нельзя, так как ряд присущих поисковикам функций работают далеко не оптимально, а ряд отсутствует вообще:

- результаты поиска не содержатся в кэше, каждый раз при переходе по страницам поиск проводится заново (что, несомненно, замедляет работу)
- спайдер для поиска и индексации новых ресурсов как таковой не писался. Информация, проиндексированная данным поисковиком статична
- при обработке запросов не используется многопроцессорность сервера (загружен только один процессор)
- при поиске похожих документов анализируется не отдельный фрагмент на странице, а вся страница, что несколько сглаживает положительный эффект при использовании данной функции
- не поддерживается авторубрикация (проблема с IE)

Все перечисленные (и множество не перечисленных) недоработок обуславливается постановкой задачи при создании альфа-версии поисковой системы. Показ возможностей технологии и создание конкурентоспособного проекта в Интернет – разные вещи. На данный момент поисковая система – тест технологии. Но не исключено, что при наличии достаточного количества инвестиций мы сможем создать версию поисковика, отвечающего всем требованиям и готового к широкому использованию.

3. Применение мини-поисковика SearchInform

3.1. Создание Интернет-поисковика

При наличии определенных инвестиций доработка (или разработка с нуля) готового проекта информационно-поисковой системы для Интернета вполне реальна. Чтобы проиндексировать достаточное количество информации (html без картинок) нам хватит 10 компьютеров и несколько суток реального времени (реальная скорость индексации при канале 100 гигабайт в час составит около 60-80 гигабайт). Дальнейшая оптимизация включает в себя разработку «спайдера» для индексации и доработка алгоритма запросов для использования всех процессоров сервера. Таким образом, за довольно короткий срок можно организовать уже beta-версию поисковой системы и разрешить доступ к нему пользователям. При дальнейшем функционировании проиндексированная информационная база будет пополняться изо дня в день. Повод «яндексовцам» задуматься.

3.2. Тематический поиск

На данный момент компанией СофтИнформ уже ведутся разработки системы тематического поиска информации для нескольких авторитетных онлайн СМИ. Она включает в себя инструменты индексации, поиска и классификации как уже размещенной на ресурсах определенной тематики (например, компьютерные игры) информации, так и незамедлительной обработки новых данных. Удобство данного метода состоит в использовании функции поиска документов похожих на текст запроса. Первоначально в поисковую систему вносится определенный (известный пользователю) набор ресурсов для индексирования. В дальнейшем, система тематического поиска работает с поисковой машиной Google, индексируя страницы из результатов поиска, соответствующие набору ключевых слов по заданной тематике. По все возрастающему списку индексируемых ресурсов в определенный интервал проводится переиндексация. Это позволяет нашей поисковой системе реагировать на изменения контента ресурсов намного быстрее, чем тому же Google, индексная база которого не узко специализирована и индексирует новые ресурсы медленно. В результате, пользователь тематической системы поиска всегда будет в курсе самых свежих изменений на сайтах, включенных в его индексную базу.

Поиск по определенной тематике позволит выводить в результирующем списке только информацию по заданной тематике, с автоматической разбивкой ее на подрубрики. Индексация для конкретной задачи только ресурсов со схожей тематикой, мониторинг их в реальном времени специально разработанным «спайдером» и уникальный поиск похожих позволят пользователям получать свежую отрубрицированную информацию по той тематике, которая их интересует.

3.3. Пользовательский архив

Это возможность для каждого пользователя создать свой индекс информации на сервере для последующего поиска. Предполагает сохранение на нашем сервере веб-страниц с последующим доступом к ним по уникальному логину и паролю. Закачка собственных файлов со своего компьютера или из Интернет также поддерживается. При входе в поисковую систему пользователь получит доступ к своему личному индексу.

Дополнить данную функцию можно, во-первых, работой с подборками и списками веб-страниц, добавлением и удалением каких-либо элементов в списке. Во-вторых, добавлением функции авторубрикации документов, поступающих в архив. В-третьих, рядом дополнительных удобств: определение статуса веб-страниц (просмотрено - не просмотрено), возможность отсылки информации друзьям и так далее.

3.4. RSS-агрегатор

Сервис скачивания с различных ресурсов RSS-новостей, их индексация и предоставление пользователям удобного движка глобального RSS-ресурса. Плюс данной перспективной разработки заключается опять же в использовании функциях поиска похожих по содержанию документов и авторубрикации, которые позволят создавать различные подборки RSS-новостей в общем по тематикам и в частности для каждого отдельного пользователя.

3.5. Обработка новостей

На сегодняшний день люди все больше и больше внимания уделяют обработке информации и в том числе новостей. Но среди огромного потока новостей далеко не все являются интересными. Просмотр же к примеру 500 новостей в день вместо 5-10 интересных это слишком расточительно. И как следствие этого человек видя много новостей просто их игнорирует.

На базе технологии поиска похожих построена технология авторубрикации документов. Пользователь привязывает например первую тысячу документов вручную, помечая какие документы ему интересны. Далее при попадании в поисковую систему новой информации система будет сама определять к какой рубрике привязать новые документы и какие из них человеку интересны и показывать прежде всего интересные для пользователя новости. Те документы которые привязаны системой помечаются специальным образом и далее при просмотре пользователь если согласен с тем что сделал система, то жмет кнопочку “одобрить” Таким образом данная система самообучаемая и позволит пользователю сэкономить много времени.

3.6. Индексация блогов и форумов

Ряд крупных фирм все больше и больше уделяет внимания отслеживанию мнения потенциальных клиентов. На сегодняшний день очень популярны блоги и форумы, но отследить всю информацию которая на них появляется с помощью того же google не всегда возможно хотя бы из-за того что google выдает только первую 1000 результатов по ключевому слову и вполне возможно что форум или блог туда и не попадет.

  
   Пресс-центр
Компания Лоция Софт и СофтИнформ объявляют о начале специальной акции – «Снижение на 20% цен на ПО SearchInform Lotsia Edition». Акция продлится до 15 мая 2006 года. Подробнее...
» Все новости


Большой рыночный потенциал заложен в технологии поиска, которая не зависит от языка. По словам Льва Матвеева, генерального директора "СофтИнформ" – «технология абсолютно независима от морфологии и в течение максимум двух недель настраивается на любой язык поиска». iOne.ru   Подробнее...
» Вся пресса
   Информационные материалы
Пример работы с программой SearchInform и демонстрация возможностей технологии SoftInform Search Technology.
» Скачать демо-ролик...(3,2 Мб)

Проблемы поиска информации в крупных информационных системах и решение этих проблем при помощи технологии полнотекстового поиска компании СофтИнформ.
» Скачать презентацию...(1,1 Мб)
   Награды
Награда Best Soft 2005 от PCMagazine
Top rated at BrotherSoft.com
Высшая награда от BrotherSoft.com
Top rated at BrotherSoft.com

Смотреть все награды...
   Партнерская программа
Мы приглашаем Вас присоединиться к нашей партнерской программе. Начните сотрудничать с нами и вы будете получать вознаграждение от каждой проданной с вашей помощью копии SearchInform. Для присоединения к нашей партнерской программе заполните форму.
stretcher