26.06.2007г.
В Xerox создан поисковик, знающий грамматику
Новая поисковая машина FactSpotter, разработанная в лаборатории семантического анализа компании Xerox, пытается понять смысл документов с помощью анализа грамматических характеристик текста, передает InfoWorld.
В частности, анализ грамматики позволяет программе понять, используется ли слово в качестве существительного или глагола, и на что указывает местоимение. Или что ссылки на "Билл Гейтс", "он" и "глава Microsoft" в документе относятся к одному и тому же лицу, а в "Билл Гейтс говорит ..." и "друг Билла Гейтс говорит ..." речь идет о разных субъектах. Обычные алгоритмы поиска с использованием ключевых слов дают в таких случаях нерелевантные результаты.
Одна из первых групп, которая намерена уже в следующем году использовать FactSpotter - это служба претензий Xerox. На этапе исследования иска, когда юристам часто приходится перебирать миллионы сообщений электронной почты и других документов, программу можно будет использовать для определения отправителя и получателя сообщений, и получать информацию о мероприятиях и их сроках. Это в особенности может быть полезно для формирования картинки: кто, что и когда знал, - в целях создания прочной правовой позиции в споре.
Как ожидается, FactSpotter позволит существенно улучшить качество отбора информации из большого объема текстов. В основу ее работы положен специальный метаязык, описывающий особенности грамматики разных человеческих языков. Уже созданы описания грамматик в голландском, английском, французском, немецком, итальянском, португальском и испанском языках. Совместная Fujitsu-Xerox исследовательская группа также использовала ее для описания японской грамматики, показав, что FactSpotter может применяться для языков, использующих другие системы письменности.
Основная программа написана на языке С, но исследователи готовят также дополнительные модули на Java и Python, благодаря которым FactSpotter сможет взаимодействовать с другими приложениями. В частности, она может быть интегрирована с программами распознавания речи для организации поиска в архивах радио- и телевизионных передач, и компания уже вовлечена в подобные совместные проекты, говорит Фредерик Сегонд, руководитель Xerox Research Center Europe.
Это не единственная высокотехнологическая разработка Xerox в области интернет-семантики. Недавно "Вебпланета" рассказывала, что компания получила патент на таргетинг, основанный на анализе списка просмотренных пользователем веб-страниц.
Источник: Вебпланета
При перепечатке материала ссылка на innov.ru обязательна
Все новости рубрики