Поиск в условиях файлопомоек

Любые разговоры которые хоть как-то связаны с тематикой форума

Модератор: Модераторы разделов

Аватара пользователя
Samae1L
Сообщения: 301
ОС: Gentoo x86_64

Поиск в условиях файлопомоек

Сообщение Samae1L »

Намедни решил, наконец, включить кдешный Nepomuk и посмотреть, что за цяця. Да, тэги и комментарии - это действительно удобно, однако, на мой взгляд, это полумеры. При такой системе необходимым условием эффективного поиска становится предварительное комментирование файлов, а лично у меня только всевозможных фотографий и картинок около миллиона, и протэгировать их всех не представляется возможным. И тут я придумал (а может, не придумал, а вспомнил): ведь можно сделать такую систему, которая будет анализировать внутреннее содержимое файла и сравнивать его с запросом человека. К примеру, нужно вам найти картинку лежащей собаки чёрного цвета - вы в поле графического поиска рисуете чёрным цветом некое подобие лежащей собаки и система поиска сравнивает ваш опус с имеющимися файлами и выдаёт схожие. Так же с музыкой - вы напеваете своим гнусавым фальцетом: "Я на тебе, как на войне", и система поиска выдаёт вам песню Агаты Кристи и, может быть, "Комбата" Любэ -))
Интересно мнение экспертов - возможно ли технически осуществить это? Как мне кажется (хоть я и не программист ни разу), основной затык будет с кучей различных форматов, ведь одна и та же картинка в форматах jpg и png будет выглядеть совершенно по-разному для компьютера, нет?
Всего лишь проекция ненужного маленького человечка, влачащая бессмысленное существование в Сети.
Спасибо сказали:
watashiwa_daredeska
Бывший модератор
Сообщения: 4038
Статус: Искусственный интеллект (pre-alpha)
ОС: Debian GNU/Linux

Re: Поиск в условиях файлопомоек

Сообщение watashiwa_daredeska »

Samae1L писал(а):
29.09.2009 17:48
вы в поле графического поиска рисуете чёрным цветом некое подобие лежащей собаки и система поиска сравнивает ваш опус с имеющимися файлами и выдаёт схожие.
Если в вашей коллекции нет фото крокодилов, получите пустой ответ :)

Samae1L писал(а):
29.09.2009 17:48
вы напеваете своим гнусавым фальцетом: "Я на тебе, как на войне", и система поиска выдаёт вам песню Агаты Кристи и, может быть, "Комбата" Любэ -))
«концертную» запись караоке на вечеринке в общаге в комнате Бутусова с Шевчуком.


Samae1L писал(а):
29.09.2009 17:48
возможно ли технически осуществить это?
Практически невозможно. Обучение на каждую отдельную сущность — целая научная работа. Выделение лиц (человеческих) только-только сделали, и то подглючивает.

Есть human computations, но локальным файлопомойкам такое не светит.
Спасибо сказали:
Аватара пользователя
broom
Бывший модератор
Сообщения: 1629
Статус: мизантроп.ка
ОС: Gentoo

Re: Поиск в условиях файлопомоек

Сообщение broom »

В Digikam есть "поиск по наброску".
Вот в действии:
http://www.linux.org.ru/view-message.jsp?m...d=1241477359151
http://aceler.livejournal.com/689589.html
:)
but in the darkness, behind your smile, you scream... © Dio
Спасибо сказали:
Аватара пользователя
Samae1L
Сообщения: 301
ОС: Gentoo x86_64

Re: Поиск в условиях файлопомоек

Сообщение Samae1L »

broom писал(а):
29.09.2009 18:16
В Digikam есть "поиск по наброску".
Вот в действии:
http://www.linux.org.ru/view-message.jsp?m...d=1241477359151
http://aceler.livejournal.com/689589.html
:)


о, щас поставлю на посмотреть
Всего лишь проекция ненужного маленького человечка, влачащая бессмысленное существование в Сети.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Поиск в условиях файлопомоек

Сообщение drBatty »

Samae1L писал(а):
29.09.2009 17:48
К примеру, нужно вам найти картинку лежащей собаки чёрного цвета - вы в поле графического поиска рисуете чёрным цветом некое подобие лежащей собаки и система поиска сравнивает ваш опус с имеющимися файлами и выдаёт схожие.

эх... если-бы...
не получается что-то, неизвестно с какой стороны подступиться, уже отовсюду тыкались, а результат - 0.
Samae1L писал(а):
29.09.2009 17:48
ведь одна и та же картинка в форматах jpg и png будет выглядеть совершенно по-разному для компьютера, нет?

это мелочь. Команда file расскажет формат, команда convert преведёт формат в ваш любимый. А вот как сделать соответствие "собака" == sobaka.jpg этого пока никто не знает. Кстати, а как узнать, что ближе

Код: Выделить всё

собака ?= кошка
собака ?= алгебра
?
Видите, даже с простым текстом проблемы...

PS: кстати, команда file лишняя, она входит в convert.
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
Samae1L
Сообщения: 301
ОС: Gentoo x86_64

Re: Поиск в условиях файлопомоек

Сообщение Samae1L »

drBatty писал(а):
29.09.2009 20:04
эх... если-бы...
не получается что-то, неизвестно с какой стороны подступиться, уже отовсюду тыкались, а результат - 0.


drBatty писал(а):
29.09.2009 20:04
это мелочь. Команда file расскажет формат, команда convert преведёт формат в ваш любимый


ну смотрите, пользователь накалякал набросок, система поиска переводит его в некоторый унифицированный формат и ищет похожую последовательность символов в заранее созданной индексной базе, использующей такой же унифицированный формат

drBatty писал(а):
29.09.2009 20:04
А вот как сделать соответствие "собака" == sobaka.jpg этого пока никто не знает.


а зачем? я думаю, давно пора абстрагироваться от имён файлов и путей в ФС
---------------------------------------------------------------------------------------------------------
кстати, в Digikam я так и не нашёл поиска по эскизам почему-то. Версия 0.10
Всего лишь проекция ненужного маленького человечка, влачащая бессмысленное существование в Сети.
Спасибо сказали:
Аватара пользователя
Janik
Сообщения: 866
Статус: Оператор вычислительных машин
ОС: Debian

Re: Поиск в условиях файлопомоек

Сообщение Janik »

Samae1L, эх Вы фантазёр! :) Предлагаю написать имитатор человеческого моска, чтоб полностью имитировал работу. Только его надо обучить и эта программка потребует ооочень больших ресурсов! :)
Кто ищет, тот всегда найдет!
Опыт - это когда все получается с первого раза.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Поиск в условиях файлопомоек

Сообщение drBatty »

Samae1L писал(а):
29.09.2009 20:17
а зачем? я думаю, давно пора абстрагироваться от имён файлов и путей в ФС

я не про пути. я про аналогии: для вас "собака", и картинка с собакой - похожи. для компьютера это совершенно разные вещи, и дело не в форматах и путях.
Samae1L писал(а):
29.09.2009 20:17
ну смотрите, пользователь накалякал набросок, система поиска переводит его в некоторый унифицированный формат и ищет похожую последовательность символов в заранее созданной индексной базе, использующей такой же унифицированный формат

это фантазии. куда и как переводить? дайте мне общий знаменатель.
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
Portnov
Модератор
Сообщения: 1786
Статус: Матёрый линуксоид
ОС: Debian testing/unstable

Re: Поиск в условиях файлопомоек

Сообщение Portnov »

Распознавание образов с 50-х годов ХХ века продвинулось вперёд только в том смысле, что кучу диссеров по нему защитили. Со стороны потребителя - никак не продвинулось, почти (файнридер - практически единственный большой успешный проект в этой области). У таких систем проблемы с обучением, проблемы со стабильностью...
Работа: Ubuntu 9.10
Дом: Debian testing/unstable и на всякий случай winxp в virtualbox.
Для разнообразия: моя домашняя страница -http://iportnov.ru
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Поиск в условиях файлопомоек

Сообщение drBatty »

Portnov писал(а):
29.09.2009 22:20
файнридер - практически единственный большой успешный проект в этой области

он успешный разве что с коммерческой т.з., с т.з. пользователя обычно легче самому набрать, чем вчитываться. :(
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
MMouXe
Сообщения: 252

Re: Поиск в условиях файлопомоек

Сообщение MMouXe »

Ну вы и раскатали губу. Это же надо впихнуть системы: распознавания текста, графики, речи в один комбайн, который будет весить дофига и столько же будет есть ресурсов. Да и системы эти не шибко-то и развиты на данный момент.
Спасибо сказали:
Аватара пользователя
Samae1L
Сообщения: 301
ОС: Gentoo x86_64

Re: Поиск в условиях файлопомоек

Сообщение Samae1L »

drBatty писал(а):
29.09.2009 21:35
я не про пути. я про аналогии: для вас "собака", и картинка с собакой - похожи. для компьютера это совершенно разные вещи, и дело не в форматах и путях.


а зачем системе знать, что такое "собака"? я же не говорю про поиск картинок по текстовым запросам. Нужно лишь сравнение картинок и ничего больше

drBatty писал(а):
29.09.2009 21:35
это фантазии. куда и как переводить? дайте мне общий знаменатель.


ну к примеру: выбрать ключевым форматом png и при поиске на лету конвертировать остальные форматы в png, после чего - поиск запрошенной последовательности данных, эскиза то есть. Я не кодер, мне рассуждать тяжело на эту тему
Всего лишь проекция ненужного маленького человечка, влачащая бессмысленное существование в Сети.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Поиск в условиях файлопомоек

Сообщение drBatty »

Samae1L писал(а):
30.09.2009 16:05
я же не говорю про поиск картинок по текстовым запросам. Нужно лишь сравнение картинок и ничего больше

Samae1L писал(а):
30.09.2009 16:05
ну к примеру: выбрать ключевым форматом png и при поиске на лету конвертировать остальные форматы в png, после чего - поиск запрошенной последовательности данных, эскиза то есть. Я не кодер, мне рассуждать тяжело на эту тему

а я кроме сравнения текста ничего не умею. потому надо перевести картинки в какой-нибудь "текст", который можно сравнивать. "текст" == последовательность байтов(или других символов другого алфавита). то, что лежит в png сравнивать не имеет смысла. и ещё - картинка двух мерная, текст одномерный, как развернуть картинку?
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали: