Когда сделаете такую с качеством результатов, сравнимым с гуглом, яндексом и бингом, дайте знать.
Уже есть, рутрекер называется

Модератор: Модераторы разделов
Когда сделаете такую с качеством результатов, сравнимым с гуглом, яндексом и бингом, дайте знать.
Всего одна проблема? Как просто-то. А я и не знал.
У гугла кластера с толстыми каналами и нодами с известной надежностью. Если Вы думаете, что это то же самое, что куча географически разбросанных машин со слабыми каналами, малым объемом дискового пространства, которые могут в любой момент с высокой вероятностью выключиться на неопределенное время или потерять все данные, то что ж, вперед — флаг Вам в руки, барабан на шею и паровоз навстречу.
Ism писал(а): ↑24.05.2012 21:37Нет , с точки зрения строения мозга интернет сейчас страдает тяжелой шизофренией (раздвоением личности). Гугл, микрософт, apple и другие пытаются обособить узлы в свою экостстему, что только разрушает интернет. А всегото надо сделать распределенную поисковую систему по принципу торрентов , но , правда это означает гибель нынешних поисковых систем , они будут биться до последнего
watashiwa_darede... писал(а): ↑25.05.2012 02:46Если Вы думаете, что это то же самое, что куча географически разбросанных машин со слабыми каналами, малым объемом дискового пространства, которые могут в любой момент с высокой вероятностью выключиться на неопределенное время или потерять все данные, то что ж, вперед — флаг Вам в руки, барабан на шею и паровоз навстречу.
Не смешно. Вы еще скажите, что grep работает, и это то же самое, что гугл, только на одной машине.
watashiwa_darede... писал(а): ↑25.05.2012 10:24Не смешно. Вы еще скажите, что grep работает, и это то же самое, что гугл, только на одной машине.
А, ну да, ведь гугл — просто весь интернет выкачал и поиск родился сам собой от жары, влажности и плесени в датацентрах.
watashiwa_darede... писал(а): ↑25.05.2012 11:37А, ну да, ведь гугл — просто весь интернет выкачал и поиск родился сам собой от жары, влажности и плесени в датацентрах.
Речь пошла о вполне конкретной вещи — поиске. Kademlia ни в коем разе не является заменой существующим коммерческим «классическим» поисковым системам. В существующих сетях Kademlia нельзя искать по содержимому файлов, только по именам. И это пока не масштабируется.
Более того, Kademlia — это даже не сеть, это некий алгоритм. Реализаций существует несколько — у torrent своя, у edonkey своя.Filename searches are implemented using keywords. The filename is divided into its constituent words. Each of these keywords is hashed and stored in the network, together with the corresponding filename and file hash. A search involves choosing one of the keywords, contacting the node with an ID closest to that keyword hash, and retrieving the list of filenames that contain the keyword. Since every filename in the list has its hash attached, the chosen file can then be obtained in the normal way.
Простите, но это не я влез с гуглом в обсуждение Kademlia, а ровно наоборот. Так что эту претензию не Вы мне должны предъявлять, а ровно наоборот.
watashiwa_darede... писал(а): ↑25.05.2012 11:57Речь пошла о вполне конкретной вещи — поиске. Kademlia ни в коем разе не является заменой существующим коммерческим «классическим» поисковым системам. В существующих сетях Kademlia нельзя искать по содержимому файлов, только по именам. И это пока не масштабируется.
watashiwa_darede... писал(а): ↑25.05.2012 11:57Более того, Kademlia — это даже не сеть, это некий алгоритм. Реализаций существует несколько — у torrent своя, у edonkey своя.
watashiwa_darede... писал(а): ↑25.05.2012 11:57странно сравнивать коммерческую организацию Google с Kademlia.
Простите, но это не я влез с гуглом в обсуждение Kademlia, а ровно наоборот. Так что эту претензию не Вы мне должны предъявлять, а ровно наоборот.
Неправда. Пропускная способность канала — это совсем не то же самое, что задержка. Они даже связаны не очень-то прямой зависимостью. Kedemlia предполагает при поиске установление большого количества соединений с разными нодами. По очереди. Поэтому поиск в eDonkey идет несколько секунд. По сравнению с долями секунды у классических поисковиков это вечность. По статистике большинство пользователей не готовы ждать более 4 сек.
Вы хоть прочитайте алгоритм и попробуйте его осмыслить. Вывернуть его ничто не мешает, но объем передаваемых данных при поиске в Kademlia это O(n), где n — это объем данных. Сравните объем данных «1.5G имен файлов» и «весь текст в интернетах». А теперь прикиньте, какой объем получится при поиске по контенту всех файлов в интернете.
Не Kademlia, а Kad — одна из реализаций.
Ok. Ошибся.
BitTorrent Uses a DHT based on an implementation of the Kademlia algorithm, for trackerless torrents.
http://en.wikipedia.org/wiki/Kademlia#Networks
watashiwa_darede... писал(а): ↑25.05.2012 14:24Неправда. Пропускная способность канала — это совсем не то же самое, что задержка. Они даже связаны не очень-то прямой зависимостью.
watashiwa_darede... писал(а): ↑25.05.2012 14:24Kedemlia предполагает при поиске установление большого количества соединений с разными нодами. По очереди.
watashiwa_darede... писал(а): ↑25.05.2012 14:24Поэтому поиск в eDonkey идет несколько секунд. По сравнению с долями секунды у классических поисковиков это вечность. По статистике большинство пользователей не готовы ждать более 4 сек.
watashiwa_darede... писал(а): ↑25.05.2012 14:24Вы хоть прочитайте алгоритм и попробуйте его осмыслить. Вывернуть его ничто не мешает, но объем передаваемых данных при поиске в Kademlia это O(n), где n — это объем данных. Сравните объем данных «1.5G имен файлов» и «весь текст в интернетах». А теперь прикиньте, какой объем получится при поиске по контенту всех файлов в интернете.
Понимаете ли, мне не интересно по слову «kademlia» найти слово «kademlia». Мне интересно найти полезный документ про «kademlia». Так что,
«ха» гугол раз. И нафига гуглу столько серверов? Слов-то не много. Да блин, при том количестве слов, которые есть, весь интернет на пару винчестеров из ближайшего магазина влезет.
Писателям, вон, лень документацию к редактору почитать, а уж описывать свои творения в структурированном виде они могут даже под дулом пистолета отказаться.
А еще законодательно установленная смертная казнь для спамеров и технические средства их отслеживания на всей территории планеты. Ой… это же слежка за пользователями.
watashiwa_darede... писал(а): ↑25.05.2012 15:31Понимаете ли, мне не интересно по слову «kademlia» найти слово «kademlia». Мне интересно найти полезный документ про «kademlia». Так что,
watashiwa_darede... писал(а): ↑25.05.2012 15:31«ха» гугол раз. И нафига гуглу столько серверов? Слов-то не много. Да блин, при том количестве слов, которые есть, весь интернет на пару винчестеров из ближайшего магазина влезет.
watashiwa_darede... писал(а): ↑25.05.2012 14:33http://en.wikipedia.org/wiki/Kademlia#Networks
Не Kademlia, а Kad — одна из реализаций.
watashiwa_darede... писал(а): ↑25.05.2012 14:33BitTorrent Uses a DHT based on an implementation of the Kademlia algorithm, for trackerless torrents.
не надо на зеркало пенять, коли рожа крива. Большинство инфы в Сети - мусор. Большинство сайтов и файлов - порнография. Что вы хотите от поисковика?
Для порно.
Я что-то не вижу поисковой системы на Kademlia IRL.
Отлично. Опишите алгоритм поиска документа в Kademlia. Подробно, по шагам. Кто куда что посылает, что получает в ответ. Чтобы был предмет обсуждения.
Вот когда появится внятная информация на человеческом языке или работающая реализация поиска, тогда и поговорим.
watashiwa_darede... писал(а): ↑25.05.2012 20:12Отлично. Опишите алгоритм поиска документа в Kademlia. Подробно, по шагам. Кто куда что посылает, что получает в ответ. Чтобы был предмет обсуждения.
watashiwa_darede... писал(а): ↑25.05.2012 20:12Вы как-то забываете, что к моменту появления гугла уже вполне существовали «grep'ы всея интернета» и то, что сделало гугл настолько популярным, совершенно не относится к «найти страницу, на которой есть слова А и Б». А за время существования гугла интернет настолько изменился, что алгоритм, изобретенный гуглом, уже не работает.
watashiwa_darede... писал(а): ↑25.05.2012 20:12И Kademlia ну совершенно никаким боком не относится к решению той проблемы, которую решает сейчас гугл.
Это никакой не алгоритм. Это мутный поток слов, из которого невозможно понять, сколько запросов реально шлется по сети, какого объема и в каком порядке.drBatty писал(а): ↑25.05.2012 21:06Ладно, повторю:
1. вычисляется хеш ключевого слова (если ищем по имени)
2. отправляется запрос одной (или нескольким) ближайшим (по метрике) нодам, они транслируют запрос далее, пока не упрутся в ту ноду, которая знает про этот файл(ы). Последняя нода(ы) отдаёт список источников, которые заинтересованны в данном файле(ах).
А этого в Вашем описании алгоритма вообще нет.
Запросы? Встретились? Где они должны встречаться? Или не должны?
Число единиц в сумме по модулю 2 всегда либо 0, либо 1. Это факт.
Когда он сможет найти http://superpeer1.das2.ewi.tudelft.nl/trac...ts/Kademlia.pdf по запросу «Kademlia: A Peer-to-peer Information System Based on the XOR Metric», тогда и понаблюдаю. Пока же, это УГ для порно и онеме.
Да ладно, какая там махина-то? Вы уже почти на коленке собрали поисковик. У них там всё проще.
Это не описание, а чушь. Аналогичное описание для алгоритма сортировки выглядело бы так:
Оба утверждения неправильны применительно к алгоритму, опубликованному под именем Kademlia. Разговаривать не о чем. То, что Вы говорите, к Kademlia отношения не имеет, а сформулировать свой алгоритм Вы или не хотите, или не можете.
Не хочу. Я хочу услышать алгоритм, чтобы можно было сделать теоретические оценки сложности поиска в той системе p2p, которую вы предлагаете.
Это никакой не алгоритм.
watashiwa_darede... писал(а): ↑26.05.2012 18:14Когда он сможет найти http://superpeer1.das2.ewi.tudelft.nl/trac...ts/Kademlia.pdf по запросу «Kademlia: A Peer-to-peer Information System Based on the XOR Metric», тогда и понаблюдаю. Пока же, это УГ для порно и онеме.
watashiwa_darede... писал(а): ↑25.05.2012 21:28Запросы? Встретились? Где они должны встречаться? Или не должны?
watashiwa_darede... писал(а): ↑25.05.2012 21:28Число единиц в сумме по модулю 2 всегда либо 0, либо 1. Это факт.
watashiwa_darede... писал(а): ↑26.05.2012 18:14А "по очереди" это совсем другой процесс, который с поиском прямо не связан, каждая из ~1000 соседних нод действительно опрашивается по очереди, для исключения сбойных нод.
при поиске датаграмма _сразу_ отправляется в нужном направлении, на нужную ноду
Оба утверждения неправильны применительно к алгоритму, опубликованному под именем Kademlia. Разговаривать не о чем. То, что Вы говорите, к Kademlia отношения не имеет, а сформулировать свой алгоритм Вы или не хотите, или не можете.
watashiwa_darede... писал(а): ↑25.05.2012 14:24Вывернуть его ничто не мешает, но объем передаваемых данных при поиске в Kademlia это O(n), где n — это объем данных.
watashiwa_darede... писал(а): ↑26.05.2012 18:14Не хочу. Я хочу услышать алгоритм, чтобы можно было сделать теоретические оценки сложности поиска в той системе p2p, которую вы предлагаете.
watashiwa_darede... писал(а): ↑26.05.2012 18:14Поисковик по всему интернету:
1. Объем данных ~100PiB (больше на ~6 порядков).
Вот, похоже, Вы начинаете понимать. В вашем описании тоже нет конкретного описания выбора ближайших узлов. Так что, количество запросов может варьироваться от O(1) до O(n). Точно так же, как под приведенное мной описание подходит как пузырьковая сортировка, так и quicksort.
Не надо опускаться до детсадовских аналогий. Лучше наоборот, поднимитесь до нормального уровня обсуждения.drBatty писал(а): ↑27.05.2012 11:11Информация сохраняется на всех узлах по пути, но только на ключевых нодах все пути сходятся в точку. Графически это можно представить как путь шарика на неровной поверхности, который скатывается к локальному минимуму. Причём из совершенно случайной точки. В этом-то минимуме все шарики и встречаются, что очевидно.
Раз Вы говорите, что реализация отличается, так и быть — проверил в исходниках aMule. Существенных отличий от «концепта» не увидел. Из того, что увидел:
Неверно. Не транслируют.
Неверно. Не сохраняется никакой информации кроме {IP, Port, ID} пира с целью добавить в список «соседей».
Неверно. Одна из основных идей для быстрого поиска — подобрать соседей, которые максимально непохожи. Иначе при поиске получится обход сети маленькими шажками, O(n).
Неверно. Расстояние — это просто побитовый XOR. Т.е. 0000 «ближе» к 0011, чем к 0100, хотя 0011 отличается двумя битами, а 0100 — одним.
Какой? Покажите мне ее.