NASLOV NALOGE: Pridobivanje podatkov iz omrežja DHT
PODSNASLOV: Analiza pretočnega prometa skozi vozlišča protokola BitTorrent in prenos metapodatkov
KLJUČNE BESEDE: porazdeljena razpršilna tabela, distribuirani sistemi, P2P omrežje, podatkovno rudarjenje, BitTorrent
RAZISKOVALCI: Anton Luka Šijanec, 4. a
ŠOLA: Gimnazija Bežigrad
MENTOR: Andrej Šuštaršič, univ. dipl. ing. elektr. - Gimnazija Bežigrad
POVZETEK:
Porazdeljene razpršilne tabele (angl. distributed hash table) so razpršilne tabele, ki podatke, ponavadi so to dokumenti, strukturirani kot vrednost in njen pripadajoč ključ, hranijo distribuirano na več vozliščih, kjer se podatki shranjujejo. V računalniških sistemih se DHT uporablja za hrambo podatkov v omrežjih P2P (angl. peer to peer), kjer se podatki vseh uporabnikov enakomerno porazdelijo med vozlišča in so tako decentralizirani in preprosto dostopni članom omrežja. Ker se podatki izmenjujejo znotraj omrežja na vozliščih, ki z izvorom in destinacijo podatkov niso povezani, jih lahko vozlišča v velikih količinah shranjujejo.
V raziskovalni nalogi je preverjena praktična zmožnost pridobivanja velike količine podatkov v omrežju BitTorrent za P2P izmenjavo datotek, pridobljeni podatki pa so analizirani. Vsaka poizvedba po seznamu imetnikov datotek vsebuje ključ podatka v DHT in se prenese preko približno log_2 n vozlišč, kjer je n število vseh uporabnikov v omrežju. Ker vsaka poizvedba obišče tako veliko število vozlišč, lahko eno vozlišče prejme veliko obstoječih ključev v omrežju, s katerimi si lahko prenese metapodatke v omrežju BitTorrent.
Naloga se osredotoči na pridobivanje metapodatkov v omrežju BitTorrent, glede prenosa datotek, ki jih ponujajo računalniki, pa se vsled njihove velikosti ne opredeli. Metapodatki konceptualno sicer niso shranjeni v DHT (namesto metapodatkov o datotekah so v omrežju shranjeni seznami računalnikov, od katerih si metapodatke lahko prenesemo), vendar odkrivanje njihovega obstoja omogoči DHT.
NASLOV V ANGLEŠKEM JEZIKU: Harvesting data from a DHT network
PODNASLOV V ANGLEŠKEM JEZIKU: Analysis of a data stream going through BitTorrent nodes and metadata downloading
KLJUČNE BESEDE V ANGLEŠKEM JEZIKU: distributed hash table, distributed systems, peer-to-peer network, data mining, BitTorrent
POVZETEK V ANGLEŠKEM JEZIKU:
Distributed hash tables are hash tables that store data, usually documents, structured by key-value association, distributed amongst many nodes, where they are kept for longer periods of time. In computer networks are DHTs used for data storage in peer-to-peer networks, where common data are evenly distributed amongst nodes. Consequentially are those data stored in a decentralized manner and are accessible to every node in the network with low complexity. Because the data are exchanged across nodes that are neither source or destination of a datum, they can obtain new data and store them in large quantities.
A practical possibility of harvesting large amounts of data in BitTorrent network for peer-to-peer file transfer is presented and harvested data are analyzed. Every query for file providers contains the key for the queried-for list and traverses over around log_2 n nodes, where n means the number of participants in the network. Because every query visits such a large amount of nodes, can every node receive a large amount of existing keys in the DHT that can be used for downloading metadata of BitTorrent files.
This research paper focuses solely on harvesting metadata, not on downloading shared files, primarily due to their extreme size. Metadata conceptually aren't stored in the DHT (instead of file metadata, lists of computer addresses, from which metadata can be downloaded, are stored), but the DHT enables their discovery.