এই সাইটটি বার পঠিত
ভাটিয়ালি | টইপত্তর | বুলবুলভাজা | হরিদাস পাল | খেরোর খাতা | বই
  • টইপত্তর  অন্যান্য

  • archive.org Wget for dummies

    h
    অন্যান্য | ১১ জুন ২০১৮ | ৭৯৪ বার পঠিত
  • মতামত দিন
  • বিষয়বস্তু*:
  • h | ***:*** | ১১ জুন ২০১৮ ১০:৫৬377404
  • ইমরান/অরিজিত/সোমনাথ, আমাকে বল/বলো একটু এই পার্ট টা ঠিক বুজেছি কিনা। টেকনিকালি চ্যালেঞ্জড ছোটো দের লানগুয়েজে বলো।
    প্রথম চ্যালেঞ্জ এক বা দশ লক্ষ বইয়ের মধ্যে কোন একশো বা তিরিশ হাজার বাংলা বই সেটা খুঁজে পাওয়া একটা সমস্যা আর যেগুলো চেনা গেল, তার মধ্যে অজানা অচেনা ননস্ট্যান্ডার্ড হলেও হতে পারে, আইডেন্টিফায়ার পড়ে লিস্টে তোলা টা দ্বিতীয় চ্যালেঞ্জ।

    বেশ তাইলে মূল সমস্যা হল, দুইটা ধরণের প্যাটার্ন খোজা , তাই কি?

    আমি ভাবছিলাম wget কি করে কঠিন হবে। আর কানেকশন ম্যানেজমেন্ট এর সমস্যা টা তো প্যাটার্ন বের করার পরের সমস্যা , রাইট?
  • h | ***:*** | ১১ জুন ২০১৮ ১১:২৭377406
  • আইডেন্টিফায়ারটা কি ফাইল এর নামে থাগবে?
  • অরি র কোন একটা নাম, হরম মত শুন | ***:*** | ১১ জুন ২০১৮ ১১:২৮377407
  • প্যাটার্ন আছে কিনা সেটাও সিওর না। নর্মালি আইডেন্টিফায়ারগুলো ইউনিক আইডি হয়, র‍্যান্ডমলি জেনারেটেড।
  • ~ | ***:*** | ১১ জুন ২০১৮ ১৩:৪১377408
  • এইটা মূল রিকোয়ারমেন্ট ছিল। লিংক দুটো খুব কজের কিন্তু।

    গুরুর কলকাতাবাসী ইউনিক্স এক্সপার্টরা কেউ দায়িত্ব নিয়ে একটা কাজ করতে পারবেন? আর্কাইভ ডট অর্গে বত্রিশ হাজারের বেশি বাংলা বই রয়েছে। ইউনিক্স দিয়ে নামানো যায় বাল্কে। পুরোটা নামিয়ে দেবেন? আমি একটা ২ টিবি হার্ড ডিস্কে কপি করে আনব? কিভাবে নামানো যাবে সেটা সাইটের FAQ তে লেখা আছে।

    How do I bulk download?

    At this time there are two methods to do bulk downloading. Both require some comfort working in a unix environment:
    wget - please see http://blog.archive.org/2012/04/26/downloading-in-bulk-using-wget for guidance
    python wrapper - the Internet Archive has created a python wrapper useful for many functions including bulk download. It can be found at https://github.com/jjjake/internetarchive

    বাকি রিলেটেড পোস্ট গুলো অর কেউ কপি করুক, আমার রাতের আগে সময় নাই।
  • Hrym | ***:*** | ১১ জুন ২০১৮ ১৪:১২377409
  • অ্যাডভান্সড সার্চে language:Bengali বলে এই লিস্ট আসছে - আইডেন্টিফায়ারেরঃ

    yugvytd56d6futf8iohuihy77g8h55896789
    ConstantsOfJihad_201612
    sab698_gmail_201702
    106thIssue20thOctober2016QatarMobileVerFinal
    FatwaGangohiR.
    LetsUniteForAlQuds
    catecheticalexpo00mund
    subosah_tuta
    my_393
    halal_blood
    jonsmith02_yopmail_20170605_0917
    alfatimin_gmail_20171019_1144
    AmiToNamazPorteChaiKintu
    27bayannews
    AdnaniDeathAndMubahala
    dawisl_1_mail
    archive45_yopmail_20171121
    abu_hilal_tuta
    jobline999_gmail_201612
    jobline999_gmail_2016
    de71975_gmail
    Bkash
    alfatimin_gmail_20171016_1538
    jobline999_gmail_20161219_1307
    ThePathToPeaceJustRelationsBetweenNations
    NaseehaRegardingIbadah
    alfajr_blood
    AnsarGazwatulHindVision-1
    being_20150705_1009
    g562023_nwytg_1
    alfatimin_gmail_20171016_1740
    jyotiringana1871kali
    BurkinaFaso2016
    Ayat12016_20135685683568586536856858701
    md_Md_1
    muftioliullah_1
    vbcxdfszrxdatsrwrdssees56sdtdytdfh6674
    Azharmea_gmail_Eelm_20141122
    HindSwaraj-tag-1-18-
    iscabd91_gmail
    iscabd91_gmail_20161228
    shaholiullahdeholovi
    fidayiovijan
    NeamenElectronicCircuitAnalysisAndDesign2ndEd
    MazhabSonkrantoBoi
    muftioliullah_3_20180518
    HindSwaraj-tag-1-08-
    HindSwaraj-tag-2-01-
    islamicbissokos
    IslamicOthersBooks3

    অবভিয়াসলি প্যাটার্ন নেই কোনো। কিন্তু মোটে ৫০টা। এই যে বল্ল ৩২০০০ বই আছে?
  • Hrym | ***:*** | ১১ জুন ২০১৮ ১৪:১৫377410
  • আচ্ছা, সংখ্যা লিমিট করা যায় - ৫০/১০০ ইত্যাদি। কিন্তু নর্মালি ফাঁকা রাখলে যে পুরো লিস্ট দেখানোর কথা সেটা হচ্ছে না।
  • ~ | ***:*** | ১১ জুন ২০১৮ ১৭:১৫377411


  • আর্কাইভ ডট অর্গ খুলে টেকস্ট সিম্বলে ক্লিক করলে 16,235,050 RESULTS eBooks and Texts দেখাবে। বাঁদিকে নিচে Language ক্লিক করে ফিল্টার Bengali সিলেক্ট করলে ৩২৩৬৯ টা বই দেখাবে। আমার যদিও শুধু DLI এর বইগুলোতেই ইন্টারেস্ট তবে এই ল্যাঙ্গুয়েজ দিয়ে সর্ট করে সব বাংলা বই পাওয়া সহজ হবে মনে হয়েছিল।
  • পুরোনো গল্পগুচ্ছ | ***:*** | ১১ জুন ২০১৮ ২২:০৬377412
  • Hrym Date:10 Jun 2018 -- 08:16 AM
    wget ব্যাপারটা অত সহজ নয়। যা নামানো হবে সবের আইডেন্টিফায়ার একটা ফাইলে রেখে wget চালাতে হবে।

    তার পর হল ভল্যুম। এক রাতে না নামলে wget এ হবে না, ওটা রিজিউম করে না। তখন rsync এর ব্যবস্থা আছে কিনা দেখতে হবে।
    Hrym Date:10 Jun 2018 -- 08:19 AM
    সে না হয় ছোট ছোট লিস্ট বানানো হল, কিন্তু ইন্ডিভিজুয়াল আইডেন্টিফায়ার বের করবে কে?
    ~ Date:10 Jun 2018 -- 01:08 PM
    মোদ্দা কথা বাল্ক ডাউনলোড ইউনিক্স এ ও খুব সুবিধের কিছু নয়, তাই তো? মানে, ল্যাঙ্গুয়েজ = বাংলা সেট করে সমস্ত PDF ফাইল নামিয়ে ফেলা যাবে না? ৩২০০০ ফাইল নামাতে হলে ৩২০০০ ফাইলের লিংক এক জায়গায় রেখে তবে নামাতে দিতে হবে? পাইথন র্যাুপার না কি সেটাও খুব একটা কিছু সুবিধের নয়? ফাইল আইডেন্টিফায়ারের যে গাদা সিম্বলজি দিয়েছে, তাতে জেনারেল সমস্ত বাংলা বইয়ের ক্ষেত্রে কিছু করা যাবে না? 100 GB করে আবার এক একটা ব্যাচ ডাউনলোডের লিমিট রয়েছে দেখলাম মনে হয়?
    যাঃ তাহলে আর বাল্ক ডাউনলোডের অপশন দিয়ে লাভ কি হল? :(
    Hrym Date:11 Jun 2018 -- 09:28 AM
    @ওমনাথ - *নিক্সে wget-টাই একটা বড় সুবিধা। একটা স্ক্রিপ্টে ইনপুট হিসেবে আইডেন্টিফায়ারের লিস্ট দিয়ে দিলে বাকিটা নিজে নিজেই করবে। হ্যাঁ, কানেকশন কেটে গেলে মুশকিল, তবে সেটা সম্ভবত স্ক্রিপ্টে হ্যান্ডল করা যাবে। কিন্তু আইডেন্টিফায়ারগুলো বসে বসে বের করতে হবে - তার কোনো শর্টকাট নেই। ইন্ডিভিজুয়াল ফাইল রাইট ক্লিক করে সেভ করতে হবে না, এই সুবিধাটাই অনেক।

    পাইথন স্ক্রিপ্টটা দেখিনি, কারণ অফিসে জিটল্যাব খোলা যায় না। সাড়ে আটটার পর বাড়ি গিয়ে আর কম্পিউটার খোলার এন্থু থাকে না। পড়াশোনাও থাকে, আর যেহেতু বইপত্র ট্যাবে ভরে দেওয়া যায়, তাই সেটার জন্যেও কম্পু খুলতে হয় না।
    Hrym Date:11 Jun 2018 -- 09:32 AM
    আর্কাইভ যদি হ্যাশট্যাগ রেখে থাকে (মানে #bengali জাতীয় কিছু), তাহলে সেইটা দিয়ে সব বাংলা বইয়ের আইডেন্টিফায়ার বের করা সম্ভব। এপিআই দিয়ে থাকলে তো আরোই ভালো। পাইথন স্ক্রিপ্টটা খুলে দেখতে পারিস এরকম অপশন দিয়েছে কিনা।
    ~ Date:11 Jun 2018 -- 09:47 AM
    আমি পাইথন জানি না।
    Hrym Date:11 Jun 2018 -- 09:48 AM
    জিটহাবে ঢুকে ডাউনলোড করে আমায় মেল করে দে।
    h Date:11 Jun 2018 -- 09:51 AM
    পাইথন স্ক্রিপ্ট পড়তে চেষ্টা করতে পারি। বলছি যে আমারে একটু বোঝাও, যে বিভিন্ন জায়গা থেকে পড়ে একটা আইডেন্টিফায়ার লিস্ট আমরা কেন লিখে নিতে পারবো না।
    Hrym Date:11 Jun 2018 -- 10:01 AM
    https://archive.org/services/swagger/?url=%2Fservices%2Fsearch%2Fbeta%
    2Fswagger.yaml#/search
    এইটা একটু নেড়েচেড়ে দেখতে হবে। সময় পেলে আমি দেখে নেবো।
    Hrym Date:11 Jun 2018 -- 10:06 AM
    এইখানে কাস্টম ফিল্ডে ল্যাঙ্গুয়েজ বেঙ্গলি দিলে লিস্ট দেখায় (সব দেখায় কিনা জানি না)। কিন্তু এইটাই এপিআই পেজে গিয়ে করতে বল্ল - সরি, উই আর কাইন্ডা বিজি।
    Hrym Date:11 Jun 2018 -- 10:00 AM
    আর্কাইভ কীভাবে রাখে দেখতে হবে। যদি সার্চ বক্সে নাম দিয়ে সার্চ করা হয় সেটা কোনো এপিআই না দিলে অটোমেট করা মুশকিল। যদি ক্যাটেগরি দিয়ে ভাগ করা থাকে (মানে কোথাও বল্লাম "বাংলা" আর সে আমাকে সব বাংলা বই দেখিয়ে দিলো) তাহলেও এপিআই লাগবে পুরো লিস্টটা বের করার জন্যে, তারপর হয়তো সেখান থেকে আইডেন্টিফায়ার বের করে নেওয়া যাবে।
    এইটা অলরেডি পাইথন র‍্যাপারটা করে থাকতে পারে। না দেখলে বলতে পারবো না। আশা করা যায়, কারণ এপিআই (বিটা ভারসন) আছে দাবী করছে।
    Hrym Date:11 Jun 2018 -- 10:06 AM
    এইখানে কাস্টম ফিল্ডে ল্যাঙ্গুয়েজ বেঙ্গলি দিলে লিস্ট দেখায় (সব দেখায় কিনা জানি না)। কিন্তু এইটাই এপিআই পেজে গিয়ে করতে বল্ল - সরি, উই আর কাইন্ডা বিজি।
  • ~ | ***:*** | ১১ জুন ২০১৮ ২২:৪৩377413
  • জিটহাব এ যা আছে
    A Python and Command-Line Interface to Archive.org
    1,212 commits
    2 branches
    32 releases
    21 contributors
    AGPL-3.0
    Python 99.5% Makefile 0.5%
    PythonMakefile
    Branch: master
    New pull request
    Find file
    Clone or download
    Fetching latest commit…
    docsFix typo "form" in importMay 3, 2018
    internetarchiveBUGFIX: modify_metadata debug + other args not honouredMay 18, 2018
    snapAdd the packaging metadata to build the ia snapJul 10, 2017
    testsupdates for screenname.May 11, 2018
    .gitignoreRefactor tests. Fix bugs.Nov 13, 2016
    .travis.ymlDropping testing support for py26.Dec 7, 2017
    AUTHORS.rstHandle case where invalid media-type is returned.Nov 20, 2016
    CONTRIBUTING.rstFix some misspellingsApr 7, 2017
    HISTORY.rstv1.8.0.dev1May 11, 2018
    LICENSEChanged license to AGPL 3, the default IA Free Software license.May 15, 2014
    MANIFEST.incleaned up manifestFeb 23, 2016
    Makefileupdated publish.Jul 25, 2017
    README.rstdeduped snap badge.Jul 25, 2017
    setup.cfgpep8 fixes.Mar 5, 2018
    setup.pypep8 fixes.Mar 13, 2018
    tox.iniDropping testing support for py26.Dec 7, 2017

    পুরোটা নামিয়ে এখানে রাখা রইল
    https://drive.google.com/open?id=0Bz-RYfLHhM5wWEJfN3l4MzJkTkE

    README.rst

    A Python and Command-Line Interface to Archive.org

    travis Snap Status

    This package installs a command-line tool named ia for using Archive.org from the command-line. It also installs the internetarchive Python module for programatic access to archive.org. Please report all bugs and issues on Github.

    Installation

    You can install this module via pip:

    $ pip install internetarchive
    Binaries of the command-line tool are also available:

    $ curl -LO https://archive.org/download/ia-pex/ia
    $ chmod +x ia
    $ ./ia help
    Documentation

    Documentation is available at https://internetarchive.readthedocs.io.

    Contributing

    All contributions are welcome and appreciated. Please see https://internetarchive.readthedocs.io/en/latest/contributing.html for more details.

    The Internet Archive Python Library
    https://internetarchive.readthedocs.io/en/latest/

    http://blog.archive.org/2012/04/26/downloading-in-bulk-using-wget/
  • ~ | ***:*** | ১১ জুন ২০১৮ ২২:৫৭377405
  • আইডেন্টিফায়ার মেটাডেটা তে থাকবে।
    https://internetarchive.readthedocs.io/en/latest/metadata.html#archive-org-identifiers

    যেকোনো একটা রিলেটেড ফাইল খুলে তার মেটাডেটা থেকে কপি করা যেতে পারে। যেমন
    Sudhindranath Datter Kabyasangraha
    by Not Available

    Publication date 1960
    Topics North
    Collection digitallibraryindia; texts
    Language Bengali
    Book Source: Digital Library of India Item 2015.301410

    dc.contributor.author: Not Available
    dc.date.accessioned: 2015-08-10T12:48:05Z
    dc.date.available: 2015-08-10T12:48:05Z
    dc.date.digitalpublicationdate: 2013/01/19
    dc.date.citation: 1960
    dc.identifier.barcode: 99999990337838
    dc.identifier.origpath: /data14/upload/0028/668
    dc.identifier.copyno: 1
    dc.identifier.uri: http://www.new.dli.ernet.in/handle/2015/301410
    dc.description.scannerno: SC-02
    dc.description.scanningcentre: North Eastern States Libraries
    dc.description.main: 1
    dc.description.tagged: 0
    dc.description.totalpages: 464
    dc.format.mimetype: application/pdf
    dc.language.iso: Bengali
    dc.publisher.digitalrepublisher: Digital Library Of India
    dc.publisher: Day’s Publishing, Calcutta
    dc.source.library: Birchandra State Central Library, Tripura
    dc.subject.keywords: Bangla Kabya
    dc.subject.keywords: Haimanti
    dc.subject.keywords: Mahasatya
    dc.subject.keywords: Utpakhi
    dc.subject.keywords: Jatismar
    dc.title: Sudhindranath Datter Kabyasangraha
    dc.type: Print - Paper
    dc.type: Book

    Identifier in.ernet.dli.2015.301410
    Identifier-ark ark:/13960/t4sj6x35r
    Ocr language not currently OCRable
    Ppi 600
    Scanner Internet Archive Python library 1.2.0.dev4

    তবে আমি খুব সিওর নই ওরা সমস্ত আইডেন্টিফায়ার খুব কনসিসটেন্টলি টাইপো ছাড়া ফিলাপ করেছে। dc.language.iso: Bengali যে বহু জায়গায় Bangla হয়ে নেই কে বলবে? বা in.ernet.dli. এর বদলে যে বহু যায়গায় শুধু dli লেখা নেই তারই বা কি সিওরিটি। যাই হোক, দেখ কিছু করা যায় কিনা! তবে টেরাবাইট লেভেলের ডেটা হবে, আর সেসব এক রাতে হারগিজ নামবে না।
  • মতামত দিন
  • বিষয়বস্তু*:
  • কি, কেন, ইত্যাদি
  • বাজার অর্থনীতির ধরাবাঁধা খাদ্য-খাদক সম্পর্কের বাইরে বেরিয়ে এসে এমন এক আস্তানা বানাব আমরা, যেখানে ক্রমশ: মুছে যাবে লেখক ও পাঠকের বিস্তীর্ণ ব্যবধান। পাঠকই লেখক হবে, মিডিয়ার জগতে থাকবেনা কোন ব্যকরণশিক্ষক, ক্লাসরুমে থাকবেনা মিডিয়ার মাস্টারমশাইয়ের জন্য কোন বিশেষ প্ল্যাটফর্ম। এসব আদৌ হবে কিনা, গুরুচণ্ডালি টিকবে কিনা, সে পরের কথা, কিন্তু দু পা ফেলে দেখতে দোষ কী? ... আরও ...
  • আমাদের কথা
  • আপনি কি কম্পিউটার স্যাভি? সারাদিন মেশিনের সামনে বসে থেকে আপনার ঘাড়ে পিঠে কি স্পন্ডেলাইটিস আর চোখে পুরু অ্যান্টিগ্লেয়ার হাইপাওয়ার চশমা? এন্টার মেরে মেরে ডান হাতের কড়ি আঙুলে কি কড়া পড়ে গেছে? আপনি কি অন্তর্জালের গোলকধাঁধায় পথ হারাইয়াছেন? সাইট থেকে সাইটান্তরে বাঁদরলাফ দিয়ে দিয়ে আপনি কি ক্লান্ত? বিরাট অঙ্কের টেলিফোন বিল কি জীবন থেকে সব সুখ কেড়ে নিচ্ছে? আপনার দুশ্‌চিন্তার দিন শেষ হল। ... আরও ...
  • বুলবুলভাজা
  • এ হল ক্ষমতাহীনের মিডিয়া। গাঁয়ে মানেনা আপনি মোড়ল যখন নিজের ঢাক নিজে পেটায়, তখন তাকেই বলে হরিদাস পালের বুলবুলভাজা। পড়তে থাকুন রোজরোজ। দু-পয়সা দিতে পারেন আপনিও, কারণ ক্ষমতাহীন মানেই অক্ষম নয়। বুলবুলভাজায় বাছাই করা সম্পাদিত লেখা প্রকাশিত হয়। এখানে লেখা দিতে হলে লেখাটি ইমেইল করুন, বা, গুরুচন্ডা৯ ব্লগ (হরিদাস পাল) বা অন্য কোথাও লেখা থাকলে সেই ওয়েব ঠিকানা পাঠান (ইমেইল ঠিকানা পাতার নীচে আছে), অনুমোদিত এবং সম্পাদিত হলে লেখা এখানে প্রকাশিত হবে। ... আরও ...
  • হরিদাস পালেরা
  • এটি একটি খোলা পাতা, যাকে আমরা ব্লগ বলে থাকি। গুরুচন্ডালির সম্পাদকমন্ডলীর হস্তক্ষেপ ছাড়াই, স্বীকৃত ব্যবহারকারীরা এখানে নিজের লেখা লিখতে পারেন। সেটি গুরুচন্ডালি সাইটে দেখা যাবে। খুলে ফেলুন আপনার নিজের বাংলা ব্লগ, হয়ে উঠুন একমেবাদ্বিতীয়ম হরিদাস পাল, এ সুযোগ পাবেন না আর, দেখে যান নিজের চোখে...... আরও ...
  • টইপত্তর
  • নতুন কোনো বই পড়ছেন? সদ্য দেখা কোনো সিনেমা নিয়ে আলোচনার জায়গা খুঁজছেন? নতুন কোনো অ্যালবাম কানে লেগে আছে এখনও? সবাইকে জানান। এখনই। ভালো লাগলে হাত খুলে প্রশংসা করুন। খারাপ লাগলে চুটিয়ে গাল দিন। জ্ঞানের কথা বলার হলে গুরুগম্ভীর প্রবন্ধ ফাঁদুন। হাসুন কাঁদুন তক্কো করুন। স্রেফ এই কারণেই এই সাইটে আছে আমাদের বিভাগ টইপত্তর। ... আরও ...
  • ভাটিয়া৯
  • যে যা খুশি লিখবেন৷ লিখবেন এবং পোস্ট করবেন৷ তৎক্ষণাৎ তা উঠে যাবে এই পাতায়৷ এখানে এডিটিং এর রক্তচক্ষু নেই, সেন্সরশিপের ঝামেলা নেই৷ এখানে কোনো ভান নেই, সাজিয়ে গুছিয়ে লেখা তৈরি করার কোনো ঝকমারি নেই৷ সাজানো বাগান নয়, আসুন তৈরি করি ফুল ফল ও বুনো আগাছায় ভরে থাকা এক নিজস্ব চারণভূমি৷ আসুন, গড়ে তুলি এক আড়ালহীন কমিউনিটি ... আরও ...
গুরুচণ্ডা৯-র সম্পাদিত বিভাগের যে কোনো লেখা অথবা লেখার অংশবিশেষ অন্যত্র প্রকাশ করার আগে গুরুচণ্ডা৯-র লিখিত অনুমতি নেওয়া আবশ্যক। অসম্পাদিত বিভাগের লেখা প্রকাশের সময় গুরুতে প্রকাশের উল্লেখ আমরা পারস্পরিক সৌজন্যের প্রকাশ হিসেবে অনুরোধ করি। যোগাযোগ করুন, লেখা পাঠান এই ঠিকানায় : guruchandali@gmail.com ।


মে ১৩, ২০১৪ থেকে সাইটটি বার পঠিত
পড়েই ক্ষান্ত দেবেন না। বুদ্ধি করে মতামত দিন