Semalt тлумачыць, як атрымаць дадзеныя, неабходныя з вэб-сайтаў HTML

Вялікая колькасць інфармацыі, прадстаўленай у сетцы, лічыцца "неструктураванай", таму што яна арганізавана няправільна. HTML-сайты адрозніваюцца тым, што яны ўтрымліваюць арганізаваныя дакументы, а тэкст, прадстаўлены ў дакументах, структураваны ў аснове HTML-кода.

Ёсць тры асноўныя метады здабывання дадзеных з вэб-сайтаў HTML:

  • Захаванне тэксту, змешчанага на вэб-старонцы, на вашым кампутары;
  • Напісанне кода для вымання дадзеных;
  • Выкарыстанне спецыяльных інструментаў для здабычы;

1. Як здабыць HTML з сайта без кадавання

Вы можаце саскрабаць змесціва вэб-старонкі, выканаўшы наступныя дзеянні:

Выманне толькі тэксту

Пасля адкрыцця вэб-старонкі, якая змяшчае патрэбны тэкст, пстрыкніце правай кнопкай мышы і абярыце опцыю «Захаваць старонку як» або «Захаваць як». Увядзіце імя файла ў поле "Імя файла" і ў выпадальным меню "Захаваць як тып" выберыце "Вэб-старонка, толькі HTML". Націсніце кнопку "Захаваць" і пачакайце некалькі секунд.

Увесь тэкст на гэтай старонцы здабываецца і захоўваецца ў выглядзе HTML-файла. Арыгінальныя параметры фарматавання старонкі застаюцца некранутымі, і вы можаце рэдагаваць змесціва ў такіх тэкставых рэдактарах, як "Нататнік".

Выманне цэлай вэб-старонкі

У меню "Файл" выберыце опцыю "Захаваць як" альбо "Захаваць старонку як". Затым націсніце "Вэб-старонка, поўная" у выпадальным меню "Захаваць як тып". Пасля націску "Захаваць" тэкст і выявы будуць вынятыя са старонкі і захаваны там, дзе вы хочаце. Тэкст змяшчаецца ў файл HTML, а выявы захоўваюцца ў тэчцы.

2. Выманне HTML з вэб-сайта з выкарыстаннем кадавання

Вы можаце працаваць непасрэдна з файламі HTML з дапамогай спецыяльных інструментаў. Таксама вы можаце стварыць код, каб выдаліць усе тэгі HTML і захаваць тэкст, які змяшчаецца ў файлах HTML, выкарыстоўваючы XPath або звычайны выраз. Некаторыя з самых папулярных моў праграмавання для гэтай задачы ўключаюць Python, Java, JS, Go, PHP і NodeJs.

3. Выкарыстанне інструментаў вымання дадзеных у Інтэрнэце

Калі вы проста хочаце здабыць HTML-файлы з вэб-сайта, не пісаючы ніводнага радка кода, альбо пазбягайце катаванняў метадам капіявання і ўстаўкі, скарыстайцеся інструментамі выскрабання вэб . На самай справе, ёсць шмат карысных інструментаў, якія могуць сабраць неабходную інфармацыю з вэб-сайта, а потым пераўтварыць яе ў структураваны фармат. Проста паспрабуйце некалькі інструментаў для выскрабання , і вы абавязкова знойдзеце той, які з'яўляецца найбольш прыдатным для вашых патрабаванняў па выпрацоўцы.

mass gmail