Semalt тлумачыць, як атрымаць дадзеныя, неабходныя з вэб-сайтаў HTML

Вялікая колькасць інфармацыі, прадстаўленай у сетцы, лічыцца "неструктураванай", таму што яна арганізавана няправільна. HTML-сайты адрозніваюцца тым, што яны ўтрымліваюць арганізаваныя дакументы, а тэкст, прадстаўлены ў дакументах, структураваны ў аснове HTML-кода.
Ёсць тры асноўныя метады здабывання дадзеных з вэб-сайтаў HTML:
- Захаванне тэксту, змешчанага на вэб-старонцы, на вашым кампутары;
- Напісанне кода для вымання дадзеных;
- Выкарыстанне спецыяльных інструментаў для здабычы;
1. Як здабыць HTML з сайта без кадавання
Вы можаце саскрабаць змесціва вэб-старонкі, выканаўшы наступныя дзеянні:

Выманне толькі тэксту
Пасля адкрыцця вэб-старонкі, якая змяшчае патрэбны тэкст, пстрыкніце правай кнопкай мышы і абярыце опцыю «Захаваць старонку як» або «Захаваць як». Увядзіце імя файла ў поле "Імя файла" і ў выпадальным меню "Захаваць як тып" выберыце "Вэб-старонка, толькі HTML". Націсніце кнопку "Захаваць" і пачакайце некалькі секунд.
Увесь тэкст на гэтай старонцы здабываецца і захоўваецца ў выглядзе HTML-файла. Арыгінальныя параметры фарматавання старонкі застаюцца некранутымі, і вы можаце рэдагаваць змесціва ў такіх тэкставых рэдактарах, як "Нататнік".
Выманне цэлай вэб-старонкі
У меню "Файл" выберыце опцыю "Захаваць як" альбо "Захаваць старонку як". Затым націсніце "Вэб-старонка, поўная" у выпадальным меню "Захаваць як тып". Пасля націску "Захаваць" тэкст і выявы будуць вынятыя са старонкі і захаваны там, дзе вы хочаце. Тэкст змяшчаецца ў файл HTML, а выявы захоўваюцца ў тэчцы.
2. Выманне HTML з вэб-сайта з выкарыстаннем кадавання
Вы можаце працаваць непасрэдна з файламі HTML з дапамогай спецыяльных інструментаў. Таксама вы можаце стварыць код, каб выдаліць усе тэгі HTML і захаваць тэкст, які змяшчаецца ў файлах HTML, выкарыстоўваючы XPath або звычайны выраз. Некаторыя з самых папулярных моў праграмавання для гэтай задачы ўключаюць Python, Java, JS, Go, PHP і NodeJs.
3. Выкарыстанне інструментаў вымання дадзеных у Інтэрнэце
Калі вы проста хочаце здабыць HTML-файлы з вэб-сайта, не пісаючы ніводнага радка кода, альбо пазбягайце катаванняў метадам капіявання і ўстаўкі, скарыстайцеся інструментамі выскрабання вэб . На самай справе, ёсць шмат карысных інструментаў, якія могуць сабраць неабходную інфармацыю з вэб-сайта, а потым пераўтварыць яе ў структураваны фармат. Проста паспрабуйце некалькі інструментаў для выскрабання , і вы абавязкова знойдзеце той, які з'яўляецца найбольш прыдатным для вашых патрабаванняў па выпрацоўцы.