Вештачки веб-страници со Пајтон и убава сума - Совети за Семф

Има повеќе од доволно информации на Интернет за тоа како правилно да ги избришете веб-страниците и блоговите. Она што ни треба не е само пристап до тие податоци, туку скалабилни начини да ги собереме, анализираме и организираме. Пајтон и Убавиот корисник се две прекрасни алатки за избивање веб-страници и вадење податоци. Во веб-стружење, податоците лесно можат да се извлечат и презентираат во потребен формат. Ако сте страствен инвеститор што ги цени неговите / нејзините време и пари, дефинитивно треба да го забрзате процесот на стружење на веб и да го направите колку што е оптимизиран.

Започнување

Ние ќе го користиме Пајтон и Убав Суп како главен јазик за стружење.

  • 1. За корисниците на Mac, Python е пред-инсталиран во оперативниот систем X. Само треба да го отворат терминалот и да напишат питтон -верзија . На овој начин, тие ќе можат да ја видат верзијата Python 2.7.
  • 2. За корисниците на Виндоус, препорачуваме да го инсталирате Python преку неговата официјална страница.
  • 3. Следно, треба да пристапите до библиотеката BeautifulSoup со помош на пип. Оваа алатка за управување со пакетите е направена специјално за Пајтон.

Во терминалот, треба да го внесете следниов код:

лесно_инсталирање на цевки

инсталирајте пипс BeautifulSoup4

Правила за стружење:

Главните правила за стружење што треба да се грижите се:

  • 1. Треба да ги проверите Правилата и прописите на страницата пред да започнете со неговото стружење. Затоа, бидете внимателни!
  • 2. Не треба да ги барате податоците од страниците премногу агресивно. Бидете сигурни дека алатката што ја користите се однесува разумно. Во спротивно, можете да ја скршите страницата.
  • 3. Едно барање во секунда е вистинската практика.
  • 4. Изгледот на блогот или страницата може да се измени во кое било време, и можеби ќе треба да го прегледате таа страница и да го преработите вашиот сопствен код секогаш кога е потребно.

Увид на страницата

Поставете го курсорот на страницата Цена за да разберете што треба да се направи. Прочитајте го текстот поврзан со HTML и Пајтон и од резултатите ќе ги видите цените во ознаките на HTML.

Извоз во Excel CSV

Откако ќе ги извадите податоците, следниот чекор е да ги зачувате офлајн. Одделниот формат на Excel со запирка е најдобриот избор во овој поглед и лесно можете да го отворите во вашиот Excel лист. Но, прво, ќе треба да ги увезете Python CSV модулите и модулите за датум за да ги снимите вашите податоци правилно. Следниот код може да се внесе во делот за увоз:

увоз ЦСВ

од увоз на датум до паметен ден

Напредни техники за стружење

BeautifulSoup е една од наједноставните и сеопфатни алатки за стружење на веб. Меѓутоа, ако треба да соберете голем обем на податоци, размислете за некои други алтернативи:

  • 1. Скрипирањето е моќна и неверојатна рамка за стружење на питон.
  • 2. Може да го интегрирате и кодот со јавен API. Ефикасноста на вашите податоци ќе биде важна. На пример, можете да пробате API на „График график“, што помага да ги скриете податоците и да не ги прикажува на страниците на „Фејсбук“.
  • 3. Покрај тоа, можете да ги користите програмите за заднина како MySQL и да ги чувате податоците во голема количина со голема точност.
  • 4. DRY се залага за „Не повтори сам“ и може да се обидете да ги автоматизирате редовните задачи користејќи ја оваа техника.

mass gmail