pbylicki / media-crawl Public

Notifications You must be signed in to change notification settings
Fork 0
Star 1

crawlers for various polish internet media

1 star 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
media_crawl		media_crawl
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Repository files navigation

media-crawl

crawlers for various polish internet media

Currently used (available categories):

gazeta.pl (Polska, Polityka, Świat)
naszdziennik.pl (Polska, Świat, Ekonomia)
se.pl (Polska, Polityka, Świat)

To install:

clone project
cd to root directory
type: pip install -r requirements.txt

Requirements:

Python 2.7
Scrapy 1.0.5 (requires C++ compiler)

To run:

cd to root directory
type: scrapy crawl GazetaPl | NaszDziennik | SE -o output_filename.json

About

crawlers for various polish internet media

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%