Explore Help

antanst/gemini-grs

1

0

You've already forked gemini-grs

Code Issues Pull Requests Actions Packages Projects Releases Wiki Activity

Files

43f22425580d4a484672e5e320430a0e950b452b

gemini-grs/README.md

antanst 43f2242558 Update README

2024-12-09 19:54:15 +02:00

822 B

Raw Blame History

gemini-grc

A Gemini crawler.

URLs to visit as well as data from visited URLs are stored into "snapshots" in the database.

Done

Concurrent downloading with workers
Concurrent connection limit per host
URL Blacklist
Save image/* and text/* files
Configuration via environment variables
Storing snapshots in PostgreSQL
Proper response header & body UTF-8 and format validation
Follow robots.txt, see gemini://geminiprotocol.net/docs/companion/robots.gmi
Handle redirects (3X status codes)

TODO

Better URL normalization
Provide a TLS cert for sites that require it, like Astrobotany

TODO for later

Gopher
Scroll gemini://auragem.letz.dev/devlog/20240316.gmi
Spartan
Nex
SuperTXT https://supertxt.net/00-intro.html

Reference in New Issue View Git Blame Copy Permalink

Powered by Gitea Version: 1.25.3 Page: 11ms Template: 1ms

English

Bahasa Indonesia Deutsch English Español Français Gaeilge Italiano Latviešu Magyar nyelv Nederlands Polski Português de Portugal Português do Brasil Suomi Svenska Türkçe Čeština Ελληνικά Български Русский Українська فارسی മലയാളം 日本語简体中文繁體中文（台灣）繁體中文（香港） 한국어

Licenses API