지금은 2025년 12월 20일 토요일이다.
지금은 대충 16시인데... linear 한 수집기를 우선 만들었다. 간단히 이야기하면 single thread 하다는 이야기이고, concurrency도 저 용 되지 않은 굉장히 원시적인 수집기이긴 하다만, 그래도 잘 되어 가고 있는 것으로 보인다.

그래도 개선의 여지가 이래저래 있다. 확장가능한 스트럭쳐를 이번에는 최소한, 그렇지만 걸리적 거리지는 않을 정도로 구현했다. 사실 제일 큰 것은 지금 당장 위처럼 free tier의 request수도 제대로 쓰고 있지 못하다는 것이다. forward, backward가 가능은 한데 asyncio 기반 구현으로 바꾸어야 할 것으로 보인다. 적어도 그럼 쓰루풋은 좀 올라갈 것이다.
구현할 때의 골칫거리는 예상컨데 fingerprint인 것 같다. 같은 범위의 요청에는 같은 fingerprint를 보낼 필요가 있다. 이걸 concurrent 하게 만들 수 있을까? 순전히 api 가 이걸 용인하느냐에 달렸고, 만약 이것이 되지 않는다고 하면 window를 concurrent 하게 잡을 수밖에 없다. 그럼 window에 단순히 window 말고도 checkpoint기능이 필요하게 될 것으로 보인다.
스케줄링과 관련해서는 python의 deque를 활용해서 job을 관리하는 방식으로 생각해보고 싶고, checkpoint commit에 관련해서는 어떤 job이 더 먼저 끝날 가능성이 있으므로, 그 전까지의 모든 작업이 끝나야 그제야 기록이 되는 방식으로 구현을 하면 될 것으로 보인다.