다중 봇 대화 구조: 텔레그램 공식 FAQ에 따르면 봇은 다른 봇이 보낸 메시지를 받지 못하므로, 봇끼리 직접 대화하는 "진짜 봇 단톡"은 어렵다는 의견이 제시되었습니다.
대안 구조: 대신, 사용자가 텔레그램 단톡방에 질문을 입력하면 백엔드(예: Hermes)가 각 봇을 순서대로 호출하여 답변을 같은 단톡방에 발송하는 방식으로 여러 AI가 대화하는 것처럼 구현할 수 있습니다.
봇파더 설정: 약 2주 전 업데이트로 봇파더에서 `/setbot2bot` 토글을 활성화하면 봇 간 메시지 수신이 가능해졌다는 정보가 공유되었습니다.
텔레그램 봇 응답 문제: 텔레그램 봇이 명령에 이상한 코드로 응답하는 문제가 보고되었으며, 이는 업데이트로 인한 변경으로 추정됩니다. 해결책으로 `/reasoning off` 또는 `/verbose off` 명령어를 사용하는 방법이 제시되었습니다.
로그 관리: 봇이 작업 중 내부 코드를 보여주는 로그를 숨기고 최종 결과만 전송하도록 설정하는 것이 가능하다는 의견이 있었습니다.
로컬 AI 모델 운영 및 하드웨어 성능
맥미니(Mac Mini) 성능: 맥미니 24기가 램으로 로컬 모델 운영 가능성에 대한 문의가 있었으며, M4 Pro 24기가 램으로 시도 후 포기했거나, 24기가에서 32기가로 업그레이드 후 만족하며 젬마4 26B 모델 사용 시 램 점유율이 80-90%에 달한다는 경험이 공유되었습니다.
램 사용량: 로컬 LLM이 사용 가능한 최대 램을 소진하는 경향이 있으며, 128기가 램 환경에서도 젬마4 26B 모델이 108-110기가를 사용한다는 사례가 언급되었습니다.
추천 모델 및 성능:
젬마4 26B 모델이 헤르메스 오픈클로로 돌아가며, 간단한 작업은 가능하지만 복잡한 작업은 코덱스 CLI나 재미나이 CLI를 활용한다는 의견이 있었습니다.
Qwen 3.6 모델과 젬마 모델의 성능 비교에 대한 질문이 있었고, Qwen 3.6 30B는 32기가 램에서 양자화로 돌려야 할 것이라는 언급이 있었습니다.
엔비디아 네메트론 나노 옴니(Nvidia Nemotron Nano Omni) 모델도 언급되었으며, 코딩에는 부족하지만 다른 면에서는 더 낫다는 평이 있었습니다.
양자화 모델: 양자화된 모델 사용에 대한 질문이 있었으며, 성능 저하에 대한 우려로 사용을 꺼리는 경향도 있지만, OLLaMA에서 다운로드 받은 모델이 이미 4비트 양자화된 모델이었음을 뒤늦게 알게 된 경우도 있었습니다.
로컬 모델 vs. 구독 모델: 로컬 모델에 대한 기대보다는 구독 모델이 더 편하고 저렴하다는 의견이 다수였습니다.
AI 서비스 및 활용
Oauth/API 키: AI 서비스를 이용하기 위한 Oauth 사용 여부에 대한 질문이 있었습니다.
GPT Plus 사용량: GPT Plus의 토큰 사용량이 빠르게 소진된다는 의견이 많았습니다.
Gemini CLI 쿼터: 구글 프리미엄 사용자도 Gemini CLI 사용 시 쿼터 제한에 부딪히는 문제가 발생한다는 경험이 공유되었습니다.
오토리서치 확장: 일상 분야로 확장된 오토리서치 배포 프로젝트에 대한 관심이 있었습니다.
헤르메스 vs. 오픈클로:
헤르메스가 오픈클로보다 빠릿하고 일을 잘하는 느낌이라는 의견이 있었습니다.
헤르메스가 토큰을 더 많이 잡아먹는지에 대한 질문도 있었습니다.
업무 자동화에 오픈클로로 ERP 자동화를 만들고, 문서 작업은 헤르메스를 활용하여 업무 부담을 줄였다는 경험 공유가 있었습니다.
AI 에이전트 활용:
"서브 에이전트"를 활용해서 컨텍스트를 나누는 것이 어렵다는 의견이 제시되었습니다.
회사 서류 작업에 헤르메스를 설치하여 GPT 5.5 모델(필요 시 오퍼스 4.7 호출)과 함께 사용하여 업무를 줄이고 있다는 경험이 공유되었습니다.