[爬虫] Pagebuffer_Manger 部分伪代码 - icando

来源：百度文库编辑：神马文学网时间：2024/04/28 04:46:11

[爬虫] Pagebuffer_Manger 部分伪代码
>buffer_manager
idle_id_cont    // 空闲的buffer id
writed_id_cont // 空闲的buffer id,不过已经被write
parsed_id_cont // 空闲的buffer id,不过已经被parse
buffer_cont     // 缓冲区集合
mutex           // 互斥对象
>buffer
data            // 数据
flag            // 初始化为0，当被write or parse 时把他设置为 !flag 。
// 也就是说，如果某个write/parse 线程返回该缓冲，
// 且flag==0 时，说明该缓冲数据可以删除。
// [函数都用mutex互斥]
// [请求缓冲区]
buffer*buffer_manager::request_buffer(int type,int& buffer_id/*[out]*/) ;
// [归还缓冲区]
void    buffer_manager::return_buffer(buffer* ret_buffer,int type);
// [清空缓冲区]
void    clear_buffer();
Buffer* buffer_manager::request_buffer(int type,int& buffer_id/*[out]*/)
{
// [当然可以针对每个 case 写一处理函数！]
switch(type)
{
case type_spider:
for(id in idle_id_cont)
{
// [由于下面限制了writed_id_cont.size() + parsed_id_cont.size()
//个数小于或者等于 n ，因此spider 肯定会分配到空闲buffer]
if(!(id in writed_id_cont) && !(id in parsed_id_cont))
{
idle_id_cont.remove(id);
buffer_id = id;
return buffer_cont[id];
}
}
break;
// [provided n is sum of (count of writer and parser threads) ]
case type_writer:
if(n <= writed_id_cont.size() + parsed_id_cont.size())
// [不分配给该writer 线程，避免出现spider等待]
return NULL;
// [优先分配已经被parse的缓冲]
if(!parsed_id_cont.empty())
{
buf_id = parsed_id_cont.back();
parsed_id_cont.pop_back();
idle_id_cont.remove(buf_id);
buffer_id = buf_id;
return buffer_cont[buf_id];
}
else
{
buf_id = idle_id_cont.back();
idle_id_cont.pop_back();
buffer_id = buf_id;
return buffer_cont[buf_id];
}
break;
case type_parser:
if(n <= writed_id_cont.size() + parsed_id_cont.size())
// [不分配给该writer 线程，避免出现spider等待]
return NULL;
// [优先分配已经被write的缓冲]
if(!writed_id_cont.empty())
{
buf_id = writed_id_cont.back();
writed_id_cont.pop_back();
idle_id_cont.remove(buf_id);
buffer_id = buf_id;
return buffer_cont[buf_id];
}
else
{
buf_id = idle_id_cont.back();
idle_id_cont.pop_back();
buffer_id = buf_id;
return buffer_cont[buf_id];
}
break;
}
}
// [归还缓冲区]
void    buffer_manager::return_buffer(int buffer_id,int type)
{
// [可以针对每个 case 写一处理函数！]
switch(type)
{
case type_writer:
buffer * pbf = buffer_cont[buffer_id];
pbf->flag = !pbf->flag;
if(pbf->flag)
writed_id_cont.push_back(buffer_id);
else
clear_buffer(buffer_id);
break;
case type_parser:
buffer * pbf = buffer_cont[buffer_id];
pbf->flag = !pbf->flag;
if(pbf->flag)
parsed_id_cont.push_back(buffer_id);
else
clear_buffer(buffer_id);
break;
}
idle_id_cont.push_back(buffer_id);
}

[爬虫] Pagebuffer_Manger 部分伪代码 - icando 什么是伪代码？什么是伪代码？部分代码爬虫吸尘器网络爬虫学习代码（文字部分）网页div布局部分代码珠三角部分家庭欲逃离一线城市摆脱“伪幸福” JavaScript伪3D轮播图片幻灯切换代码 FindBugs，第 1 部分: 提高代码质量常规信号的循环谱(代码部分) 网站代码:Head部分title书写规范网站代码:Head部分keywords书写规范常规信号的循环谱(代码部分) android 音频系统java部分代码阅读政治小爬虫2 政治小爬虫3 政治小爬虫珠三角部分家庭欲"逃离"一线城市摆脱"伪幸福"-搜狐财经政治小爬虫的生活政治小爬虫完全版 weblucene 更新备忘－重构部分代码东芝系列复印机部分维修代码 - 博客屋