007-wordpress防止文章被爬取，编码实现

2024-07-27 18:08 已关闭评论

WordPress 本身并没有内置防止内容被爬取的功能，因为这通常与网站的开放性和搜索引擎优化相违背。然而，在某些情况下，需要限制特定内容不被非人类访问者（如爬虫）抓取。下面是一些方法可以尝试来减少或阻止爬虫抓取站点的内容：

方法1：使用.htaccess文件限制IP

你可以在 .htaccess 文件中添加规则来禁止来自已知爬虫 IP 的请求。例如：

<files wp-content>
    Order deny,allow
    Deny from 123.456.789.012
</files>

这里 123.456.789.012 是你想禁止的 IP 地址。你需要知道爬虫的 IP 地址才能这样做。

方法2：使用插件

有许多 WordPress 插件可以帮助你管理爬虫和机器人对你的网站的访问。例如，WP Block Bot 或 Spider and Robot Blocker 可以帮助你屏蔽一些常见的爬虫。

方法3：使用PHP代码检测User-Agent

在WordPress主题的单个文章模板（通常是 single.php 或 content-single.php）中加入以下PHP代码来检查 User-Agent，并在发现爬虫时返回一个空页面或错误信息：

<?php if (!is_admin()) { ?>
    <?php
        $blocked_user_agents = array(
            'Googlebot', 'Baiduspider', 'YandexBot', 'bingbot',
            // 添加更多你想要屏蔽的爬虫 User-Agent
        );

        if (isset($_SERVER['HTTP_USER_AGENT'])) {
            $user_agent = $_SERVER['HTTP_USER_AGENT'];
            foreach ($blocked_user_agents as $blocked_ua) {
                if (stripos($user_agent, $blocked_ua) !== false) {
                    // 如果是爬虫，则显示空页面或重定向
                    header('HTTP/1.1 403 Forbidden');
                    die();
                }
            }
        }
    ?>
<?php } ?>
<!-- 正常的文章内容 -->

方法4：使用JavaScript混淆内容

另一种方法是在前端使用 JavaScript 来动态加载或生成内容。这样，只有支持 JavaScript 的浏览器能够查看完整的内容。

注意事项：

搜索引擎友好：屏蔽搜索引擎爬虫可能会导致你的网站在搜索结果中的排名下降。
误判风险：基于 User-Agent 的屏蔽容易被绕过，因为 User-Agent 可以伪造。
合法访问者：确保不要误屏蔽合法的用户或搜索引擎。

这些方法各有优缺点，选择最合适的方法取决于你的具体需求。如果你的主要目标是保护版权内容而不是完全阻止爬虫，那么可能还需要考虑其他方法，比如数字版权管理（DRM）技术。

你可能感兴趣的文章

来源：每日教程， 每日一例，深入学习实用技术教程，关注公众号TeachCourse
转载请注明出处： https://teachcourse.cn/3605.html ，谢谢支持！

资源分享

分类：WordPress 标签：php, 反爬虫, 方法

评论已关闭！

Elasticsearch 搜索引擎性能调优实战

4周前 (05-06) 已关闭评论数据库

Elasticsearch 搜索引擎性能调优实战：10 个让查询提速 10 倍的硬核操作先说结论：90% 的 ES 性能问题，根源不在配置，而在数据建模和查询写法...

副作用重组优化与调试

2个月前 (03-31) 已关闭评论 uncategorized

008 副作用、重组优化与调试：我的实战心得在Compose的世界里摸爬滚打一阵子后，我深刻体会到，写出能跑的UI和写出高性能的UI完全是两码事。今...

浅谈ContentValues类

11年前 (2015-08-09) 0 Android

概要 ContentValues、HashMap、HashTable一样，以键值对的方式存储数据，ContentValues主要运用在Android开发的数据库中，和HashMap、HashTable...

Claude Code 尝试使用Agent Teams功能

1个月前 (05-01) 已关闭评论 Claude

一人一家公司初始化项目提示授权 ![imgs/ScreenShot_2026-03-07_083644_282.png] 执行指令:/init

三级缓存的含义和如何实战使用？

10年前 (2016-03-28) 5 Android Studio

如何在Android APP中实现新闻数据的三级缓存，加快新闻数据展示速度。三级缓存包括：网络缓存/本地缓存/内存缓存，本地换成通常写入本...

批量文本生图工具

2年前 (2024-04-22) 已关闭评论 windows

2024-04-28 增加支持自定义背景图，配置文件增加background_url 指定了background_url后，属性canvas_width、canvas_height、background属性失...

android-team-coordinator.skill

1个月前 (05-01) 已关闭评论 Android

name: android-team-coordinator description: Android 开发团队协调者，负责任务分解、Agent 调度、结果汇总 tools: [Read, Edit, Write, Bash...

浅谈Layout类

11年前 (2015-08-08) 0 Android

Layout类是ViewGroup的一个子类，为视图控件提供排列结构。

字符类型

10年前 (2016-02-03) 2 数据库集

数据库编程之字符类型总结，字符类型包括：set、enum、blob和text、char、varchar，如何区别在不同场景选中合适的字符类...

Android开发之drawable文件夹下的各种XML标签的用法总结

11年前 (2015-08-21) 0 Android

Android常用xml标签用法汇总，通过简单的例子说明xml标签的使用方法，使用步骤

◆ ◆