

Google Hacking常见语法挖掘漏洞与思考

Lisa聊外贸

2025-10-22

150

导读：Google Hacking是一种利用搜索引擎的高级语法精准定位存在安全网站

Google Hacking（也称 Google Dorking）是一种利用搜索引擎的高级语法精准定位存在安全风险或敏感信息暴露目标的技术。虽然名为“Google”语法，但其原理和部分语法在 Bing、Yahoo、百度（受限）、DuckDuckGo 等主流搜索引擎中同样具备一定适用性，尤其在资产收集与漏洞挖掘初期阶段极具价值。

一、常见 Google 语法详解

以下是广泛用于信息收集和漏洞挖掘的核心语法及其作用：

语法	说明	实际用途
`site:domain.com`	仅搜索指定域名下的页面	定位子域名、后台、文件等
`intitle:"login"`	页面标题包含 "login" 的网页	查找登录页面
`inurl:admin`	URL 中包含 "admin" 的页面	发现管理后台路径
`intext:"password"`	正文中包含 "password" 的文本	搜索泄露的密码或配置信息
`filetype:pdf`	搜索特定文件类型（如 pdf, xls, sql, bak）	查找敏感文档或数据库备份
`cache:`	查看 Google 缓存的网页快照	访问已下线但曾暴露的内容
`info:domain.com`	显示该网站的基本信息（如缓存、相似页）	快速获取站点关联信息
`link:domain.com`	查找指向该域名的外部链接	分析外链可能带来的信息泄露
`related:domain.com`	查找结构或内容相似的网站	扩展同类系统资产

主要用法

文件类型搜索: "filetype:扩展名 关键字"站点搜索: "site:域名 关键字"链接搜索: "link:域名 关键字"文本搜索: "intext:关键字"URL 搜索: "inurl:关键字"缓存搜索: "cache:域名 关键字"定义搜索: "define:关键字"股票搜索: "stocks:关键字"信息搜索: "info:域名"
site:网站 学号类 site:edu.cn filetype:xlsx 学号site:edu.cn filetype:docx
#管理入口地址获取site:xxx.com intext:管理、后台、登录、用户名、密码、系统、帐号site:xxx.com inurl:login、admin、manage、manager、admin_login、systemsite:xxx.com intitle:管理、后台、登陆
#上传漏洞寻找site:xxx.com inurl:filesite:xxx.com inurl:upload上传
#注入页面寻找site:xxx.com inurl:php?id=

二、实战案例分析：如何用 Google 语法辅助挖掘漏洞

案例 1：发现暴露的数据库备份文件

攻击场景：某网站曾将数据库以 .sql 或 .bak 形式上传至服务器，并被搜索引擎索引。

搜索语法：

site:example.edu filetype:sql intext:"INSERT INTO users"

解释：

site:example.edu
：限定在目标域内
filetype:sql
：只搜 SQL 文件
intext:"INSERT INTO users"
：确保是用户表数据，提高有效性

结果：若返回结果，很可能直接下载到一个包含用户名、明文/哈希密码的数据库文件。

但是这里面还是会混合一堆纯文章类的信息，所以需要自己甄别，一般来说非文章类网站出现这类信息那就是存在对应漏洞

案例 2：查找未授权访问的后台管理系统

攻击场景：许多 CMS 后台路径为 /admin, /login.php 等，未做 IP 限制或认证保护。

搜索语法：

intitle:"后台管理" inurl:login site:com.cn

解释：

intitle:"后台管理"
：中文标题匹配，常用于国内建站系统
inurl:login
：URL 包含 login 字样
site:com.cn
：限定目标网站，根据自己需求修改

利用方式：

找到后台地址后尝试默认口令（如 admin/123456）
若有验证码可尝试绕过（暴力破解+Token失效）
使用工具如 Burp Suite 进行爆破测试（需授权）

案例 3：搜索敏感配置文件泄露

攻击场景：开发人员误将 .env、config.php、web.config 提交到公网目录。

搜索语法：

filetype:env DB_HOST= DB_USER= site:laravel-app.com

可能的结果示例：

DB_CONNECTION=mysqlDB_HOST=localhostDB_PORT=3306DB_DATABASE=production_dbDB_USERNAME=rootDB_PASSWORD=secret123

此类信息一旦暴露，攻击者可直接连接数据库，甚至通过 SSH 凭据进一步横向移动。

案例 4：寻找源码等备份文件

攻击场景：开发者习惯保留 .bak, .zip, .tar.gz 备份源码，导致源代码泄露。

搜索语法：

site:target.org filetype:bak inurl:"www" OR inurl:"backup"

深入利用路径：

下载源码后审计是否存在 SQL 注入、命令执行、反序列化等漏洞
查找硬编码密钥（API Key、JWT Secret）
分析路由逻辑构造未授权接口调用
结合 composer.json 或 pom.xml 判断第三方库版本，查找已知 CVE

例如，在 PHP 源码中发现如下代码：

$username = $_GET['user'];system("grep $username /etc/passwd");

存在命令注入漏洞，构造 payload：

http://target.com/search.php?user=admin;cat+/var/www/html/config.php

此外还有敏感信息泄露一类的，身份证信息存在文件当中上传到网站，抑或是敏感文件包含登录密码也会造成危害

案例 5：批量发现使用相同系统的站点

攻击场景：某 OA 系统存在远程代码执行漏洞（如通达OA），需寻找更多潜在受害者。

搜索语法（FOFA 更高效，但 Google 可作为补充）：

intitle:"通达OA办公系统" site:cn

或结合厂商信息：

"技术支持：通达信科" intext:"版权所有"

后续动作：

对发现的目标批量检测是否受OA产品的历史漏洞影响
构造POC自动化验证

三、Google 语法为何如此“好用”？底层机制解析

1. 工作原理

Google 通过爬虫（Googlebot）定期抓取互联网上的公开网页内容，并建立倒排索引（Inverted Index）。当你输入查询语句时，搜索引擎会根据关键词匹配标题、正文、URL、文件类型等元数据，快速返回相关页面。

这意味着：

所有可通过 HTTP 访问且未被 robots.txt 阻止的页面都可能被收录
即使页面无外链，只要能被爬虫访问，就会进入索引库
文件内容也会被解析（如 PDF 文本、Office 文档内容）

2. 为什么能“挖出漏洞”？

因为大量系统存在以下问题：

权限控制缺失
：后台未设登录限制
命名不规范
：/admin.php.bak被当作静态资源暴露
错误配置
：.git/目录未禁止访问，导致源码泄露
日志/备份文件上传至 Web 目录

而这些“错误”恰好能被 Google 语法精准捕捉。

四、Google vs 其他搜索引擎对比

特性	Google	Bing	百度	DuckDuckGo	FOFA/Shodan
支持 `filetype:`	强大	较弱	基本无效	有限	（专用协议）
支持 `intitle:` / `inurl:`	完整	支持	支持（不稳定）	支持	支持
索引深度	深	深	浅（偏向商业内容）	中等	设备级
实时性	高	中	中	中	实时
推荐用途	综合信息收集	辅助验证	国内局部搜索	隐私友好型探索	专业空间搜索引擎首选

实际工作中建议配合 FOFA、ZoomEye、Hunter、Shodan 使用，它们支持更强大的协议识别（如 HTTP headers、SSL 证书、端口服务），效率远高于传统搜索引擎。

防御建议：如何防止被 Google Hacking

禁止敏感目录被索引
删除不必要的备份文件

设置身份认证 + IP 白名单

后台登录页应强制 HTTPS + 登录认证 + 多因素验证
关键系统限制仅内网或固定 IP 访问

避免在页面中暴露敏感信息

错误信息不要打印数据库结构
“技术支持：XXX公司” 类信息尽量不用明文写在页脚

定期自查 使用如下语法检查自己是否被暴露：

site:yoursite.com filetype:envsite:yoursie.com intext:"身份证"site:yoursite.com inurl:backup

延伸思考：Google Hacking 的局限性

局限	解决方案
搜索结果受反爬限制	使用 FOFA、Zoomeye 等专业平台
无法搜索非 HTML 内容（如 Redis 未授权）	使用 Shodan 搜索开放服务
动态内容不易被抓取	结合爬虫+浏览器渲染（Puppeteer）
国内站点索引不全	使用百度语法辅助，或企查查+天眼查查关联资产